Specchietto Costi
Produzione Video Ajò Energia

Versione: 10 aprile 2026 · Autore: Giacomo Galanti (ajo-studio) · Per: Massimiliano Cicu (Relive Communication)
Cliente finale: Ajò Energia · Brief via: Imbenta (Mary Mura + Fabrizio)
Scopo del documento. Dare a Massi una base concreta per budgetizzare il progetto Ajò Energia. I numeri "spesi finora" sono stime a posteriori basate sui listini fal.ai / WaveSpeed / ElevenLabs al 10 aprile 2026, ricostruite dal materiale effettivamente prodotto sulla piattaforma ajo-studio (17 progetti video completati, ~200 immagini, ~340 clip). I numeri degli scenari futuri includono un margine di sicurezza esplicito.

Non incluso: tempo uomo (oggetto di preventivo separato), costi Claude Max (pooling gratuito), costi Vertex (coperti dai $100/mese GCP credits), costi infrastruttura condivisa.

Indice

  1. Censimento materiale prodotto
  2. Stack tecnologico utilizzato
  3. Listini unitari (base calcoli)
  4. Stima costi sostenuti finora
  5. Stima costi 2 video target (Sole Mio + Fisso 12)
  6. Tempo uomo (separato dagli API)
  7. Raccomandazioni per il preventivo
  8. Ipotesi comparative — 6 scenari A–F
  9. Ipotesi alternative per voce / stile / lip-sync
  10. Lesson learned dai 17 progetti già fatti
  11. TL;DR da dare a Massi

1. Censimento materiale prodotto

Numeri reali estratti dal filesystem di ajo-studio il 10 aprile 2026 dopo la call.

204Immagini totali
342Video MP4 totali
17Progetti video completati
~19Provini audio (voice casting)

Numeri grezzi per categoria di asset

AssetQuantitàDove
Immagini (reference + background + provini)204characters/* (133) + videos/* (71)
Video MP4 (clip + finali + iterazioni)342characters/* (31) + videos/* (280) + archive/ (20) + legacy/ (11)
Audio TTS (voci + provini)~19characters/* (14) + archive/ (5)

Breakdown per personaggio

PersonaggioImmaginiVideoAudioNote
Sol57234Il più iterato: 4 stili 2D + 6 render 3D + 50+ provini faccia/scena
Lumia30044 voci candidate (Jessica, Laura, Lily, Aida). Video solo come membro Trio
Gaia18002D flat + 4 view 3D + 4 green + 4 b2 variant
Group (scene multi)1400Scene condivise: piazza, coast, meadow, living room, sunset
Volt800Solo 2 set di provini, mai prodotto video
Rocco443Personaggio storico, meno iterazioni — design già solido
Sardino243Scartato come concept (feedback call: "perdenti")

Progetti video completati (17 serie)

ProgettoClip MP4SizeNatura
trio_ajo_v59262MCon idle animation (46 moments) + 13 speak + scenes multiple
trio_ajo_v44538MLip-sync compositing per-character
trio_ajo_v32751MFlowing conversation
trio_ajo (v1)2593MPrima versione Trio
trio_ajo_v22472MSeconda iterazione
mary889MSerie 4 clip Rocco — pitch a Mary
rocco_si_presenta947M9 clip + 4 scene rendered + 4 SFX audio
individual_rocco829MSolo Rocco, 4 norm + 3 pause
individual_lumia89.4MPrimo solo video Lumia
individual_sol86.8MSolo Sol
bolletta_chiara447MCampagna concept
rocco_e_sol447MDuo video
energia_per_chi_lavora425MCampagna concept
la_famiglia_tranquilla433MCampagna concept
zero_complicazioni432MMatcha il claim "Zero Tetto Zero Problemi"
il_sole_che_conviene417MPitch Sole Mio
tutti27.9MGruppo
TOTALE progetti280~705M

Nel folder archive/ ci sono inoltre ~20 iterazioni modelli scartate (sol_iter1_kling, sol_iter2_seedance, sol_iter3_wan, sol_omnihuman_test ecc.) — la fase di esplorazione per capire quale modello video-gen dava il lip-sync migliore.

2. Stack tecnologico utilizzato

Ogni riga è un tool già attivo con account + credito. Per Ajò (cliente pagante) → aprire account nuovi dedicati su fal.ai, WaveSpeed, ElevenLabs come deciso in call, per tracciabilità costi 1:1.

#ToolCosa faCost modelStato
1fal.aiImage gen (Flux Kontext, Imagen 4, Recraft v3) + Video gen (Kling 2.1 Pro, Seedance, Wan 2.1)Pay-per-callattivo
2WaveSpeedLip-sync (InfiniteTalk, OmniHuman) — il core per far parlare i personaggiPay-per-callattivo
3ElevenLabsTTS multilingual_v2 — voice cloning/casting, voci cinematicAbbonamento + overageattivo
4OpenAITTS (Onyx per Rocco) + GPT per script refinementPay-per-callattivo
5Anthropic ClaudeScript writing, prompt engineering, orchestrazione agentiClaude Max pooling (zero marginal)attivo
6Google Vertex AIImagen 3 + Gemini Pro/Flash come fallback$100/mese creditsattivo
7RemotionCompositing branded: logo, CTA, multi-aspect (16:9 / 1:1 / 9:16)Compute locale (VPS)attivo
8FFmpegConcat clip, audio mux, normalizzazioneLocale, zero costattivo

3. Listini unitari (base calcoli)

Listini al 10 aprile 2026, fonti: fal.ai pricing pages · WaveSpeed pricing · ElevenLabs pricing.

Image generation

ModelloCosto per immagineUso tipico
Flux Kontext Pro~$0.04Reference character + refinement
Imagen 4 (fal / Vertex)~$0.05Scene background fotorealistiche
Recraft v3~$0.04Stile grafico/illustrato 2D
Flux Schnell~$0.003Test rapidi / throwaway

Video generation (text / image → video, 5 secondi)

ModelloCosto per 5 secUso tipico
Kling 2.1 Pro~$1.40Premium, motion più naturale — usato negli iter test di Sol
Kling 2.1 Standard~$0.28Backgrounds animati
Seedance Lite~$0.18Idle animations economiche
Seedance Pro~$0.62Scene qualità media
Wan 2.1~$0.30Movimenti semplici — usato per idle Trio V5

Lip-sync (il cuore del costo)

ModelloCosto clip 8–10sUso
InfiniteTalk (WaveSpeed)~$0.50–0.80Lip-sync primario — tutto il Trio e gli individuali
OmniHuman~$0.80–1.20Alternativa testata, più fedele ma più cara

Voice / TTS

ProviderCostoUso
ElevenLabs multilingual_v2~$0.30 / 1.000 charSol, Lumia, Sardino, voice cloning
OpenAI TTS (gpt-4o-mini-tts)$0.60 / 1M charRocco (Onyx)

Remotion / FFmpeg

ToolCostoNote
Remotion (render locale)€0 APICompute VPS già pagato
FFmpeg concat€0Locale

4. Stima costi sostenuti finora (ricostruzione a posteriori)

CategoriaQuantità stimataUnit costTotale
Immagini 2D (Flat illustration + stile piatto)~10 finali + ~30 provini$0.04~$1.6
Immagini 3D (render realistic character)~150 finali + ~200 provini scartati$0.045~$16
Video gen (background + iterazioni scartate)~80 clip (Kling/Seedance/Wan mix)$0.50 media~$40
Provini lip-sync (iterazioni)~40 clip test (iter1–4 + boundary_test)$0.70~$28
Lip-sync clip finali (Trio V1–V5 + individuali + campagne)~240 clip$0.60~$145
TTS ElevenLabs (provini + finali)~60 gen, ~10k char totali$0.30/1k~$3
TTS OpenAI Rocco~10 gen, ~1.5k chartrascurabile~$0.05
Remotion render (3 ADV square/vertical Sol)3 render€0 compute€0
TOTALE API sostenuto finora~$230–280
Caveat importanti:

5. Stima costi per i 2 video target (Sole Mio + Ajò Fisso 12)

Ipotesi di lavoro basate sui video già prodotti:

Produzione di 1 video 30s (Sole Mio, esempio)

StepQuantitàUnit costSub-totalCon buffer ×2.5
Reference image personaggio v28 img$0.04$0.32$0.80
Scene background (4 scene)4 img + 4 video 5s$0.04 + $0.50$2.16$5.40
TTS (ElevenLabs, ~500 char)500 char$0.30/1k$0.15$0.40
Lip-sync InfiniteTalk (5 clip × 6s)5 clip$0.60$3.00$7.50
Remotion branding + CTA1 render€0€0€0
Sub-totale API 1 video~$5.6~$14

Setup v2 personaggio (una-tantum, ammortizzabile)

StepQuantitàUnit costTotale
Reference character definitiva (4 viste)4 img$0.05$0.20
Refinement prompt iterativo~20 img$0.04$0.80
Voice casting (5 voci)5 TTS × 500 char$0.30/1k$0.75
Test lip-sync validation (2 clip)2 clip$0.60$1.20
Totale setup per personaggio~$3

Costo totale per i 2 video (baseline)

VoceImporto API
Setup v2 Sol~$3
Setup v2 Rocco~$3
Produzione Sole Mio 30s~$14
Produzione Fisso 12 30s~$14
Buffer revisioni (2 round inclusi × 30% del video)~$10
Totale API 2 video finali~$44
Con margine incertezza ×2~$90–100

6. Tempo uomo (separato dagli API)

Il vero costo NON sono gli API — sono le ore di lavoro. Stima onesta basata sui 17 progetti già fatti:

FaseOreNote
Setup personaggio v2 (reference + voice + test)8–12h × personaggioIterazioni Flux + voice casting + validation lip-sync
Script writing + validation4–6h × videoInclude pronuncia, timing, coverage brief
Produzione video (pipeline + tuning)8–15h × videoIterazioni finché il lip-sync convince
Branding Remotion (prima volta)12–20hSetup componenti CTA, layout multi-aspect
Branding Remotion (video successivi)2–4hSolo variazioni
Revisioni per round4–8h × round × videoIl costo vero dei cicli infiniti
Stima onesta 2 video finali (Sole Mio + Fisso 12) chiavi in mano:
60–90 ore di lavoro totale + 2 round revisione inclusi (+20–30 ore) = ~80–120 ore uomo.

7. Raccomandazioni per il preventivo Massi

  1. Non ribaltare i costi API al cliente riga per riga — come deciso in call. Includerli nel valore complessivo del preventivo.
  2. Rework a costo fisso (€150–200 a round) — già concordato. Copre sia API che ore.
  3. Setup personaggi v2 come voce separata — è investimento che resta anche se il progetto si ferma. Vale come creazione IP (come da discussione Cicu/Galanti sulla vendita del personaggio).
  4. Multi-aspect → calcolare separatamente. Non è "free" anche se Remotion è gratis: rifà il frame, a volte richiede lip-sync nuovo.
  5. Infrastruttura nuova (VPS + account API nuovi Ajò) → voce separata "setup infra" a costo fisso, investimento scalabile su clienti futuri.
  6. Margine di sicurezza: prezzare gli API ×2 rispetto alla stima grezza. L'esperienza Trio V1→V5 insegna che i progetti AI video fanno retry più del previsto.

8. Ipotesi comparative — scenari di preventivo

Matrice di scenari alternativi che Massi può mettere sul tavolo con Mary/Imbenta. Ogni scenario è ortogonale (puoi combinarli).

Scenario A — MVP / Pilot leggero raccomandato per partire

Cosa: 1 video singolo (Sole Mio, 15–20 secondi, 1 personaggio Sol, 1 aspect 1:1 o 9:16).
Scopo: validare pipeline + stile + voce con cliente prima di scalare.

VoceAPIOre
Setup v2 Sol$410h
Script + pronuncia$04h
Produzione MVP 15s$7–1210h
Branding + CTA$08h
1 round revisione incluso$56h
TOTALE MVP~$18~38h

Vantaggio: se Imbenta non conferma il budget pieno, abbiamo consegnato qualcosa di reale. Se approva, si scala senza rifare il setup.

Scenario B — 2 video single-character (Sole Mio + Fisso 12) baseline call 10 aprile

ParametroValore
Video2 (Sol, Rocco)
Durata30s ciascuno
Aspect1 (a scelta cliente)
Personaggi nuovi v2Sol (Rocco ha base)
Revisioni incluse2 round
VoceAPIOre
Setup v2 Sol + Rocco$620h
Script writing (2)$010h
Produzione Sole Mio$1412h
Produzione Fisso 12$1410h
Branding Remotion (setup prima volta)$015h
2 round revisione$1020h
TOTALE scenario B~$44~87h
Con margine sicurezza ×2 API, ×1.3 ore~$90~115h

Scenario C — 2 video + multi-aspect (3 formati per video)

Incrementale rispetto a B.

VoceDelta APIDelta ore
Re-render Remotion 3 aspect × 2 video€0+8h (setup layout 1:1 e 9:16)
Eventuale lip-sync re-frame+$15+4h
Delta su B+$15+12h
TOTALE scenario C~$105~127h

Trigger: se cliente richiede Meta feed + Stories + YouTube (quasi sempre nel briefing ADV).

Scenario D — 4 video completi (piano originale) target post-chiarimento cast

ParametroValore
Video4 (Istituzionale, Fisso 12, Tribe, Sole Mio)
Durata30s ciascuno
Aspect1
Personaggi nuovi v25 (Rocco, Sol, Lumia, Volt, Gaia — o variante)
Multi-character sceneSì (Istituzionale + Tribe)
VoceAPIOre
Setup v2 × 5 personaggi$1550h
Script writing (4)$020h
Produzione Sole Mio$1412h
Produzione Fisso 12$1410h
Produzione Istituzionale (4 char in scene)$2520h
Produzione Tribe (referral, tutti)$2518h
Branding Remotion (setup + 4 var)$025h
2 round revisione × 4 video$3050h
TOTALE scenario D~$125~205h
Con margine sicurezza~$250~270h

Scenario E — 4 video × multi-aspect (3 formati)

Delta su D: +$30 API e +35h (Remotion re-render con buffer lip-sync eventuali).

TOTALE scenario E: ~$280 API + ~305h

Scenario F — Infrastruttura dedicata Ajò una-tantum, aggiungibile a qualsiasi scenario

VoceAPIOreNote
Account nuovi (fal.ai, WaveSpeed, ElevenLabs)$0 setup4hRegistrazione + KYC
VPS nuova Hetzner CX32 (mensile)€14/mese6hSetup iniziale + deploy docker stack
Refactor app.py multi-character/multi-client$016hRompere hard-code Rocco (già pianificato)
Clonazione pipeline da ajo-studio$08hRemotion + characters + scripts
Ricarica credito iniziale API nuovi$50 API2hBuffer test
TOTALE setup infra€14/mese + $50~36hAmmortizzabile su N clienti futuri

Perché vale la pena: il refactor (16h) è lavoro che serve comunque per parametrizzare la pipeline. L'infra nuova è clonabile per Comix o altri clienti futuri senza ricostruire da zero.

Tabella di confronto rapido fra tutti gli scenari

ScenarioVideoDurataAspectAPI totaliOre totali
A — MVP pilot115s1~$18~38h
B — Baseline 2 video230s1~$90*~115h*
C — B + multi-aspect230s3~$105~127h
D — 4 video completi430s1~$250*~270h*
E — D + multi-aspect430s3~$280~305h
F — Setup infra dedicata(una-tantum)$50 + €14/mese~36h

*con margine sicurezza applicato (API ×2, ore ×1.3)

9. Ipotesi alternative per voce / stile / lip-sync

Voice: standard vs custom

OpzioneCosto TTS/videoQualitàProprietà
ElevenLabs voice library (Jessica, Laura, etc.)~$0.20Alta, naturaleNon esclusiva cliente
ElevenLabs Instant Voice Clone (su sample cliente)+$5 setupAlta, brandizzataEsclusiva cliente
ElevenLabs Professional Voice Clone+$100 + $11/meseMassimaEsclusiva, studio-grade
Doppiaggio umano esterno+€200–500/voceMassimaEsclusiva, costo studio

Raccomandazione: Instant Voice Clone per Sol/Lumia (IP cliente) + voice library per personaggi secondari.

Stile: 2D vs 3D

OpzioneEsempio in repoCosto immagine
2D flat illustrationsol_2d_a1-a4.png, gaia_2d_flat.png$0.04 (Recraft v3)
3D character renderedtutti gli altri (Sol, Lumia, Rocco)$0.04–0.05 (Flux Kontext / Imagen 4)

Nota: il 3D ha richiesto ~50 iterazioni per Sol da solo. Il 2D è più rapido ma più difficile far parlare via InfiniteTalk (lip-sync peggiore su facce piatte). Raccomandazione confermata dalla call: 3D come stile principale.

Lip-sync: InfiniteTalk vs OmniHuman vs custom

ModelloCosto clip 10sQualitàLimite
InfiniteTalk~$0.60Buona, labiale ok su clip ≤ 8sLunghe frasi diventano unnatural
OmniHuman~$1.00Più fedele, anche full-bodyCostoso, usato in test sol_omnihuman_test
Custom fine-tune (Wan 2.2)alto setupMassimaNon esplorato, richiede GPU dedicata

Raccomandazione: InfiniteTalk per tutto, OmniHuman solo per hero shot (es. primo piano istituzionale).

10. Lesson learned dai 17 progetti già fatti

TL;DR da dare a Massi (one-liner pronto da incollare in email):

"Per 2 video 30s single-character (Sole Mio + Fisso 12) stimo ~$50–100 di API puri + 80–120 ore di lavoro. Setup personaggi v2 altri ~$6 API ma 20–25 ore. Infrastruttura dedicata Ajò è investimento una-tantum scalabile (~$50 + €14/mese + 36 ore). Rework a costo fisso €150–200/round come concordato. Multi-aspect o scaling a 4 video raddoppia gli API ma la base ore resta compatta grazie all'infrastruttura."