Specchietto Costi
Produzione Video Ajò Energia

Versione: 10 aprile 2026 · Autore: Giacomo Galanti (ajo-studio) · Per: Massimiliano Cicu (Relive Communication)
Cliente finale: Ajò Energia · Brief via: Imbenta (Mary Mura + Fabrizio)

Scopo del documento. Dare a Massi una base concreta per budgetizzare il progetto Ajò Energia. I numeri "spesi finora" sono stime a posteriori basate sui listini fal.ai / WaveSpeed / ElevenLabs al 10 aprile 2026, ricostruite dal materiale effettivamente prodotto sulla piattaforma ajo-studio (17 progetti video completati, ~200 immagini, ~340 clip). I numeri degli scenari futuri includono un margine di sicurezza esplicito.

Non incluso: tempo uomo (oggetto di preventivo separato), costi Claude Max (pooling gratuito), costi Vertex (coperti dai $100/mese GCP credits), costi infrastruttura condivisa.

Indice

Censimento materiale prodotto
Stack tecnologico utilizzato
Listini unitari (base calcoli)
Stima costi sostenuti finora
Stima costi 2 video target (Sole Mio + Fisso 12)
Tempo uomo (separato dagli API)
Raccomandazioni per il preventivo
Ipotesi comparative — 6 scenari A–F
Ipotesi alternative per voce / stile / lip-sync
Lesson learned dai 17 progetti già fatti
TL;DR da dare a Massi

1. Censimento materiale prodotto

Numeri reali estratti dal filesystem di ajo-studio il 10 aprile 2026 dopo la call.

204Immagini totali

342Video MP4 totali

17Progetti video completati

~19Provini audio (voice casting)

Numeri grezzi per categoria di asset

Asset	Quantità	Dove
Immagini (reference + background + provini)	204	`characters/` (133) + `videos/` (71)
Video MP4 (clip + finali + iterazioni)	342	`characters/` (31) + `videos/` (280) + `archive/` (20) + `legacy/` (11)
Audio TTS (voci + provini)	~19	`characters/*` (14) + `archive/` (5)

Breakdown per personaggio

Personaggio	Immagini	Video	Audio	Note
Sol	57	23	4	Il più iterato: 4 stili 2D + 6 render 3D + 50+ provini faccia/scena
Lumia	30	0	4	4 voci candidate (Jessica, Laura, Lily, Aida). Video solo come membro Trio
Gaia	18	0	0	2D flat + 4 view 3D + 4 green + 4 b2 variant
Group (scene multi)	14	0	0	Scene condivise: piazza, coast, meadow, living room, sunset
Volt	8	0	0	Solo 2 set di provini, mai prodotto video
Rocco	4	4	3	Personaggio storico, meno iterazioni — design già solido
Sardino	2	4	3	Scartato come concept (feedback call: "perdenti")

Progetti video completati (17 serie)

Progetto	Clip MP4	Size	Natura
`trio_ajo_v5`	92	62M	Con idle animation (46 moments) + 13 speak + scenes multiple
`trio_ajo_v4`	45	38M	Lip-sync compositing per-character
`trio_ajo_v3`	27	51M	Flowing conversation
`trio_ajo` (v1)	25	93M	Prima versione Trio
`trio_ajo_v2`	24	72M	Seconda iterazione
`mary`	8	89M	Serie 4 clip Rocco — pitch a Mary
`rocco_si_presenta`	9	47M	9 clip + 4 scene rendered + 4 SFX audio
`individual_rocco`	8	29M	Solo Rocco, 4 norm + 3 pause
`individual_lumia`	8	9.4M	Primo solo video Lumia
`individual_sol`	8	6.8M	Solo Sol
`bolletta_chiara`	4	47M	Campagna concept
`rocco_e_sol`	4	47M	Duo video
`energia_per_chi_lavora`	4	25M	Campagna concept
`la_famiglia_tranquilla`	4	33M	Campagna concept
`zero_complicazioni`	4	32M	Matcha il claim "Zero Tetto Zero Problemi"
`il_sole_che_conviene`	4	17M	Pitch Sole Mio
`tutti`	2	7.9M	Gruppo
TOTALE progetti	280	~705M

Nel folder archive/ ci sono inoltre ~20 iterazioni modelli scartate (sol_iter1_kling, sol_iter2_seedance, sol_iter3_wan, sol_omnihuman_test ecc.) — la fase di esplorazione per capire quale modello video-gen dava il lip-sync migliore.

2. Stack tecnologico utilizzato

Ogni riga è un tool già attivo con account + credito. Per Ajò (cliente pagante) → aprire account nuovi dedicati su fal.ai, WaveSpeed, ElevenLabs come deciso in call, per tracciabilità costi 1:1.

#	Tool	Cosa fa	Cost model	Stato
1	fal.ai	Image gen (Flux Kontext, Imagen 4, Recraft v3) + Video gen (Kling 2.1 Pro, Seedance, Wan 2.1)	Pay-per-call	attivo
2	WaveSpeed	Lip-sync (InfiniteTalk, OmniHuman) — il core per far parlare i personaggi	Pay-per-call	attivo
3	ElevenLabs	TTS multilingual_v2 — voice cloning/casting, voci cinematic	Abbonamento + overage	attivo
4	OpenAI	TTS (Onyx per Rocco) + GPT per script refinement	Pay-per-call	attivo
5	Anthropic Claude	Script writing, prompt engineering, orchestrazione agenti	Claude Max pooling (zero marginal)	attivo
6	Google Vertex AI	Imagen 3 + Gemini Pro/Flash come fallback	$100/mese credits	attivo
7	Remotion	Compositing branded: logo, CTA, multi-aspect (16:9 / 1:1 / 9:16)	Compute locale (VPS)	attivo
8	FFmpeg	Concat clip, audio mux, normalizzazione	Locale, zero cost	attivo

3. Listini unitari (base calcoli)

Listini al 10 aprile 2026, fonti: fal.ai pricing pages · WaveSpeed pricing · ElevenLabs pricing.

Image generation

Modello	Costo per immagine	Uso tipico
Flux Kontext Pro	~$0.04	Reference character + refinement
Imagen 4 (fal / Vertex)	~$0.05	Scene background fotorealistiche
Recraft v3	~$0.04	Stile grafico/illustrato 2D
Flux Schnell	~$0.003	Test rapidi / throwaway

Video generation (text / image → video, 5 secondi)

Modello	Costo per 5 sec	Uso tipico
Kling 2.1 Pro	~$1.40	Premium, motion più naturale — usato negli iter test di Sol
Kling 2.1 Standard	~$0.28	Backgrounds animati
Seedance Lite	~$0.18	Idle animations economiche
Seedance Pro	~$0.62	Scene qualità media
Wan 2.1	~$0.30	Movimenti semplici — usato per idle Trio V5

Lip-sync (il cuore del costo)

Modello	Costo clip 8–10s	Uso
InfiniteTalk (WaveSpeed)	~$0.50–0.80	Lip-sync primario — tutto il Trio e gli individuali
OmniHuman	~$0.80–1.20	Alternativa testata, più fedele ma più cara

Voice / TTS

Provider	Costo	Uso
ElevenLabs multilingual_v2	~$0.30 / 1.000 char	Sol, Lumia, Sardino, voice cloning
OpenAI TTS (gpt-4o-mini-tts)	$0.60 / 1M char	Rocco (Onyx)

Remotion / FFmpeg

Tool	Costo	Note
Remotion (render locale)	€0 API	Compute VPS già pagato
FFmpeg concat	€0	Locale

4. Stima costi sostenuti finora (ricostruzione a posteriori)

Categoria	Quantità stimata	Unit cost	Totale
Immagini 2D (Flat illustration + stile piatto)	~10 finali + ~30 provini	$0.04	~$1.6
Immagini 3D (render realistic character)	~150 finali + ~200 provini scartati	$0.045	~$16
Video gen (background + iterazioni scartate)	~80 clip (Kling/Seedance/Wan mix)	$0.50 media	~$40
Provini lip-sync (iterazioni)	~40 clip test (iter1–4 + boundary_test)	$0.70	~$28
Lip-sync clip finali (Trio V1–V5 + individuali + campagne)	~240 clip	$0.60	~$145
TTS ElevenLabs (provini + finali)	~60 gen, ~10k char totali	$0.30/1k	~$3
TTS OpenAI Rocco	~10 gen, ~1.5k char	trascurabile	~$0.05
Remotion render (3 ADV square/vertical Sol)	3 render	€0 compute	€0
TOTALE API sostenuto finora			~$230–280

Caveat importanti:

Non include costi Claude Max (Giacomo usa pooling, marginal zero sul progetto).
Non include costi Vertex AI (coperti da $100/mese GCP credits).
Non include infrastruttura condivisa (VPS, Traefik, storage).
Non include il tempo uomo — che è il vero costo (stimato in §6 e §8).

5. Stima costi per i 2 video target (Sole Mio + Ajò Fisso 12)

Ipotesi di lavoro basate sui video già prodotti:

Durata target: 30 secondi ciascuno
1 personaggio principale per video (Sol / Rocco)
~5 clip lip-sync 6s ciascuna = 30s parlato
Buffer iterazioni: ×2.5 (realistico per cliente pagante, qualità hi-fi)

Produzione di 1 video 30s (Sole Mio, esempio)

Step	Quantità	Unit cost	Sub-total	Con buffer ×2.5
Reference image personaggio v2	8 img	$0.04	$0.32	$0.80
Scene background (4 scene)	4 img + 4 video 5s	$0.04 + $0.50	$2.16	$5.40
TTS (ElevenLabs, ~500 char)	500 char	$0.30/1k	$0.15	$0.40
Lip-sync InfiniteTalk (5 clip × 6s)	5 clip	$0.60	$3.00	$7.50
Remotion branding + CTA	1 render	€0	€0	€0
Sub-totale API 1 video			~$5.6	~$14

Setup v2 personaggio (una-tantum, ammortizzabile)

Step	Quantità	Unit cost	Totale
Reference character definitiva (4 viste)	4 img	$0.05	$0.20
Refinement prompt iterativo	~20 img	$0.04	$0.80
Voice casting (5 voci)	5 TTS × 500 char	$0.30/1k	$0.75
Test lip-sync validation (2 clip)	2 clip	$0.60	$1.20
Totale setup per personaggio			~$3

Costo totale per i 2 video (baseline)

Voce	Importo API
Setup v2 Sol	~$3
Setup v2 Rocco	~$3
Produzione Sole Mio 30s	~$14
Produzione Fisso 12 30s	~$14
Buffer revisioni (2 round inclusi × 30% del video)	~$10
Totale API 2 video finali	~$44
Con margine incertezza ×2	~$90–100

6. Tempo uomo (separato dagli API)

Il vero costo NON sono gli API — sono le ore di lavoro. Stima onesta basata sui 17 progetti già fatti:

Fase	Ore	Note
Setup personaggio v2 (reference + voice + test)	8–12h × personaggio	Iterazioni Flux + voice casting + validation lip-sync
Script writing + validation	4–6h × video	Include pronuncia, timing, coverage brief
Produzione video (pipeline + tuning)	8–15h × video	Iterazioni finché il lip-sync convince
Branding Remotion (prima volta)	12–20h	Setup componenti CTA, layout multi-aspect
Branding Remotion (video successivi)	2–4h	Solo variazioni
Revisioni per round	4–8h × round × video	Il costo vero dei cicli infiniti

Stima onesta 2 video finali (Sole Mio + Fisso 12) chiavi in mano:
60–90 ore di lavoro totale + 2 round revisione inclusi (+20–30 ore) = ~80–120 ore uomo.

7. Raccomandazioni per il preventivo Massi

Non ribaltare i costi API al cliente riga per riga — come deciso in call. Includerli nel valore complessivo del preventivo.
Rework a costo fisso (€150–200 a round) — già concordato. Copre sia API che ore.
Setup personaggi v2 come voce separata — è investimento che resta anche se il progetto si ferma. Vale come creazione IP (come da discussione Cicu/Galanti sulla vendita del personaggio).
Multi-aspect → calcolare separatamente. Non è "free" anche se Remotion è gratis: rifà il frame, a volte richiede lip-sync nuovo.
Infrastruttura nuova (VPS + account API nuovi Ajò) → voce separata "setup infra" a costo fisso, investimento scalabile su clienti futuri.
Margine di sicurezza: prezzare gli API ×2 rispetto alla stima grezza. L'esperienza Trio V1→V5 insegna che i progetti AI video fanno retry più del previsto.

8. Ipotesi comparative — scenari di preventivo

Matrice di scenari alternativi che Massi può mettere sul tavolo con Mary/Imbenta. Ogni scenario è ortogonale (puoi combinarli).

Scenario A — MVP / Pilot leggero raccomandato per partire

Cosa: 1 video singolo (Sole Mio, 15–20 secondi, 1 personaggio Sol, 1 aspect 1:1 o 9:16).
Scopo: validare pipeline + stile + voce con cliente prima di scalare.

Voce	API	Ore
Setup v2 Sol	$4	10h
Script + pronuncia	$0	4h
Produzione MVP 15s	$7–12	10h
Branding + CTA	$0	8h
1 round revisione incluso	$5	6h
TOTALE MVP	~$18	~38h

Vantaggio: se Imbenta non conferma il budget pieno, abbiamo consegnato qualcosa di reale. Se approva, si scala senza rifare il setup.

Scenario B — 2 video single-character (Sole Mio + Fisso 12) baseline call 10 aprile

Parametro	Valore
Video	2 (Sol, Rocco)
Durata	30s ciascuno
Aspect	1 (a scelta cliente)
Personaggi nuovi v2	Sol (Rocco ha base)
Revisioni incluse	2 round

Voce	API	Ore
Setup v2 Sol + Rocco	$6	20h
Script writing (2)	$0	10h
Produzione Sole Mio	$14	12h
Produzione Fisso 12	$14	10h
Branding Remotion (setup prima volta)	$0	15h
2 round revisione	$10	20h
TOTALE scenario B	~$44	~87h
Con margine sicurezza ×2 API, ×1.3 ore	~$90	~115h

Scenario C — 2 video + multi-aspect (3 formati per video)

Incrementale rispetto a B.

Voce	Delta API	Delta ore
Re-render Remotion 3 aspect × 2 video	€0	+8h (setup layout 1:1 e 9:16)
Eventuale lip-sync re-frame	+$15	+4h
Delta su B	+$15	+12h
TOTALE scenario C	~$105	~127h

Trigger: se cliente richiede Meta feed + Stories + YouTube (quasi sempre nel briefing ADV).

Scenario D — 4 video completi (piano originale) target post-chiarimento cast

Parametro	Valore
Video	4 (Istituzionale, Fisso 12, Tribe, Sole Mio)
Durata	30s ciascuno
Aspect	1
Personaggi nuovi v2	5 (Rocco, Sol, Lumia, Volt, Gaia — o variante)
Multi-character scene	Sì (Istituzionale + Tribe)

Voce	API	Ore
Setup v2 × 5 personaggi	$15	50h
Script writing (4)	$0	20h
Produzione Sole Mio	$14	12h
Produzione Fisso 12	$14	10h
Produzione Istituzionale (4 char in scene)	$25	20h
Produzione Tribe (referral, tutti)	$25	18h
Branding Remotion (setup + 4 var)	$0	25h
2 round revisione × 4 video	$30	50h
TOTALE scenario D	~$125	~205h
Con margine sicurezza	~$250	~270h

Scenario E — 4 video × multi-aspect (3 formati)

Delta su D: +$30 API e +35h (Remotion re-render con buffer lip-sync eventuali).

TOTALE scenario E: ~$280 API + ~305h

Scenario F — Infrastruttura dedicata Ajò una-tantum, aggiungibile a qualsiasi scenario

Voce	API	Ore	Note
Account nuovi (fal.ai, WaveSpeed, ElevenLabs)	$0 setup	4h	Registrazione + KYC
VPS nuova Hetzner CX32 (mensile)	€14/mese	6h	Setup iniziale + deploy docker stack
Refactor `app.py` multi-character/multi-client	$0	16h	Rompere hard-code Rocco (già pianificato)
Clonazione pipeline da ajo-studio	$0	8h	Remotion + characters + scripts
Ricarica credito iniziale API nuovi	$50 API	2h	Buffer test
TOTALE setup infra	€14/mese + $50	~36h	Ammortizzabile su N clienti futuri

Perché vale la pena: il refactor (16h) è lavoro che serve comunque per parametrizzare la pipeline. L'infra nuova è clonabile per Comix o altri clienti futuri senza ricostruire da zero.

Tabella di confronto rapido fra tutti gli scenari

Scenario	Video	Durata	Aspect	API totali	Ore totali
A — MVP pilot	1	15s	1	~$18	~38h
B — Baseline 2 video	2	30s	1	~$90*	~115h*
C — B + multi-aspect	2	30s	3	~$105	~127h
D — 4 video completi	4	30s	1	~$250*	~270h*
E — D + multi-aspect	4	30s	3	~$280	~305h
F — Setup infra dedicata	(una-tantum)	—	—	$50 + €14/mese	~36h

*con margine sicurezza applicato (API ×2, ore ×1.3)

9. Ipotesi alternative per voce / stile / lip-sync

Voice: standard vs custom

Opzione	Costo TTS/video	Qualità	Proprietà
ElevenLabs voice library (Jessica, Laura, etc.)	~$0.20	Alta, naturale	Non esclusiva cliente
ElevenLabs Instant Voice Clone (su sample cliente)	+$5 setup	Alta, brandizzata	Esclusiva cliente
ElevenLabs Professional Voice Clone	+$100 + $11/mese	Massima	Esclusiva, studio-grade
Doppiaggio umano esterno	+€200–500/voce	Massima	Esclusiva, costo studio

Raccomandazione: Instant Voice Clone per Sol/Lumia (IP cliente) + voice library per personaggi secondari.

Stile: 2D vs 3D

Opzione	Esempio in repo	Costo immagine
2D flat illustration	`sol_2d_a1-a4.png`, `gaia_2d_flat.png`	$0.04 (Recraft v3)
3D character rendered	tutti gli altri (Sol, Lumia, Rocco)	$0.04–0.05 (Flux Kontext / Imagen 4)

Nota: il 3D ha richiesto ~50 iterazioni per Sol da solo. Il 2D è più rapido ma più difficile far parlare via InfiniteTalk (lip-sync peggiore su facce piatte). Raccomandazione confermata dalla call: 3D come stile principale.

Lip-sync: InfiniteTalk vs OmniHuman vs custom

Modello	Costo clip 10s	Qualità	Limite
InfiniteTalk	~$0.60	Buona, labiale ok su clip ≤ 8s	Lunghe frasi diventano unnatural
OmniHuman	~$1.00	Più fedele, anche full-body	Costoso, usato in test `sol_omnihuman_test`
Custom fine-tune (Wan 2.2)	alto setup	Massima	Non esplorato, richiede GPU dedicata

Raccomandazione: InfiniteTalk per tutto, OmniHuman solo per hero shot (es. primo piano istituzionale).

10. Lesson learned dai 17 progetti già fatti

Trio Aiò V1→V5 è la prova che per arrivare a un video "consegnabile" servono ~5 iterazioni di approccio, non 1. V1 era rough, V5 ha idle animation e conversation flow.
Sol ha richiesto 4 iterazioni di modelli video prima di trovare la combinazione giusta (sol_iter1_kling → sol_iter4_seedance). Questo è il costo di esplorazione nascosto.
Lumia ha 4 voci testate prima di Jessica. Il voice casting è un costo fisso per personaggio, ammortizzabile una sola volta.
Individual videos (Rocco, Sol, Lumia solo) sono il formato più leggero: 8 clip, 30M di output, costo API sotto $10.
I video multi-personaggio (Trio, rocco_e_sol) costano circa il doppio per via dell'assembly e del matching fra reference image diverse.

TL;DR da dare a Massi (one-liner pronto da incollare in email):

"Per 2 video 30s single-character (Sole Mio + Fisso 12) stimo ~$50–100 di API puri + 80–120 ore di lavoro. Setup personaggi v2 altri ~$6 API ma 20–25 ore. Infrastruttura dedicata Ajò è investimento una-tantum scalabile (~$50 + €14/mese + 36 ore). Rework a costo fisso €150–200/round come concordato. Multi-aspect o scaling a 4 video raddoppia gli API ma la base ore resta compatta grazie all'infrastruttura."

Documento generato automaticamente da ajo-studio · specchietto_costi.html · 10 aprile 2026
Fonte dati: /root/ajo-studio/data/briefs/2026-04-10_ajo_energia_cicu/specchietto_costi.md