Scopo del documento. Dare a Massi una base concreta per budgetizzare il progetto Ajò Energia.
I numeri "spesi finora" sono stime a posteriori basate sui listini fal.ai / WaveSpeed / ElevenLabs al 10 aprile 2026,
ricostruite dal materiale effettivamente prodotto sulla piattaforma ajo-studio (17 progetti video completati,
~200 immagini, ~340 clip). I numeri degli scenari futuri includono un margine di sicurezza esplicito.
Non incluso: tempo uomo (oggetto di preventivo separato), costi Claude Max (pooling gratuito), costi Vertex (coperti dai $100/mese GCP credits), costi infrastruttura condivisa.
1. Censimento materiale prodotto
Numeri reali estratti dal filesystem di ajo-studio il 10 aprile 2026 dopo la call.
204Immagini totali
342Video MP4 totali
17Progetti video completati
~19Provini audio (voice casting)
Numeri grezzi per categoria di asset
| Asset | Quantità | Dove |
| Immagini (reference + background + provini) | 204 | characters/* (133) + videos/* (71) |
| Video MP4 (clip + finali + iterazioni) | 342 | characters/* (31) + videos/* (280) + archive/ (20) + legacy/ (11) |
| Audio TTS (voci + provini) | ~19 | characters/* (14) + archive/ (5) |
Breakdown per personaggio
| Personaggio | Immagini | Video | Audio | Note |
| Sol | 57 | 23 | 4 | Il più iterato: 4 stili 2D + 6 render 3D + 50+ provini faccia/scena |
| Lumia | 30 | 0 | 4 | 4 voci candidate (Jessica, Laura, Lily, Aida). Video solo come membro Trio |
| Gaia | 18 | 0 | 0 | 2D flat + 4 view 3D + 4 green + 4 b2 variant |
| Group (scene multi) | 14 | 0 | 0 | Scene condivise: piazza, coast, meadow, living room, sunset |
| Volt | 8 | 0 | 0 | Solo 2 set di provini, mai prodotto video |
| Rocco | 4 | 4 | 3 | Personaggio storico, meno iterazioni — design già solido |
| Sardino | 2 | 4 | 3 | Scartato come concept (feedback call: "perdenti") |
Progetti video completati (17 serie)
| Progetto | Clip MP4 | Size | Natura |
trio_ajo_v5 | 92 | 62M | Con idle animation (46 moments) + 13 speak + scenes multiple |
trio_ajo_v4 | 45 | 38M | Lip-sync compositing per-character |
trio_ajo_v3 | 27 | 51M | Flowing conversation |
trio_ajo (v1) | 25 | 93M | Prima versione Trio |
trio_ajo_v2 | 24 | 72M | Seconda iterazione |
mary | 8 | 89M | Serie 4 clip Rocco — pitch a Mary |
rocco_si_presenta | 9 | 47M | 9 clip + 4 scene rendered + 4 SFX audio |
individual_rocco | 8 | 29M | Solo Rocco, 4 norm + 3 pause |
individual_lumia | 8 | 9.4M | Primo solo video Lumia |
individual_sol | 8 | 6.8M | Solo Sol |
bolletta_chiara | 4 | 47M | Campagna concept |
rocco_e_sol | 4 | 47M | Duo video |
energia_per_chi_lavora | 4 | 25M | Campagna concept |
la_famiglia_tranquilla | 4 | 33M | Campagna concept |
zero_complicazioni | 4 | 32M | Matcha il claim "Zero Tetto Zero Problemi" |
il_sole_che_conviene | 4 | 17M | Pitch Sole Mio |
tutti | 2 | 7.9M | Gruppo |
| TOTALE progetti | 280 | ~705M | |
Nel folder archive/ ci sono inoltre ~20 iterazioni modelli scartate (sol_iter1_kling, sol_iter2_seedance, sol_iter3_wan, sol_omnihuman_test ecc.) — la fase di esplorazione per capire quale modello video-gen dava il lip-sync migliore.
2. Stack tecnologico utilizzato
Ogni riga è un tool già attivo con account + credito. Per Ajò (cliente pagante) → aprire account nuovi dedicati su fal.ai, WaveSpeed, ElevenLabs come deciso in call, per tracciabilità costi 1:1.
| # | Tool | Cosa fa | Cost model | Stato |
| 1 | fal.ai | Image gen (Flux Kontext, Imagen 4, Recraft v3) + Video gen (Kling 2.1 Pro, Seedance, Wan 2.1) | Pay-per-call | attivo |
| 2 | WaveSpeed | Lip-sync (InfiniteTalk, OmniHuman) — il core per far parlare i personaggi | Pay-per-call | attivo |
| 3 | ElevenLabs | TTS multilingual_v2 — voice cloning/casting, voci cinematic | Abbonamento + overage | attivo |
| 4 | OpenAI | TTS (Onyx per Rocco) + GPT per script refinement | Pay-per-call | attivo |
| 5 | Anthropic Claude | Script writing, prompt engineering, orchestrazione agenti | Claude Max pooling (zero marginal) | attivo |
| 6 | Google Vertex AI | Imagen 3 + Gemini Pro/Flash come fallback | $100/mese credits | attivo |
| 7 | Remotion | Compositing branded: logo, CTA, multi-aspect (16:9 / 1:1 / 9:16) | Compute locale (VPS) | attivo |
| 8 | FFmpeg | Concat clip, audio mux, normalizzazione | Locale, zero cost | attivo |
3. Listini unitari (base calcoli)
Listini al 10 aprile 2026, fonti: fal.ai pricing pages · WaveSpeed pricing · ElevenLabs pricing.
Image generation
| Modello | Costo per immagine | Uso tipico |
| Flux Kontext Pro | ~$0.04 | Reference character + refinement |
| Imagen 4 (fal / Vertex) | ~$0.05 | Scene background fotorealistiche |
| Recraft v3 | ~$0.04 | Stile grafico/illustrato 2D |
| Flux Schnell | ~$0.003 | Test rapidi / throwaway |
Video generation (text / image → video, 5 secondi)
| Modello | Costo per 5 sec | Uso tipico |
| Kling 2.1 Pro | ~$1.40 | Premium, motion più naturale — usato negli iter test di Sol |
| Kling 2.1 Standard | ~$0.28 | Backgrounds animati |
| Seedance Lite | ~$0.18 | Idle animations economiche |
| Seedance Pro | ~$0.62 | Scene qualità media |
| Wan 2.1 | ~$0.30 | Movimenti semplici — usato per idle Trio V5 |
Lip-sync (il cuore del costo)
| Modello | Costo clip 8–10s | Uso |
| InfiniteTalk (WaveSpeed) | ~$0.50–0.80 | Lip-sync primario — tutto il Trio e gli individuali |
| OmniHuman | ~$0.80–1.20 | Alternativa testata, più fedele ma più cara |
Voice / TTS
| Provider | Costo | Uso |
| ElevenLabs multilingual_v2 | ~$0.30 / 1.000 char | Sol, Lumia, Sardino, voice cloning |
| OpenAI TTS (gpt-4o-mini-tts) | $0.60 / 1M char | Rocco (Onyx) |
Remotion / FFmpeg
| Tool | Costo | Note |
| Remotion (render locale) | €0 API | Compute VPS già pagato |
| FFmpeg concat | €0 | Locale |
4. Stima costi sostenuti finora (ricostruzione a posteriori)
| Categoria | Quantità stimata | Unit cost | Totale |
| Immagini 2D (Flat illustration + stile piatto) | ~10 finali + ~30 provini | $0.04 | ~$1.6 |
| Immagini 3D (render realistic character) | ~150 finali + ~200 provini scartati | $0.045 | ~$16 |
| Video gen (background + iterazioni scartate) | ~80 clip (Kling/Seedance/Wan mix) | $0.50 media | ~$40 |
| Provini lip-sync (iterazioni) | ~40 clip test (iter1–4 + boundary_test) | $0.70 | ~$28 |
| Lip-sync clip finali (Trio V1–V5 + individuali + campagne) | ~240 clip | $0.60 | ~$145 |
| TTS ElevenLabs (provini + finali) | ~60 gen, ~10k char totali | $0.30/1k | ~$3 |
| TTS OpenAI Rocco | ~10 gen, ~1.5k char | trascurabile | ~$0.05 |
| Remotion render (3 ADV square/vertical Sol) | 3 render | €0 compute | €0 |
| TOTALE API sostenuto finora | ~$230–280 |
Caveat importanti:
- Non include costi Claude Max (Giacomo usa pooling, marginal zero sul progetto).
- Non include costi Vertex AI (coperti da $100/mese GCP credits).
- Non include infrastruttura condivisa (VPS, Traefik, storage).
- Non include il tempo uomo — che è il vero costo (stimato in §6 e §8).
5. Stima costi per i 2 video target (Sole Mio + Ajò Fisso 12)
Ipotesi di lavoro basate sui video già prodotti:
- Durata target: 30 secondi ciascuno
- 1 personaggio principale per video (Sol / Rocco)
- ~5 clip lip-sync 6s ciascuna = 30s parlato
- Buffer iterazioni: ×2.5 (realistico per cliente pagante, qualità hi-fi)
Produzione di 1 video 30s (Sole Mio, esempio)
| Step | Quantità | Unit cost | Sub-total | Con buffer ×2.5 |
| Reference image personaggio v2 | 8 img | $0.04 | $0.32 | $0.80 |
| Scene background (4 scene) | 4 img + 4 video 5s | $0.04 + $0.50 | $2.16 | $5.40 |
| TTS (ElevenLabs, ~500 char) | 500 char | $0.30/1k | $0.15 | $0.40 |
| Lip-sync InfiniteTalk (5 clip × 6s) | 5 clip | $0.60 | $3.00 | $7.50 |
| Remotion branding + CTA | 1 render | €0 | €0 | €0 |
| Sub-totale API 1 video | ~$5.6 | ~$14 |
Setup v2 personaggio (una-tantum, ammortizzabile)
| Step | Quantità | Unit cost | Totale |
| Reference character definitiva (4 viste) | 4 img | $0.05 | $0.20 |
| Refinement prompt iterativo | ~20 img | $0.04 | $0.80 |
| Voice casting (5 voci) | 5 TTS × 500 char | $0.30/1k | $0.75 |
| Test lip-sync validation (2 clip) | 2 clip | $0.60 | $1.20 |
| Totale setup per personaggio | ~$3 |
Costo totale per i 2 video (baseline)
| Voce | Importo API |
| Setup v2 Sol | ~$3 |
| Setup v2 Rocco | ~$3 |
| Produzione Sole Mio 30s | ~$14 |
| Produzione Fisso 12 30s | ~$14 |
| Buffer revisioni (2 round inclusi × 30% del video) | ~$10 |
| Totale API 2 video finali | ~$44 |
| Con margine incertezza ×2 | ~$90–100 |
6. Tempo uomo (separato dagli API)
Il vero costo NON sono gli API — sono le ore di lavoro. Stima onesta basata sui 17 progetti già fatti:
| Fase | Ore | Note |
| Setup personaggio v2 (reference + voice + test) | 8–12h × personaggio | Iterazioni Flux + voice casting + validation lip-sync |
| Script writing + validation | 4–6h × video | Include pronuncia, timing, coverage brief |
| Produzione video (pipeline + tuning) | 8–15h × video | Iterazioni finché il lip-sync convince |
| Branding Remotion (prima volta) | 12–20h | Setup componenti CTA, layout multi-aspect |
| Branding Remotion (video successivi) | 2–4h | Solo variazioni |
| Revisioni per round | 4–8h × round × video | Il costo vero dei cicli infiniti |
Stima onesta 2 video finali (Sole Mio + Fisso 12) chiavi in mano:
60–90 ore di lavoro totale + 2 round revisione inclusi (+20–30 ore) = ~80–120 ore uomo.
7. Raccomandazioni per il preventivo Massi
- Non ribaltare i costi API al cliente riga per riga — come deciso in call. Includerli nel valore complessivo del preventivo.
- Rework a costo fisso (€150–200 a round) — già concordato. Copre sia API che ore.
- Setup personaggi v2 come voce separata — è investimento che resta anche se il progetto si ferma. Vale come creazione IP (come da discussione Cicu/Galanti sulla vendita del personaggio).
- Multi-aspect → calcolare separatamente. Non è "free" anche se Remotion è gratis: rifà il frame, a volte richiede lip-sync nuovo.
- Infrastruttura nuova (VPS + account API nuovi Ajò) → voce separata "setup infra" a costo fisso, investimento scalabile su clienti futuri.
- Margine di sicurezza: prezzare gli API ×2 rispetto alla stima grezza. L'esperienza Trio V1→V5 insegna che i progetti AI video fanno retry più del previsto.
8. Ipotesi comparative — scenari di preventivo
Matrice di scenari alternativi che Massi può mettere sul tavolo con Mary/Imbenta. Ogni scenario è ortogonale (puoi combinarli).
Scenario A — MVP / Pilot leggero raccomandato per partire
Cosa: 1 video singolo (Sole Mio, 15–20 secondi, 1 personaggio Sol, 1 aspect 1:1 o 9:16).
Scopo: validare pipeline + stile + voce con cliente prima di scalare.
| Voce | API | Ore |
| Setup v2 Sol | $4 | 10h |
| Script + pronuncia | $0 | 4h |
| Produzione MVP 15s | $7–12 | 10h |
| Branding + CTA | $0 | 8h |
| 1 round revisione incluso | $5 | 6h |
| TOTALE MVP | ~$18 | ~38h |
Vantaggio: se Imbenta non conferma il budget pieno, abbiamo consegnato qualcosa di reale. Se approva, si scala senza rifare il setup.
Scenario B — 2 video single-character (Sole Mio + Fisso 12) baseline call 10 aprile
| Parametro | Valore |
| Video | 2 (Sol, Rocco) |
| Durata | 30s ciascuno |
| Aspect | 1 (a scelta cliente) |
| Personaggi nuovi v2 | Sol (Rocco ha base) |
| Revisioni incluse | 2 round |
| Voce | API | Ore |
| Setup v2 Sol + Rocco | $6 | 20h |
| Script writing (2) | $0 | 10h |
| Produzione Sole Mio | $14 | 12h |
| Produzione Fisso 12 | $14 | 10h |
| Branding Remotion (setup prima volta) | $0 | 15h |
| 2 round revisione | $10 | 20h |
| TOTALE scenario B | ~$44 | ~87h |
| Con margine sicurezza ×2 API, ×1.3 ore | ~$90 | ~115h |
Scenario C — 2 video + multi-aspect (3 formati per video)
Incrementale rispetto a B.
| Voce | Delta API | Delta ore |
| Re-render Remotion 3 aspect × 2 video | €0 | +8h (setup layout 1:1 e 9:16) |
| Eventuale lip-sync re-frame | +$15 | +4h |
| Delta su B | +$15 | +12h |
| TOTALE scenario C | ~$105 | ~127h |
Trigger: se cliente richiede Meta feed + Stories + YouTube (quasi sempre nel briefing ADV).
Scenario D — 4 video completi (piano originale) target post-chiarimento cast
| Parametro | Valore |
| Video | 4 (Istituzionale, Fisso 12, Tribe, Sole Mio) |
| Durata | 30s ciascuno |
| Aspect | 1 |
| Personaggi nuovi v2 | 5 (Rocco, Sol, Lumia, Volt, Gaia — o variante) |
| Multi-character scene | Sì (Istituzionale + Tribe) |
| Voce | API | Ore |
| Setup v2 × 5 personaggi | $15 | 50h |
| Script writing (4) | $0 | 20h |
| Produzione Sole Mio | $14 | 12h |
| Produzione Fisso 12 | $14 | 10h |
| Produzione Istituzionale (4 char in scene) | $25 | 20h |
| Produzione Tribe (referral, tutti) | $25 | 18h |
| Branding Remotion (setup + 4 var) | $0 | 25h |
| 2 round revisione × 4 video | $30 | 50h |
| TOTALE scenario D | ~$125 | ~205h |
| Con margine sicurezza | ~$250 | ~270h |
Scenario E — 4 video × multi-aspect (3 formati)
Delta su D: +$30 API e +35h (Remotion re-render con buffer lip-sync eventuali).
TOTALE scenario E: ~$280 API + ~305h
Scenario F — Infrastruttura dedicata Ajò una-tantum, aggiungibile a qualsiasi scenario
| Voce | API | Ore | Note |
| Account nuovi (fal.ai, WaveSpeed, ElevenLabs) | $0 setup | 4h | Registrazione + KYC |
| VPS nuova Hetzner CX32 (mensile) | €14/mese | 6h | Setup iniziale + deploy docker stack |
Refactor app.py multi-character/multi-client | $0 | 16h | Rompere hard-code Rocco (già pianificato) |
| Clonazione pipeline da ajo-studio | $0 | 8h | Remotion + characters + scripts |
| Ricarica credito iniziale API nuovi | $50 API | 2h | Buffer test |
| TOTALE setup infra | €14/mese + $50 | ~36h | Ammortizzabile su N clienti futuri |
Perché vale la pena: il refactor (16h) è lavoro che serve comunque per parametrizzare la pipeline. L'infra nuova è clonabile per Comix o altri clienti futuri senza ricostruire da zero.
Tabella di confronto rapido fra tutti gli scenari
| Scenario | Video | Durata | Aspect | API totali | Ore totali |
| A — MVP pilot | 1 | 15s | 1 | ~$18 | ~38h |
| B — Baseline 2 video | 2 | 30s | 1 | ~$90* | ~115h* |
| C — B + multi-aspect | 2 | 30s | 3 | ~$105 | ~127h |
| D — 4 video completi | 4 | 30s | 1 | ~$250* | ~270h* |
| E — D + multi-aspect | 4 | 30s | 3 | ~$280 | ~305h |
| F — Setup infra dedicata | (una-tantum) | — | — | $50 + €14/mese | ~36h |
*con margine sicurezza applicato (API ×2, ore ×1.3)
9. Ipotesi alternative per voce / stile / lip-sync
Voice: standard vs custom
| Opzione | Costo TTS/video | Qualità | Proprietà |
| ElevenLabs voice library (Jessica, Laura, etc.) | ~$0.20 | Alta, naturale | Non esclusiva cliente |
| ElevenLabs Instant Voice Clone (su sample cliente) | +$5 setup | Alta, brandizzata | Esclusiva cliente |
| ElevenLabs Professional Voice Clone | +$100 + $11/mese | Massima | Esclusiva, studio-grade |
| Doppiaggio umano esterno | +€200–500/voce | Massima | Esclusiva, costo studio |
Raccomandazione: Instant Voice Clone per Sol/Lumia (IP cliente) + voice library per personaggi secondari.
Stile: 2D vs 3D
| Opzione | Esempio in repo | Costo immagine |
| 2D flat illustration | sol_2d_a1-a4.png, gaia_2d_flat.png | $0.04 (Recraft v3) |
| 3D character rendered | tutti gli altri (Sol, Lumia, Rocco) | $0.04–0.05 (Flux Kontext / Imagen 4) |
Nota: il 3D ha richiesto ~50 iterazioni per Sol da solo. Il 2D è più rapido ma più difficile far parlare via InfiniteTalk (lip-sync peggiore su facce piatte). Raccomandazione confermata dalla call: 3D come stile principale.
Lip-sync: InfiniteTalk vs OmniHuman vs custom
| Modello | Costo clip 10s | Qualità | Limite |
| InfiniteTalk | ~$0.60 | Buona, labiale ok su clip ≤ 8s | Lunghe frasi diventano unnatural |
| OmniHuman | ~$1.00 | Più fedele, anche full-body | Costoso, usato in test sol_omnihuman_test |
| Custom fine-tune (Wan 2.2) | alto setup | Massima | Non esplorato, richiede GPU dedicata |
Raccomandazione: InfiniteTalk per tutto, OmniHuman solo per hero shot (es. primo piano istituzionale).
10. Lesson learned dai 17 progetti già fatti
- Trio Aiò V1→V5 è la prova che per arrivare a un video "consegnabile" servono ~5 iterazioni di approccio, non 1. V1 era rough, V5 ha idle animation e conversation flow.
- Sol ha richiesto 4 iterazioni di modelli video prima di trovare la combinazione giusta (
sol_iter1_kling → sol_iter4_seedance). Questo è il costo di esplorazione nascosto.
- Lumia ha 4 voci testate prima di Jessica. Il voice casting è un costo fisso per personaggio, ammortizzabile una sola volta.
- Individual videos (Rocco, Sol, Lumia solo) sono il formato più leggero: 8 clip, 30M di output, costo API sotto $10.
- I video multi-personaggio (Trio, rocco_e_sol) costano circa il doppio per via dell'assembly e del matching fra reference image diverse.
TL;DR da dare a Massi (one-liner pronto da incollare in email):
"Per 2 video 30s single-character (Sole Mio + Fisso 12) stimo ~$50–100 di API puri + 80–120 ore di lavoro. Setup personaggi v2 altri ~$6 API ma 20–25 ore. Infrastruttura dedicata Ajò è investimento una-tantum scalabile (~$50 + €14/mese + 36 ore). Rework a costo fisso €150–200/round come concordato. Multi-aspect o scaling a 4 video raddoppia gli API ma la base ore resta compatta grazie all'infrastruttura."