O texto→vídeo é, em 2026, uma máquina de produzir “momentos”: clips curtos, anúncios de 6–15 segundos, ideias visuais para pitch e até protótipos para redes. O problema começa quando tentas fazer cinema ou TV com isto. A narrativa longa exige uma coisa que os modelos ainda não dominam: consistência — de personagem, de espaço, de luz e de continuidade.
Porque é que nas redes parece funcionar (e no filme parte)
Em social, o público aceita imperfeições se o ritmo for bom e a mensagem for clara. Num filme, cada falha acumula e quebra a suspensão de descrença. Um plano estranho pode passar. Dez planos “quase iguais mas não” tornam-se irritantes.
Personagens persistentes: o rosto muda quando não devia
O benefício prometido é ter um ator “virtual” sempre disponível. Na prática, a mesma personagem varia entre planos: micro-assimetrias na cara, cabelos que mudam, roupa que “derrete” no raccord.
Num anúncio curto, resolves com cortes rápidos. Numa cena dialogada, isso grita falsidade — mesmo para quem não sabe explicar porquê.
Continuidade e espaço: o cenário não tem memória
Narrativa longa vive de geografia: onde está cada pessoa, para onde olha, o que tem na mão, que porta abriu, que objeto caiu. Modelos gerativos ainda têm dificuldade em manter o mesmo espaço com regras consistentes.
O que isto significa na prática? A garrafa ora está cheia, ora está vazia. A janela muda de posição. Um cartaz aparece e desaparece. Parece detalhe, mas é o detalhe que faz o espectador confiar.
Temporalidade: movimento e física ainda tropeçam
Mesmo quando a imagem é bonita, o movimento pode ser “estranho”: mãos com gestos pouco naturais, contacto com objetos sem peso, sombras que não acompanham.
Para VFX, isto é veneno: cada inconsistência exige correção manual — e de repente o “barato” fica caro.
Direção fina: a IA dá-te uma média, não uma intenção
Um realizador não quer “cinematográfico”. Quer uma intenção específica: desconforto, intimidade, ameaça, com ritmo e linguagem coerentes. A IA tende a entregar uma estética média — agradável, mas sem nervo.
E quando pedes alterações (“menos épico”, “mais cru”, “mais documental”), muitas vezes mudas tudo… menos aquilo que querias mudar.
Onde já vale a pena (sem vender ilusões)
Previs e animatic: testar ritmo, blocking, ideias de câmara antes do set.
Mood e conceitos: explorar direções visuais para pitch.
Social e branded curto: onde a tolerância a imperfeição é maior e o objetivo é impacto rápido.
A limitação que manda em tudo: controlo e repetibilidade
Numa produção real, precisas de repetir decisões: “a mesma personagem”, “a mesma lente”, “a mesma luz”, “a mesma sala” — take após take. Se não consegues reproduzir com precisão, não tens pipeline; tens sorte.
Fecho: O texto→vídeo em 2026 é excelente para ideias rápidas e formatos curtos. Mas enquanto não respeitar raccord como um script supervisor implacável, a narrativa longa vai continuar a ser território onde a IA ajuda… mas não lidera.