Google lança Gemini Omni: IA que transforma qualquer mídia em vídeo realista

    Tempo de leitura: 4 minutesGoogle lança Gemini Omni, modelo de IA capaz de transformar qualquer entrada em vídeos realistas. Testes revelam capacidade impressionante de criar deepfakes convincentes, levantando questões sobre autenticidade digital.

    23 de maio de 2026

    hardware-iaDeepfakeGemini OmniGoogleIA generativaInteligência ArtificialModelos MultimodaisVídeo com IA
    Google lança Gemini Omni: IA que transforma qualquer mídia em vídeo realista
    Tempo de leitura: 4 minutes

    Introdução

    O Google acaba de dar um passo significativo na corrida pela IA generativa com o lançamento do Gemini Omni, seu novo modelo multimodal capaz de transformar praticamente qualquer tipo de entrada – texto, foto ou vídeo – em conteúdo de vídeo surpreendentemente realista. A tecnologia, que promete ser o futuro da criação de conteúdo “anything-to-anything” (qualquer coisa para qualquer coisa), já está disponível na plataforma Flow do Google e representa um avanço considerável em relação ao modelo anterior, o Veo.

    Em testes práticos realizados pela imprensa especializada, o Omni Flash – primeira versão disponível da família Omni – demonstrou capacidades impressionantes e preocupantes ao mesmo tempo. A facilidade com que é possível criar deepfakes convincentes levanta questões importantes sobre o futuro da autenticidade do conteúdo digital e os desafios que enfrentaremos para distinguir o real do artificial.

    Como funciona o Gemini Omni

    O Gemini Omni representa uma evolução significativa na abordagem do Google para IA generativa. Diferentemente de modelos anteriores que se limitavam a transformações específicas (texto para imagem, ou imagem para vídeo), o Omni foi projetado desde o início para ser verdadeiramente multimodal. Isso significa que ele pode aceitar múltiplos tipos de entrada simultaneamente e gerar saídas em diferentes formatos.

    Na prática atual, o foco está na geração de vídeos. Os usuários podem fazer upload de um vídeo existente e combiná-lo com prompts de texto para criar novos conteúdos. Por exemplo, é possível pegar um vídeo simples de uma pessoa sentada e transformá-lo em uma cena onde ela está comendo macarrão, viajando de avião ou visitando a Torre Eiffel – tudo com um realismo impressionante.

    O modelo incorpora o que o Google chama de “conhecimento do mundo real” mais aprofundado, permitindo que mantenha maior consistência nos personagens e objetos ao longo do vídeo. Isso resolve um dos principais problemas dos modelos anteriores, onde elementos visuais mudavam drasticamente de frame para frame, criando resultados obviamente artificiais.

    Resultados práticos: entre o impressionante e o perturbador

    Nos testes realizados, o Gemini Omni apresentou resultados mistos, mas com um viés claramente positivo em termos de capacidade técnica. Ao criar vídeos de um bicho de pelúcia em aventuras imaginárias, o modelo conseguiu manter boa consistência visual do personagem, embora ainda apresentasse alguns “sustos de IA” – como mudanças súbitas de orientação durante uma cena de paraquedismo.

    Um exemplo particularmente interessante foi quando o modelo recebeu liberdade criativa para criar uma montagem do personagem se preparando para férias. O Omni desenvolveu uma narrativa coerente onde o personagem empacota mel em sua mala e depois tenta usá-lo como protetor solar – demonstrando não apenas capacidade técnica, mas também um entendimento rudimentar de narrativa e humor visual.

    No entanto, os resultados mais impressionantes – e preocupantes – vieram dos testes com deepfakes humanos. Ao transformar um vídeo simples de selfie em cenas elaboradas, o Omni criou vídeos tão convincentes que até mesmo pessoas próximas tiveram dificuldade em identificar que eram falsos. Em um caso específico, o marido da pessoa que aparecia no vídeo só suspeitou da autenticidade porque não reconheceu a tigela de macarrão na cena.

    Custos e acessibilidade da tecnologia

    Um aspecto importante do Gemini Omni é seu modelo de monetização baseado em créditos. A geração de vídeos consome entre 15 e 40 créditos, dependendo da duração e complexidade. Cada rodada de edições custa 40 créditos adicionais. Com o plano AI Pro de 20 dólares mensais oferecendo 1.000 créditos, usuários intensivos podem rapidamente esgotar sua cota mensal.

    Isso cria uma barreira econômica interessante: embora a tecnologia seja tecnicamente acessível a qualquer pessoa com uma conta Google e cartão de crédito, o custo pode se tornar proibitivo para quem busca resultados específicos que exigem múltiplas iterações. Para o mercado brasileiro, onde o dólar alto já encarece serviços digitais, isso pode limitar significativamente a adoção em massa.

    Implicações para o mercado e sociedade

    O lançamento do Gemini Omni marca um momento crucial na evolução da IA generativa. Estamos claramente entrando em uma era onde a distinção entre conteúdo real e artificial se torna cada vez mais tênue. Para profissionais de mídia, marketing e comunicação, isso representa tanto oportunidades quanto desafios significativos.

    Do lado positivo, a tecnologia democratiza a produção de conteúdo de alta qualidade. Pequenas empresas e criadores independentes podem agora produzir vídeos que antes exigiriam equipes e orçamentos consideráveis. Imagine uma startup brasileira criando comerciais profissionais ou um influenciador produzindo conteúdo que parece ter sido filmado em locações internacionais, tudo sem sair de casa.

    Por outro lado, as implicações para a confiança e autenticidade online são profundas. Se um modelo de IA pode criar vídeos convincentes de qualquer pessoa fazendo qualquer coisa, como poderemos confiar no que vemos? Isso tem ramificações óbvias para o jornalismo, processos judiciais, e até mesmo relacionamentos pessoais. O Brasil, que já enfrenta desafios significativos com desinformação, especialmente em períodos eleitorais, pode ver esses problemas amplificados exponencialmente.

    O futuro da criação de conteúdo com IA

    O Gemini Omni é apenas o começo da visão do Google para modelos verdadeiramente multimodais. A promessa de transformar “qualquer coisa em qualquer coisa” sugere que futuras versões poderão gerar não apenas vídeos, mas também áudio, texto, imagens 3D e possivelmente formatos que ainda nem imaginamos.

    Para o ecossistema brasileiro de tecnologia e criação de conteúdo, isso representa uma oportunidade de se posicionar na vanguarda dessa revolução. Empresas que aprenderem a integrar essas ferramentas em seus fluxos de trabalho de forma ética e criativa poderão obter vantagens competitivas significativas. Ao mesmo tempo, será crucial desenvolver frameworks regulatórios e éticos para lidar com os desafios que essa tecnologia apresenta.

    Conclusão

    O Gemini Omni do Google representa um salto qualitativo na capacidade de IA generativa, tornando a criação de vídeos deepfake convincentes acessível a praticamente qualquer pessoa. Embora a tecnologia ainda apresente limitações e custos que podem restringir seu uso intensivo, a tendência é clara: estamos caminhando rapidamente para um mundo onde a linha entre real e artificial será cada vez mais difícil de distinguir.

    Para profissionais e empresas brasileiras, o momento é de preparação e adaptação. Aqueles que compreenderem e dominarem essas ferramentas estarão melhor posicionados para prosperar na nova economia digital. Ao mesmo tempo, como sociedade, precisamos urgentemente desenvolver mecanismos para lidar com os desafios éticos e de autenticidade que essa tecnologia apresenta. O futuro da criação de conteúdo já chegou – a questão agora é como vamos moldá-lo de forma responsável e produtiva.


    Fonte original: Este artigo foi adaptado e traduzido a partir da matéria publicada em The Verge, disponível em https://www.theverge.com/tech/936507/gemini-omni-hands-on-deepfake-ai-video.

    Gostou? Receba mais conteúdos como este

    Insights semanais sobre tecnologia e inovação.

    Conteúdos relacionados