Google DeepMind

Gemini Omni

Le modèle de création multimodal de Google — là où le raisonnement de Gemini rencontre la capacité de créer. Générez et éditez des vidéos à partir de texte, d'images, de vidéo ou d'audio en langage naturel. Chaque modification s'appuie sur la précédente. Essayez gratuitement avec FireRed Image Edit.

About

À propos de Gemini Omni

Gemini Omni est le modèle de création multimodal de Google DeepMind, annoncé lors de Google I/O 2025. Il associe la capacité de raisonnement de Gemini aux systèmes de génération de médias, permettant une création et une édition vidéo qui vont au-delà de la simple conversion prompt-vers-vidéo. Le modèle comprend les scènes, les actions, les environnements, les comportements physiques et le contexte du monde réel — produisant des résultats qui semblent intentionnels plutôt qu'aléatoires. Gemini Omni Flash est le premier modèle de la famille Omni, conçu pour des flux de travail pratiques de création et d'édition vidéo où les utilisateurs peuvent transformer des séquences, guider les résultats avec des références et affiner les scènes par la conversation en langage naturel.

Capacités clés

Entrée multimodale, édition conversationnelle, transformation de style et connaissances du monde réel — le tout dans un seul modèle

Core Features Overview

Édition conversationnelle multi-tours

Gemini Omni introduit une approche fondamentalement différente de l'édition vidéo. Au lieu de repartir de zéro à chaque génération, vous pouvez affiner votre vidéo par une série d'instructions en langage naturel. Changez l'arrière-plan, ajustez l'action, remplacez des objets, modifiez l'angle de caméra ou ajoutez des effets visuels — tout en gardant le reste de la vidéo stable. Ce flux de travail conversationnel signifie que vous pouvez itérer vers votre vision étape par étape, comme si vous éditiez un document avec suivi des modifications.

Prompt

Output (Example)

Éditer en plusieurs tours : d'abord établir la scène, puis changer l'angle de caméra, puis ajouter des effets atmosphériques — en maintenant la cohérence tout au long

L'édition multi-tours préserve la cohérence de la scène à travers les modifications séquentielles

D'abord établir la scène avec une personne dans une pièce, puis changer l'éclairage en heure dorée, puis ajouter de la pluie sur la fenêtre — chaque modification s'appuie sur la précédente

Les changements séquentiels d'environnement démontrent le raffinement conversationnel

Transformation de style en temps réel

Gemini Omni peut transformer le style visuel de n'importe quelle vidéo source tout en préservant le mouvement sous-jacent, la structure et la composition de la scène. Décrivez l'esthétique cible — surfaces métalliques, croquis dessinés à la main, marionnettes en feutre, projections holographiques, art voxel — et le modèle applique la transformation de manière cohérente sur chaque image. Le mouvement de caméra original, les actions des personnages et les relations spatiales restent intacts, créant un transfert de style fluide qui va bien au-delà des simples filtres.

Prompt

Output (Example)

Quand la personne touche le miroir, faire onduler le miroir comme un liquide, et le bras de la personne se transforme en matériau miroir réfléchissant

La transformation de style préserve le mouvement tout en changeant complètement l'esthétique visuelle

Quand la personne touche le miroir, tout l'environnement se transforme en art voxel 3D avec des formes géométriques en blocs

Transformation complète de l'environnement en art voxel tout en préservant la structure spatiale

Entrée véritablement multimodale

Contrairement aux modèles qui n'acceptent que du texte ou une seule image, Gemini Omni peut traiter plusieurs types d'entrées simultanément. Fournissez du texte pour la direction, des images pour la référence visuelle, de la vidéo pour le guidage du mouvement et de l'audio pour la synchronisation vocale ou sonore. Le modèle synthétise toutes les entrées en une seule sortie vidéo cohérente. Cela le rend pratique pour les flux de travail créatifs réels où l'inspiration vient de sources multiples — un croquis de storyboard, un clip de référence, un enregistrement vocal et une description écrite peuvent tous contribuer au résultat final.

Prompt

Output (Example)

Ajouter des sons de harpe synchronisés au moment où je touche chaque feuille de fougère. Transformer la structure des feuilles en plantes bioluminescentes avec des lucioles volant autour

Combinaison d'une entrée vidéo avec des instructions textuelles et une référence audio pour une sortie synchronisée

Visualiser le processus de repliement des protéines en utilisant des connaissances scientifiques réelles, rendu en style claymation avec un comportement moléculaire précis

Connaissances du monde réel appliquées à la visualisation scientifique avec un style créatif

FAQ

Questions fréquentes

Gemini Omni FAQ

: Gemini Omni est le modèle de création multimodal de Google DeepMind qui combine la capacité de raisonnement de Gemini avec la génération vidéo. Contrairement aux modèles texte-vers-vidéo traditionnels, Gemini Omni prend en charge l'édition conversationnelle multi-tours (chaque modification s'appuie sur la précédente), accepte plusieurs types d'entrées simultanément (texte, images, vidéo, audio) et applique des connaissances du monde réel pour produire des résultats contextuellement pertinents.
: Gemini Omni accepte des prompts textuels, jusqu'à 7 images de référence, 1 clip vidéo (jusqu'à 100 Mo, 30 secondes) et des identifiants audio. Vous pouvez combiner plusieurs types d'entrées en une seule génération — par exemple, fournir une vidéo de référence plus des instructions textuelles pour transformer la scène tout en préservant le mouvement d'origine.
: Oui. FireRed Image Edit offre des crédits pour générer des vidéos avec Gemini Omni. Les nouveaux utilisateurs reçoivent des crédits gratuits pour commencer à créer immédiatement. Le modèle prend en charge des durées de 4/6/8/10 secondes avec des ratios d'aspect 16:9 et 9:16.
: Oui. Gemini Omni excelle dans l'édition vidéo par langage naturel. Téléchargez une vidéo source et décrivez ce que vous souhaitez modifier — transformer l'environnement, remplacer des objets, changer le style, ajuster la perspective de la caméra ou ajouter des effets. Le modèle préserve les éléments que vous ne mentionnez pas tout en appliquant les modifications demandées.
: Les fichiers vidéo en entrée doivent faire moins de 100 Mo et ne pas dépasser 30 secondes. La plage de découpe utilisable (début à fin) ne peut pas excéder 10 secondes. Les fichiers image doivent faire moins de 20 Mo chacun, avec un maximum de 7 images par génération. Les vidéos générées peuvent durer 4, 6, 8 ou 10 secondes.
: L'édition multi-tours signifie que chaque génération peut s'appuyer sur le résultat précédent. Vous commencez par une création initiale, puis vous l'affinez par des instructions successives — changer l'angle, ajouter des effets, modifier l'action, ajuster l'éclairage — tandis que le modèle maintient la cohérence avec ce qui précède. C'est similaire à la façon dont vous pourriez éditer un document à travers plusieurs révisions.
: Oui. Les vidéos générées via FireRed Image Edit sont accompagnées de droits d'utilisation commerciale. Gemini Omni est licencié pour un usage commercial, ce qui le rend adapté au contenu marketing, aux réseaux sociaux, aux présentations de produits, aux supports éducatifs et à la production vidéo professionnelle.

Testimonials

Ce que les créateurs disent de Gemini Omni

“L'édition multi-tours est ce qui distingue Gemini Omni. Je peux affiner une scène étape par étape au lieu de tout régénérer à chaque fois. On a vraiment l'impression de diriger plutôt que de simplement écrire des prompts.”

Explorer Plus de Modèles Vidéo IA

Veo 3.1 Générateur de Vidéos IA Gratuit

Nouveau

Veo 3.1 est le générateur de vidéos IA gratuit le plus avancé de Google DeepMind avec une génération audio native révolutionnaire. Créez des vidéos 1080p HD en ligne avec effets sonores, dialogues et audio ambiant synchronisés — sans filigrane, illimité. Jusqu'à 8 secondes par clip, extensible à 60+ secondes à 24 FPS.

Essayer

Wan 2.6

Nouveau

Wan 2.6 est le modèle de génération vidéo d'Alibaba qui produit des vidéos de haute qualité avec un support de styles variés, un mouvement fluide et une sortie cinématographique à partir de prompts textuels et d'images de référence.

Essayer

Sora 2

Sora 2 est le modèle phare de génération vidéo d'OpenAI, capable de produire des vidéos de haute qualité à partir de descriptions textuelles et d'images. Il comprend les compositions de scènes complexes, les interactions entre personnages, les mouvements de caméra et la physique du monde réel pour des résultats cinématographiques. Sora 2 représente un bond majeur dans la génération vidéo AI avec une meilleure cohérence temporelle, un support de durée plus long et une interprétation plus fidèle des prompts.

Essayer

Kling 2.6

Kling 2.6 est le dernier modèle de génération vidéo AI de Kuaishou, reconnu pour sa qualité de mouvement exceptionnelle et sa sortie cinématographique. Basé sur une modélisation spatio-temporelle avancée, Kling 2.6 produit des vidéos avec des mouvements de personnages fluides, des transitions de caméra dynamiques et des détails visuels riches. Il prend en charge la génération texte-vers-vidéo et image-vers-vidéo, en faisant un outil polyvalent pour les créateurs recherchant du contenu vidéo AI de qualité professionnelle.

Essayer

Seedance 2.0

Nouveau

Seedance 2.0 est le modèle de génération vidéo IA le plus avancé de ByteDance, dévoilé en février 2026. Il adopte une architecture unifiée de génération conjointe audio-vidéo multimodale prenant en charge 4 modalités d'entrée simultanément — texte, jusqu'à 9 images, jusqu'à 3 clips vidéo et jusqu'à 3 pistes audio. Le système de référence @ révolutionnaire vous permet de taguer des éléments spécifiques dans votre instruction et de les lier à des références téléchargées pour un contrôle granulaire des mouvements de caméra, de l'apparence des personnages, du rythme audio et du style visuel. Les sorties atteignent la résolution 2K avec un audio natif synchronisé, incluant le synchronisé labial multilingue, les effets sonores et la musique de fond.

Essayer

Grok Video

Nouveau

Grok Video (propulsé par Grok Imagine Video) est le modèle de génération vidéo de xAI intégré directement dans l'écosystème Grok. Propulsé par le moteur Aurora propriétaire, il convertit des descriptions textuelles ou des images statiques en clips vidéo courts avec audio synchronisé. Ce qui distingue Grok Video, c'est sa vitesse — les clips sont générés en secondes, pas en minutes — combinée à un accès aux données Web en temps réel pour des références visuelles actuelles et pertinentes. Le modèle privilégie la fidélité aux descriptions et la cohérence naturelle des mouvements, ce qui le rend idéal pour le contenu rapide sur les réseaux sociaux, le prototypage rapide et les flux de travail créatifs itératifs.

Essayer

Commencez à créer avec Gemini Omni

Découvrez la puissance de Gemini Omni — gratuit en ligne

Essayer maintenant — C'est gratuit

10,000+ users