Google DeepMind

Gemini Omni

Googleのマルチモーダル創作モデル — Geminiの推論能力と生成メディアシステムの融合。テキスト、画像、動画、音声から自然言語で動画を生成・編集し、各編集は前回の結果に基づいて構築されます。FireRed Image Editで無料体験。

About

Gemini Omniについて

Gemini Omniは、Google DeepMindが2025年のGoogle I/Oで発表したマルチモーダル創作モデルです。Geminiの推論能力と生成メディアシステムを組み合わせ、単純なプロンプトから動画を生成する以上の能力を実現します。シーン、アクション、環境、物理的挙動、実世界のコンテキストを理解し、ランダムではなく意図的な結果を生成します。Gemini Omni Flashは実用的な動画制作・編集ワークフロー向けに構築され、ユーザーは素材を変換し、参照で結果を導き、自然言語の会話でシーンを洗練できます。

Gemini Omniについて

主要機能

マルチモーダル入力、会話型編集、スタイル変換、実世界の知識 — すべてを一つのモデルで

Core Features Overview

マルチターン会話型編集

Gemini Omniは動画編集に根本的に異なるアプローチを導入します。毎回ゼロから生成する代わりに、一連の自然言語指示で動画を洗練できます。背景の変更、アクションの調整、オブジェクトの置換、カメラアングルの変更、視覚効果の追加 — すべて動画の残りの部分を安定させたまま。

プロンプト
Output (Example)

マルチターン編集:まずシーンを確立し、次にカメラアングルを変更し、雰囲気効果を追加 — 全体を通して一貫性を維持

マルチターン編集は連続的な修正全体でシーンの一貫性を保持

まず部屋にいる人物のシーンを確立し、次に照明をゴールデンアワーに変更し、窓に雨を追加する — 各編集は前回に基づく

連続的な環境変更が会話型の段階的改善を実証

リアルタイムスタイル変換

Gemini Omniは入力動画の視覚スタイルを変換しながら、基礎となる動き、構造、シーン構成を保持できます。ターゲットの美学を記述すれば、モデルが各フレームに一貫して変換を適用します。

プロンプト
Output (Example)

人が鏡に触れると、鏡が液体のように美しく波打ち、人の腕が反射するミラー素材に変わる

スタイル変換は視覚的美学を完全に変えながら動きを保持

人が鏡に触れると、環境全体がブロック状の幾何学的形状を持つ3Dボクセルアートに変換される

空間構造を保持しながらボクセルアートへの完全な環境変換

真のマルチモーダル入力

テキストや単一画像のみを受け入れるモデルとは異なり、Gemini Omniは複数の入力タイプを同時に処理できます。テキストで方向性、画像で視覚参照、動画でモーションガイダンス、音声で音声同期を提供。モデルがすべての入力を一つの統一された動画出力に統合します。

プロンプト
Output (Example)

シダの葉に触れるたびにハープの音を追加。葉の構造を生物発光植物に変え、蛍が飛び回る

動画入力、テキスト指示、音声参照を組み合わせて同期出力を実現

実世界の科学知識を使用してタンパク質折りたたみプロセスを可視化し、正確な分子挙動をクレイアニメーションスタイルでレンダリング

実世界の知識を科学的可視化に適用し、クリエイティブなスタイルと組み合わせ

FAQ

よくある質問

Gemini Omni FAQ

Gemini OmniはGoogle DeepMindのマルチモーダル創作モデルで、Geminiの推論能力と動画生成を組み合わせています。従来のテキストから動画モデルとは異なり、マルチターン会話型編集、複数入力タイプの同時受け入れ、実世界の知識の活用をサポートします。

テキストプロンプト、最大7枚の参照画像、1つの動画クリップ(最大100MB、30秒)、音声IDを受け入れます。単一の生成で複数の入力タイプを組み合わせることができます。

はい。FireRed Image EditはGemini Omniで動画を生成するためのクレジットを提供しています。新規ユーザーは無料クレジットですぐに創作を開始できます。4/6/8/10秒の長さ、16:9と9:16のアスペクト比をサポート。

はい。Gemini Omniは自然言語による動画編集に優れています。ソース動画をアップロードし、変更したい内容を記述してください — 環境の変換、オブジェクトの置換、スタイルの変更、カメラ視点の調整、エフェクトの追加が可能です。

動画入力ファイルは100MB以下、30秒以内である必要があります。使用可能なトリム範囲は10秒を超えることはできません。画像ファイルは各20MB以下、生成あたり最大7枚。生成される動画は4、6、8、10秒です。

マルチターン編集では、各生成が前回の結果に基づいて構築されます。初期の創作から始め、フォローアップの指示で洗練 — アングルの変更、エフェクトの追加、アクションの修正、照明の調整 — モデルが前回との一貫性を維持します。

はい。FireRed Image Editを通じて生成された動画には商用利用権が付属しています。マーケティングコンテンツ、ソーシャルメディア、製品ショーケース、教育資料、プロの動画制作に適しています。

Testimonials

クリエイターのGemini Omniへの評価

マルチターン編集がGemini Omniを際立たせています。毎回ゼロから再生成する代わりに、シーンを段階的に洗練できます。プロンプトを書くのではなく、本当に演出している感覚です。

E

Elena Vasquez

クリエイティブディレクター

Elena Vasquez: “マルチターン編集がGemini Omniを際立たせています。毎回ゼロから再生成する代わりに、シーンを段階的に洗練できます。プロンプトを書くのではなく、本当に演出している感覚です。

Takeshi Mori: “元の動きを保持しながら動画スタイルを変換できるのは、コンセプトワークに非常に便利です。メタルとホログラムの変換は特に印象的です。

David Chen: “Gemini Omniは他のモデルにはないコンテキスト理解力があります。科学的可視化を求めると、漠然と科学的に見えるものではなく、実際に物理を正しく表現します。

他のAI動画モデルを探索

Seedance 2.0

Seedance 2.0

新着

Seedance 2.0はByteDanceの最先端AI動画生成モデルで、2026年2月に発表されました。統合型マルチモーダル音声動画共同生成アーキテクチャを採用し、テキスト、最大9枚の画像、最大3本の動画クリップ、最大3本の音声トラックという4つの入力モダリティを同時に処理できます。画期的な@-referenceシステムを使用すると、プロンプト内の特定の要素にタグを付け、アップロードした参照ファイルにバインドすることで、カメラの動き、キャラクターの外見、音声のリズム、視覚スタイルを細かく制御できます。出力は最大2K解像度に達し、多言語リップシンク、効果音、背景音楽を含むネイティブ同期音声に対応しています。

今すぐ試す
Grok Video

Grok Video

新着

Grok Video(Grok Imagine Video採用)は、Grokエコシステムに直接組み込まれたxAIの動画生成モデルです。独自のAuroraエンジンを搭載し、テキストプロンプトや静止画像を同期オーディオ付きのショート動画クリップに変換します。Grok Videoの特長はそのスピード——クリップを数分ではなく数秒で生成——に加え、リアルタイムWebデータアクセスによる最新かつ関連性の高いビジュアル参照にあります。プロンプトへの忠実性と自然な動きの一貫性を重視しており、迅速なソーシャルメディアコンテンツ、高速プロトタイピング、反復的なクリエイティブワークフローに最適です。

今すぐ試す

Gemini Omniで創作を始めよう

Gemini Omniのパワーを体験 — 無料オンライン

user 1
user 2
user 3
user 4
user 5

10,000+ users