OpenAIは2024年12月9日(現地時間)、「12 Days of OpenAI」イベントの3日目として、動画生成AI「Sora」を正式に公開しました。
Soraは文章や画像、動画を入力すると最大20秒の動画を作れる生成AIで、2つの動画を融合させて新しい動画を作るなど、多彩な6つの機能を搭載しています。
これまでOpenAI社内や選ばれたクリエイターしか利用できませんでしたが、12月9日からはChatGPTの有料プラン「Plus」(月額20ドル)と、12月5日に発表された「Pro」(月額200ドル)の加入者もSoraが利用可能です。
この記事では、大きく注目を集める「Sora」について、その性能や特徴を紹介していきます。
「Sora」とは:テキストや動画などから動画を作成できる生成AI
Soraはいわゆる「Text to Video」(テキストから動画生成)機能を持つ動画生成AIです。最大解像度1080p、最長20秒の動画を生成でき、横長・縦長・正方形のいずれの形式にも対応しています。
ただし、契約しているプランによって、使える機能や制限が異なるので注意が必要です。
<プランごとの機能や制限>
- ChatGPT Plus (月額20ドル)
- 最大720pの解像度、最長5秒の動画を月に最大50本まで生成可能
- ChatGPT Pro (月額200ドル)
- 最大1080pの解像度、最長20秒の動画を月に最大500本まで生成可能
- 生成した動画からウォーターマーク(透かし)を除去するオプションを利用可能
なお、生成した動画はすべてSora製であることを識別可能で、生成元の検証機能も備えています。また、悪意のある不正使用(例えば、児童虐待や性的ディープフェイク)を防ぐ対策が強化されている徹底した安全対策が特徴です。
現在はディープフェイク対策の一環として、人物を含む画像や動画のアップロードに制限がかかっており、対策を進めながら機能解放していくとしています。
ちなみに、OpenAIの広報担当者によると、「Sora」とは日本語の「空」に由来しており、無限に広がる空と同じく「無限の可能性を想起させるツール」という意味が込められているそうです。
Soraに搭載された6つの機能
Soraは単なる動画生成AIではなく、動画制作をサポートする以下の6つの便利な機能を搭載しています。
<Soraに搭載された6つの機能>
- 「Remix」:動画の要素を置換・削除・再構成することで、新しい動画を作成
- 「Re-cut」:気に入ったシーンを切り取り、その前後を生成・拡張することで動画を作成
- 「Storyboard」:タイムライン形式で1つの動画を作成
- 「Loop」:動画をトリミングして、シームレスに繰り返すループ動画を作成
- 「Blend」:2つの動画を混ぜて1つの動画を生成
- 「Style presets」:動画内のモデルはそのままに、モノクロ写真風など動画のスタイルを変更
「Remix」:動画の要素を置換・削除・再構成することで、新しい動画を作成
Soraに搭載された機能の1つである「Remix」は動画の要素を置き換えたり、消去したり、再構成したりすることで、新しい動画を作成します。
実際に、「図書室の中に入るためフランス風のドアを開ける」というプロンプトから生成された上の動画に対し、「図書館を宇宙船に変えてください」と命令すると、下のような動画が作成されました。
「Re-cut」:気に入ったシーンを切り取り、その前後を生成・拡張することで動画を作成
2つ目の「Re-cut」は、動画内の気に入ったシーンを切り取り、その前後を生成することで動画を作成する機能です。上のカワウソの動画では4,5秒目のシーンを切り取り、その前後を生成・拡張しています。
「Storyboard」:タイムライン形式で1つの動画を作成
3つ目の「Storyboard」は、タイムライン形式で1つの動画を作成できる機能です。具体的には、プロンプトを別々に指定することで、それらをつなげた1つの動画が生成できます。
たとえば、次のようにプロンプトを入力すると、以下の動画が1つになって生成されました。
- 0~114フレーム:「遠くに宇宙船が停泊している広大な赤い風景」
- 114~324フレーム:「宇宙船の中から外を見るとカウボーイが中央に立っている」
- 324~440フレーム:「ニット生地のマスクで囲まれた宇宙飛行士の目に近づく」
「Loop」:動画をトリミングして、シームレスに繰り返すループ動画を作成
4つ目の「Loop」では、なめらかにループし続ける動画を作成することができます。
「Blend」:2つの動画を混ぜて1つの動画を生成
5つ目の「Blend」は、異なる2つの動画を読み込ませると、AIがそれらの動画の要素を読み込んで1つの新しい動画を生成する機能です。
読み込む動画はAIが生成したものでも、ユーザーが用意したものでも対応でき、ミックスする動画の重みづけ(バランス)はユーザーが任意に指定することができます。しかし、現在の課題として、出力される動画は入力した動画より短くなるという制約があります。
なお、上の動画は下の2つの動画を「Blend」することで生成されたものです。
「Style presets」:動画内のモデルはそのままに、モノクロ写真風など動画のスタイルを変更
Soraの6つ目の機能が、動画に特有のエフェクトをつけられる「Style presets」です。たとえば、雪原を歩くマンモスとサイに対し、「段ボールとペーパークラフト」とエフェクトをつけることで、上の動画が作成されています。
Soraの課題と将来展望
Soraは2024年2月にプレビュー版が発表されて以来、多くの改良が施され、新たに「Sora Turbo」と呼ばれる高性能バージョンを「sora.com」のドメインで提供し始めました。
しかし、OpenAIはまだ技術的な課題が残っていると指摘しています。具体的には「非現実的な物理現象の生成や、長時間にわたる複雑なアクションにうまく対応できないことがある」と述べているとのこと。
OpenAIはSoraの技術を社会に広めると同時に、安全対策や利用基準を確立するための時間を確保することが重要だと述べています。
今回の発表の背景:「12 Days of OpenAI」イベント
動画生成ツール「Sora」の一般公開は、「12 Days of OpenAI」イベントの一環として発表されました。このイベントでは営業日の12日間にわたり、毎日新しい発表が行われ、実際に次のような内容が公表されています。
- 1日目: 新プラン「ChatGPT Pro」と最新モデル「GPT-4o1」の公開
- 2日目: 強化学習ファインチューニングの導入
- 3日目: 動画生成ツール「Sora」の一般公開
- 4日目: ChatGPTの新機能「Canvas」の一般公開
- 5日目: AppleデバイスとChatGPTの統合
- 6日目: 高度な音声モードのアップデート
- 7日目: 新機能「Projects in ChatGPT」の実装
- 8日目: ChatGPT searchを全ユーザーに公開
- 9日目: OpenAI、「開発者向け」o1新機能を公開!
まとめ
OpenAIが新たに発表した「Sora」は、動画生成に新たな可能性をもたらす画期的なツールです。クリエイターが効率的かつ創造的にコンテンツを作成できるだけでなく、安全性や倫理面も考慮された設計が際立っています。特に、悪用を防ぐための対策が実装されている点は、AI技術の社会実装における模範例といえるでしょう。
今後も「12 Days of OpenAI」の発表や、Soraの技術的進化がどのように展開していくのか、さらには動画制作の未来をどのように変革していくのかに注目が集まります。