過去 1 年間で、ChatGPT の人気により、人工知能企業 OpenAI が世界的に知られるようになりました。短期間で、 ChatGPT は Facebook や Instagram を超え、100 万人のユーザーに到達する最速のツールとなりました。今日に至るまで、テキストを作成できる ChatGPT が一般的に使用されています。
DALL-E により、同社はすでにテキストを使用して画像やビデオを生成する進歩を示していました。このアイデアは ChatGPT に似たツールですが、テキストの代わりに画像を返します。昨年、DALL-E は Microsoft の Bing 検索エンジンに実装されました。 Microsoft は ChatGPT と DALL-E の両方を実装する権利を取得しました。
今週、彼らは Sora の導入により、生成人工知能の使用において新たな一歩を踏み出しました。 Sora は、ChatGPT や DALL-E と同様に、指示付きのテキストからリアルなビデオを作成できるツールです。 OpenAIは発表の中で、Soraは物理世界を現実的にシミュレートできると述べた。
生成人工知能
人工知能の領域は広く、用途に応じてさまざまな技術が存在します。近年、生成人工知能と呼ばれる分野が注目を集めています。生成 AI は、テキストからビデオまでの新しいデータを生成するために構築されたモデルに対応します。
生成 AI は、科学者のイアン グッドフェローが生成ニューラル ネットワーク (GAN) を導入した 2014 年に人気が高まり始めました。 GAN はゲーム理論の手法を使用して、ノイズから新しい画像を生成しました。 Google が Transformers と呼ばれる新しいタイプのアーキテクチャを導入したときに画期的な出来事が起こりました。
トランスフォーマー
GPT の T が何を意味するのか考えてみると、それはこれらのモデルを構築するために使用された技術、つまりトランスフォーマーによるものです。 2017 年に導入されたアーキテクチャの一種です。トランスフォーマーの本来の用途は、自然言語処理アプリケーションでした。
トランスフォーマーの違いは、アテンションまたはアテンション メカニズムと呼ばれる層にあります。このレイヤーは、関数がデータのさまざまな領域に注意を払うようにする数学的ツールを使用します。このレイヤーを使用すると、モデルは最も重要な部分に基づいてタスクを実行できます。
さらに、シーケンスを処理するためにトランスフォーマーが構築されました。文は、複雑な関係を持つ一連の単語です。トランスフォーマーは文内の単語間の関係を理解できます。その後、トランスフォーマーは、画像を形成する時間シーケンスまたはピクセルのシーケンスに適用されました。
テキスト、画像、ビデオを生成する
近年、いくつかの企業や研究者が、生成人工知能のためのトランスの使用に焦点を当てています。トランスフォーマーを使用してアーキテクチャを学習する能力には、高い可能性があることが示されています。トランスフォーマーに基づいて公開ツールが作成されるまでに時間はかかりませんでした。
これらのツールの中で最も有名なのは、OpenAI によって導入された ChatGPT です。 ChatGPT はアーキテクチャにトランスフォーマーを使用しており、テキストからテキスト、つまりテキストからテキストへというモデルとして知られています。しかし、すぐに OpenAI は、トランスフォーマーでも動作し、テキストから画像に変換するタイプの DALL-E を導入しました。今回、Sora はテキストをビデオに変換するツールとして登場します。
ソラ
OpenAI によると、Sora はビデオを通じて物理世界を理解し、シミュレートする方法を教えられたモデルです。 Sora は、テキスト入力の指示だけで、非常にリアルな最長 1 分間のビデオを生成できます。プロジェクトの公式ページでは、モデルが作成したいくつかのビデオが公開されました。
このページで OpenAI は、このモデルが複数のキャラクター、特定の種類の動き、正確な被写体と背景の詳細を含む複雑なシーンを生成できると主張しています。さらに、物理世界における環境や物の存在を考慮したシーンを作成できることも利点です。
世界を作成する
同社は、このモデルが物理的および 3 次元の世界を理解する能力を提供するため、このモデルを「世界シミュレーター」と呼んでいます。モデルは、この理解に基づいて、入力としてテキスト命令が与えられると、この世界の他のバージョンを作成できます。ただし、OpenAI は、Sora がまだテスト段階にあり、限界があることを認めています。
制限の一部は、たとえば、混乱を招く空間的側面に関連しています。カメラにどのような画像を作成してほしいかを説明すると、Sora は位置を理解するのが難しいかもしれません。拡散した間違いの1つは、ソラが考古学者の発掘を模倣したビデオの中で、あたかも砂であるかのようにプラスチック製の椅子を作成したことだった。




