ChatGPT 企業の OpenAI が世界をシミュレートできる AI を導入

過去 1 年間で、ChatGPT の人気により、人工知能企業 OpenAI が世界的に知られるようになりました。短期間で、 ChatGPT は Facebook や Instagram を超え、100 万人のユーザーに到達する最速のツールとなりました。今日に至るまで、テキストを作成できる ChatGPT が一般的に使用されています。

DALL-E により、同社はすでにテキストを使用して画像やビデオを生成する進歩を示していました。このアイデアは ChatGPT に似たツールですが、テキストの代わりに画像を返します。昨年、DALL-E は Microsoft の Bing 検索エンジンに実装されました。 Microsoft は ChatGPT と DALL-E の両方を実装する権利を取得しました。

今週、彼らは Sora の導入により、生成人工知能の使用において新たな一歩を踏み出しました。 Sora は、ChatGPT や DALL-E と同様に、指示付きのテキストからリアルなビデオを作成できるツールです。 OpenAIは発表の中で、Soraは物理世界を現実的にシミュレートできると述べた。

生成人工知能

人工知能の領域は広く、用途に応じてさまざまな技術が存在します。近年、生成人工知能と呼ばれる分野が注目を集めています。生成 AI は、テキストからビデオまでの新しいデータを生成するために構築されたモデルに対応します。

生成人工知能は、既存のデータの特性とプロパティを学習して、このタイプのデータをさらに生成するようにトレーニングされます。

生成 AI は、科学者のイアングッドフェローが生成ニューラルネットワーク (GAN) を導入した 2014 年に人気が高まり始めました。 GAN はゲーム理論の手法を使用して、ノイズから新しい画像を生成しました。 Google が Transformers と呼ばれる新しいタイプのアーキテクチャを導入したときに画期的な出来事が起こりました。

トランスフォーマー

GPT の T が何を意味するのか考えてみると、それはこれらのモデルを構築するために使用された技術、つまりトランスフォーマーによるものです。 2017 年に導入されたアーキテクチャの一種です。トランスフォーマーの本来の用途は、自然言語処理アプリケーションでした。

トランスフォーマーの違いは、アテンションまたはアテンションメカニズムと呼ばれる層にあります。このレイヤーは、関数がデータのさまざまな領域に注意を払うようにする数学的ツールを使用します。このレイヤーを使用すると、モデルは最も重要な部分に基づいてタスクを実行できます。

さらに、シーケンスを処理するためにトランスフォーマーが構築されました。文は、複雑な関係を持つ一連の単語です。トランスフォーマーは文内の単語間の関係を理解できます。その後、トランスフォーマーは、画像を形成する時間シーケンスまたはピクセルのシーケンスに適用されました。

テキスト、画像、ビデオを生成する

近年、いくつかの企業や研究者が、生成人工知能のためのトランスの使用に焦点を当てています。トランスフォーマーを使用してアーキテクチャを学習する能力には、高い可能性があることが示されています。トランスフォーマーに基づいて公開ツールが作成されるまでに時間はかかりませんでした。

これらのツールの中で最も有名なのは、OpenAI によって導入された ChatGPT です。 ChatGPT はアーキテクチャにトランスフォーマーを使用しており、テキストからテキスト、つまりテキストからテキストへというモデルとして知られています。しかし、すぐに OpenAI は、トランスフォーマーでも動作し、テキストから画像に変換するタイプの DALL-E を導入しました。今回、Sora はテキストをビデオに変換するツールとして登場します。

ソラ

OpenAI によると、Sora はビデオを通じて物理世界を理解し、シミュレートする方法を教えられたモデルです。 Sora は、テキスト入力の指示だけで、非常にリアルな最長 1 分間のビデオを生成できます。プロジェクトの公式ページでは、モデルが作成したいくつかのビデオが公開されました。

https://t.co/7j2JN27M3W

このページで OpenAI は、このモデルが複数のキャラクター、特定の種類の動き、正確な被写体と背景の詳細を含む複雑なシーンを生成できると主張しています。さらに、物理世界における環境や物の存在を考慮したシーンを作成できることも利点です。

世界を作成する

同社は、このモデルが物理的および 3 次元の世界を理解する能力を提供するため、このモデルを「世界シミュレーター」と呼んでいます。モデルは、この理解に基づいて、入力としてテキスト命令が与えられると、この世界の他のバージョンを作成できます。ただし、OpenAI は、Sora がまだテスト段階にあり、限界があることを認めています。

制限の一部は、たとえば、混乱を招く空間的側面に関連しています。カメラにどのような画像を作成してほしいかを説明すると、Sora は位置を理解するのが難しいかもしれません。拡散した間違いの1つは、ソラが考古学者の発掘を模倣したビデオの中で、あたかも砂であるかのようにプラスチック製の椅子を作成したことだった。

海の下に住んでいますか？同社は2027年に水中住居を発売する予定

ChatGPT 企業の OpenAI が世界をシミュレートできる AI を導入

生成人工知能

トランスフォーマー

テキスト、画像、ビデオを生成する

ソラ

世界を作成する

2024年の小麦収穫：期待か懸念か？ Diego Portalanza が GEOGLAM と CONAB からのデータを分析

太陽の活動がピークに達しました！黒点の数は過去20年間で最高

科学者たちは、ケトジェニックダイエットで膵臓腫瘍を「飢餓状態にさせる」ことができると信じている