Phenakiのサムネイル画像

テキストからビデオを生成するモデル。

無料

詳細

Phenakiは、テキストから数分の動画を生成するAIモデルです。静止画とプロンプトから動画を生成することもできる。提案されたビデオエンコーダ・デコーダは、時空間品質とビデオあたりのトークン数の点で、現在文献で使われているフレーム単位のベースラインをすべて凌駕している。テキストからビデオトークンを生成するために、事前に計算されたテキストトークンを条件とする双方向マスク変換器を用いている。生成されたビデオ・トークンはその後、実際のビデオを作成するためにデトーケン化される。