paint-brush
ロシアの科学者が、画像の事前分布と潜在的拡散を利用した初のテキストから画像へのアーキテクチャを開発@autoencoder
303 測定値
303 測定値

ロシアの科学者が、画像の事前分布と潜在的拡散を利用した初のテキストから画像へのアーキテクチャを開発

長すぎる; 読むには

研究者たちは、新しい潜在拡散モデルを使用して自然に見える画像を生成する、Kandinsky と呼ばれるテキストから画像への生成モデルを開発しました。
featured image - ロシアの科学者が、画像の事前分布と潜在的拡散を利用した初のテキストから画像へのアーキテクチャを開発
Auto Encoder: How to Ignore the Signal Noise HackerNoon profile picture
0-item

著者:

(1) アントン・ラジガエフ、AIRI、スコルテック。

(2) アルセニー・シャクマトフ、Sber AI。

(3) アナスタシア・マルツェワ、Sber AI。

(4) ウラジミール・アルヒプキン、Sber AI。

(5)イゴール・パブロフ、Sber AI

(6)イリヤ・リャボフ、Sber AI

(7)アンジェリーナ・クッツ、Sber AI

(8) アレクサンダー・パンチェンコ、AIRI、スコルテック。

(9)アンドレイ・クズネツォフ、AIRIおよびSber AI

(10) デニス・ディミトロフ、AIRI、Sber AI。


編集者注: これは、画像の事前分布と潜在的拡散を組み合わせて設計された最初のテキストから画像へのアーキテクチャである Kandinsky の開発を詳述する研究の 8 部構成の第 1 部です。続きは以下をご覧ください。

リンク一覧


抽象的な

テキストから画像への生成は、現代のコンピューター ビジョンの重要な領域であり、生成アーキテクチャの進化を通じて大幅な改善を達成してきました。これらの中には、重要な品質向上を実証した拡散ベースのモデルがあります。これらのモデルは、一般的にピクセル レベルと潜在レベルのアプローチの 2 つのカテゴリに分けられます。私たちは、潜在拡散アーキテクチャの新しい探求である Kandinsky[1] を紹介します。これは、画像事前モデルの原理と潜在拡散技術を組み合わせたものです。画像事前モデルは、テキスト埋め込みを CLIP の画像埋め込みにマッピングするように個別にトレーニングされます。提案されたモデルのもう 1 つの特徴は、画像オートエンコーダ コンポーネントとして機能する、修正された MoVQ 実装です。全体として、設計されたモデルには 33 億のパラメーターが含まれています。また、テキストから画像への生成、画像融合、テキストと画像の融合、画像バリエーションの生成、テキスト誘導によるインペインティング/アウトペインティングなど、さまざまな生成モードをサポートするユーザー フレンドリなデモ システムも導入しました。さらに、Kandinsky モデルのソース コードとチェックポイントをリリースしました。実験的評価では、COCO-30K データセットで FID スコア 8.03 が示され、測定可能な画像生成品質の点で当社のモデルがオープンソースの最高のパフォーマンスを発揮することが示されました。

1 はじめに

非常に短期間で、テキストから画像へのモデルの生成能力が大幅に向上し、ユーザーには写真のようにリアルな品質、ほぼリアルタイムの推論速度、シンプルで使いやすい Web ベースのプラットフォームや洗練された AI グラフィック エディターなどの多数のアプリケーションと機能が提供されるようになりました。


この論文では、潜在拡散アーキテクチャ設計に関する独自の調査を紹介し、このダイナミックな研究分野に斬新で革新的な視点を提示します。まず、Kandinsky の新しいアーキテクチャとその詳細について説明します。また、モデルの機能を実装したデモ システムについても説明します。次に、画像生成品質に関して実行した実験を示し、既存のオープンソース モデルの中で最高の FID スコアを獲得しました。さらに、実施した以前のセットアップの厳密なアブレーション研究を紹介し、さまざまな構成を慎重に分析および評価して、最も効果的で洗練されたモデル設計に到達することができました。


私たちの貢献は次のとおりです。


• 画像事前分布と潜在拡散の組み合わせを使用して設計された、初めてのテキストから画像へのアーキテクチャを紹介します。


• FID メトリックに関して、Stable Diffusion、IF、DALL-E 2 などの最先端 (SotA) モデルに匹敵する実験結果を示し、既存のすべてのオープンソース モデルの中で SotA スコアを達成しました。


• 我々は、テキストから画像を生成するための最先端の手法を提案し、ソフトウェア実装して、トップクラスの手法の中でもユニークな事前学習済みモデルを公開しています。Apache 2.0 ライセンスにより、非商用および商用の両方の目的でモデルを使用することができます。2 3


• 提案手法に基づいて、テキストプロンプト(英語とロシア語をサポート)によるインタラクティブな画像生成に使用できるWeb画像エディタアプリケーションを作成し、インペインティング/アウトペインティング機能を提供します。4 ビデオデモはYouTubeでご覧いただけます。5


図 1: Kandinsky モデルの画像事前スキームと推論方式。


この論文は、CC BY 4.0 DEED ライセンスの下でarxiv で公開されています


[1] このシステムは有名な画家であり美術理論家であるワシリー・カンディンスキーにちなんで名付けられました。


[2] https://github.com/ai-forever/Kandinsky-2


[3] https://huggingface.co/kandinsky-community


[4] https://fusionbrain.ai/ja/editor


[5] https://www.youtube.com/watch?v=c7zHPc59cWU