Kandinsky 2.0 - российская нейросеть генерация изображения.

Kandinsky 2.0 предоставляет уникальный способ создания изображений с помощью текстовых описаний на любом из 101 языков или их комбинаций. Также возможно дополнять неполные изображения и формировать картины на основе эскизов.

Система Kandinsky 2.0 основана на диффузионных моделях с условием. Основной принцип заключается в поэтапном воссоздании изображения из шума, двигаясь в направлении максимизации вероятности для реальных изображений. Нейронная сеть UNet предсказывает степень движения на каждом обратном шаге диффузии. Условие на текст достигается путем добавления слоев внимания в архитектуру UNet. Отметим, что обучение UNet проводилось в латентном пространстве сети KL-AE, а не непосредственно в пространстве изображений.

Обучение Kandinsky 2.0 проходило в три этапа:

Предварительное обучение на изображениях размером 256×256
Обучение на изображениях размером 512×512
Обучение на сильно отфильтрованных данных (100M) с разрешением 512×512

Для решения задач дополнения (inpainting) и продолжения (outpainting) изображений использовались дополнительные случайные маски.

Модель имеет 2 миллиарда параметров, что позволяет развертывать ее на стандартной GPU. Высокая скорость вывода обеспечивается за счет того, что текстовые векторы могут быть вычислены отдельно на CPU.

Бесплатный тариф 120 страниц, 10 MB, 3 PDF документа в день, 50 вопросов в день

ИИ вытащит главное, ответит на вопросы и многое другое.

Идеально для учёбы и работы с большим объёмом информации.

Достаточно задать вопрос и нейронка всё кратко изложит. Попросите отвечать на русском для корректной работы.