Kandinsky 2.0 предоставляет уникальный способ создания изображений с помощью текстовых описаний на любом из 101 языков или их комбинаций. Также возможно дополнять неполные изображения и формировать картины на основе эскизов.
Система Kandinsky 2.0 основана на диффузионных моделях с условием. Основной принцип заключается в поэтапном воссоздании изображения из шума, двигаясь в направлении максимизации вероятности для реальных изображений. Нейронная сеть UNet предсказывает степень движения на каждом обратном шаге диффузии. Условие на текст достигается путем добавления слоев внимания в архитектуру UNet. Отметим, что обучение UNet проводилось в латентном пространстве сети KL-AE, а не непосредственно в пространстве изображений.
Обучение Kandinsky 2.0 проходило в три этапа:
- Предварительное обучение на изображениях размером 256×256
- Обучение на изображениях размером 512×512
- Обучение на сильно отфильтрованных данных (100M) с разрешением 512×512
Для решения задач дополнения (inpainting) и продолжения (outpainting) изображений использовались дополнительные случайные маски.
Модель имеет 2 миллиарда параметров, что позволяет развертывать ее на стандартной GPU. Высокая скорость вывода обеспечивается за счет того, что текстовые векторы могут быть вычислены отдельно на CPU.
- Бесплатный тариф 120 страниц, 10 MB, 3 PDF документа в день, 50 вопросов в день
- ИИ вытащит главное, ответит на вопросы и многое другое.
- Идеально для учёбы и работы с большим объёмом информации.
- Достаточно задать вопрос и нейронка всё кратко изложит. Попросите отвечать на русском для корректной работы.
Оценка редакции:
9 из 10