Инструмент LLaVA (Large Language and Vision Assistant) – это инновационная большая мультимодальная модель, предназначенная для визуального и языкового понимания общего назначения. Он сочетает в себе vision encoder с большой языковой моделью (LLM) Vicuna и обучается от начала до конца. LLaVA демонстрирует впечатляющие возможности чата, имитируя производительность мультимодального GPT-4, и устанавливает новый уровень точности при выполнении научных задач контроля качества.
- Бесплатный сервис
- У системы распознавания изображений GPT-4 появился конкурент.
- С открытым исходным кодом и совершенно бесплатный для использования.
Оценка редакции:
9 из 10