Aller au contenu principal

Sora


Sora


Sora — модель искусственного интеллекта, предназначенная для генерации Full HD-видео по короткому текстовому описанию — промпту. Разработана компанией OpenAI, ранее выпустившей такие продукты, как DALL-E и ChatGPT. Выпущена 15 февраля 2024 года и находится в стадии ограниченного тестирования.

Первые крупные разработки в области генерации видео по текстовому описанию (text-to-video) были опубликованы в 2022 году. Тогда компаниями Meta и Google независимо друг от друга были представлены модели Make-A-Video, Phenaki и Imagen Video, позволяющие создавать короткие видеоролики по текстовому описанию и/или статичной картинке. Качество таких видео было невысоким. Так, Phenaki позволяла создавать видео с базовым разрешением 128×128 пикселей, Imagen — 1280×768 и максимальной продолжительностью 5,3 секунды. В январе 2024 года Google представила модель Lumiere, позволявшую генерировать видео в разрешении 512×512 пикселей и продолжительностью также до 5 секунд.

15 февраля 2024 года компания OpenAI официально представила модель Sora. Она представляет собой диффузионную модель, также создающую видео по текстовому описанию. Процесс генерации начинается со случайного шума, который постепенно преобразуется в изображение. Так же как и GPT, Sora имеет архитектуру трансформера, однако для представления информации вместо токенов использует пространственно-временные патчи — фрагменты, содержащие информацию о частях кадров и их изменении во времени.

Согласно заявлению производителя, Sora умеет генерировать видеоролики с максимальным разрешением 1920×1080 и максимальной продолжительностью 1 минута, что превосходит по качеству все предыдущие модели данного типа. В качестве демонстрации OpenAI представил несколько сгенерированных роликов, изображающих, в частности, гуляющих по заснеженному Токио людей, сидящего около свечи пушистого монстра и нескольких мамонтов, идущих через заснеженный луг. Помимо генерации видео по тексту, в качестве возможностей Sora заявлены дополнение уже существующих видеороликов и анимирование статичных изображений, изменение направления воспроизведения и склейка видеофрагментов между собой.

При высоком качестве генерации контента Sora иногда может допускать ошибки. Так, производитель в числе проблем нейросети называет неточное воспроизведение физики в сложных сценах. Также отмечаются проблемы с пониманием причинно-следственных связей: например, отсутствие следов зубов на печенье после того, как его надкусил человек. Кроме того, иногда у модели возникает путаница с ориентацией в пространстве и с воспроизведением длительных событий.

На данный момент Sora недоступна для широкого использования. С 15 февраля 2024 доступом к разработке могут воспользоваться тестировщики и специалисты по кибербезопасности для поиска уязвимостей, а также профессионалы в области визуального искусства.

Кейд Метц, обозреватель The New York Times, назвал опубликованные результаты работы Sora «потрясающими» и сравнил их с кадрами из голливудского фильма. Похожее мнение высказал и Wired, отметив также, что сгенерированные Sora видео всё же имеют свои недостатки.

Одним из главных опасений, высказываемых в адрес Sora, является потенциальная возможность использования технологии в целях дезинформации. Особенно опасным сценарием NBC News назвал создание высококачественных фейков для предвыборной пропаганды или в условиях глобальных конфликтов. Федеральная торговая комиссия США предложила объявить незаконной генерацию контента с участием реальных людей при помощи искусственного интеллекта. По словам OpenAI, компания работает над созданием инструментов, которые будут специальным образом помечать и распознавать видео, созданные ИИ, для предотвращения недобросовестного использования разработки.

Ещё одной проблемой, связанной с Sora, является возможное нарушение авторских прав в сгенерированных видео. По словам Билли Пиблса, одного из участников проекта, для обучения модели используется в том числе общедоступный контент. Ранее против OpenAI уже подавались судебные иски, при рассмотрении которых следует выяснить, является ли допустимым использование защищённого авторским правом общедоступного контента для обучения ИИ.


Text submitted to CC-BY-SA license. Source: Sora by Wikipedia (Historical)