DALL-E

DALL-E – программа искусственного интеллекта, которая создает высококачественные изображения из текстовых описаний, запущенная в январе 2021 г.

Программа использует уже созданную модель GPT-3 Transformer (программа обработчик языка), которая использует 12 миллиардов параметров для интерпретации входных данных и генерирует соответствующее изображений из запроса. DALL-E может создавать изображения реалистичных объектов, а также объектов, которые не существуют в реальности.

Многие нейронные сети начиная с 2000-х годов способны генерировать реалистичные изображения. Однако DALL-E может генерировать их из подсказок на естественном языке человека, которые нейронная сеть хорошо понимает и выводит результат без каких-либо сбоев или неточностей.

Компания OpenAI не опубликовала исходный код программы, хотя «контроллер» DALL-E доступен на официальном веб-сайте компании, где можно просмотреть примеры работы алгоритма. Одна из целей компании OpenAI заключается в том, чтобы дать языковым моделям улучшенное понимание повседневных концепций, которые используются людьми. Также есть мнение, что подобная программа генерации изображений может повлиять на индустрию цифрового рисунка, таким образом снизится необходимость в найме дизайнеров, художников для реализации даже самых сложных художественных идей.

История создания

Нейронную сеть DALL-E анонсировала компания OpenAI 5 января 2021 года.

В апреле 2022 года OpenAI анонсировала DALLE 2, заявив, что она может создавать фотореалистичные изображения из текстовых запросов, а также создан редактор, позволяющий вносить простые изменения в изображения. На момент анонса было заявлено, что программное обеспечение все еще находится в стадии исследования, и доступ к нему ограничен предварительно отобранными бета-пользователями. Модель все еще может допускать серьезные ошибки, в том числе ошибки, которые не допустил бы человек.

Архитектура

Модель Generative Pre-trained Transformer (GPT) была первоначально разработана OpenAI в 2018 году с использованием архитектуры Transformer. Первая версия GPT была доработана и появилась версия GPT-2 в 2019 году. В 2020 году она была снова доработана и появилась версия GPT-3, имеющая 175 миллиардов параметров.

Модель DALL-E представляет собой мультимодальную реализацию GPT-3 с 12 миллиардами параметров, которая преобразует текст в изображения, при этом обучаясь на парах текст-изображение из Интернета. Также используется система компьютерного зрения CLIP, которая была обучена на более чем 400 миллионах пар изображений и текста, взятых из Интернета и связывая изображения со всеми подписями, что позволяет впоследствии идентифицировать алгоритму объекты на изображениях.

Принцип работы

DALL-E способна генерировать или даже создавать изображения в различных стилях, от фотореалистичных изображений до картин и смайликов, иконок. Программа также может "манипулировать и переставлять" объекты на своих изображениях. Одной из способностей, отмеченных его создателями, было правильное размещение элементов дизайна в новых композициях без четких инструкций.

DALL-E продемонстрировала широкий спектр способностей своей демо-версией стандартных композиций, но также часть работ была посвящена сюрреалистичным или причудливым изображениям, такими работами как "обезьяна космонавт", "дельфин-астронавт летающий в космосе", "кресло в форме авокадо".

Таким образом наблюдалось развитие у DALL-E навыков визуального мышления, достаточных для решения сложных задач.

Фотогалерея

Изображения созданные DALL-E^[1]^[2]
Запрос: Птица приземлившаяся на нос оранжевого полосатого кота.
Запрос: Фотография земли, которую Зевс держит в руках, как будто это шар.
Запрос: Астронавт-енот, мечтающий о звездах.
Запрос: "Кресло в стиле авокадо"
Запрос: Создание изображений по запросу "Часы в стиле черепашки"
Запрос: Создание изображений по запросу "Кресло в стиле клубники"

Примечание

Искусственный интеллект шагает по планете. Многие технологические компании, как Google, Amazon, NVIDIA и другие занимаются разработкой подобного искусственного интеллекта. Технические возможности компьютерных систем растут с каждым годом в то время, как человеческий труд может стать менее востребованным. В данном случае нужны ли будут в будущем художники, дизайнеры, иллюстраторы. Что думаете по этому поводу? Оставляйте свои комментарии на странице обсуждения.

Используемые источники

[1] Изображения созданные нейронной сетью DALL-E

[2] Официальная страница DALL-E instagram (Запрещённая соц. сеть в РФ)

[1]

[2]