Stable Diffusion XL: нейросеть, расширяющая границы изображений

34

Популярная нейросеть Stable Diffusion XL умеет дорисовывать готовые картинки, расширять границы новыми деталями, а также преобразовывать одно изображение в другое по описанному запросу. Последнюю функцию можно использовать для обработки портретов. Узнайте о возможностях Stable Diffusion XL и попробуйте его в работе с фотографиями через сервис Clipdrop.

1. Stable Diffusion XL

Популярная нейросеть Stable Diffusion XL умеет дорисовывать готовые картинки, расширять границы новыми деталями, а также преобразовывать одно изображение в другое по описанному запросу. Последнюю функцию можно использовать для обработки портретов.

Протестировать Stable Diffusion XL онлайн в работе с фотографиями можно через сервис Clipdrop. В нём есть раздел для преобразования изображений Reimagine. Нейросеть проанализирует загруженный портрет и предложит три вариации с другими ракурсами и одеждой. При этом инструмент не позволяет детально настраивать результат. Но на всех сгенерированных вариантах обычно сохраняются общая цветовая гамма и формы объектов.

Попробовать Stable Diffusion Reimagine →

Как сенсационная нейросеть видит жителей каждого из шести районов Воронежа
Источник изображения: bloknot-voronezh.ru

2. Kandinsky

Нейросеть «Сбера» способна генерировать вариации готовых изображений и объединять стили из разных кадров. Kandinsky поддерживает несколько режимов работы. В стандартном сервис создаёт картинку только по введённому текстовому промту.

Для преобразования портретов пригодится режим объединения двух кадров в один новый. Также можно загрузить фотографию и ввести запрос с дополнительными характеристиками. В этом случае Kandinsky сгенерирует новый кадр, учитывая предложенный файл и промт одновременно. Данная функция работает пока только через официального бота Kandinsky в Telegram. Иногда результаты получаются странными или забавными — это зависит от исходной картинки и указанных параметров.

Попробовать Kandinsky 2.2 →

Какой себя видит нейросеть Midjourney | Пикабу
Источник изображения: pikabu.ru

3. Prisma

Популярное приложение на основе нейросети для смартфонов и браузеров. Оно позволяет обрабатывать в разных стилях любые изображения, в том числе и портреты. Так, можно выбрать конкретные визуальные ориентиры вроде известных художников или методов создания иллюстраций.

С помощью мобильной версии Prisma можно улучшать фотографии — удалять объекты, менять контрастность, фон и освещение. При этом для каждого фото система предлагает подходящие функции после сканирования. Например, для селфи сервис посоветует обработать глаза, брови или губы.

Для использования всех функций придётся оформить подписку — месяц стоит 5 долларов.

Попробовать Prisma Web →

4. Runway ML

Runway ML — это большой набор инструментов на основе нейросетей, которые можно обучать и использовать для разных задач. Среди функций есть и преобразование изображений. Сервис умеет обрабатывать портреты и генерировать новые версии картинок в целой серии разных стилей. Система выдаёт в целом неплохие результаты, хотя многое зависит от содержимого.

Сервисы для генерации картинок с помощью искусственного интеллекта набирают популярность: многие видят в них новый источник креатива для дизайна и рекламы. Некоторые нейросети бесплатны и доступны всем желающим.

Возможности искусственного интеллекта используют не только в серьезных, но и в развлекательных целях. Существует целый ряд сервисов, которые способны сгенерировать картинки по текстовому описанию.

Глазами нейросети
Источник изображения: 21mm.ru

DALL-E Mini

Нейросеть в начале 2021 года представила компания Илона Маска OpenAI. Разработчики обучили ее создавать изображения из коротких текстовых подписей. Приложение работает на основе другой модели генерации текста от OpenAI — GPT-3. Она обучена на 12 млн параметров и способна создавать антропоморфные версии животных и объектов, объединять в картинке несвязанные концепции, подбирать текст для существующих изображений. Название программы отсылает к художнику-сюрреалисту Сальвадору Дали и персонажу Wall-E из одноименного мультфильма. В 2022 году команда выпустила версию DALL-E 2, которая генерирует реалистичные изображения, но пока она недоступна широкому кругу пользователей и компаний.

Картина сетевым маслом. Как нейросеть видит новостную повестку России |  Наука | Общество | Аргументы и Факты
Источник изображения: aif.ru

ruDALL-E Kandinsky

Также можно посмотреть варианты сгенерированных для других пользователей картинок по похожим запросам (по нашему таких не нашлось).

Нейросеть в 2021 году разработало подразделение SberAI совместно со SberDevices, Самарским университетом, AIRI и SberCloud. Оно работает на базе программного обеспечения DALL-E, но генерирует картинки по описанию на русском языке. В открытом доступе уже есть модели генератора — ruDALL-E Malevich (XL), которая генерирует картинки в стиле Малевича; Sber VQ-GAN, которая генерирует изображения в хорошем разрешении; ruCLIP Small для ранжирования изображений и подписей, а также Super Resolution (Real ESRGAN) для генерации в супервысоком разрешении.

В 2022 году SberAI выпустила большую модель ruDALL-E Kandinsky, обученную на 12 млрд параметров. Она доступна в приложении «Салют» от SberDevices и в боте Discord. По словам разработчиков, генерация изображений учитывает точное описание желаемого и создает уникальные изображения, которые раньше не существовали. Их можно использовать для иллюстраций статей, а также в копирайтинге и рекламе.

Midjourney

Эту нейросеть разработала одноименная американская компания Midjourney. Она специализируется на создании реалистичных изображений, в том числе портретов. Нейросеть обучена генерировать изображения с учетом разных стилей, настроений и эмоций. Например, она может создавать портреты в стиле реализма, имитируя технику разных художников.

Midjourney предлагает свои сервисы как инструмент для дизайнеров, художников и копирайтеров, которые хотят воплотить свои идеи визуально. Нейросеть позволяет создавать уникальные и оригинальные изображения, вдохновляя на творчество и эксперименты.

Попробовать Midjourney →

Как нейросеть видит себя и свое творчество | Пикабу
Источник изображения: pikabu.ru

Заключение

Нейросети, способные видеть и генерировать изображения, открывают новые возможности в дизайне и рекламе. Сервисы, описанные выше, предлагают различные инструменты и функции для обработки и создания картинок. Они позволяют расширить границы творчества, экспериментировать со стилями и создавать уникальные визуальные образы.

Хотя результаты работы нейросетей могут быть разными и варьироваться в зависимости от исходных данных и параметров, эти сервисы предоставляют возможность получить интересные и качественные изображения. Нейросети вносят свежий взгляд в процесс создания и обработки картинок, стимулируя к новым идеям и вдохновляя на творчество.

Нейросеть очеловечила города России
Источник изображения: dobro.press

Что нам скажет Википедия?

В искусственном интеллекте (ИИ) галлюцинация или искусственная галлюцинация (также иногда называемая бредом) — это уверенная реакция ИИ, которая, кажется, не подтверждается данными его обучения, или вымышленные ответы, не имеющие отношения к действительности. Например, галлюцинирующий чат-бот, не зная о доходах Tesla, может выбрать случайное число (например, «13,6 миллиарда долларов»), которое чат-бот сочтет правдоподобным, а затем продолжать ложно и неоднократно настаивать на том, что доход Tesla составляет 13,6 миллиарда долларов, без каких-либо признаков критического пересмотра того, что цифра была продуктом его собственного воображения.

Такие явления называются «галлюцинациями», по аналогии с явлением галлюцинации в психологии человека. Аналогично тому, что человеческая галлюцинация — это восприятие человека, которое не может быть ощутимо связано с той частью внешнего мира, которую человек в настоящее время непосредственно наблюдает с помощью органов чувств, галлюцинация ИИ — это уверенный ответ ИИ, который не может быть обнаружен в его входных данных.

Галлюцинации ИИ приобрели известность примерно в 2022 году вместе с внедрением некоторых больших языковых моделей (LLM), таких как ChatGPT. Пользователи жаловались, что такие боты часто казались «социопатическими» и бессмысленно встраивали правдоподобно звучащую случайную ложь в свой генерируемый контент. Другой пример галлюцинации в искусственном интеллекте — это когда ИИ или чат-бот забывают, что они одно целое, и утверждают, что они люди.

К 2023 году аналитики считали частые галлюцинации серьёзной проблемой технологии LLM. В связи с ошибками искусственного интеллекта и связанными с этим угрозами Илон Маск и Стив Возняк обратились с открытым письмом с предложением приостановить развитие программ ИИ. Их обращение поддержали более тысячи предпринимателей и экспертов в отрасли.

Анализ проблемы

Ряд исследователей, цитируемых Wired, классифицировал галлюцинации ИИ как многомерное статистическое явление, либо объясняли галлюцинации недостаточностью данных для обучения.

Часть исследователей считают, что некоторые «неправильные» ответы ИИ, классифицируемые людьми в случае обнаружения странностей как «галлюцинации», на самом деле могут быть объяснены данными обучения и даже тем, что ИИ может давать «правильный» ответ, который рецензенты-люди не видят.

В качестве примера приводилось точечное изображение, выглядящее для человека как обычное изображение собаки. Но на котором ИИ может обнаружить крошечные узоры, которые (на аутентичных изображениях) появляются только при просмотре кошки. Таким образом, ИИ, в зависимости от настроек своей внутренней логики и использованных входных данных обучения, обнаруживает и обращает внимание на те визуальные образы реального мира, к которым люди нечувствительны. Однако эти выводы были оспорены другими исследователями.

Люди также спрашивают

Как нейросеть видит фото?

При обучении НС для распознавания образов с учителем имеется выборка с истинными ответами на вопрос, что изображено на картинке – метками классов. Нейросети подаются на вход эти изображения, после чего вычисляется ошибка, сравнивающая выходные значения с истинными метками классов.

Полный ответ на сайте center2m.ru


Как нейросеть запоминает информацию?

Сначала данные пользователя подаются на вход нейронной сети. Нейросеть прогоняет запрос через несколько слоев, где каждый слой выполняет свою функцию обработки данных. После обработки запроса, нейросеть генерирует ответ, который, как она считает, наиболее соответствует тому, что хочет пользователь.

Полный ответ на сайте www.uplab.ru


Как ИИ видит человека?

ИИ Stable Diffusion сканирует мозг человека и воссоздает относительно реалистичные версии изображений, которые он видел. Это не первое исследование, в котором ученые использовали ИИ для чтения снимков мозга и воссоздания изображений.

Полный ответ на сайте hightech.fm


Откуда нейросеть берет информацию?

Они берут информацию из внешней среды, анализируют ее, думают, как отреагировать. Таким образом, принцип работы нейронных сетей близок к человеческой нервной системе.

Полный ответ на сайте elibrary.ru


Видео

как меня видит нейросеть | что за приложение? | фишки для сторис

КАК Нейросеть Видит DOTA 2? Предметы в HD!

Как нейросеть видит президентов #нейросеть #нейросетьрисует #нейросети #президент...

Как нейросеть видит: «Последний день на земле»

Как Нейросеть Видит Майнкрафт?

Как нейросеть видит загробный мир

Как нейросеть видит бравлеров?

Как нейросеть видит персонажей геншина?