В Google создали нейросеть, способную редактировать фотографии по описанию

20.10.2022

0 15 Less than a minute

Google

Создана программа для автоматического редактирования фотографий по текстовому описанию. Статья с описанием программы опубликована в репозитории arXiv.org.

В последние несколько лет появилось множество алгоритмов на основе нейросетевых технологий, способных генерировать фотореалистичные изображения или видеозаписи. Исходной информацией для подобных алгоритмов служит короткое текстовое описание.

Теперь Михаль Ирани из компании Google и его коллеги создали систему редактирования изображений, работающую на схожем принципе. Работа программы состоит из трех этапов. Человек загружает исходное изображение и пишет текстовое описание, что с ним надо сделать, например, фотографию сидящей птицы и текст «летящая птица». На первом этапе эта фраза превращается в эмбеддинг, а затем оптимизируется так, чтобы сгенерированное на его базе изображение было похоже на исходное. На втором этапе уже сама диффузионная генеративная нейросеть оптимизируется так, чтобы в ответ на оптимизированный эмбеддинг генерировать изображения, похожие на оригинал. А на третьем этапе происходит линейная интерполяция между исходным и оптимизированным эмбеддингами, а результат подается на оптимизированную нейросеть. Тесты показали, что такая схема позволяет менять только нужные детали на изображении и оставляет в практически неизменном виде остальные.

Ранее физики смогли превратить чистую воду в золотистый металл.

Источник