Как стать автором
Обновить

Генерация изображения в Stable Diffusion по простому скетчу

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров9.2K

Введение

Как известно, генерация в нейросети Stable Diffusion осуществляется по текстовому описанию с использованием различных обученных моделей. Кроме того, в качестве первичного источника можно использовать произвольное изображение (генерация по скетчу). Подробно об установке и подробностях работы можно ознакомиться в многочисленных статьях и видеообзорах в интернете. Отмечу только, что в работе нейросети при генерации используется цветовой шум – это стало отправной точкой моего небольшого исследования, которым я хочу с вами поделиться.

В процессе работы с нейросетью мною были использованы как текстовые описания (промты), так и скетчи – примитивные наброски, описывающей некую общую концепцию будущего изображения. При генерации по скетчу в настройках нейросети можно задавать значение параметра «Denoising strength» (принимает значения от 0 до 1). Параметр указывает силу влияния наброска на первичную генерацию изображения. Чем ближе значение к единице, тем меньше влияние. Как показала практика, при значениях ниже 0.5 практически на всех моделях и при любых прочих параметрах генерации, финальное изображение максимально упрощалось и стремилось к наброску. При значениях в диапазоне от 0.5 до 0.6 чаще получались картинки в мультяшном стиле, при этом негативные промты на результат влияния почти не оказывали. Реалистичные модели, как правило, при низких значениях дают результаты с большим количеством искажений, при больших – сценарий финального изображения очень быстро уходит от того, что изображено на наброске.

Первоначально, при создании скетча я стремился максимально точно показать положение фигур или частей тела, формировал примитивные композиции. Но чем сложнее были наброски, тем труднее было получить в Stable Diffusion желаемый результат. Особенно это касалось мелких деталей, которые приходилось потом дорабатывать дополнительными проходами генерации в режиме Inpaint.

В какой-то момент меня посетила идея: а что, если в качестве скетча использовать не осмысленные изображения, а некий шум, максимально примитивный набор цветовых пятен. Для работы в Stable Diffusion использовалась сборка от AUTOMATIC1111

Промт (одинаковый для всех скетчей):

associations, masterpiece, 8k, detailed

Параметры генерации:

  • Steps: 25

  • Sampler: DPM++ 2M Karras

  • CFG scale: 7

  • Size: 512×512

  • Denoising strength: 0.62 - 0.675

Для улучшения финального результата использовалась Lora "Detail tweaker" и расширение ADetailer

Результаты получились довольно интересными. Итак.

Набросок 1

Результат генерации
Модель Art Universe, Seed: 1654881968
Модель Art Universe, Seed: 1654881968
Модель Art Universe, Seed: 3931922218
Модель Art Universe, Seed: 3931922218
Модель CyberRealistic, Seed: 1063730015
Модель CyberRealistic, Seed: 1063730015

Набросок 2

Результат генерации
Модель Epic Realism, Seed: 582712724
Модель Epic Realism, Seed: 582712724
Модель Art Universe, Seed: 2929912603
Модель Art Universe, Seed: 2929912603
Модель Art Universe, Seed: 556240507
Модель Art Universe, Seed: 556240507

Выводы

Различные модели выдают отличающиеся результаты, не всегда получается что-то интересное, порой приходится дорабатывать изображение в Inpaint. Но следить за процессом интересно, так как никогда точно не знаешь, что получится на выходе. Пока по наблюдениям можно сказать следующее:

  • большое количество размытых пятен часто даёт эффект полного расфокуса, так что желательно наличие пятен, имеющих чёткие границы

  • светлые зигзагообразные линии чаще приводят к появлению на изображении человека (обычно девушки, причем иногда не совсем одетой)

  • худшие результаты получаются на светлом однотонном фоне c малым количеством одноцветных чётких пятен. Чаще всего в кадре появляются невнятные фигурки, а то вообще какая-то абстракция, лишённая смысла

  • интересные результаты дают вертикальные линии на фоне размытых разноцветных пятен

  • лучше всего себя показывает модель Art Universe, Epic Realism и Dreamshaper 8

Ещё больше скетчей и результатов есть в моём телеграмм-канале. Эксперименты продолжаются.

Теги:
Хабы:
Всего голосов 12: ↑8 и ↓4+4
Комментарии8

Публикации

Истории

Ближайшие события

Конференция «Я.Железо»
Дата18 мая
Время14:00 – 23:59
Место
МоскваОнлайн
Антиконференция X5 Future Night
Дата30 мая
Время11:00 – 23:00
Место
Онлайн
Конференция «IT IS CONF 2024»
Дата20 июня
Время09:00 – 19:00
Место
Екатеринбург