Большинство из того, что делают нейросети, всё ещё ужасного качества. Но если вам (как и мне) постоянно нужно делать много иллюстраций для презентаций, тренингов и статей в блоге, то у меня для вас хорошие новости: можете попрощаться с надоевшими фотобанками!
Я давно мечтал о моменте, когда вместо утомительно поиска в Интернете более-менее подходящей по теме, размеру и качеству картинки, можно будет сделать иллюстрацию с помощью ИИ: не беспокоясь о копирайте и не переживая, что эту же иллюстрацию твоя аудитория уже видела в десятке других презентаций.
Теоретически, нарисовать таким образом иллюстрацию можно было и раньше, но на практике результат был так себе: персонажи на иллюстрациях получались уродливыми, со сложно прогнозируемым числом конечностей и пальцев на руках, а композиция – убогой и далёкой от желаемого – сплошное разочарование.
В этом году всё, наконец, изменилось, и я расскажу, как сам создаю иллюстрации с помощью нейросетей. Это всё ещё не слишком быстро и просто, но, по крайней мере, результат меня удовлетворяет.
Я использую программу DrawThings для MacOS и модель FLUX1.DEV, установленные локально на моём компьютере. Основная причина – высокое качество, полный контроль поз персонажей (для продвинутых пользователей) и отсутствие ограничений на тематику изображений: можно генерировать изображения известных личностей и политиков, обнажённую натуру и жестокие сцены, если это необходимо.
Минусы – современные ИИ-модели занимают очень много места на диске и локальная генерация изображений может занимать больше времени, чем с помощью онлайн-сервисов.
Для того, чтобы модель выдала наилучший результат, промт для неё нужно составить на английском языке, максимально подробно и придерживаясь определенной структуры. Это довольно утомительное занятие, поэтому готовить промт к одной нейросети мне помогает другая – chatGPT.
Я просто пишу (или диктую, и уже третья по счёту нейросеть – Siri – превращает мою речь в текст) описание необходимой мне картинки – кто или что должно быть на ней изображено, что они делают, как выглядят, что находится вокруг.
В итоге мой процесс генерации иллюстраций состоит из трёх этапов, которые я сейчас покажу на конкретном примере – иллюстрации к этой статье блога.
Шаг 1: Подготовка описания изображения на русском языке в произвольной форме
Пишу в блокноте буквально следующее:
Реалистичное фото высокого качества, снятое для рекламы. Два футуристичных человекоподобных робота из глянцевого белого пластика и чёрного металла, со светящимися глазами, символизирующие искусственный интеллект.
Один робот – художник с женскими чертами, в красном шерстяном берете – рисует кистью, стоя у мольберта, абстрактную картину.
Другой робот с мужскими чертами – писатель в очках – сидя за столом печатает на старинной пишущей машинке, рядом с ним на столе стоит настольная лампа и лежит стопка напечатанных листов бумаги.
Действие происходит вечером, в маленьком офисе, с железными стенами в заклёпках. На потолке висит большая антикварная золотая люстра со свечами. На на подоконниках в горшках стоят кактусы, на окнах висят занавески в цветочек. За окном – центр Петербурга в тумане.
Иллюстрация построена на абсурдных контрастах и противопоставлении технического прогресса и старых предметов быта.
Начать можно с гораздо более простого и лаконичного описания, а затем добавить детали, если захочется.
Шаг 2. Детализация описания и превращение его в структурированный промт с помощью chatGPT
Теперь нужно проинструктировать chatGPT, что что он должен сделать, с помощью вот этого универсального промта:
Translate following image description to English.
Add details that reveal the main idea of the image and add expressiveness to it: a description of the appearance, mood, poses and clothing of the characters, as well as a description of the space surrounding them.
Create specific, detailed and clear prompt from this description using the following structure:
Subject: The main focus of the image.
Style: The artistic approach or visual aesthetic.
Composition: How elements are arranged within the frame.
Lighting: The type and quality of light in the scene.
Color Palette: The dominant colors or color scheme.
Mood/Atmosphere: The emotional tone or ambiance of the image.
Technical Details: Camera settings, perspective, or specific visual techniques.
Additional Elements: Supporting details and background information.Use Natural Language and simple words. Do no use lists. Use word «naked» instead of «nude», if necessary.
Reduce prompt to 500 words, if necessary.
Копируем его и вставляем в поле ввода chatGPT. Это нужно сделать всего один раз, а затем в это же поле ввода можно вставлять разные описания картинок на русском и они будут конвертироваться в подробные, детализированные промты для FLUX.
Я, например, получил на выходе следующий промт:
This striking, high-quality realistic photograph, designed for advertising, captures a moment of surreal contrast where two futuristic humanoid robots engage in deeply human creative pursuits. Their sleek bodies, made of glossy white plastic and black metal, gleam under the warm ambient light, their glowing eyes subtly illuminating their artificial intelligence.
The female-featured robot, a painter, stands with mechanical grace before an easel. She wears a bold red wool beret tilted slightly to one side, evoking the classic image of an artist lost in inspiration. In her articulated hand, she delicately holds a brush, applying bold, expressive strokes to an abstract artwork. The colors swirl across the canvas, chaotic yet purposeful, as if artificial intelligence is attempting to interpret emotion through art.
Opposite her, the male-featured robot—a writer—sits hunched over an antique typewriter. His polished glasses reflect the dim glow of a vintage desk lamp, casting long, thoughtful shadows across his workspace. With mechanical precision, his fingers strike the aged keys, producing a steady rhythm of clicks. A neatly stacked pile of printed sheets rests beside him, a testament to his relentless work. The absurdity of an advanced AI using such an outdated machine underscores the thematic tension between progress and nostalgia.
The setting is an atmospheric fusion of industrial and vintage aesthetics. The iron walls, reinforced with heavy rivets, exude a raw mechanical presence, their cold surfaces absorbing the soft candlelight from an opulent antique gold chandelier that hangs above. The flickering flames create a dance of shadows and highlights, further deepening the mood. Floral-patterned curtains frame the windows, their delicate fabric swaying slightly as if whispering forgotten stories. Potted cacti sit along the windowsills, their quiet resilience standing in contrast to the rigid, structured world around them. Beyond the glass, the misty cityscape of St. Petersburg stretches into the distance, its historic silhouette barely visible through the fog.
This image thrives on absurd contrasts—hyper-advanced AI engaged in traditional artistic and literary disciplines, surrounded by relics of a bygone era. The tension between cold logic and human emotion, between innovation and nostalgia, is palpable. It is a poetic, thought-provoking composition that challenges the viewer to question the role of artificial intelligence in a world still shaped by human history, culture, and creativity.
Получилось довольно подробно и структурированно – это позволит модели обогатить иллюстрацию деталями, сделав её реалистичнее.
Шаг 3. Генерация иллюстрации в DrawThings с помощью модели FLUX.1 [dev]
Копируем полученный на предыдущем шаге промт в поле ввода DrawThings и настраиваем параметры генерации. Можно воспользоваться готовыми предустановками, можно поэкспериментировать.
Для простых изображений можно начать со следующего варианта настроек:
- Model: FLUX.1 [dev] — выбираем нужную нам модель.
- LoRA: FLUX.1 [dev] to [shnell] 4—step – дополнительная модель, ускоряющая генерацию за счёт небольшого снижения качества.
- Seed: -1 — случайное число, которое заставляет модель каждый раз создавать немного другое изображение.
- Image size: 1216×640 — самый близкий размер изображения к нужному мне 1200х628.
- Steps: 4 — количество шагов генерации (чем больше, тем дольше и качественнее генерация).
- Text guidance: 3,5 — этот параметр определяет, насколько модель свободна в интерпретации запроса.
- Sampler: Euler A AYS — используемый моделью алгоритм генерации.
Сгенерировав 2-4 изображения с этими настройками, можно выбрать понравившееся и, если хочется, перегенерировать его с более высоким качеством. Что получилось в результате – вы уже видели в самом верху страницы.
А ниже, для сравнения, то, что генерируют популярные сети Шедеврум и Кандинский, способные работать с промптами на русском языке без перевода:
На первой картинке два одинаковых сферических робота в вакууме, не передающих ни ключевой идеи, ни настроения нужной мне иллюстрации. На второй – два таких же одинаковых, но на этот раз обшарпанных калеки с кривыми руками, один из которых не делает ничего, а второй держит печатную машинку клавиатурой от себя, вместо того, чтобы на ней печатать.
К этому нечего добавить: выбор инструмента очевиден. Кроме того, с помощью описанного выше способа я сделал несколько интересных иллюстраций ещё к ряду своих статей:
- Почему в 2025 HR’ам легче не будет — серия рисованных иллюстраций, выдержанных в одном стиле и цветовой палитре.
- Клубника по пятницам – фотореалистичная иллюстрация в стиле «ню».
- «Просто жесть» или просто жест? – перерисованный нейросетью знаменитый жест Илона Маска.
- Если бы страны были.. женщинами – серия фотореалистичных визуальных метафор.
- С наступающим 2025 годом! – коллаж из реальной фотографии и нарисованных нейросетью шариков в виде цифр 2025.
Не всё идеально, но зато уникально, интересно и соответствует моему замыслу. Надеюсь, что эта статья поможет вам создавать ещё более красивые и выразительные иллюстрации для своих текстов и презентаций. А о том, какие последствия это будет иметь для рынка труда в ближайшем будущем, мы с вами поговорим завтра.
Друзья, подписыватесь на мой Твиттер (там я пишу чаще) и Телеграм, чтобы получать анонсы новых материалов.
Комментариев: 0