Stable Diffusion – найпотужніша нейромережа за всю історію генеративного мистецтва. Розбираємось, як її можна використовувати в креативах.
Нейромережі поступово захоплюють світ. Це вже не пустощі або розвага, а повноцінний робочий інструмент для багатьох компаній. Сьогодні розповімо про Stable Diffusion, що це за нейромережа і як її використовувати.
Що таке Stable Diffusion?
Stable Diffusion – це модель генеративного штучного інтелекту, за допомогою якої можна перетворити текст та деталізуючи підказки на унікальні фотореалістичні зображення. Stable Diffusion входить до трійки найпопулярніших нейромереж для генерації зображень. Розробником SD є компанія Stability AI та її генеральний директор Імад Мостак. Перша Stable Diffusion була запущена у 2022 році і її можна використовувати для створення не лише зображень, а й відеороликів та анімацій. Модель заснована на технології дифузії та використовує прихований простір, що значно знижує вимоги до обробки. Крім того, її можна запускати на настільних комп’ютерах чи ноутбуках, оснащених графічними процесорами. За допомогою трансферного навчання модель Stable Diffusion можна налаштувати під свої конкретні потреби, використовуючи для цього всього п’ять зображень.
Публічний реліз Stable Diffusion – це, без сумніву, найважливіша і значуща подія у світі графічних нейромереж. Ми впевнені це лише початок.
«Оскільки наші моделі швидше, краще і специфічніше, можна очікувати, що їхня якість зросте в усіх напрямках. Не лише зображення, але з наступного місяця й аудіо, а далі ми перейдемо до 3D та відео. Мова, код і більше машинного навчання вже зараз…» – написав у Twitter засновник Stable Diffusion Імад Мостак.
Розглянемо переваги Stable Diffusion:
- можливість безкоштовного використання в консолі та безкоштовні тарифи на сайтах та сервісах
- можна використовувати чужі картинки, вони не мають авторських прав, є громадським надбанням та доступні відповідно до ліцензії CC0 1.0 Universal Public Domain Dedication
- відкритий вихідний код
- висока якість згенерованих картинок
- наявність різних варіантів роботи: за допомогою консолі, через сайти, програми або Телеграм бот
- ліцензія Creative ML OpenRail-M, що припускає комерційне використання
- версії з графічним інтерфейсом мають розширені налаштування.
Серед недоліків можна виділити:
- автор не має авторських прав на створене зображення, це суспільне надбання
- робота з вихідним кодом або програмою на ПК вимагає високих потужностей комп’ютера
- для роботи з вихідною версією потрібні навички програмування та налаштування програм
- програми для ПК та сайти не завжди оперативно оновлюються та використовують останню версію.
Як в креативах можна використовувати Stable Diffusion?
Можливості Stable Diffusion забезпечують перетворення тексту на зображення та зображення на зображення, генерацію графічних творів, редагування зображень та створення відео. Розглянемо детальніше.
- Перетворення тексту на зображення. Це найпоширеніший спосіб використання Stable Diffusion. Модель створює зображення за допомогою текстової підказки. Ви можете створювати різні зображення, змінюючи значення затравки для генератора випадкових чисел або змінюючи режим шумоподавлення для різних ефектів.
- Перетворення зображення на зображення. Ви можете створювати нові зображення за допомогою вхідного зображення та текстової підказки. Часто для цього використовується ескіз та підказка.
- Створення графіки, ілюстрацій та логотипів. Використовуючи набір підказок, можна створювати ілюстрації, графіку та логотипи у різних стилях. Звичайно, неможливо заздалегідь визначити результат, хоча ви можете керувати створенням логотипу за допомогою ескізу.
- Редагування та ретушування зображень. За допомогою AI Editor завантажте зображення і використовуйте гумку, щоб замаскувати область, яку потрібно відредагувати. Потім, згенерувавши підказку, що визначає, чого ви хочете досягти, відредагуйте зображення або домалюйте деталі.
- Створення відео. Функція Deforum від GitHub, дозволяє створювати короткі відеокліпи та анімації за допомогою Stable Diffusion. Інше застосування – додавання різних стилів у відео. Можна також анімувати фотографії, створюючи видимість руху, наприклад, течії води.
Важливо: Розробники Google досягли суттєвого прориву, забезпечуючи продуктивність моделі Stable Diffusion при генерації зображень на мобільному телефоні за 12 секунд. Хоча модель Stable Diffusion має близько 1 мільярда параметрів, що потребує великих ресурсів. Тобто моделі AI-генерації, що працюють на мобільних телефонах, стають ближчими до реальності.
Нещодавно нейромережа оновилася до нової версії, яку самі розробники називають“найдосконалішою моделлю генерації зображень на сьогодні”.Stable Diffusion 3 Medium має декілька важливих оновлень порівняно зі своїми попередниками:
- продуктивніша
- стабільніша
- точніша як за якістю генерації, так і за точністю дотримання заданих промтів.
А ще вона вміло управляється не тільки із зображеннями, а й з текстом. Проте основна фішка Stable Diffusion 3 Medium – це здатність розв’язувати зазвичай складні завдання для ШІ-генераторів, включно зі створенням фотореалістичних зображень (навіть рук та облич) і тексту на картинках без артефактів і орфографічних помилок. Нейромережа тепер рідше помиляється, але добре працює тільки з англійською мовою.
Висновок
Stable Diffusion топова нейромережа для генерації зображень. Може бути вагомими інструментом для роботи та комерційного використання. SD можна застосовувати різними способами: у консолі, на сайтах, додатках та сервісах, за допомогою чат-ботів. Якщо комп’ютер слабкий, підійдуть сайти, якщо потужний і є навички програмування, можна працювати в консолі. Радимо Stable Diffusion використовувати тим, кому актуальна генерація зображень, використання ШІ чи креативів. Вона чудово підійде, як перша нейромережа для роботи і порадує якістю.