Улучшение имиджей не равно увеличению разрешения

машинное обучение в обработке фото и видео
Ответить
Vesee
Сообщения: 46
Зарегистрирован: 28 апр 2012, 06:29

Улучшение имиджей не равно увеличению разрешения

Сообщение Vesee »

Пробовал такие проекты, как Topaz Gigapixel AI, Upscayl, Neat Image, PortraitPro, BigJpg и прочее. Как бы да - раздувают программы картинки по разрешению, но посредственное качество остается весьма посредственным даже на увеличенном разрешении.
Что вы можете посоветовать в плане улучшения качества фотографии, возможно видео, на пике современных технологий?
Аватара пользователя
mihas
Администратор
Сообщения: 1375
Зарегистрирован: 18 авг 2004, 16:58
Откуда: Москва
Контактная информация:

Улучшение имиджей не равно увеличению разрешения

Сообщение mihas »

Мне понравились различные реализации технологии GAN (generative adversarial networks), это все генеративно-состязательные нейросети, как раз созданные ради качественного улучшения картинки, иногда с фокусировкой на лицах, иногда общего направления. Из того, что я пробовал по теме машинного обучения и остался доволен результатами, это DFDNet, GFPGAN, Real-ESRGAN, CodeFormer, NMKD Stable Diffusion GUI. Про каждый проект создам отдельную тему в ближайшее время, каждый достоин подробного разбора. Так завяжется дискуссия и возможно энтузиасты мне подскажут что-то еще интересное по теме использования нейросетей и машинного обучения в повышении качества статических изображений и старых видеоклипов.
К сожалению, когда речь заходит о машинном обучении и серьезной многочасовой (если не многодневной) загрузке процессора CPU и графического акселератора GPU (видеокарты), на бесплатных аккаунтах колаба гугла и прочих таких проектов по большей части не запустить. И вот к примеру, Stable Diffusion позволяет натренировать модель самостоятельно, но минимальное требование - 24 гига видеопамяти (не просто системной памяти, это важно, а на борту GPU). У меня на сегодняшний день различные GPU с 6, 8, 12 гигами памяти, но с 24 гигами пока нет, такие карты в широком доступе появились менее года назад, еще в июле 2022 года были вполне актуальны топовые видюхи с 12 гигами на борту, а не с 24-мя. Тем не менее, вроде как есть сервис онлайн тренировки моделей для Stable Diffusion, но там странная премодерация контента, и ничего, кроме каких-то безобразных чебурашек из рогожи натренировать нельзя. А вот упомянутые выше другие проекты менее требовательны к железу, им хватает условно порой и 4 гигов видеопамяти для шустрой работы, для того, чтобы набить руку. Я знаю, что у Nvidia есть большой проект по улучшению лиц, но там модель высокого разрешения, там тренировка модели на 16 Теслах будет длиться неделю, а на четырех - месяц. Поэтому при выборе той или иной нейросети нужно также оценивать возможности собственных компьютерных мощностей, возможно не бесплатно арендовать вычислительное время онлайн, сталкиваясь постоянно с цензурой и прочими глюками, возможно постепенно приобретать собственные вычислительные мощности. Причем как правило, быстрый GPU на быстрой шине PCIe потребует и быстрого процессора. У меня был короткий момент, когда я пытался юзать RTX 2080 на слабом i3 проце - и хилый проц тормозил весь процесс на видюхе заметно. Обновление проца до i7 привело систему к сбалансированности и возможности GPU раскрылись в полной мере. RTX 3060 я уже сразу ставил в сиcтему с процом i9, чтобы максимально сбалансировать скорости расчетов. Большинство проектов машинного обучения в полной мере задействует нехилые возможности графических процессоров, порой они могут просчитать и на CPU задачу, но происходит это в десятки раз медленнее, чем на GPU. Поэтому, всерьез врубаясь в тему машинного обучения для улучшения имиджей, нужно быть готовым к тому, что ваши компьютеры потребуют апгрейдов и некоторых капиталовложений. И да, все это как правило работает на GPU Nvidia и как правило не работает на AMD, и в эту гонку за ресурсы GPU судя по всему включился и Apple со своими новыми компами M2 (вся фишка именно в архитектуре шины GPU), правда пока отстает от Nvidia по производительности поколения на два. Технология, которая позволяет программистам подключать графический процессор к тяжелым расчетам, называется CUDA, проприетарная технология Nvidia. Большинство таких проектов написаны на питоне, некоторые скомпилированы, некоторые нет. Мы все их рассмотрим и обсудим, с примерами, с инструкциями, с полученными результатами. Открываю этим вашим постом раздел Нейросети чтобы новая большая тема не потерялась среди других.
Ответить

Вернуться в «Нейросети»