Барак Обама ругает Дональда Трампа последними словами, а спикер
палаты представителей конгресса США Нэнси Пелоси, кажется, пьяна.
Оба случая, вызвавшие политические скандалы, зафиксированы на
видео, но эти видео подделки. Сейчас каждый такой фейк вызывает
волну обсуждений, но через 1015 лет изображения и видео,
сгенерированные нейросетями, станут частью нашего повседневного
опыта. Сможем ли мы защитить себя от недобросовестного
использования своих образов? Захотим ли знать, какое из окружающих
лиц настоящее, а какое сгенерировано искусственным интеллектом? Как
создаются дипфейки и какое будущее их ждет?Что такое дипфейки и как
их создаютДипфейками называют фотореалистичные изображения и видео,
созданные глубокими нейросетями. Этот термин применяют
журналисты,исследователи пользуются им гораздо реже.Нейросети уже
способны генерировать реалистичные человеческие лица и голоса.
Яркий тому пример проекты GAN 2.0 и Deep Style GAN от Nvidia. На их
основе был создан сайт This Person Does Not Exist, который при
обновлении странички каждый раз генерирует новое, несуществующее
лицо. Эти изображения с трудом можно отличить от реальных
фотографий людей. То же самое можно сказать и о речиБарака Обамы,
сгенерированнойнейросетью и представленной на конференции SIGGRAPH
2017 года: распознать в ней подделку на глазпрактически
невозможно.С точки зрения математических операций нейросети,
которые создают статичные картинки и видео, не отличаются друг от
друга. Однако они решают разные задачи. При создании видео
необходимо создавать последовательность изображений: движущаяся
рука человека не должна резко дергаться от кадра к кадру, а
освещение меняться (кроме случаев, когда это задумано режиссером).
Связность переходов обеспечивают модификации алгоритма, которые при
формировании нового кадра учитывают то, что было в предыдущем.Чтобы
человек на видео был трехмерным, необходимо загрузить в нейросеть
фотографии объекта, сделанные с разных ракурсов. Снимки должны быть
максимально качественными и более-менее одинаковыми: если взять
фотографии одного и того же человека с бородой и без, результат
окажется плачевным. Поэтому опасаться, что злоумышленники создадут
дипфейк на основе вашего образа, взяв фото из соцсетей, не стоит.
Для тогочтобы создать качественное искусственное изображение на
основе фотографий, придется сделать несколько снимков, снятых с
разных ракурсов, вручную создать 3D-модель, синтезировать множество
отдельных изображений этой 3D-модели и загрузить их в
нейросеть.Когда дипфейки нужныПроизводители современных чат-ботов и
антропоморфных роботов сознательно избегают полного сходства робота
с человеком.Во-первых, чтобы робот мог починить холодильник, ему не
нужно человеческое лицо. Японский робототехник Хироси Исигуро,
который создает идеально похожих на людей роботов, заявляет, что он
это делает лишь для того, чтобы продемонстрировать возможности
современных технологий. Никакой полезной нагрузки это сходство не
несет.Во-вторых, системы генерации изображений пока неидеальны:
имитации всегда рано или поздно выдают себя. Дипфейки обладают
отличной от человека мимикой и двигаются не совсем так, как это
делает реальный человек, например, слишком часто моргают или крутят
головой. Любому, кто это замечает, становится жутко. Этот
психологический эффект называется uncanny valley (зловещая долина).
Чтобы пользователи с ним не сталкивались, производители уходят от
попыток полной имитации человеческой внешности.Когда дипфейки
опасныТехнология не может самостоятельно решать, что хорошо, а что
плохо.Действия технологии напрямую зависят от того, для достижения
каких целейона была запрограммирована. Например, искусственный
интеллект IBM Project Debater участвует в дебатах. По уровню
мастерства он не уступает чемпионам мира по дебатам, программе под
силу убедить многих. Это не может не пугать, ведь цель компьютера
задана другим человеком.Основной страх, связанный с дипфейками,
заключается в возможности менять на видео изображение одного
человека на изображение другого. Высокореалистичные фейковые фото и
видео могут использоваться для дезинформации, мошенничества,
провокаций и кибербуллинга. Злоумышленник может заменить лицо
человека на видео и обвинить его в правонарушении, шантажировать
родственников пропавшего без вести сгенерированным фото или видео,
влиять на решения избирателей вбросами фейковых видео в Сеть.В 2019
году дипфейки впервые вызвали геополитические потрясения. В конце
мая Дональд Трамп опубликовал ролик с председателем конгресса США
Нэнси Пелоси, в котором она выглядела пьяной. Скорость видео была
уменьшена на 25% по сравнению с оригиналом, а голос изменен так,
чтобы казалось, будто она говорит скомканно. После появления этого
видео конгресс США запустил расследование и заявил, что такие видео
могут нанести непоправимый ущерб выборам 2020 года. С развитием
технологий ситуация может стать хуже.Можно ли отличить фейковое
изображение на глазПервые несколько секунд человек не может
сказать, какая перед ним картинка:сгенерированная или реальная. Но
если присмотреться, отличить сгенерированные изображения от
реальных на глазпока еще возможно.В первую очередьнадо обращать
внимание на размер изображения. Создавать реалистичные картинки
высокого разрешения гораздо сложнее, чем маленькие, поэтому большим
изображениям все еще можно доверять.Во-вторых, присматривайтесь к
лицам, чтобы найти ненатуральные асимметрии. Например, разрез
левого глаза может не соответствовать разрезу правого. В-третьих,
одежда или украшения даются нейросетям гораздо хуже, чем лица.
В-четвертых, дипфейки часто выдает нереалистичный или слишком
абстрактный и размытый фон.Отдельный класс дипфейковых подходов
включает в себя замену изображения лица одного человека на другое.
Это явление называют еще faceswap. Присмотревшись, можно заметить
шов или несоответствие освещения лица освещению всего снимка.А на
видео нужно следить за тем, как меняется лицо человека с течением
времени. Странное моргание, к примеру, это признак дипфейка.Помимо
вышеперечисленных способов, дипфейк можно отследить по родословной
файла. Для этого можно использовать стандартные методы верификации
например, статистику шумов изображения, которая позволяет вычислить
модель фотоаппарата, с помощью которого был сделан кадр.
Как распознать дипфейк с помощью нейросетиНо уже сейчас некоторые
фейковыекартинки низкого разрешения неотличимы от реальных.
Прогресс идет быстро,через 1015 лет и высокореалистичные видео в
формате 4К и выше не будут нас удивлять. Более того, при помощи
генеративных нейросетей мы сможем, например, побродить в
виртуальной реальности по фотореалистичному миру, где происходят
разные события. Насколько быстро развиваются технологии создания
фейков, настолько же или даже еще быстрее должны развиваться
технологии, которые их разоблачают.Для простых пользователей
специалисты разрабатывают примитивные анализаторы видео, которые
будут ориентироваться на моргание и движения кадыка. Но пока все
попытки создать систему распознавания приводят к тому, что очень
много реальных видео опознаются как дипфейковые, потому что
некоторые люди обладают чертами, свойственными искусственно
созданным изображениям. Это может быть нетипичное моргание, борода
странной формы, асимметричные черты лица. Кажется, это лучший
пример из мира постправды: данные, которыми мы располагаем, пока не
позволяют обучить хорошую антифейковую программу, несмотря на точто
самих фейков становится все больше.Распознавание дипфейков это в
первую очередьзадача нейросетей. Чтобы научить их это делать,
необходимо загрузить в нейросеть обучающую выборку, где будут и
подлинные изображения, и искусственно созданные. Это позволит
нейросетям научиться определять сложные признаки, которые отличают
фейки от настоящих изображений. В наши дни все проекты такого типа
классифицируют реальные изображения как фейки, и эту проблему
специалистам еще предстоит преодолеть.Чтобы научить нейросети
отличать фейки от реальных изображений, необходимо загрузить в них
очень много данных. Только в 2019 году началось создание
репозиториев наборов изображений для оценки качества распознавания
фейков. Процесс обучения нейросетей небыстрый, поэтому отличать
фейки от настоящих изображений они научатся только через
двагода.Существует и проблема переобучения. Дело в том, что
нейросети, как правило, учатся на качественных изображениях, а
работать в поляхзачастую приходится с менее качественным контентом.
В таких случаях специалисты запускают в работу сразу несколько
нейросетей, которые вместе принимают участие в распознавании, а
затем выносят коллегиальное решение. Теоретическиисследователи
могли бы обучать нейросети и на некачественных изображениях, но как
это правильно делать будет понятно только через 510 лет.Интересно,
что каждое новое эффективное решение для распознавания фейков будет
приводить к их улучшению. В некотором смысле получается
метасостязательная сеть, работающая на уровне сообщества.Дипфейки и
законЧтобы защититься от дипфейков, распознавать их недостаточно.
Нужно создать безопасные механизмы передачи данных с помощью
индивидуальной цифровой подписи, которая позволит подтвердить или
опровергнуть реальность той или иной информации. Но подлинность
цифровой подписи это еще одна нерешенная задача.Соцсети уже сейчас
начинают бороться с распространением дипфейков. Одни удаляют
ролики, созданные нейросетями, другие сокращают им охваты. Люди,
чей образ без их ведома использовали, апеллируют к законам о защите
авторских прав, но в ответ создатели дипфейков говорят о нарушении
свободы слова.В будущем нас могут ожидать интересные правовые
коллизии. Регуляторы защитят права пользователей, но вместе с тем
их представления о правомочности будут меняться под действием
технологий. Например, государство может решить, что пользователь
должен знать, видит он перед собой изображение настоящего объекта
или сгенерированный образ. А пользователь может запротестовать,
ведь, например, в видеоигре неважно, сгенерированы фоновые пейзажи
или нет. Право и вообще нормативная сфера всегда немного не
успевают за техническими изменениями.Впроекте Краткая история
будущего совместно сЯндекс.Кьюрассказываем оглавных явлениях
будущего, скоторыми мыдолжны научиться
сосуществовать.Дополнительные материалы:This Person Does Not
ExistВидео You Wont Believe What Obama Says In This Video /
youtube.comВидео Pelosi videos manipulated to make her appear drunk
are being shared on social media / youtube.comAshish Kumar. Ethics
in Generative AI : Detecting Fake Faces in Videos / Towards Data
Science. 06.2019Andreas Rossler, Davide Cozzolino, Luisa Verdoliva,
Christian Riess, Justus Thies, Matthias Niessner. FaceForensics++:
Learning to Detect Manipulated Facial Images / The IEEE
International Conference on Computer Vision. 2019Franois Chollet.
Xception: Deep Learning with Depthwise Separable Convolutions /
IEEE Conference on Computer Vision and Pattern Recognition. 2017