
Автор: Виктор Зайковский
Вы наверняка видели, как Том Круз показывает странные фокусы в Тиктоке, Дональд Трамп играет Сола Гудмана в сериале «Лучше звоните Солу», Барак Обама выступает на публике, оскорбляя знаменитостей, или Илон Маск поет «Земля в иллюминаторе». Это и есть так называемые дипфейки (от английского deepfake, или глубокая подделка).
Современные технологии позволяют сгенерировать речь конкретного человека, которую тот никогда не произносил, вставить самого человека в какое-либо видео, в котором он никогда не снимался, и это будет выглядеть предельно реалистично. На дипфейки то и дело ведутся как отдельные журналисты, так и крупные СМИ. Но есть и позитивные примеры применения данной технологии. Давайте же разберемся, как все это работает, как будет развиваться и к каким последствиям приведет.
С чего все начиналось?
Слово deepfake – сочетание слов deep learning («глубокое обучение») и fake («подделка»). Глубокое обучение – форма искусственного интеллекта, при которой алгоритмы, вдохновленные человеческим мозгом, известные как нейронные сети, приобретают новые навыки, обрабатывая огромные объемы данных. В основе глубокой подделки лежит форма глубокого обучения, известная как генеративные состязательные сети. Две нейронные сети работают как бы друг против друга, чтобы создать наиболее реалистичное видео и звук. Одна сеть, генератор, является творческой частью. Ей передаются большие объемы данных, например, изображения лица знаменитости, и ставится задача искусственно сгенерировать такое же лицо. Другая сеть, дискриминатор, должна определить, является ли изображение, полученное от генератора, поддельным, и сообщить, что с ним не так. Когда дискриминатор отклоняет видео, генератор пытается снова. Этот процесс продолжается до тех пор, пока генератор не создаст нечто, практически неотличимое от реальности. Так рождается дипфейк.
Deepfake – весьма широкий термин, подразумевающий манипуляции с видео, звуком, изображением и вообще любым цифровым контентом. Однако многие предпочитают называть это явление другими словами. Причина частично кроется в истории происхождении термина. В 2017 году один из пользователей Reddit начал использовать инструменты deepfake для того, чтобы «вклеивать» лица актрис и других знаменитостей в порнографические видео. Он же и предложил это слово для всех желающих.

Однако эти «глубокие подделки» сами по себе существуют давно, отредактированные фотографии политиков, показывающих их в максимально неприглядном виде, существовали еще в 1990-х. Этим вряд ли можно удивить тех, кому сегодня 30–40 лет. Но в последние годы внимание к фальшивкам стало более пристальным, поскольку их качество сильно возросло благодаря машинному обучению, которое стремительно эволюционировало в последние 8–9 лет. Как это выглядит в упрощенном виде? Вы «скармливаете» алгоритмам фотографии человека, видео с ним с различных ракурсов, алгоритмы анализируют движения губ, глаз, мимику, походку и на основе этих данных создают цифровую копию, практически неотличимую от оригинала. Чем больше будет исходного материала, тем выше качество на выходе. Именно поэтому первыми жертвами дипфейков становились известные люди – актеры и политики.

Шумихи вокруг дипфейков в последние годы в самом деле было немало. То и дело в СМИ появлялись заголовки о том, как дипфейки сорвут выборы во всем мире. Все это, конечно, лишь отвлекло внимание от реальных угроз. Можно сказать, что дипфейки были в центре внимания в несколько искаженном виде, который не отражает реальных угроз.
Во благо и во вред
Так или иначе освещение темы дипфейков было сосредоточено на негативной стороне технологии, но это не значит, что ее нельзя использовать позитивно. Первое, что приходит на ум, – это создание мощной сатиры и пародий. Хотя для создания наиболее реалистичных дипфейков требуются мощное программное обеспечение и определенные навыки, существует и множество приложений для обычных людей. С их помощью можно наложить лица знаменитостей на ваши, превратить себя в реалистичную версию вашего друга или создать впечатление, что кто-то поет песню.
Еще одно положительное применение дипфейков – кино и телевидение. При использовании этой технологии видео не нужно будет дублировать, вместо этого актеры могут быть отредактированы так, будто они говорят на каждом из языков, на котором выходит фильм. Однако это пока что стоит слишком дорого. Кроме того, дипфейки могут привести нас к новому способу поиска контента. Вместо того чтобы Google или Wikipedia подсказывали вам нужную информацию, с вами мог бы говорить реалистичный аватар. В мире, ориентированном на видео, это может стать многообещающей альтернативой.

Еще одним однозначно позитивным применением дипфейка может быть замена лиц людей, чья конфиденциальность может стоить им жизни. Например, вместо того, чтобы закрывать лицо человека черным прямоугольником (как делали раньше) или сильно пикселизированной областью (как делают сейчас), его можно буквально сделать другим человеком – сгенерировав для него буквально новое лицо.
Голландская компания Deeptrance, созданная для борьбы с угрозами дипфейков, еще в 2019 году оценивала число циркулирующих роликов в Интернете в 10 тысяч штук. С тех пор их число возросло на порядки. Большая часть из них – по-прежнему порнографические клипы, где лицо знаменитости накладывается на тело порнозвезды.
Нужно ли с этим бороться? И если да, то как?
Современные технологии и новые явления, в частности криптовалюты, сталкиваются с негативной реакцией из-за количества энергии, которая требуется для их работы. Но как насчет глубоких подделок, потребляют ли они чрезмерное количество энергии для работы? «Они не потребляют энергию небольшой страны, как биткоин или другие блокчейны. Однако для производства дипфейков требуются большие вычислительные затраты, и это было одной из главных задач компаний, занимающихся видео, – развивать вычислительные мощности, которые можно использовать для этого», – говорит технолог Сэм Грегори.
Самым большим опасением насчет дипфейков, пожалуй, является то, что многие люди не могут определить подлинное видео от сгенерированного нейросетью. Как понять: Дональд Трамп на самом деле сказал что-то неприличное в адрес своего оппонента или это была чья-то шутка в Интернете?
В настоящее время несколько компаний, включая упомянутую Deeptrance, используют автоматизированное программное обеспечение для анализа движений головы и лица многих мировых лидеров, чтобы выявить уникальные модели. Затем можно проанализировать предполагаемую поддельную видеозапись одного из этих лидеров и понять, соответствует ли она движениям в реальной жизни.
Публичные люди, включая президентов и премьер-министров, как правило, имеют четкие и предсказуемые модели мимики и движений головы. Современным системам глубокой подделки трудно имитировать их, потому что они «сосредоточены» на том, чтобы каждый кадр видео выглядел правдоподобно. Когда отдельные кадры собираются вместе, нет никакой гарантии, что человек будет двигаться своим собственным нюансированным способом, и именно эта особенность используется для выявления дипфейков.

Кроме того, компания Deeptrace разрабатывает систему обнаружения фальшивок, которая фактически обращает технологию против нее самой. Она использует мощный алгоритм дискриминатора (аспект технологии глубокой подделки, который определяет, когда видео или изображение отклоняется от реальности) для поиска подделок. В то время как алгоритмы дискриминации предназначены для создания видео, способных обмануть человека, Deeptrace стремится создать дискриминатор, достаточно сложный для того, чтобы обнаружить невероятно тонкие недостатки в глубоких подделках, что даст ему преимущество перед теми, кто их создает.
Любой алгоритм, используемый для манипулирования изображениями, оставляет на них геометрические узоры, которые называют артефактами. Они не появляются на подлинных изображениях, сделанных обычными фото- и видеокамерами, и часто не видны человеческому глазу. Эти закономерности могут не только показать, является ли видео глубокой подделкой, но и то, как оно было создано. Семейства алгоритмов оставляют разные следы, поэтому иногда можно получить информацию об используемом алгоритме генератора.
В компании Modulate признают высокий риск дезинформации и встраивают звуковые ватермарки в звуковые файлы, чтобы их работу можно было отследить, надеясь, что это послужит сдерживающим фактором для тех, кто думает о злоупотреблении технологией. Под ватермарками в данном случае подразумеваются небольшие изменения некоторых звуковых частот, которые невозможно услышать человеку.
Впрочем, даже те, кто борется с дипфейками, признают, что их системы обнаружения – это лишь часть решения. Даже если фейковое видео удастся распознать, оно все равно может распространиться по социальным сетям за считанные минуты, прежде чем кто-то успеет его проверить, – и это может изменить ход выборов или разрушить чью-нибудь карьеру. Так что, возможно, появление дипфейков потребует изменения нашего мышления, когда мы признаем, что видеть – это не всегда верить.