Человек, который изобрел механизм распознавания лиц
Невероятная история Вудро Уилсона Бледсоу
Автор: Виктор Зайковский
СОДЕРЖАНИЕ СТАТЬИ:
История систем распознавания лиц началась задолго до появления современных технологий. Уже в древности люди осознавали уникальность лица каждого человека и использовали ее для идентификации.
В китайских и египетских текстах, а также в древнегреческой мифологии можно найти упоминания о способности различать лица и использовать их в целях идентификации. Сегодня система распознавания лиц является одним из основных средств безопасности для телефонов, ноутбуков, паспортов и платежных приложений; она обещает произвести революцию в бизнесе целевой рекламы и ускорить диагностику некоторых заболеваний; однако она все чаще становится инструментом государственного угнетения и корпоративной слежки. Сегодня мы поговорим об одной из самых противоречивых технологий последних лет.
Как вы, возможно, знаете, в Китае правительство использует распознавание лиц для идентификации и отслеживания представителей уйгурского этнического меньшинства. В США иммиграционная и таможенная службы, а также ФБР используют эту технологию в качестве цифрового невода, разыскивая подозреваемых среди миллионов лиц в базах данных документов, причем часто без предварительного запроса судебного ордера. В прошлом году расследование, проведенное газетой Financial Times, показало: исследователи из Microsoft и Стэнфордского университета собирали и затем публично распространяли огромные массивы данных с изображениями лиц без их ведома и согласия. Здесь важно отметить, что оба массива данных были удалены, однако это произошло после того, как исследователи из технологических стартапов и одной из военных академий Китая получили возможность их изучить.
С чего все начиналось
Нашего главного героя зовут Вудро Уилсон Бледсоу. Он родился в 1921 году в городке Мейсвилл, штат Оклахома, и провел большую часть своего детства, помогая отцу поддерживать семью на плаву. Всего в семье было 12 детей. Вуди, десятый, проводил дни за прополкой кукурузы, заготовкой дров, сбором хлопка и кормлением кур. Его мать, бывшая школьная учительница, рано заметила способности сына. Когда Вуди было 12 лет, умер его отец, ввергнув семью еще глубже в нищету в разгар Великой депрессии. Вуди устроился работать на ранчо, пока оканчивал среднюю школу. Затем он переехал в город Норман и начал посещать занятия в Университете Оклахомы, но бросил учебу через три месяца, чтобы пойти в армию накануне Второй мировой войны.
Проявив способности к математике, Вуди был назначен начальником отдела начисления заработной платы в Форт-Леонард-Вуд в штате Миссури, где американские солдаты проходили боевую подготовку. Затем 7 июня 1944 года Вуди был отправлен в Европу, где получил Бронзовую звезду за разработку способа спуска на воду Рейна больших морских судов.
Сразу же после войны Вуди поступил в Университет штата Юта, окончил его за 2,5 года, а затем отправился в Беркли для получения степени доктора философии. После окончания аспирантуры он устроился на работу в корпорацию Sandia в Нью-Мексико, работая над финансируемыми правительством исследованиями ядерного оружия вместе со Станиславом Уламом, одним из изобретателей водородной бомбы. В 1956 году Вуди полетел на Маршалловы острова, чтобы наблюдать за испытаниями оружия над атоллом Эниветак, часть которого и по сей день страдает от радиоактивного загрязнения сильнее, чем Чернобыль или Фукусима.
Благодаря Sandia Вуди сделал первые шаги в мир вычислительной техники, который поглотил его на всю оставшуюся карьеру. Сначала его усилия по написанию кода были связаны непосредственно с мрачными расчетами при исследовании ядерного оружия. Одна из ранних работ называлась «Программа для вычисления вероятности выпадения радиоактивных осадков при крупномасштабной термоядерной атаке». Но по мере того как роман с вычислительной техникой развивался, Вуди заинтересовался автоматическим распознаванием образов, особенно машинным чтением — процессом обучения компьютера распознаванию немаркированных изображений письменных символов. Он объединился со своим другом и коллегой Ибеном Браунингом, эрудитом-изобретателем, авиационным инженером и биофизиком, и вместе они создали то, что стало известно как метод n-кортежей. Они начали с проецирования печатного символа — буквы Q, скажем, на прямоугольную сетку клеток, напоминающую лист бумаги для графиков. Затем каждой ячейке присваивалось двоичное число в зависимости от того, содержит ли она часть символа: пустые — 0, заполненные — 1. Потом ячейки случайным образом группировались в упорядоченные пары, как наборы координат. После нескольких дальнейших математических манипуляций компьютер смог присвоить сетке персонажа уникальный балл. Когда компьютер встречал нового персонажа, он просто сравнивал сетку этого персонажа с другими в своей базе данных, пока не находил наиболее близкое соответствие.
Прелесть метода заключалась в том, что он мог распознавать множество вариантов одного и того же персонажа: большинство Q-символов, как правило, оказывались довольно близки к другим Q-символам. Еще лучше то, что этот процесс работал с любым шаблоном, а не только с текстом. Согласно эссе, написанному в соавторстве с Робертом С. Бойером, математиком и давним другом Вуди, метод n-кортежей помог определить область распознавания образов; он был одним из первых, кто задался вопросом: «Как мы можем заставить машину делать что-то похожее на то, что делают люди?».
В 1960 году Вуди вместе с Браунингом и третьим коллегой из Sandia основали собственную компанию Panoramic Research Incorporated. Поначалу она базировалась в небольшом офисе в Пало-Альто, штат Калифорния, в месте, которое еще не было известно как Кремниевая долина. В то время большинство компьютеров в мире — массивные машины, хранящие данные на перфокартах или магнитной ленте — находились в больших корпоративных офисах и правительственных лабораториях. Panoramic не мог позволить себе собственный компьютер, поэтому он арендовал вычислительное время у своих соседей, часто поздно вечером, когда это было дешевле.
Panoramic с трудом удалось найти адекватное коммерческое финансирование. Вуди сделал все возможное, чтобы предложить свою технологию распознавания персонажей деловым клиентам, включая Equitable Life Assurance Society и журнал McCall’s, но так и не смог заключить контракт. К 1963 году Вуди был почти уверен, что компания прекратит свою деятельность. Но на протяжении всего своего существования у Panoramic был по крайней мере один, казалось бы, надежный покровитель, который помогал ей держаться на плаву: Центральное разведывательное управление. Если в бумагах Вуди и были прямые упоминания о ЦРУ, то они, скорее всего, превратились в пепел на его подъездной дорожке; но фрагменты доказательств, сохранившиеся в архивах Вуди, убедительно свидетельствуют о том, что в течение многих лет Panoramic вела дела с подставными компаниями ЦРУ. Уинклесс, который дружил со всеми сотрудниками Panoramic и был другом Браунинга всю жизнь, говорит: компания, вероятно, была создана, по крайней мере частично, с учетом финансирования со стороны агентства.
Согласно документам, полученным Black Vault, веб-сайтом, специализирующимся на эзотерических запросах о свободе информации, Panoramic была в числе 80 организаций, работавших над проектом MK-Ultra, печально известной программой ЦРУ по контролю сознания, наиболее известной психологическими пытками, которым подвергались часто безвольные люди. Через прикрытие под названием Фонд исследований в области медицинских наук, Panoramic, по-видимому, был назначен на подпроекты 93 и 94 по изучению бактериальных и грибковых токсинов и дистанционного направленного контроля деятельности отдельных видов животных. Исследование Дэвида Прайса, антрополога из Университета Святого Мартина, показывает, что Вуди и его коллеги также получали деньги от Общества по исследованию экологии человека, прикрытия ЦРУ, которое предоставляло гранты ученым, чья работа могла бы улучшить методы допросов агентства или послужить маскировкой для этой работы.
Но именно другая подставная компания под названием King-Hurley Research Group финансировала наиболее заметные исследования Вуди в Panoramic. Согласно серии судебных исков, поданных в 1970-х годах, King-Hurley была подставной компанией, которую ЦРУ использовало для покупки самолетов и вертолетов для секретных ВВС агентства, известных как Air America. Некоторое время King-Hurley Research Group также финансировала психофармакологические исследования в Стэнфорде. Но в начале 1963 года он получил предложение другого рода от некоего Вуди Бледсоу: провести исследование для определения осуществимости упрощенной машины распознавания лиц. Основываясь на своей работе и работе Браунинга с методом n-кортежей, он намеревался научить компьютер распознавать 10 лиц. То есть хотел дать компьютеру базу данных из 10 фотографий разных людей и посмотреть, сможет ли тот заставить его распознать новые фотографии каждого из них.
Сейчас 10 лиц могут показаться довольно скромной целью, но в 1963 году это было потрясающе амбициозно. Скачок от распознавания письменных символов к распознаванию лиц был гигантским. Начнем с того, что не существовало стандартного метода оцифровки фотографий и базы данных цифровых изображений, из которой можно было бы черпать информацию. Современные исследователи могут обучать свои алгоритмы на миллионах селфи, находящихся в свободном доступе, но Panoramic пришлось бы создавать свою базу данных с нуля, фото за фото.
Была еще одна проблема: трехмерные лица живых людей, в отличие от двухмерных букв на странице, не являются статичными. Изображения одного и того же человека могут отличаться поворотом головы, интенсивностью освещения и углом наклона; люди стареют, меняются прически; тот, кто выглядит беззаботным на одной фотографии, может показаться озабоченным на другой. Подобно поиску общего знаменателя в невероятно сложном наборе дробей, команда должна была каким-то образом скорректировать все эти различия и нормализовать изображения, которые они сравнивали. И вряд ли можно было с уверенностью сказать, что имеющиеся в их распоряжении компьютеры справятся с этой задачей. Одной из основных машин был CDC 1604 с 192 КБ оперативной памяти — примерно в 21 000 раз меньше, чем в современном смартфоне.
Полностью осознавая эти проблемы с самого начала, Вуди принял подход «разделяй и властвуй», разбив исследование на части и поручив их разным исследователям Panoramic. Один молодой исследователь занялся проблемой оцифровки: сделал черно-белые фотографии людей, участвующих в проекте, на 16-миллиметровую пленку. Затем он использовал сканирующее устройство, разработанное Браунингом, для преобразования каждой фотографии в десятки тысяч точек данных, каждая из которых представляла собой значение интенсивности света — от 0 (абсолютно темно) до 3 (абсолютно светло) — в определенном месте изображения. Однако для компьютера это было слишком много точек данных, поэтому молодой исследователь написал программу под названием NUBLOB, которая разбивала изображение на участки произвольного размера и вычисляла для каждого из них n-кортеж.
Тем временем Вуди, Хелен Чан Вольф и студентка начали изучать, как учесть наклон головы. Сначала они нарисовали серию пронумерованных маленьких крестиков на коже левой стороны лица испытуемого, от вершины лба до подбородка. Затем сделали два портрета: один, на котором испытуемый стоял лицом вперед, а другой, на котором он был повернут на 45 градусов. Проанализировав, где на этих двух изображениях расположились все крошечные крестики, они могли экстраполировать, как будет выглядеть то же лицо при повороте на 15 или 30 градусов. В конце концов могли ввести в компьютер черно-белое изображение отмеченного лица, и на выходе получался автоматически повернутый портрет, жуткий и удивительно точный.
Эти решения были гениальными, но недостаточными. Через 13 месяцев после начала работы команда Panoramic не смогла научить компьютер распознавать ни одно человеческое лицо, не говоря уже о 10. Тройная угроза — рост волос, мимика и старение — представляла собой «огромный источник изменчивости», как писал Вуди в отчете о проделанной работе в марте 1964 года. Задача, по его словам, была не под силу современным технологиям распознавания образов и компьютерным технологиям того времени. Однако он рекомендовал профинансировать дополнительные исследования, чтобы попробовать совершенно новый подход к решению проблемы распознавания лиц.
Новый подход
В течение следующего года Вуди пришел к выводу, что наиболее перспективным путем к автоматическому распознаванию лиц является тот, который сводит лицо к набору взаимосвязей между основными ориентирами: глазами, ушами, носом, бровями, губами. Система, которую он себе представлял, была похожа на ту, которую в 1879 году разработал Альфонс Бертильон, французский криминолог, придумавший современную фотографию лица. Бертильон описывал людей на основе 11 физических измерений, включая длину левой ноги и длину от локтя до конца среднего пальца. Идея заключалась в том, что если провести достаточное количество измерений, то каждый человек будет уникальным. Хотя эта система была трудоемкой, она работала: В 1897 году, за несколько лет до того, как дактилоскопия получила широкое распространение, французские жандармы использовали ее для идентификации серийного убийцы Жозефа Вашера.
В течение 1965 года компания Panoramic пыталась создать полностью автоматизированную систему Бертильона для лица. Команда старалась разработать программу, которая могла бы находить носы, губы и т. п., разбирая шаблоны светлоты и темноты на фотографии, но эти попытки в основном были безуспешными.
Тогда Вуди и Вульф начали исследовать то, что они назвали человеко-машинным подходом к распознаванию лиц: метод, который включает в себя немного человеческой помощи. В недавно рассекреченной истории Управления исследований и разработок ЦРУ упоминается именно такой проект 1965 года; в том же году Вуди отправил письмо о распознавании лиц Джону В. Куйперсу, начальнику аналитического отдела. Компания Panoramic привлекла сына-подростка Вуди Грегори и одного из его друзей к просмотру стопки фотографий — всего их было 22, на которых было изображено около 50 человек — и проведению 22 измерений каждого лица, включая длину уха сверху вниз и ширину рта от угла до угла. Затем Вульф написал программу для обработки полученных цифр. В конце эксперимента компьютер смог сопоставить каждый набор измерений с правильной фотографией. Результаты были скромными, но неоспоримыми: Вульф и Вуди доказали, что система Бертильона теоретически работоспособна.
Следующим их шагом, ближе к концу 1965 года, была постановка более масштабной версии практически того же эксперимента — на этот раз с использованием недавно изобретенной технологии, чтобы сделать «человека» в системе «человек-машина» гораздо более эффективным. На деньги King-Hurley Research Group они использовали так называемый планшет RAND — устройство стоимостью 18 000 долларов, которое выглядело как планшетный сканер, но работало как iPad. Используя стилус, исследователь мог рисовать на планшете и получать изображение с относительно высоким разрешением, читаемое на компьютере.
Вуди и его коллеги попросили нескольких студентов пройтись по новой партии фотографий, выкладывая каждую на планшет RAND и отмечая стилусом ключевые особенности. Процесс, хотя и оставался сложным, шел гораздо быстрее, чем раньше: в общей сложности студентам удалось ввести данные примерно для 2000 изображений, включая по крайней мере два лица, со скоростью около 40 в час.
Однако даже с таким большим объемом выборки команда Вуди пыталась преодолеть все обычные препятствия. Например, у компьютера по-прежнему были проблемы с улыбками, которые искажают лицо и резко меняют лицевые измерения. Старение тоже оставалось проблемой, что доказало лицо самого Вуди. Когда его попросили сопоставить фотографию Вуди 1945 года с фотографией 1965-го, компьютер был в замешательстве. Он увидел мало сходства между молодым человеком с его зубастой улыбкой и темной вдовьей бородкой и пожилым, с его мрачным выражением лица и редеющими волосами. Казалось, будто десятилетия создали другого человека.
В каком-то смысле так оно и было. К этому моменту Вуди устал добиваться новых контрактов для Panoramic и оказался в нелепом положении, когда у него либо слишком много работы, либо недостаточно. Он постоянно предлагал новые идеи своим спонсорам, причем некоторые из них заходили на территорию, которую сейчас сочли бы сомнительной с этической точки зрения. В марте 1965 года — примерно за 50 лет до того, как Китай начал использовать сопоставление черт лица для идентификации этнических уйгуров в провинции Синьцзян, — Вуди предложил Агентству перспективных исследовательских проектов Министерства обороны, известному тогда как Arpa, поддержать Panoramic для изучения возможности использования характеристик лица для определения расовой принадлежности человека. До сих пор точно не известно, согласилась ли Arpa финансировать проект.
Ясно лишь то, что Вуди вкладывал тысячи собственных долларов в Panoramic без гарантии их возврата. Тем временем его друзья из Техасского университета в Остине уговаривали его перейти туда на работу, обещая стабильную зарплату. Вуди покинул Panoramic в январе 1966 года. Вскоре после этого фирма, по-видимому, закрылась.
Что дальше?
С мечтами о создании своего компьютера Вуди перевез семью в Остин, чтобы посвятить себя изучению и преподаванию автоматизированного мышления. Но его работа над распознаванием лиц не закончилась; ее кульминация была не за горами. В 1967 году он взялся за последнее задание, связанное с распознаванием моделей человеческого лица. Цель эксперимента заключалась в том, чтобы помочь правоохранительным органам быстро просеивать базы данных портретов в поисках совпадений.
Как и прежде, финансирование проекта осуществлялось правительством США. В документе 1967 года, рассекреченном ЦРУ в 2005 году, упоминается «внешний контракт» на систему распознавания лиц, которая должна была сократить время поиска в сотни раз. На этот раз, судя по документам, деньги поступили через частное лицо, выступающее в качестве посредника; в электронном письме предполагаемый посредник отказался от комментариев.
Главным сотрудником Вуди в этом проекте был Питер Харт, инженер-исследователь лаборатории прикладной физики Стэнфордского исследовательского института. Сейчас этот институт известен как SRI International, а в 1970 году он отделился от Стэнфордского университета, поскольку его сильная зависимость от военного финансирования вызвала много споров в университетском городке. Вуди и Харт начали с базы данных, содержащей около 800 изображений — по 2 фотографии газетного качества, на каждой из которых было изображено около «400 взрослых белых мужчин», различающихся по возрасту и повороту головы. Используя планшет RAND, записали 46 координат на каждой фотографии, включая 5 на каждом ухе, 7 на носу и 4 на каждой брови. Основываясь на предыдущем опыте Вуди по нормализации вариаций изображений, они использовали математическое уравнение для поворота каждой головы в перспективное положение. Затем, чтобы учесть разницу в масштабе, увеличили или уменьшили каждое изображение до стандартного размера, используя расстояние между зрачками в качестве опорной метрики.
Задача компьютера состояла в том, чтобы запомнить одну версию каждого лица и использовать ее для идентификации другого. Вуди и Харт предложили машине один из двух путей. В первом случае, известном как групповое сопоставление, компьютер разделял лицо на черты — левая бровь, правое ухо и т. д. — и сравнивал относительные расстояния между ними. Второй подход основывался на байесовской теории принятия решений; он использовал 22 измерения, чтобы сделать обоснованное предположение о целом.
В итоге обе программы справились с задачей одинаково хорошо. Что еще более важно, они обошли своих конкурентов-людей. Когда Вуди и Харт попросили трех человек сопоставить подмножества из 100 лиц, даже самому быстрому из них потребовалось 6 часов. Компьютер CDC 3800 выполнил аналогичную задачу примерно за 3 минуты, что позволило сократить время в сотни раз. Вуди и Харт признали, что люди лучше справлялись с поворотом головы и плохим качеством фотографий, но компьютер значительно лучше справлялся с различиями, вызванными старением. В целом, заключили они, машина доминирует над людьми.
Это был самый большой успех Вуди в его исследованиях по распознаванию лиц и последняя работа, которую он написал на эту тему. Правда, статья так и не была опубликована: препятствовали спонсоры исследования.
В последующие десятилетия Вуди получил награды за свой вклад в автоматическое рассуждение и в течение года был президентом Ассоциации по развитию искусственного интеллекта. Но его работа в области распознавания лиц осталась практически непризнанной и была практически забыта, в то время как другие подхватили эту идею.
Так, например, в 1973 году японский ученый Такео Канаде совершил большой скачок в технологии распознавания лиц. Используя то, что тогда было очень редким товаром, — базу данных из 850 оцифрованных фотографий, сделанных в основном во время Всемирной выставки 1970 года в Суите, — Канаде разработал программу, которая могла извлекать такие черты лица, как нос, рот и глаза, без участия человека. Канаде наконец-то осуществил мечту Вуди — устранил человека из системы «человек-машина».
В течение нескольких лет Вуди не раз вспоминал о своих знаниях в области распознавания лиц. В 1982 году его наняли в качестве эксперта-свидетеля по уголовному делу в Калифорнии. Предполагаемый член мексиканской мафии обвинялся в совершении серии ограблений в округе Контра-Коста. У прокурора было несколько доказательств, включая записи камер наблюдения, на которых был запечатлен мужчина с бородой, в солнцезащитных очках, зимней шапке и с длинными вьющимися волосами. Но на фотороботах обвиняемых был изображен чисто выбритый мужчина с короткими волосами. Вуди вернулся к своим панорамным исследованиям, чтобы измерить лицо грабителя банка и сравнить его с фотографиями обвиняемого. К большому удовольствию адвоката Вуди обнаружил, что лица, скорее всего, принадлежат двум разным людям, поскольку носы различаются по ширине. Хотя мужчина все же попал в тюрьму, он был оправдан по 4 пунктам обвинения, связанным с показаниями Вуди.
По словам ученых из Мичиганского государственного университета, только в последние 10 лет распознавание лиц стало справляться с несовершенством реального мира. Почти все препятствия, с которыми столкнулся Вуди, фактически отпали. Во-первых, сейчас существует неисчерпаемый запас оцифрованных изображений. Каждый может побродить по социальным сетям и получить сколько угодно лиц. А благодаря достижениям в области машинного обучения, объема памяти и вычислительной мощности компьютеры фактически самообучаются. Учитывая несколько элементарных правил, они могут анализировать большие и малые объемы данных, выясняя, как сопоставить практически все, от человеческого лица до мешка с чипсами — не нужно никаких таблиц RAND или измерений Бертильона.
Даже учитывая то, как далеко продвинулось распознавание лиц с середины 1960-х годов, Вуди определил многие из проблем, которые эта область все еще стремится решить. Его процесс нормализации изменчивости положения лица, например, остается частью картины. Чтобы сделать распознавание лиц более точным, сегодня нейросети перестраивают лицо в анфас, используя ориентиры на лице для экстраполяции нового положения. Сегодняшним системам, основанным на машинном обучении, программист не приказывает определять носы и брови в явном виде, поворот Вуди в этом направлении в 1965 году определил направление развития этой области на десятилетия. Сейчас эта область в некотором смысле вернулась к тому, что было в первых попытках Вуди разгадать человеческое лицо, когда он использовал разновидность метода n-кортежей для поиска закономерностей сходства в огромном поле точек данных. Какими бы сложными ни стали системы распознавания лиц, говорит Джайн, на самом деле они просто создают оценки сходства для пары изображений и смотрят, как они сравниваются.
* * *
Пожалуй, самое главное — то, что работа Вуди задала этический тон исследованиям в области распознавания лиц, которые были долговременными и проблематичными. В отличие от других технологий, чье негативное влияние проявилось не сразу, потенциальные злоупотребления технологии распознавания лиц были очевидны в момент начала работы компании Panoramic. Многие из предубеждений, которые мы можем списать на пережитки времен Вуди,— выборки, полностью состоящие из белых мужчин, кажущееся беспечное доверие к государственной власти, соблазн использовать распознавание лиц для дискриминации, — продолжают преследовать технологию и сегодня.
В прошлом году в ходе тестирования программного обеспечения Rekognition компании Amazon 28 игроков НФЛ были неправильно идентифицированы как преступники. Несколько дней спустя ACLU подал в суд на Министерство юстиции США, ФБР и DEA, чтобы получить информацию об использовании ими технологии распознавания лиц, разработанной Amazon, Microsoft и другими компаниями. А в 2018 году группа ученых написала письмо, направленное против систем распознавания лиц, заявив, что эта технология является самым опасным механизмом слежки из когда-либо изобретенных.
Весной 1993 года из-за бокового амиотрофического склероза речь Вуди стала невнятной. Согласно длинному посланию, написанному после его смерти, он продолжал преподавать в университете до последнего, а также продолжал свои исследования в области автоматического распознавания образов. Он умер 4 октября 1995 года, не дожив примерно 20 лет до начала массового использования систем автоматического распознавания лиц по всему миру.
Рекомендуем прочитать загадочную историю Элизабет Холмс и компании Theranos.