Машинное обучение выходит из-под контроля | Большие Идеи

・ Управление инновациями
Статья, опубликованная в журнале «Гарвард Бизнес Ревью Россия»

Машинное обучение выходит
из-под контроля

Руководство по управлению рисками

Авторы: Борис Бабик , Гленн Коэн , Сара Герке , Теодорос Эвгениу

Машинное обучение выходит из-под контроля
Иллюстрация: Gregory Reid

читайте также

Когда каждый станет программистом

Иэн Баркин ,  Керем Томак ,  Томас Дейвенпорт

Почему гендиректорами все чаще становятся внутренние кандидаты

Джозеф Бауэр

Почему менеджеры не слушают своих сотрудников

Виджайя Венкатарамани,  Субра Тангирала,  Элад Шерф

Хотите следить за сотрудниками? Делайте это открыто!

Ричард Бухбанд,  Томас Чаморро-Премузик

Что происходит, когда из-за машинного обучения (программ, которые впитывают новые данные и на их основе меняют способы принятия решений) инвестиции оказываются убыточными, кандидаты на вакансии или потенциальные заемщики оцениваются предвзято, а автомобили попадают в аварии? Могут ли умные продукты и сервисы развиваться автономно — или лучше блокировать их «эволюцию» и периодически обновлять алгоритмы? Когда и с какой регулярностью проводить обновления во втором случае? Как оценивать риски того или иного варианта и справляться с ними?

Советам директоров и руководителям компаний придется искать ответы на все эти вопросы, ведь на рынке появляется все больше продуктов и сервисов с искусственным интеллектом, основанным на машинном обучении. В статье мы предлагаем ключ к пониманию потенциальных угроз этой технологии и того, как с ними справиться. В основу материала легли наши наработки в области медицинского права, этики, регулирования и машинного обучения.

В ЧЕМ РИСКИ МАШИННОГО ОБУЧЕНИЯ

Между машинным обучением и более ранними цифровыми технологиями есть важное различие. Оно заключается в том, что ИИ на основе машинного обучения способен независимо принимать все более сложные решения (например, какими финансовыми продуктами торговать, как автомобилю реагировать на препятствия, какой диагноз поставить пациенту) и постоянно корректировать этот процесс с учетом новых данных. Но алгоритмы не всегда работают гладко. Они могут принять неэтичное или не вполне оправданное решение. И тому есть три фундаментальных причины.

ИДЕЯ КОРОТКО

Проблема
На рынке появляется все больше продуктов на основе машинного обучения, а это порождает новые риски для компаний, которые разрабатывают и используют алгоритмы или поставляют данные для их обучения. Дело в том, что такие системы не всегда принимают точные и этичные решения.
Причины
Во-первых, при принятии решений эти системы часто основываются на оценке вероятностей. Во-вторых, среда, в которой они работают, может непредсказуемо меняться. В-третьих, из-за сложности систем трудно определить, ошибся ли алгоритм, и если да, то почему.
Решения
Руководству следует определить, должна ли система постоянно развиваться или лучше блокировать ее «эволюцию» и периодически обновлять вручную. К тому же необходимо должным образом протестировать продукт до и после его запуска, а после вывода на рынок постоянно отслеживать его работу.

Первая причина проста: обычно алгоритмы полагаются на вероятность того, что человек, скажем, не вернет кредит или заболеет. Поскольку таких прогнозов делается очень много, вполне возможно, что некоторые из них будут ошибочными: просто потому, что всегда есть вероятность промаха. Эта вероятность зависит от многих факторов, в том числе от количества и качества данных для обучения алгоритмов, конкретного метода машинного обучения (скажем, метода глубинного обучения с использованием сложных математических моделей или метода «деревья классификации» на основе заданных правил принятия решений), а также от того, использует ли система только объяснимые алгоритмы (то есть такие, которые приходят к решениям понятным человеку путем).

Вторая причина состоит в том, что среда, в которой происходит машинное обучение, тоже может развиваться и отклоняться от той версии, для которой изначально создавались алгоритмы. Это происходит по-разному, но два самых распространенных варианта — это дрейф концепта и изменение независимой переменной.

В первом случае отношения между входными и выходными данными могут быть заданы некорректно или оказаться неустойчивыми. Рассмотрим для примера алгоритм машинного обучения для биржевой торговли. Если обучать этот алгоритм только на данных за период низкой волатильности рынка и быстрого роста экономики, он будет некорректно работать во время рецессии или кризиса. По мере того как рынок меняется, отношения между входными и выходными данными — скажем, между долей заемных средств в компании и доходностью акций — тоже могут стать иными. Подобные расхождения могут возникать и в моделях оценки кредитоспособности на разных стадиях бизнес-цикла.

Примеры дрейфа концепта можно найти и в медицине. Скажем, система диагностики на основе машинного обучения, созданная для выявления рака кожи по фотографиям пациентов, может поставить неверный диагноз, если связь между цветом кожи (который зависит от расы и времени, проводимого на солнце) и диагнозом будет задана неточно. А нужные данные не всегда содержатся в электронных историях болезни, на которых обучается алгоритм.

Изменение независимой переменной происходит, когда данные, получаемые алгоритмом в процессе использования, отличаются от данных, на которых он обучался. Это может случиться даже в отсутствие дрейфа концепта, если усвоенные алгоритмом модели остаются неизменными. Рассмотрим пример. Производитель медицинских устройств может разработать систему на основе машинного обучения, которая будет опираться на данные крупных городских больниц. Но после выхода системы на рынок ее, вероятно, начнут применять и сельские поликлиники — а их данные могут существенно отличаться от тех, что использовались при разработке. Наверняка в городские больницы чаще обращаются пациенты из других социально-демографических групп, чьи хронические заболевания нехарактерны для жителей сельской местности. Такие несоответствия можно обнаружить лишь тогда, когда система начнет ошибаться чаще, чем на стадии разработки. Учитывая многообразие рынков и разницу в темпах их развития, становится все сложнее предвидеть, что будет происходить в той среде, где планируется использование системы. И никакие массивы данных не позволят учесть все нюансы реального мира.

Третья причина, по которой алгоритмы машинного обучения принимают некорректные решения, связана с общей сложностью систем, в которые они встраиваются. Представим себе медицинское устройство для диагностики заболеваний по фотографиям, которые загружают врачи: например, аппарат IDx-DR, способный распознавать такие глазные заболевания, как диабетическая ретинопатия и макулярный отек. Это первое автономное медицинское устройство на основе машинного обучения, сертифицированное Управлением по контролю качества пищевых продуктов и лекарственных препаратов США (FDA). Точность диагноза зависит от четкости фотографии, применяемого алгоритма, данных, на которых алгоритм обучался, уровня подготовки врача, загружающего фотографии, и т. д. При таком количестве факторов сложно определить, допустил ли аппарат ошибку, и если да, то почему.

Но некорректные решения — не единственный риск, связанный с машинным обучением. Рассмотрим еще две категории проблем: посреднические риски и моральные риски.

ПОСРЕДНИЧЕСКИЕ РИСКИ

Несовершенство алгоритмов машинного обучения приводит к еще одной проблеме: ряд рисков возникает из-за факторов, неподконтрольных компании или человеку.

Обстоятельства, которые привели к той или иной нештатной ситуации, зачастую можно восстановить на основе фактов. Таким образом руководство может хотя бы приблизительно оценить потенциальную ответственность компании за ущерб. Но алгоритмы машинного обучения обычно встроены в сложную систему, а потому причины сбоев часто остаются неясными. Сложно выяснить, какая сторона, или «посредник» (например, разработчик алгоритма, установщик системы или компания-партнер), несет ответственность за ошибку и в чем корень проблемы: в алгоритме, в данных, загруженных конечным пользователем, или в данных, на которых обучался алгоритм (а они вообще могут поступать от множества внешних поставщиков). Изменчивость среды, в которой работает алгоритм, и вероятностная природа машинного обучения еще больше усложняют выявление посредника, виновного в ошибке. Справедливости ради, нештатные ситуации и неэтичные решения далеко не всегда являются следствием чьей-то халатности — хотя бы потому, что всегда существует вероятность неточного результата.

Руководству важно понимать, когда компания понесет ответственность перед законом, который тоже может измениться. Вернемся к медицинской сфере. Традиционно суды возлагали ответственность за принятие окончательного решения на врачей, а не на разработчиков медицинского ПО. Но подход может измениться: сегодня все больше «черных ящиков» и автономных систем ставят диагнозы и выдают рекомендации без участия или с минимальным участием клинических специалистов. Что же произойдет, если, скажем, система на основе машинного обучения порекомендует пациенту нестандартное лечение (например, повышенную дозировку лекарства), а по новому закону врач будет нести ответственность за причиненный вред лишь в том случае, если не последует рекомендациям системы? При таких изменениях в законодательстве риски возникновения ответственности могут перейти от врачей к разработчикам медицинского оборудования с ИИ, поставщикам данных для обучения алгоритмов или компаниям, занимающимся установкой и развертыванием технологий.

МОРАЛЬНЫЕ РИСКИ

Использование продуктов и сервисов, самостоятельно принимающих решения, сопряжено и с моральными дилеммами — а это влечет дополнительные риски, связанные с разработкой продукта и соблюдением законов. Ученые называют их проблемами ответственной разработки алгоритма. К их числу относится и такая задача, как автоматизация моральных суждений. Например, должна ли компания Tesla программировать «мышление» электромобилей по утилитарной модели сопоставления выгод и издержек — или же по учению Канта, согласно которому нельзя поступиться определенными ценностями ради какой бы то ни было выгоды? Даже при выборе утилитарной модели определить количественные показатели будет очень трудно. Чьи жизни автомобиль должен считать более ценными: трех пожилых людей или одного человека среднего возраста? Как бизнесу найти компромисс между, например, конфиденциальностью, справедливостью, точностью и безопасностью? Можно ли избежать всех связанных с этим рисков?

К моральным рискам также относится предвзятость, связанная с демографическими признаками. Алгоритмы распознавания лиц плохо идентифицируют небелых людей; точность систем для классификации поражений кожи разнится от расы к расе; инструменты прогнозирования рецидивной преступности завышают показатели для афро- и латиноамериканцев, а рейтинги кредитоспособности для них несправедливо занижаются. Системы машинного обучения используются в коммерческих целях, но в некоторых сферах они могут быть предвзятыми к той или иной группе.

Проблема усугубляется наличием множества взаимоисключающих способов определения справедливости и включения ее в алгоритмы. Алгоритм кредитования можно откалибровать (то есть после проверки уровня риска его решения не будут зависеть от групповой принадлежности человека), но он все равно станет слишком часто отказывать в займах кредитоспособным представителям меньшинств. В результате компания может оказаться в патовой ситуации, когда любое ее решение будет неудачным. Если она использует алгоритмы для определения кредитоспособности, ее всегда могут обвинить в дискриминации той или иной группы согласно тому или иному представлению о справедливости. В разных культурах существуют разное понимание справедливости и разные этические дилеммы, и это вызывает сложности при создании продуктов для глобального рынка. В феврале 2020 года Еврокомиссия представила проект нормативного документа по вопросам искусственного интеллекта, в котором содержится призыв разрабатывать ИИ с «европейскими ценностями». Но подойдет ли такой ИИ для тех регионов, где ценности отличаются от европейских?

Наконец, все эти проблемы могут быть вызваны нестабильностью модели. В таком случае практически одинаковые входные данные приведут к разным решениям. Нестабильные алгоритмы будут по-разному работать с похожими людьми — и это может повлечь несправедливость.

Все эти соображения, конечно, не означают, что нужно полностью отказаться от машинного обучения. Напротив, лидерам следует пользоваться возможностями, которые оно открывает, но при этом тщательно разобраться с рисками.

БЛОКИРОВАТЬ ИЛИ НЕ БЛОКИРОВАТЬ?

Если руководство решает применять в компании машинное обучение, ему придется понять, позволять ли алгоритму постоянно эволюционировать — или время от времени устанавливать протестированные и заблокированные версии алгоритма? Поможет ли второй вариант снизить риски?

Медицинский мир знаком с этой проблемой. Пока что FDA одобряет в основном только «ПО как медицинское изделие» (программное обеспечение, которое может выполнять медицинские функции без аппаратуры) с заблокированными алгоритмами. Ведомство не хочет разрешать использование устройств с непонятным направлением развития алгоритмов, которые ставят диагнозы или назначают лечение. Но FDA и другие регуляторы уже понимают, что блокирование алгоритмов тоже сопряжено с рисками, поскольку оно не всегда предотвращает ряд проблем.

Неточные решения. При блокировании алгоритмов машинного обучения они все равно принимают решения на основе оценки вероятностей. Также с увеличением объема входных данных результат не всегда становится точнее — у разных систем и при разных наборах данных динамика совершенствования может отличаться. Трудно понять, как изменится точность (или неточность) решений, когда алгоритм не заблокирован, однако важно попытаться это выяснить.

Изменение среды. Важно и то, как развивается (и развивается ли) среда, в которой система принимает решения. Скажем, беспилотные автомобили функционируют в среде, которая меняется из-за действий водителей других авто. Системы для ценообразования, биржевой торговли или оценки кредитоспособности сталкиваются с изменением рыночных условий, когда экономический цикл вступает в новую фазу. Сложно обеспечить одновременную эволюцию системы машинного обучения и среды, в которой она работает, так, чтобы система принимала верные решения.

Посреднические риски. Блокирование алгоритма не снижает сложность устройства системы, в которую он встроен. Ошибки могут происходить, например, из-за обучения алгоритма на некачественных входных данных от внешних поставщиков или из-за разницы в навыках пользователей. В таких случаях сложно определить, кто несет ответственность за сбои: поставщики данных, разработчики алгоритма, установщики системы или конечные пользователи.

Моральные риски. В заблокированной системе могут сохраниться недостатки или предвзятости, о которых не знают ее создатели. Анализируя маммограммы для выявления признаков рака груди, заблокированный алгоритм не сможет обучаться на данных новых групп людей, с которыми он работает. Но заболеваемость раком груди различается у представителей разных рас, и если система обследует женщин из демографической группы, данные которой были недостаточно представлены при обучении алгоритма, вероятность ошибки повышается. Аналогичным образом алгоритм оценки кредитоспособности, обученный на данных определенной социально-экономической группы, может дискриминировать некоторых потенциальных заемщиков — то же самое происходит при незаконном отказе в выдаче ссуды по закладной жителям неблагополучных районов. Мы хотим, чтобы алгоритмы решали подобные проблемы как можно скорее, обновляясь по мере того, как у них появляется больше данных о недопредставленных группах населения. Но инструменты с незаблокированными алгоритмами могут навредить одной или нескольким группам людей, если по большей части будут обучаться на данных другой группы. Более того, довольно сложно отследить момент, когда устройство начнет дискриминировать ту или иную группу.

СОВЕТЫ РУКОВОДИТЕЛЯМ

Как же топ-менеджерам справляться с существующими и новыми рисками, связанными с машинным обучением? Здесь важно разрабатывать соответствующие процедуры, а также развивать смекалку менеджеров и совета директоров, задавать правильные вопросы и внедрять правильные установки.

Относитесь к алгоритму машинного обучения как к человеку. Постарайтесь увидеть в таком алгоритме живое существо, а не технологию. Тестирование когнитивных способностей сотрудников не поможет понять, как они проявят себя в команде, а лабораторные тесты не помогут спрогнозировать, как система машинного обучения будет работать в реальном мире. Руководство должно настоять на проведении анализа того, как сотрудники, клиенты и другие пользователи станут применять новую систему и реагировать на ее решения. Даже если этого не требуют регуляторы, компании следует подвергнуть новый продукт, основанный на машинном обучении, контролируемым испытаниям методом случайной выборки. Так можно будет убедиться в безопасности, эффективности и объективности системы перед ее запуском. Для проверки качества решений продукта следует протестировать его в условиях реального рынка, на разных типах пользователей и сравнить результаты. Кроме того, компания должна сравнить качество решений, принимаемых алгоритмами, и решений, принимаемых в тех же ситуациях без них. Перед масштабным развертыванием продукта (особенно если он не проходил контролируемые испытания на случайной выборке) стоит протестировать его на ограниченных рынках. Это позволит понять, как алгоритм поведет себя в разных условиях и насколько сохранится его точность, если у пользователей будет разная квалификация, входные данные будут разниться, а среда окажется изменчивой. Неудачи в реальном мире укажут на необходимость доработки или отказа от алгоритма.

Мыслите как регулятор: прежде всего сертификация. Компания должна разработать планы по сертификации продуктов, действующих на основе машинного обучения, перед их выводом на рынок. Можно опираться на практики самих регуляторов. Так, в 2019 году FDA опубликовало проект документа, в котором предлагались новые принципы регулирования модификаций ПО, работающего на основе машинного обучения, как медицинских изделий. Был выбран подход, при котором такое ПО может постоянно обновляться, обеспечивая безопасность пациентов. Компании и коллективы, создающие ПО, обязаны проходить аттестацию, чтобы подтвердить высокий уровень организационной культуры, а их продукты должны тестироваться на качество. Если компания не внедряет необходимые процедуры сертификации, ее могут привлечь к ответственности — например, за неудовлетворительные результаты due diligence.

Многие стартапы предоставляют услуги по сертификации продуктов и процессов на предмет отсутствия предвзятости, дискриминации, несправедливости. Стандарты сертификации также разрабатывают профессиональные организации, например Институт инженеров электротехники и электроники и Международная организация по стандартизации. А Google наряду с другими компаниями предлагает услугу по оценке этичности ИИ: специалисты анализируют множество факторов, от данных для обучения систем до поведения этих систем и их влияния на благополучие людей. Другим фирмам стоит выработать собственные принципы.

Постоянно проводите мониторинг. С развитием продуктов и сервисов, работающих на основе машинного обучения (а также областей их применения), может выясниться, что технологии работают не так, как было задумано. Вот почему бизнесу нужно найти способ следить за тем, чтобы технологии действовали в заданных рамках. Примеры можно поискать в разных отраслях. Для контроля безопасности медицинских продуктов FDA запустило программу Sentinel Initiative, в рамках которой собирает данные из разных источников, и если какие-то продукты не проходят проверку, ведомство может запретить их использование. Программы для мониторинга, которыми пользуются компании, во многом похожи на инструменты профилактического обслуживания в производственных и энергетических компаниях, а также в сфере кибербезопасности. Например, компании могут проводить «учебные» атаки на ИИ, аналогичные плановым проверкам защищенности ИТ-систем.

Задавайте правильные вопросы. Руководителям и регуляторам нужно проанализировать следующие моменты.

  • Точность и конкурентоспособность. С какой вероятностью система на основе машинного обучения будет работать лучше, если не блокировать алгоритм и позволить ему обучаться на новых данных? Что эти улучшения дадут бизнесу? Насколько клиенты ощутят преимущества и недостатки заблокированной и незаблокированной систем?

  • Предвзятость. На каких данных обучался алгоритм? Насколько они репрезентативны для людей, с данными которых будет работать алгоритм? Можно ли спрогнозировать, какой алгоритм будет проявлять меньше предвзятости: заблокированный или незаблокированный и способный обучаться на новых данных? Затронут ли ошибки алгоритма представителей меньшинств или другие группы людей? Можно ли установить «защитные ограждения», препятствующие дискриминации, если отслеживать работу алгоритма?

  • Среда. Как среда, в которой работает алгоритм, изменится со временем? Существуют ли условия, при которых следует запретить алгоритму принимать решения? Если да, то какие? Как убедиться, что алгоритм развивается вместе со средой? Когда выводить продукт с рынка, если расхождения алгоритма со средой станут серьезными? Где проходят границы среды, в которых продукт может работать и адаптироваться к условиям? Насколько устойчивы и безопасны системы машинного обучения на разных стадиях?

  • Посредники. От каких компонентов сторонних организаций, включая источники данных, зависит работа алгоритмов? Насколько различается их работа, когда их используют разные люди (например, с разным уровнем квалификации)? В каких продуктах или сервисах других организаций используются наши данные или алгоритмы и может ли это повлечь юридическую ответственность? Позволять ли другим организациям использовать наши алгоритмы?

Выработайте принципы, которые помогут справиться с рисками для бизнеса. Для управления новыми рисками придется разработать собственные руководства, в том числе этические. Так уже поступили, например, Google и Microsoft. Чтобы такие руководства были полезны, они должны создаваться с учетом актуальных рисков и специфики работы. Если вы используете алгоритмы машинного обучения при найме, полезно разработать простую, справедливую и прозрачную модель. А если собираетесь прогнозировать цены на товарные фьючерсы, уделите больше внимания установке лимита на максимальный потенциальный убыток, с учетом которого алгоритм будет принимать решение.

К счастью, не обязательно разрабатывать и внедрять все принципы в одиночку. Можно опираться на опыт организаций, которые занимаются этим много лет. Организация экономического сотрудничества и развития (ОЭСР) уже разработала первые международные принципы ИИ, принятые во многих странах в 2019 году. Принципы ОЭСР поддерживают инновационный, надежный и прозрачный ИИ, который уважает законодательство, права человека, многообразие и демографические ценности и способствует недискриминационному росту, устойчивому развитию, благосостоянию и благополучию людей. Кроме того, ОЭСР подчеркивает необходимость обеспечивать надежность, безопасность, защищенность и постоянное управление рисками систем ИИ в течение всего жизненного цикла.

У машинного обучения огромный потенциал. Но поскольку эта технология, как и другие формы ИИ, неотделима от экономики и общества, связанные с ней риски вырастут. Компаниям, не выработавшим методы борьбы с новыми угрозами, будет трудно удержаться на рынке.

Об авторах

Борис Бабик (Boris Babic) — доцент в области принятия решений в INSEAD.

Гленн Коэн (I. Glenn Cohen) — заместитель декана, профессор права и заведующий Центром Петри — Флома по изучению политики в области здравоохранения, биотехнологии и биоэтики в Гарвардской школе права.

Теодорос Эвгениу (Theodoros Evgeniou) — профессор в области принятия решений и управления технологиями в INSEAD.

Сара Герке (Sara Gerke) — научный сотрудник в области медицины, ИИ и права в Центре Петри — Флома.