Дилемма заключённого: когда быть мразью выгодно

19.11.2021

Как это ни парадоксально, человечество могут угробить всего две вещи: падение достаточно крупного метеорита и неспособность людей разрешить дилемму заключённого.

Гонка вооружений, в результате которой человечество в любой момент может превратиться в радиоактивный пепел; фиаско мирового сообщества в борьбе с глобальным потеплением; ренессанс диктатур по всему миру и даже бессилие общества в борьбе с COVID-19 при всех внешних различиях – это лишь разные варианты всё той же дилеммы заключённого.

Суть этой дилеммы была сформулирована ещё в 1950 году и уже к 1975 на эту тему было написано более двух тысяч научных работ. Сейчас по запросу «дилемма заключённого» Google выдаёт 13900 результатов только на русском языке. Лучшие умы человечества десятилетиями бьются над этой проблемой, но простого и надёжного решения как не было, так и нет.

Впрочем, на многие вопросы, касающиеся отношений с другими людьми она всё-таки помогла найти ответы. Вот сделал мне кто-то гадость — и как поступить в ответ? Сразу дать по морде или подождать, дать ему шанс исправиться? А может, простить? Или лучше вообще не дожидаться, пока тебе сделают что-то плохое и самому нанести упреждающий удар?

В классической формулировке дилемма заключённого звучит так: двух человек арестовали по подозрению в совершении преступления и каждому из них предложили дать на другого показания.

При этом:

Если один из них сдаёт подельника, а тот – молчит, то первый выходит на свободу, а второй садится на 10 лет.
Если молчат оба, то каждый получает по полгода заключения.
Если подельники сдают друг друга, то каждый из них садится на 2 года.

Очевидно, что оптимальная для преступников стратегия – молчать, так они получили бы минимальный срок. Но если один из преступников молчит, у второго появляется стимул сдать другого – так он получит меньше. А если один сдаёт другого, то и у второго есть стимул расколоться, потому что молчанием он только ухудшит своё положение. В итоге оба заключенных чаще всего стучат друг на друга.

Интереснее всего, что они делают это не из-за испорченности, трусости или подлости, а руководствуясь абсолютно рациональными соображениями. Ситуация, в которой участники дилеммы не могут улучшить своё положение, если другие участники своих стратегий не меняют, называется в теории игр равновесием Нэша. И в случае дилеммы заключённого равновесие Нэша просто не совпадает с оптимумом, в котором преступники получили бы минимальный срок.

Увы, дилемма заключённого это не просто забавный математический парадокс. Точно так же многое происходит и в реальной жизни.

Ядерные державы не могут выйти из гонки вооружений, опасаясь, что противник получит преимущество, и впустую тратят миллиарды на подержание арсенала атомного оружия, которое не может быть использовано без риска уничтожения обеих сторон.

Страны не могут договориться о кардинальных мерах по снижению выбросов СО2, потому что тот, кто не будет их придерживаться, получит значительные выгоды от дешёвых энергоресурсов.

Опасаясь за своё здоровье, люди отказываются вакцинироваться, из-за чего эпидемия COVID-19 продолжает распространяться по миру, вирус мутирует и уносит всё новые и новые жизни.

Из страха остаться без работы или оказаться за решёткой, если они будут протестовать, а другие – нет, люди не выходят на улицы, чтобы свергнуть диктаторов, за что расплачиваются десятилетиями экономической стагнации, нищетой, бесправием, и в итоге всё равно садятся за картинку, анекдот или репост в соцсетях.

Каждый раз в подобных историях люди оказываются перед выбором – на что сделать ставку: на взаимное доверие ради общего блага или, ожидая предательства, поступить эгоистично. И, к сожалению, результаты чаще дают повод для сожалений, чем для гордости за человечество.

Впрочем, реальный мир гораздо сложнее, чем одноходовая игра в дилемме заключённого. Все люди разные, с разными убеждениями, мотивами, ценностями и представлениями о морали. Они взаимодействуют друг с другом раз за разом, накапливают опыт и делают из него выводы.

Поэтому в 1984 году Роберт Аксельрод провёл очень интересное исследование именно такого, более приближенного к реальности варианта дилеммы заключённого, в котором много разных участников должны были играть друг с другом случайное количество раундов, решая каждый раз, сотрудничать им или предавать своего визави.

Чтобы выяснить, какая же стратегия поведения в таких условиях лучше, Аксельрод пригласил коллег со всего мира, предложив им разработать алгоритмы, которые могли бы соревноваться друг с другом на турнире. Правила турнира были очень просты: состязаться могли алгоритмы любой сложности, присылать свои алгоритмы на турнир мог любой желающий.

Алгоритмы соревновались парами, состав которых менялся после каждого раунда так, чтобы каждый мог сыграть с каждым. В ходе раунда алгоритмы по очереди делали ходы (какое-то большое, но заранее неизвестное алгоритмам количество), ставя по своему усмотрению противнику плюс или минус.

Если оба алгоритма ставили друг другу плюсы, то получали по 2 очка каждый. Если оба ставили минусы, то каждый получал 0 очков. Если же один ставил плюс, а другой – минус, то первый получал -1 балл, а второй +3. Выигрывал тот алгоритм, который набирал в сумме по всем раундам максимальное количество очков.

Результат соревнования удивил всех. Алгоритм-победитель под названием «Око за око» (или, в англоязычном варианте «Tit for Tat»), написанный американцем Анатолием Рапопортом, состоял всего из четырех строк на BASIC’е и делал буквально следующее: первым ходом всегда ставил своему визави плюс, а затем просто повторял его ходы. И все. Ничего больше, никаких хитростей.

При всей внешней простоте этого алгоритма, он даёт богатую почву для размышлений. В заданных условиях, если бы каждый следовал библейским заповедям (возлюби ближнего своего) и делал друг другу исключительно добро (ставил плюсики), то все получали бы максимальную, причём абсолютно одинаковую выгоду.

Есть только одна проблема: в реальной жизни это не работает. Рано или поздно находится кто-то, кто понимает, что выигрышная стратегия в этой ситуации заключается в том, чтобы брать, ничего не давая взамен.

Поэтому, кстати, коммунизм с его концепцией «от каждого по способностям, каждому по потребностям» – чистейшей воды утопия.

Алгоритм, который всегда ставит своему визави минусы, выигрывает у алгоритма, который всегда и всем ставит плюсы. Поэтому абсолютное добро, к сожалению, абсолютно нежизнеспособно.

Впрочем, если все будут ставить друг другу только минусы, то выиграть тоже будет невозможно, поэтому абсолютное зло — так же бессмысленно и абстрактно, как абсолютное добро.

А идеальная стратегия поведения в обществе заключается в том, чтобы всегда начинать с сотрудничества, а затем отвечать добром на добро и ударом на удар.

Самое важное и одновременно сложное при этом – прощать старые обиды, отказываясь от мести и предубеждений после справедливого воздаяния. Увы, компьютерным алгоритмам это даётся куда проще, чем людям.

И, кстати, именно поэтому концепцию отпущения грехов и прощения в христианстве можно считать самой (если не единственной) ценной частью этой религии.

Тем более, что мы очень скоро вернёмся к теме прощения и увидим, что она ещё важнее, чем кажется сейчас.

Что же касается алгоритма «Око за око»: его всё-таки смогли побить. Для этого команда университета Саутгемптона выставила на соревнование одновременно 60 алгоритмов, которые узнавали друг друга по первым ходам и подыгрывали друг другу – один вчистую сливал очки другому.

Да, это произошло лишь спустя 20 лет с момента изобретения алгоритма «Око за Око» и с очень большой натяжкой, однако стало ясно, что в жизни бывают ситуации, в которых даже идеальный алгоритм даёт сбой и, возможно, имеет смысл взглянуть на проблему шире.

Одна из таких ситуаций – взаимное недопонимание. Оказалось, что если иногда, с определённой вероятностью менять знак, который выдаёт алгоритм, на противоположный, то «Око за Око» перестаёт быть самой успешной стратегией.

Получив вместо плюса случайный минус, визави начинают друг с другом бесконечную вендетту, из которой нет выхода. А ведь такое в нашей жизни случается сплошь да рядом: «хотели как лучше, а получилось как всегда». Всего одна случайность или недопонимание могут испортить отношения людей, сделав их непримиримыми врагами.

И вот тут нам на помощь вновь приходит математика. Оказалось, что когда случайных ошибок немного, а если точнее – от 1% до 9%, то самым успешным оказывается алгоритм, который очень сильно похож на «Око за Око» за одним исключением: получив минус, он даёт своему визави шанс исправиться и начинает минусовать его в ответ только после второго минуса.

Получается, что в условиях неопределённости, неоднозначности трактовок и мотивов, прощение оказывается ещё более важным фактором успеха, а слова «если тебя ударили по правой щеке, подставь левую» обретают вполне понятный и конкретный смысл.

Получив пощёчину, имеет смысл разобраться, в чём дело, прежде чем начинать войну до победного конца. Однако щёк всего две, и после удара по второй обязательно должно следовать воздаяние.

Было бы здорово, кстати, если бы кто-нибудь показал православным Евангелие от Матфея, главу 5, стих 39: «Аз же глаголю вам не противитися злу: но аще тя кто ударит в десную твою ланиту, обрати ему и другую». Судя по тому, насколько рьяно православные рвутся в бой, возомнив себя оскорблёнными, в Евангелии они смогут открыть для себя очень много новых, полезных мыслей.

Но и это ещё не всё! Оказывается, если неопределённость возрастает до 10% и выше, то среди алгоритмов появляется новый лидер – Предатель, который в любой ситуации и вне зависимости от действий других ставит другим только минусы.

И вот это – очень важный момент. В реальной жизни почти никогда не бывает 100% однозначной трактовки поступков, неопределённость есть всегда. Но при переходе тонкой грани между 9 и 10% всё переворачивается с ног на голову.

Благородные и великодушные внезапно оказываются в жопе. Точнее, в жопе по итогу оказываются все, но наверх при этом выбираются самые эгоистичные, беспринципные и скользкие мрази. И в реальной жизни, в отличие от компьютерной симуляции, они могут менять правила игры.

Каждый приговор, отправляющий невинного человека в тюрьму.

Каждый сфальсифицированный бюллетень на выборах.

Каждая капля мельдония в баночке с мочой.

Каждый распятый мальчик в эфире федерального телеканала.

Каждый распиленный госконтракт.

Каждый свеженазначенный иноагент.

Каждый ихтамнет на чужой земле.

Каждая высосанная из пальца цифра в официальной статистике.

Каждая зарубежная вилла у патриота во власти.

Каждый купленный QR-код – всё это добавляет к неопределённости процент за процентом, делая существование тех, кто стремится жить по справедливости, всё более сложным.

В компьютерной симуляции всё заканчивается, когда неопределённость возрастает до 50%, то есть наступает полный произвол. Ни одна стратегия, ни один алгоритм в таких условиях не могут выиграть. Наступает хаос.

Это можно трактовать одновременно и как символ неизбежного краха такой системы, и как возможность появления на её обломках чего-то лучшего.

До недавнего времени я знал, что в краткосрочной перспективе сама игра определяет успешность игроков, а в долгосрочной перспективе наоборот, игроки определяют, какой будет игра, но не понимал, откуда именно может взяться лучик надежды. Что может заставить людей выбрать не конкуренцию, а сотрудничество.

Понятно, что снижают уровень неопределённости и повышают доверие членов общества друг к другу такие банальные и скучные вещи, как справедливый суд, честные выборы, свободные СМИ, непредвзятая статистика и адекватные, некоррумпированные органы власти. Мы все про это знаем, но откуда им взяться на пепелище?

Однако в феврале 2021 года Дмитрий Баланёв, декан факультета психологии ТГУ, провел социальный эксперимент, состоявший из трёх этапов.

Сначала участники исследования играли друг с другом по тем же правилам, что и компьютерные алгоритмы. Оказалось, что примерно в 20% случаев участники выбирали вариант с предательством и только в 1% – безоговорочное сотрудничество.

На втором этапе участники в группах выполняли ряд заданий для включения в социальные взаимодействия, то есть попросту как следует знакомились друг с другом.

Во время третьего этапа участники случайным образом разделялись на пары и снова играли друг с другом, не зная с кем конкретно из своей группы они играют.Выяснилось, что после знакомства 34% участников стали придерживаться стратегии «всегда сотрудничать» и только 13% – «всегда предавать».

Это очень обнадёживает. Мы – социальные животные и сотрудничество у нас в крови, нам просто нужно чуточку сблизиться друг с другом.

К сожалению, людей вокруг нас становится всё больше, а настоящего, живого общения с ними – всё меньше. Подозреваю, что соцсети лишь отдаляют нас друг от друга, локдауны усугубляют социальную изоляцию, а телевизор это и вовсе жуткая штука, погружающая нас в квинтэссенцию одиночества – бесконечный виртуальный мир, в котором все говорят, но нас никто не слышит.

И чтобы сделать нашу жизнь лучше, нам необходимо встречаться, знакомиться, разговаривать с коллегами по работе, с соседями, родственниками. Посещать концерты, болеть за любимую команду на стадионе, болтать во дворе на лавочке, заводить друзей – только и всего.

Я прекрасно понимаю, что весь уклад современной жизни противоречит этому, но либо мы научимся социализироваться в новых условиях, либо это произойдёт по старинке, когда всё рухнет и выжившие снова начнут сбиваться в стаи на руинах некогда великой цивилизации.

Поэтому давайте общаться. Пишите комментарии, ставьте лайки, делитесь этой статьёй с друзьями. Возможно, это гораздо важнее, чем кажется.