죄수의 딜레마 뜻, 합리적 선택이 둘 다 망하는 이유

조별 과제 해본 적 있죠. 다들 “내가 좀 덜 해도 누군가 하겠지” 생각하다가, 결국 발표 전날 새벽 3시에 모두 카톡방에서 만나요. 이상하죠. 각자 자기한테 가장 유리한 선택을 했는데 모두가 손해예요. 한 명이라도 “내가 하지 뭐” 했으면 다 같이 일찍 잤을 텐데요.

이게 70년도 더 된 게임이론의 가장 유명한 문제, 죄수의 딜레마가 말하는 풍경이에요. 오늘은 “왜 똑똑한 사람들이 모이면 멍청한 결정을 할까”라는 의문을 이 한 가지 사고실험으로 뜯어볼게요.

🕵️ 취조실 두 칸에서 시작된 이야기

상황은 이래요. 두 명이 같이 범죄를 저질러서 체포됐어요. 경찰은 큰 증거가 없어서, 두 사람의 자백이 필요해요. 그래서 둘을 떨어진 방에 가두고 똑같은 거래를 제안하죠.

“당신이 자백하고 동료는 입을 다물면, 당신은 풀어줄게요. 동료는 10년형. 둘 다 자백하면 5년씩. 둘 다 입을 다물면 우린 1년짜리 잔챙이 죄로만 기소할게요.”

당신이라면 어떻게 할까요? 머리를 굴려보면 이상한 결론이 나와요.

내 선택 \ 동료 선택	동료 침묵	동료 자백
나 침묵	둘 다 1년	나 10년 / 동료 0년
나 자백	나 0년 / 동료 10년	둘 다 5년

동료가 침묵해도 내가 자백하면 0년이라 이득. 동료가 자백해도 내가 자백해야 10년 대신 5년. 어느 쪽이든 자백이 합리적이에요. 그런데 동료도 똑같이 생각하니까 둘 다 자백하고 5년씩 살아요. 둘 다 침묵했으면 1년이었을 텐데요.

각자 똑똑하게 굴었는데 결과는 둘 다 망함. 이게 핵심이에요.

🧪 RAND 연구소에서 태어난 사고실험

이 문제, 누가 만들었을까요. 1950년 미국 RAND 연구소에서 수학자 메릴 플러드(Merrill Flood) 와 멜빈 드레셔(Melvin Dresher) 가 처음 설계했어요. 냉전 초기, 미국과 소련의 핵전략을 수학적으로 분석하려던 시기였죠. 둘은 동료 두 명에게 100번 반복해서 게임을 시켰는데, 이론상 “배신”이 합리적인데도 둘이 자꾸 협력하는 걸 보고 놀랐어요.

같은 해, 프린스턴의 수학자 앨버트 터커(Albert W. Tucker) 가 강연에서 이 게임에 감옥 이야기를 입혀요. 그래서 우리에게 친숙한 “죄수의 딜레마”라는 이름이 붙은 거예요. 원래는 그냥 숫자 표였는데, 이야기로 옷을 입히니까 갑자기 모두에게 와닿는 문제가 됐죠.

💡 합리적 개인의 선택이 모여서 집단적으로 비합리적인 결과를 만든다 — 이게 죄수의 딜레마의 한 줄 요약이에요.

🌏 우리 주변엔 이미 죄수의 딜레마가 있어요

이 이론이 유명해진 건 감옥 얘기 때문이 아니에요. 일상 곳곳에서 같은 구조가 반복되거든요.

광고비 경쟁이 그래요. 라면 회사 A, B가 둘 다 광고를 안 하면 비용 안 들고 매출은 그대로. 둘 다 광고를 하면 시장 점유율은 그대로인데 비용만 뜯겨요. 그런데 한쪽이 광고를 안 했는데 다른 쪽이 하면? 안 한 회사가 점유율을 뺏기죠. 그래서 결국 둘 다 광고를 해요. 둘 다 손해 보는 걸 알면서요. 통신 3사 광고가 1년 내내 시끄러운 이유가 여기 있어요.

냉전의 핵 군비경쟁도 같은 구조예요. 미국과 소련 둘 다 핵을 안 만들면 평화롭고 예산도 절약. 그런데 한쪽이 안 만들고 다른 쪽이 만들면, 안 만든 쪽이 망해요. 그러니 둘 다 만들죠. 결국 둘 다 수만 발의 핵을 쌓아두고 “버튼 누르면 같이 끝”이라는 상태로 50년을 보냈어요. 합리적 선택의 결과가 이거예요.

OPEC 산유국들이 감산 합의를 자꾸 깨는 것도, 어부들이 물고기 씨가 마를 걸 알면서 더 잡는 것도 같은 패턴이에요. 협력하면 다 같이 좋은데, 혼자만 빠지면 더 좋으니까요.

♻️ 그런데 현실에선 협력도 일어나잖아요

여기서 진짜 흥미로운 연구가 시작돼요. 1980년, 미시간대 정치학자 로버트 액설로드(Robert Axelrod) 가 도발적인 실험을 했어요. “게임이 한 번이 아니라 반복되면, 어떤 전략이 가장 강할까?” 그는 전 세계 게임이론 전문가들한테 전략을 제출받아 컴퓨터 토너먼트를 열었어요. 1차에는 14개 전략, 2차에는 62개 전략이 참가했죠.

결과는 모두를 놀라게 했어요. 우승자는 토론토대 심리학자 아나톨 라포포트(Anatol Rapoport) 가 제출한, 단 4줄짜리 포트란 코드.

전략 이름은 팃포탯(Tit for Tat). 규칙은 이래요.

첫판은 무조건 협력해요
그다음부터는 상대가 직전에 한 행동을 그대로 따라 해요

이게 전부예요. 보복형 전략들, 계산이 복잡한 전략들을 다 이겼어요. 2차 토너먼트에선 다들 1차 결과를 보고 왔는데도 또 이겼고요. 액설로드는 우승 전략에 네 가지 특징이 있다고 정리했어요.

착함 — 먼저 배신하지 않음
보복 — 배신당하면 즉각 갚아줌
용서 — 상대가 협력으로 돌아오면 바로 풀어줌
명확함 — 단순해서 상대가 예측 가능

친절하되 호구는 되지 말 것. 갚아주되 뒤끝은 없을 것. 게임이 반복된다는 사실만으로 협력이 합리가 돼요.

다음에도 만날 사이라면 배신이 비싸지거든요. 한 번 배신하면 다음 판부터 보복이 들어오니까요. 그래서 친구·가족·이웃·동료처럼 반복해서 마주칠 관계에선 인간이 본능적으로 협력해요. 모르는 관광지 식당이 호객 행위 심한 이유, 단골 가게가 친절한 이유, 같은 맥락이에요.

🎯 그래서 뭐가 남았나요

오늘 알아본 것 세 가지만 정리할게요. 첫째, 각자 합리적으로 굴어도 모두가 손해 보는 구조가 존재해요. 둘째, 그 원인은 “서로 못 믿는 1회성 상황” 때문이에요. 셋째, 게임이 반복되고 평판이 쌓이면, 협력이 오히려 똑똑한 선택이 돼요.

다음에 회사 회의에서 “왜 우리 부서끼리 협력이 이렇게 안 되지?”라는 말이 나오면, 살짝 생각해봐도 좋겠어요. 이 사람들, 다음에도 또 만나야 한다는 신호가 충분히 강한가? 그게 협력의 시작이에요.

오늘은 여기까지! 다음에도 재밌는 사고실험 하나 들고 올게요 👋

📚 참고 자료

Wikipedia, Prisoner's dilemma — 모델 설계자(Flood·Dresher)와 명명자(Tucker) 출처
Wikipedia, Tit for tat / Robert Axelrod — 1980년 토너먼트와 라포포트의 우승
Rapoport A., Seale D.A., Colman A.M. (2015), Is Tit-for-Tat the Answer?, PLOS ONE — 토너먼트 참가 전략 수와 보상행렬
Axelrod, R. (1984), The Evolution of Cooperation, Basic Books — 우승 전략의 4가지 특징