囚人のジレンマとは?「パレート最適」や「ナッシュ均衡」についても簡単に解説!【ゲーム理論・思考実験】

思考実験

利害関係にあるプレイヤー同士が戦略的意思決定を下す時、合理的に選択したにもかかわらず最大利得を達成できないという、「囚人のジレンマ」に陥る可能性があります。

この記事では、「囚人のジレンマ」の意味や内容を具体例を交えて詳しく解説し、ゲーム理論を理解する上で重要な「ナッシュ均衡」や「パレート最適」などの概念についても簡単に触れながら、回避策なども紹介します。

16歳からのはじめてのゲーム理論 "世の中の意思決定"を解き明かす6.5個の物語
16歳からのはじめてのゲーム理論 "世の中の意思決定"を解き明かす6.5個の物語
スポンサーリンク

囚人のジレンマとは

囚人のジレンマとは、経済学の「ゲーム理論」におけるゲームモデルの一つです。協力した方が得であると各個人が理解していても、それぞれが自分の利益を最大化するように行動した結果、それを達成できないというジレンマを表しています。

ある犯罪に共同で関与していた可能性が高い囚人A・Bが警察に捕まり、意思疎通の取れない別室でそれぞれ尋問を受けている。2人を自白させるために、検事は司法取引を持ちかけた。

  • 「両方とも黙秘すれば、証拠不十分として両方とも懲役2年」
  • 「片方だけ自白すれば、そいつは無罪で、黙秘した方は懲役10年」
  • 「両方とも自白すれば、両方とも懲役5年」

2人の選択肢は「黙秘」か「自白」。互いに相手が同じ司法取引を持ちかけられていることは知っている。しかし別々の部屋にいるので相談はできない。

A \ B黙秘自白
黙秘2・20・10
自白10・05・5

このような状況で、囚人A・Bはどのように意思決定をするでしょうか?

ゲーム理論って何?

ゲーム理論とは、複数主体が相互に作用する状況での人々の意思決定や行動を分析する学問です。
利害関係がある複数のプレイヤーが、互いの思考を推測して自己の利益の最大化を目指している状況を戦略的状況(ゲーム)と呼び、そのゲームの進行を研究しています。

ゲームの進行

まずは囚人Aについて、「囚人Bが黙秘を選択した場合」と「囚人Bが自白を選択した場合」のそれぞれにおける最適反応戦略(自分の利得が最大の戦略)を考えます。

囚人Bが黙秘を選択した場合
  • 囚人Aは自白を選択 → 囚人Aの懲役は0年
  • 囚人Aも黙秘を選択 → 囚人Aの懲役は2年

二つを比べた結果、囚人Aは自白をした方が懲役期間が短く済みます。よって、自白が最適反応戦略です。

囚人Bが自白を選択した場合
  • 囚人Aも自白を選択 → 囚人Aの懲役は5年
  • 囚人Aは黙秘を選択 → 囚人Aの懲役は10年

二つを比べた結果、囚人Aは自白をした方が懲役期間が短く済みます。よって、自白が最適反応戦略です。

つまり、囚人Bが黙秘したとしても自白したとしても、どちらの場合でも囚人Aは自白したほうが利得が大きいことがわかります。

このように、他のプレイヤーの選択によらず、一貫して最適反応である戦略を支配戦略と呼びます。

ゲームは対照的なので、囚人Bについても同様のことが言えます。したがって、囚人A・Bが自分の利得を最大化しようと行動した結果、両者自白という結末に帰着します。

数学的証明(読み飛ばしても大丈夫です)

playerの集合{A,B}Aの戦略の集合={黙秘,自白}Bの戦略の集合={黙秘,自白}
Ua=Aの利得 Ub=Bの利得

playerAについて解く
playerBが自白を選択 → Ua(黙秘,自白)=-10 < Ua(自白,自白)=-5
playerBが黙秘を選択 → Ua(黙秘,黙秘)=-2 < Ua(自白,黙秘)=0
よってplayerAの最適反応戦略は自白___①
対称ゲームなので、同様にplayerBの最適反応戦略も自白___②

①②よりナッシュ均衡は(自白,自白)

「パレート最適」と「ナッシュ均衡」

囚人のジレンマにおいて、両者黙秘を選択し、(A、B)の懲役が(2、2)である状態が最も合計の懲役期間が短く、公平で理想的であることは明らかです。

このように、それ以上改善の余地がない組み合わせ(誰かの利得を増やそうとすると別の誰かを犠牲にしなければいけない状態)を「パレート最適(パレート効率的)」と呼びます。

また、各プレイヤーにとって、変更すると利得が減少してしまうため変更不可能である戦略の組み合わせ(最適反応戦略の組み合わせ)を「ナッシュ均衡」と呼びます。
囚人のジレンマにおいて、「ナッシュ均衡」は両者自白の懲役(10、10)です。

囚人A・Bは自分の利得を最大化しようと合理的に判断したにもかかわらず、そのナッシュ均衡はパレート最適を達成できていません。

つまり、囚人のジレンマでは「パレート最適」と「ナッシュ均衡」は必ずしも一致しないことが表されています。

用語まとめ

  • ゲーム:複数のプレイヤーが相互に影響を及ぼし合いながら意思決定する戦略的状況
  • 最適反応戦略:相手の特定の戦略に対して最も利得が大きい戦略
  • 支配戦略:相手の全ての戦略に対して最も利得が大きい戦略
  • パレート最適:それ以上誰の不満も出さずに利得を改善できない組み合わせ
  • ナッシュ均衡:最適反応戦略の組み合わせ

パレート最適は(2、2)だけではない!
実は、囚人のジレンマにおけるパレート最適は(A、B)=(黙秘、黙秘)の(2、2)だけではありません。(A、B)=(自白、黙秘)の(10、0)と、(A、B)=(黙秘、自白)の(0、10)もパレート最適となります。
なぜなら(10、0)と(0、10)は、他の組み合わせに変更しようとすると片方が損をするため、それ以上誰の不満もなく利得を改善できないためです。

また、囚人のジレンマにおけるナッシュ均衡は、単なる最適反応戦略の組み合わせではなく、支配戦略の組み合わせであるため、「支配戦略均衡」とも呼ばれます。

現実における「囚人のジレンマ」の具体例

現実でも囚人のジレンマのような状況は数多く存在します。例えば以下のようなものが挙げられます。

  • 企業の価格競争
  • 国家同士の軍縮条約
  • CO2削減などの環境問題

お互いに協力すれば最も望ましい状態を達成できることは分かっている。しかし協力よりも裏切りを選択した方が自分にとって利得が増えるし、もし自分が協力を選択し相手が裏切りを選択すれば目も当てられない事態になる。

そのような状況で相手を信頼し協力を選択することはとても困難です。

では、実際に囚人のジレンマのような状況に陥るとどのようにゲームは進行していくのでしょうか?

ハンバーガー屋の価格競争

あるところにライバル関係にあるハンバーガー屋A・Bがある。市場(需要と供給のバランス)で決められたハンバーガーの均衡価格が500円であり、A・Bで提供されるハンバーガーに味や品質の違いはなく、原価はどちらも100円である。

味や品質に違いがないということは、ハンバーガーの価格が相手よりも1円でも安ければ総需要を独占できることを意味する。

そのため、Aはライバル店であるBを出し抜くために、ハンバーガーの価格を499円に値下げすることにした。しかし、Bが498円に値下げすれば、客を全て取られてしまう。では497円にすればいいかというとそうでもなく、相手が496円にしてくる可能性がある。

この思考を繰り返した結果、Aのハンバーガーの価格は原価である100円に帰着する。そして同様のことがBにも起こる。その結果、ハンバーガーの価格はA・Bともに100円となる。

本来ならば、(A、B)は(500、500)の売り上げがあったのだが、値下げ競争の結果(100、100)となってしまった。もし1円でも利益を増やそうと値上げすれば、客は価格の安い相手を選ぶのでハンバーガーは全く売れなくなる。

つまりこのハンバーガー屋のゲームでは、値下げが最適反応戦略であり、(100、100)がナッシュ均衡、(500、500)がパレート最適ということになる。

巨大企業の二重ジレンマ

ある産業では、巨大企業X・Y・Zが市場を牛耳り、寡占状態となっている。

X・Y・Zは競争に勝ちたいがあまり、サービスがあまりに肥大化・複雑化して、人件費や広告費、原材料費や工場維持管理費などの各種費用が嵩んでしまっていた。価格競争によって商品価格も限界まで下がっているので、利益率は芳しくない。

だからといって費用を惜しんだり価格を上げれば、他の2企業との競争に負けてしまう。つまり、巨大企業X・Y・Zは囚人のジレンマに陥っていた。

そんなある日、X・Y・Zの代表が集まり、秘密の会合が行われた。

「この市場は我々以外に競争相手はいない。つまり我々が手を組めば、市場は実質的には一つの超巨大企業による独占状態になる。そうなれば市場が決める価格を無視して、我々が自由に商品に値段をつけることができる。どうかね、手を組まんか?」

こうして、翌月から「生産量を絞ること・価格を釣り上げること・広告を抑えること」が三者間で取り決められた。

しかし翌月、X・Y・Zはカルテルを裏切り、費用を投下し、価格も引き下げた。カルテルによって達成する高利益の市場を3社で分け合う(協調する)よりも、現行の低利益の市場であっても独占してしまう(裏切る)方が利得が大きいと判断したためだ。

結果として、巨大企業X・Y・Zによる不毛な競争は続くことになった。

「囚人のジレンマ」は必ずしも悪いことではない

人々が合理的に意思決定を下すのであれば、最も代表的な競争であるクールノーモデルやベルトランモデルにおいて、寡占市場であってもカルテルは発生しません。しかし、現実にはプライス・リーダーシップなどの存在によって暗黙の協調が発生します。そのため、独占禁止法や課徴金減免制度などによって不公正な競争は制限されています。

課徴金減免制度とは、「カルテルを公正取引委員会に内部告発すれば罰金を減免してあげるよ」という制度のこと。この制度によって、企業には「カルテルの約束を守る(協調)」と「密告する(裏切り)」の二つの戦略が生まれ、囚人のジレンマに陥ります。

用語振り返り

  • ゲーム:複数のプレイヤーが相互に影響を及ぼし合いながら意思決定する戦略的状況
  • 最適反応戦略:相手の特定の戦略に対して最も利得が大きい戦略
  • 支配戦略:相手の全ての戦略に対して最も利得が大きい戦略
  • パレート最適:それ以上誰の不満も出さずに利得を改善できない組み合わせ
  • ナッシュ均衡:最適反応戦略の組み合わせ

「囚人のジレンマ」を回避する方法は?

「囚人のジレンマ」は、プレイヤー同士が提携できない「非協力ゲーム」と呼ばれるもので、その中でもプレイヤーが意思決定するタイミングが同時である「戦略系ゲーム」に含まれます。そして特に重要な条件として、最適反応戦略から導かれるナッシュ均衡とパレート最適が一致していません。

  • 各プレイヤーは提携不可能
  • 同時手番
  • ナッシュ均衡とパレート最適の不一致

囚人のジレンマでは以上の条件を満たすと、パレート最適を達成することができないということが示されています。

したがって、このような状況を回避するためには、条件が揃わないように工夫する必要があります。

では、どのようにすれば条件が揃わなくなるでしょうか?

1. ゲームを無限に繰り返す

実は、囚人のジレンマではゲームが無限に繰り返されることによって、「協調」の可能性が見出されることが知られています。これを利用することで、各プレイヤーは提携不可能という条件を実質的に破ることができます。

実際にどういう仕組みで「協調」の可能性が生まれるのかを説明するために、まずは「有限繰り返しゲーム」と「無限繰り返しゲーム」について解説します。

有限繰り返しゲーム

有限繰り返しゲームとは、そのゲームの試行回数をプレイヤーが把握しているゲームのことです。

プレイヤーがゲームの試行回数を把握している限り、ゲームが何度繰り返されようと必ず囚人のジレンマに陥ります。これは後退帰納法によって証明されます。

  • n回目の最終ラウンドではゲームの結果がお互いの関係に与える影響について考慮する必要がなくなり、心理的駆け引きが生じないので「裏切り」が選択されます。
  • nー1回目では、そのゲームの結果によらず次のn回目の選択は決まっているので、この回の選択は次のゲームに影響しません。よって「裏切り」が選択されます。
  • 同様に全てのゲームにおいて「裏切り」が選択されます。
無限繰り返しゲーム

無限繰り返しゲームとは、そのゲームの試行回数をプレイヤーが把握していないゲームのことです。

プレイヤーがゲームの試行回数を把握していないと、「協調」の可能性が生まれます。

なぜなら、最終ラウンドが存在しないため後退帰納法が適用されず、もし協調を選択すれば次のゲームで相手が自分を信頼してくれて、(協調、協調)と言うパレート最適が達成される可能性があり、心理的駆け引きが生じるためです。

このような状況では、「トリガー戦略」や「しっぺ返し戦略」などの、協調を孕んだ戦略がナッシュ均衡となります。

また、あるプレイヤーとのゲームが一回切りであっても、その結果が別の誰かとのゲームに影響を与える場合、同様に「協調」の可能性が生まれます。

トリガー戦略とは?
トリガー戦略とは、相手が「裏切り」を選択するまで初回からずっと「協調」を選び、相手が「裏切り」を選択してきたらその後は「裏切り」を選択し続けるという戦略です。

◯しっぺ返し戦略とは?
しっぺ返し戦略とは、初回では「協調」を選択し、次回以降は前回の相手の手をそのまま返す戦略です。

2. 非協力ゲームから協力ゲームに転換する

無限繰り返しゲームであっても、相手が裏切る可能性を捨てきれない非協力ゲームであることに変わりはありません。協力ゲームに持ち込むためには、相手が裏切る可能性を排除する必要があります。

拘束的合意を形成する

「協力ゲーム」と「非協力ゲーム」の違いは、プレイヤー同士が提携状態にあるかどうかです。つまり各プレイヤーが提携できれば囚人のジレンマは「非協力ゲーム」ではなくなり、ジレンマは解消されます。

ただし、この場合の提携とは「プレイヤーの戦略を制限する拘束力」を指します。交渉や相談による約束だけでは強制力がないため、上記の巨大企業の二重ジレンマの例にあるように「裏切り」が発生します。

強制力を持った提携とは、具体的には共通の規制を設け、違反者には罰則を適用するなどが考えられます。

信頼関係を築く

ゲームのプレイヤー同士が強固な信頼関係をゲーム開始前から構築していた場合、拘束力のある合意がなくても、プレイヤー同士は擬似的な提携状態にあります。

つまり、囚人のジレンマにおいて相手が心から信頼できる人物であれば、相談などしなくても、「協調」を選択することが可能です。

戦略的指針としてのゲーム理論

ゲーム理論は、戦略的状況における各プレイヤーの意思決定や行動に対して数学的にアプローチし、最適な戦略思考を分析しています。

自分の利益だけを考えて行動すると、不利益な結果を招く可能性があることが囚人のジレンマでは証明されています。利害関係のある相手との駆け引きにおいては、相手と自分の各戦略の組み合わせを把握し、そこから得られる利得についても理解することで、良い判断をすることができます。さらに協調の実現可能性を模索し、それを実現することができるのならば、理想的な利得の獲得や信頼性向上にも繋がるでしょう。

16歳からのはじめてのゲーム理論 "世の中の意思決定"を解き明かす6.5個の物語
16歳からのはじめてのゲーム理論 "世の中の意思決定"を解き明かす6.5個の物語
タイトルとURLをコピーしました