一文读懂：博弈论

显示全部楼层 · 2024-6-28 16:41:40

世界是纷繁复杂的，可以用一些理论来揭示事物运行的逻辑规律，推演命运发展的因果关系。

一. 介绍

博弈论，又称对策论、赛局理论等，既是现代数学的一个新分支，也是运筹学的一个重要学科。

博弈论主要研究公式化了的激励结构间的相互作用，是研究具有斗争或竞争性质现象的数学理论和方法。博弈论的研究开始于20世纪初，由恩斯特·策梅洛、埃米尔·博雷尔及冯·诺伊曼等人发起。博弈论在经济学、离散数学、算法设计、人工智能中有着广泛的应用。

在快速理解博弈论之前，我们需要熟悉四个名词:

玩家；行动；结果；收益以及三个策略:

1 根据对手的行动做出的最高收益的行动

2 最优选择，占优策略，与对手的策略无关

3 在这个状态下玩家之间达到一个策略上的均衡，双方共同的最优解

二. 博弈论的作用与价值

博弈论的目标是研究冲突对抗条件下的最优决策问题。在寡头过招时候有两大类行为分别是合谋和竞争，当它们决定选择合谋的时候，彼此会考虑对方的行为，并找到两者利益最大化的结果。博弈论的目的是通过模型来解释这种互相影响的行为，以便找到最优的决策方案。

博弈论的实现原理主要依赖于数学模型。在博弈中，每个参与者都有选择实际可行的完整的行动方案，这个方案不是某阶段的行动方案，而是指导整个行动的一个方案，一个局中人的一个可行的自始至终全局筹划的一个行动方案，称为这个局中人的一个策略。博弈论考虑游戏中的个体的预测行为和实际行为，并研究它们的优化策略。

博弈论主要可以分为合作博弈和非合作博弈。合作博弈和非合作博弈的区别在于相互发生作用的当事人之间有没有一个具有约束力的协议，如果有，就是合作博弈，如果没有，就是非合作博弈。

从行为的时间序列性，博弈论进一步分为静态博弈、动态博弈两类：静态博弈是指在博弈中，参与人同时选择或虽非同时选择但后行动者并不知道先行动者采取了什么具体行动；动态博弈是指在博弈中，参与人的行动有先后顺序，且后行动者能够观察到先行动者所选择的行动。

三. 经典博弈论模型

1. 囚徒困境

这是博弈论中最最经典的案例了——囚徒困境，非常耐人寻味。

“囚徒困境”说的是两个囚犯的故事。这两个囚徒一起做坏事，结果被警察发现抓了起来，分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下，两个囚犯都可以做出自己的选择：或者供出他的同伙(即与警察合作，从而背叛他的同伙)，或者保持沉默(也就是与他的同伙合作，而不是与警察合作)。这两个囚犯都知道，如果他俩都能保持沉默的话，就都会被释放，因为只要他们拒不承认，警方无法给他们定罪。但警方也明白这一点，所以他们就给了这两个囚犯一点儿刺激：如果他们中的一个人背叛，即告发他的同伙，那么他就可以被无罪释放，同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决，并且为了加重惩罚，还要对他施以罚款，作为对告发者的奖赏。当然，如果这两个囚犯互相背叛的话，两个人都会被按照最重的罪来判决，谁也不会得到奖赏。

那么，这两个囚犯该怎么办呢？是选择互相合作还是互相背叛？从表面上看，他们应该互相合作，保持沉默，因为这样他们俩都能得到最好的结果：自由。但他们不得不仔细考虑对方可能采取什么选择。A犯不是个傻子，他马上意识到，他根本无法相信他的同伙不会向警方提供对他不利的证据，然后带着一笔丰厚的奖赏出狱而去，让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到，他的同伙也不是傻子，也会这样来设想他。所以A犯的结论是，唯一理性的选择就是背叛同伙，把一切都告诉警方，因为如果他的同伙笨得只会保持沉默，那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了，那么，A犯反正也得服刑，起码他不必在这之上再被罚款。所以其结果就是，这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应：坐牢。

企业在信息化过程中需要与咨询企业、软件供应商打交道的。在与这些企业打交道的过程中，我们不可避免地也会遇到类似的两难境地，这个时候需要相互之间有足够的了解与信任，没有起码的信任做基础，切不可贸然合作。在对对方有了足够的信任之后，诚意也是必不可少的，如果没有诚意或者太过贪婪，就可能闹到双方都没有好处的糟糕情况，造成企业之间的双输。

2. 智猪博弈

在博弈论（Game Theory）经济学中，“智猪博弈”是一个著名的纳什均衡的例子。假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽，另一头安装着控制猪食供应的按钮，按一下按钮会有10个单位的猪食进槽，但是谁按按钮就会首先付出2个单位的成本，若大猪先到槽边，大小猪吃到食物的收益比是9∶1；同时到槽边，收益比是7∶3；小猪先到槽边，收益比是6∶4。那么，在两头猪都有智慧的前提下，最终结果是小猪选择等待。

实际上小猪选择等待，让大猪去按控制按钮，而自己选择“坐船”(或称为搭便车)的原因很简单：在大猪选择行动的前提下，小猪也行动的话，小猪可得到1个单位的纯收益(吃到3个单位食品的同时也耗费2个单位的成本，以下纯收益计算相同)，而小猪等待的话，则可以获得4个单位的纯收益，等待优于行动；在大猪选择等待的前提下，小猪如果行动的话，小猪的收入将不抵成本，纯收益为-1单位，如果小猪也选择等待的话，那么小猪的收益为零，成本也为零，总之，等待还是要优于行动。

在小企业经营中，学会如何“搭便车”是一个精明的职业经理人最为基本的素质。在某些时候，如果能够注意等待，让其他大的企业首先开发市场，是一种明智的选择。这时候有所不为才能有所为！

高明的管理者善于利用各种有利的条件来为自己服务。“搭便车”实际上是提供给职业经理人面对每一项花费的另一种选择，对它的留意和研究可以给企业节省很多不必要的费用，从而使企业的管理和发展走上一个新的台阶。这种现象在经济生活中十分常见，却很少为小企业的经理人所熟识。

3. 枪手博弈

有三个枪手，第一个枪手A的命中率是80%， B是60%，C是40%。他们同时举枪瞄准、同时射击另两个人中的一个，要尽可能消灭对手，每个人一次机会，一颗子弹，目标是努力使自己活下来。谁活下来的可能性最大？如果你认为枪法最准的A胜出，那么你就错了。

我们来看，如果你是A，你毫无疑问的会瞄准对你威胁最大的B，而B也会瞄准对他威胁最大的A，而C则也可能瞄准A，那么三个人存活的概率都是多少呢？

A = 100% - 60% - （1-60%）* 40% = 24%

B = 100% - 80% = 20% (因为命中率为80%的A在瞄准他)

C = 100% （因为没有人瞄准他）

原来，枪法最不准的C竟然活了下来。

那么，换一种玩法呢？

如果三个人轮流开枪，谁会生存下来？

如果A先开枪的话，A还是会先打B，如果B被打死了，则下一个开枪的就是C，那么此时A生存的概率为60%，而C依然是100%（他开过枪后A没有子弹了，游戏结束）；如果打不死B，则下一轮在B开枪的时候一定会全力回击，A的生存率为40%，不管是否打死A，第三轮AB的命运都掌握在C的手里了。

那么，如果游戏规则规定必须由C先开枪，如果你是C怎么才能让自己活下来呢？

答案是胡乱开一枪，只要不针对AB任何一人即可。

当C开枪完毕，AB还是会陷入互相攻击的困境。

插播1——警察与小偷

令人沮丧的博弈结局。警察和小偷各只有一个机会去巡查或者偷盗A地或B地。A地的价值大于B地，那么警察应该为了保护价值大而一直保护A地吗。博弈论认为当然不是，警察的合理策略应当是有倾向于A以一定概率的随机巡查。这个概率就是：p=A地价值/AB地总价值。这种情况下才能使小偷最大得手几率降至最低。但是很不幸的是，此时的小偷谋求的是，最小得手几率的最大化。也就是说，警察的最优策略将把小偷的最差策略改良！这个便是冯·诺伊曼提出的“最小最大定律”。

我们必须再一次感谢这个不完美的世界，因为现实之中，类似的现象，对于一方仍然可以设法找到对手致命的规律性行动（当然必须考虑到对方是不是一个更加老练的猎手，故意放出的诱饵）。而保持自己的行动的无序性，则有可能成为欺骗策略的武器，这倒似张三丰所言道的：无招胜有招。

4. 斗鸡博弈

两只斗鸡在决斗的时候，无论选择进或退都是一个难题，因为纳什均衡已经给出了一胜一败的最优策略。在很多较量下，死拼将是得不偿失的，因为很可能给第三者机会。因此，两个已经在战场的强势力很可能自觉的遵循纳什均衡，当一方攻击时，另一方暂退。虽然可能某方暂时受损，但较之于两败俱伤是好得多的。不过，要维持这一状况，必须保证下一次先期受损的一方发动攻势的时候，另一方同样的后退。于是这样的攻击性行为开始变得“仪式化”，没有人真正流血。这只不过是两个巨头玩弄的游戏，目的是警告后来者，想进来，那么也得陪我们一起玩，可是你玩的起么？

这正是百事的广告，即使暗含挑衅也最多只到“敢为中国红”这样的地步的原因。

插播2——协和谬误

欧洲ZF在大量投资协和飞机后，终于不能自拔。即使前景黯淡，也撑着面子投下去，非要走头无路才放弃。而这时投入的成本已经全打水漂了。如果，发现不能继续的时候，就果敢放手，损失会小得多。可是他们会、能这么做么？壮士断腕，是何等的壮烈，却也是何等的艰难！

沉没成本很可能会延续人们无畏的坚持。已经沉没的本该放弃，可惜大部分有赌徒式的心理，相信阿基米德的杠杆终将启动。可惜他们在爬到足够撬动杠杆的支点之前，已经窒息了。

协和谬误，倒是给了人们半途而废的理由，会不会有人担心它的滥觞会左右一些本该坚持的目标？的确有这个可能，但是应该相信人们足够理智，完全可以比较沉没成本、机会成本与未来收益的关系。看清了的，必定会坦然地走出协和谬误。

5. 蜈蚣博弈

一场颠前倒后的博弈。蜈蚣博弈的机理是以最终的结果倒退至开始。这是一个睿智的策略，因果相报，把握好因缘，自有好结果。它的另一个好处，就是使得未来的计划明晰化，是你不再徘徊。只可惜，很多时候，碌碌无为的我们并没有看透迷局的眼睛。我们黑色的眼睛只习惯于黑夜。

蜈蚣博弈也有一个致命的悖论，仍旧是个人利益和集体利益的冲突，因为最后一次的背叛收益始终优于合作。可悲的是，这一次背叛将由于人性的理智，穿越时光隧道，回到原始的地点：人们将从开始就拒绝合作。还是感谢我们这个不完美的世界吧，事实上人们很少这样做。当然合作到最后的也很少，这意味着，倒推法只在中间阶段突然发生了作用，只不过谁也不能预测，中间一步在哪里。在那里，我们只有冀望信任、道德、良知等等。

6. 分蛋糕博弈

两个小孩怎么分蛋糕？经典的故事，经典的解答：一个分，一个选。现实多如此，权利的合理分配将有效促进公平与效率。经营权与所有权的分置的确使得经济更加活力。不过分蛋糕的进阶模型却强调了讨价还价的策略，分蛋糕不是一次性的，而是多回合的，而且出现成本：蛋糕在融化。

时间称本的加入，将使得分配变得复杂化。双方如果不能及时达成交易，不仅集体的收益将减量，而且个体的收益也将减少。在此情况下，利用时间称本以及威胁、承诺将对其中一方极其有利。顾客可能迫于情势，必须尽快结束谈判，这时卖方却不慌不忙，故意拖延，顾客一方将不得不在价格上作出妥协。

顾客一方当然也有策略，它的策略就是货比三家，要求承诺或威胁。这个前提是买方市场的存在。顾客还应当保护自己讨价还价的能力，这就是顾客有权投诉商家。

7. 鹰鸽博弈

这个博弈很多人等同于斗鸡博弈。不过，斗鸡是两个兼具侵略性的个体，鹰鸽却是两个不同群体的博弈，一个和平，一个侵略。在只有鸽子一个苞谷场里，突然加入的鹰将大大获益，并吸引同伴加入。但结果不是鹰将鸽逐出苞谷场，而是一定比例共存，因为鹰群增加一只鹰的边际收益趋零时（鹰群发生内斗），均衡将到来。

由此产生了ESS进化上的稳定策略，也就是说一旦均衡形成，偏离的运动会受到自然选择的打击。也就是鹰群饱满后，再试图加入的鹰将会被鹰群排挤。

进化上的稳定均衡最大的好处莫过于保持稳定。但问题在于形成强势的路径依赖，也就是胜出的不一定是最好的。因为最好的会被当作出头鸟干掉，这是个体的失败，集团的胜利以及集体的止步不前。

8. 脏脸博弈

恍然大悟的博弈。三个人在屋子里，不许说话。美女进来说：你们当中至少一个人脸是脏的。三人环看，没有反应。美女又说：你们知道吗？三人再看，顿悟，脸都红了。为什么？因为美女后一句废话点破天机，三个人都知道脏脸的存在，而且推测知道对方也知道了脏脸的存在（因为另两人脸没红，说明他们看到脏脸了），而且知道对方知道自己已经想到上一步……循环开始，知识开始共同化，真相大白：三个人都是脏脸，所有人都脸红了。

这就是共同知识的作用，它的作用显得有点可怕的强大。几乎是一招无影腿，杀人不见血。在台面上的博弈之前，私下的算计已经置对手于死地。不过，很可能对方也预料到这一点，早也想到这一点，同时杀来。终于，形成双死局面。

当然，现实虽然存在类似现象，不过共同知识更大的作用在于减少交易成本。因为某些规则人尽皆知，双方只要各自依之行事就可以了。

信息均衡：

很显然，信息的作用在博弈之中非常重要。将博弈论还原到现实，人们不再完全理性，信息存在不对称，博弈就需要在抢占信息高地上作出努力。

信息不对称，是一个很大的障碍。信息的不对称会造成“逆向选择”和“道德风险”，前者事前，后者事后。信息不对称短期内对某一方会有利，但最终会破坏整个市场。于是有两个解决策略。

信息传递：传达你的正面的信息的策略，也就是说吸引顾客走到你的柜台面前。它的要点是保持有效、减低成本。

信息甄别：诱导对手暴露其私下拥有的真实信息。就是给顾客一个放大镜，保证顾客不会走到其他柜台去。这种策略显然更加有效，不过风险也更大：万一顾客用放大镜看出了了自己的瑕疵怎么办？

插播3——博傻理论

在资本市场中（如股票、期货市场）：人们之所以完全不管某个东西的真实价值而愿意花高价购买，是因为他们预期会有一个更大的笨蛋会花更高的价格从他们那儿把它买走。

“博傻理论”所要揭示的就是投机行为背后的动机，投机行为的关键是判断“有没有比自己更大的笨蛋”，只要自己不是最大的笨蛋，那么自己就一定是赢家，只是赢多赢少的问题。如果再没有一个愿意出更高价格的更大笨蛋来做你的“下家”，那么你就成了最大的笨蛋。可以这样说，任何一个投机者信奉的无非是“最大的笨蛋”理论。

何谓博傻？

博傻是指在高价位买进股票，等行情上涨到有利可图时迅速卖出，这种操作策略通常被市场称之为傻瓜赢傻瓜，所以只能在股市处于上升行情中适用。从理论上讲博傻也有其合理的一面，博傻策略是高价之上还有高价，低价之下还有低价，其游戏规则就像接力棒，只要不是接最后一棒都有利可图，做多者有利润可赚，做空者减少损失，只有接到最后一棒者倒霉。

在艺术品市场中：预期会有人花更高的价格从你手中买走它

博弈论中的笨蛋理论（Theory of Greater Fool）：你之所以完全不管某件艺术品的真实价值，即使它一文不值，也愿意花高价买下，是因为你预期会有更大的笨蛋花更高的价格从你手中买走它。而投资成功的关键就在于能否准确判断究竟有没有比自己更大的笨蛋出现。只要你不是最大的笨蛋，就仅仅是赚多赚少的问题。如果再也找不到愿意出更高价格的更大笨蛋从你手中买走这件艺术品的话，那么，很显然你就是最大的笨蛋了。

9. 以牙还牙

是一个用于博弈论的重复囚徒困境（Reiterated Prisoner's Dilemma）非常有效的策略。也就是说，人家怎么对你，你也怎么对他。说得再准确点，这个策略在开局时选择合作，以后则模仿对手在上一期的行动。这一策略有两个步骤：① 第一个回合选择合作② 下一回合是否选合作要看上一回对方是否合作，若对方上一回背叛，此回合我亦背叛；若对方上一回合作，此回合继续合作以牙还牙策略有四个特点：① 友善：以牙还牙者开始一定采取合作态度，不会背叛对方② 报复性：遭到对方背叛，以牙还牙者一定会还击作出报复③ 宽恕：当对方停止背叛，以牙还牙者会原谅对方，继续合作④ 不羡慕对手：以牙还牙者个人永远不会得到最大利益，整个策略以全体的最大利益为依归

10. 手表定律

手表定律是指一个人有一只表时，可以知道现在是几点钟，而当他同时拥有两只表时却无法确定。两只表并不能告诉一个人更准确的时间，反而会让看表的人失去对准确时间的信心。你要做的就是选择其中较信赖的一只，尽力校准它，并以此作为你的标准，听从它的指引行事。记住尼采的话：“兄弟，如果你是幸运的，你只需有一种道德而不要贪多，这样，你过桥更容易些。” 如果每个人都“选择你所爱，爱你所选择”，无论成败都可以心安理得。然而，困扰很多人的是：他们被“两只表”弄得无所，心身交瘁，不知自己该信仰哪一个，还有人在环境、他人的压力下，违心选择了自己并不喜欢的道路，为此而郁郁终生，即使取得了受人瞩目的成就，也体会不到成功的快乐。

手表定理在企业经营管理方手表定律面给我们一种非常直观的启发，就是对同一个人或同一个组织的管理不能同时采用两种不同的方法，不能同时设置两个不同的目标。甚至每一个人不能由两个人来同时指挥，否则将使这个企业或这个人无所适从。手表定理所指的另一层含义在于每个人都不能同时挑选两种不同的价值观，否则，你的行为将陷于混乱。

四. 应用

博弈论在经济学、离散数学、算法设计、人工智能中有着广泛的应用。例如，它可以用来解释寡头市场中的竞争和合谋行为，也可以用来设计和优化算法，以及在人工智能中模拟和预测决策行为。在商业化产品应用场景中，博弈论被广泛应用于商业运作中的规则和约定的建立，以及在实际操作中的谈判。在“互联网+”、大数据及人工智能时代，博弈论有了新的用武之地：一方面，信息技术为博弈模型的分析与求解提供了强大的计算和分析引擎；另一方面，“互联网+”和人工智能时代的蓬勃发展，也为博弈分析提供了新的应用课题、应用场景。

具体的应用案例包括在经济学中的市场竞争分析，例如寡头市场中的价格战；在离散数学中的优化问题，例如网络流量的优化；在算法设计中的策略选择，例如在机器学习中的训练策略选择；在人工智能中的决策模拟，例如在自动驾驶中的行驶策略选择。在生活中，博弈论也被广泛应用，例如对付广告电话的最好方法不是直接挂掉，而是静音不接，这样可以最大限度拖慢拨出速度，帮助其他人免受骚扰，实现整体利益最优。