好玩的博弈论 - 纳什均衡


均衡

均衡在英文中是equilibrium,是来自经济学中的一个概念。均衡也就是平衡的意思,在经济学中是指相关因素处在一种稳定的关系中,相关因素的量都是稳定值。比如,我们去商场买东西,那我们作为买家和卖家之间是买卖关系,经过讨价还价最终将商品的价格定在了一个数值上,这个数值买卖双方都能结束,这个时候我们就说买家和卖家之间达成了一种均衡。

博弈论中的均衡是指参与者之间经过博弈,最终达成了一个稳定的结果。均衡只是博弈的一种结果,但并不是唯一的结果。博弈的均衡是稳定的,这种稳定点是可以通过计算找到的。我们以一个例子来分析一下博弈中的均衡。

女孩Alice和男孩Bob青梅竹马,对彼此都有好感,但是这份感情一直埋在心底没有跟对方提起过。这些年不断有人跟Alice表白,但是Alice都拒绝了,因为她觉得总有一天Bob会向自己表白。而Bob也同样如此。但是直到最后彼此都等的心都凉了也没有等到期望的表白从而遗憾终身。

真是个悲伤的故事。

在这个例子中,我们假设两人走到一起后,每人得到的利益为10,假设什么都得不到的利益为0,便可以得到如下矩阵图:

alice
表白 不表白
bob 表白 (10, 10) (X,X)
不表白 (X,X) (0,0)

从图表中可以看到,如果双方同时表白,可以得到皆大欢喜的结果(10, 10),若是都不表白,双方只能一无所获(0, 0)。若是只有一方表白,那结果可能未知。

由此可见,这场博弈有2个均衡,要么同时表白,皆大欢喜;要么都不表白,各自忍受。所以当你遇到了一个喜欢的人的时候最好的策略是勇敢的表白,这样最差的结果也无非是一无所获。

有的博弈中只有一个均衡,有的博弈中有多个均衡,还有的博弈中的均衡之间是可以相互转换的。当双方之间连续博弈,也就是所谓的重复性博弈的时候,博弈之间的均衡变会发生转换。

纳什均衡

“纳什均衡”的概念来自纳什的2篇论文《n人博弈中的均衡点》和《非合作博弈》, “纳什均衡”简单的说就是多人参加的博弈中,每个人根据他人的策略制定自己的最优策略。所有人的这些策略组成一个策略组合,在这个策略组合中,没有人会主动改变自己的策略,那样会降低他德收益。只要没有人做出策略调整,任何一个理性的参与者都不会主动改变自己的策略。这个时候,所有的参与者的策略便达到一个平衡,这种平衡便是“纳什均衡”。

“纳什均衡”有一个形象的比喻,就是锅里的乒乓球。如果我们把几个乒乓球放到锅里,它们就会向锅底滚去,并在锅底相互碰撞,最后停住不动的时候便达成一种平衡,这个时候如果动了其中一个,其他的乒乓球便会受影响,如果想到保持住这种平衡,就不能动其中任何一个乒乓球,一直保持下去。在这个比喻中,乒乓球代表各个参与者的策略,乒乓球最后停留在锅底形成的平衡就是“纳什均衡”。

囚徒博弈

“囚徒博弈”是“纳什均衡”中最经典的案例。它是这样的一个故事:

一天,警局接到报案,一位富翁被杀死在自己的别墅中,家中的财务也被洗劫一空。经过多方调查,警方最终将嫌疑人锁定在Bob和Charlie身上,因为事发当晚他们有人看到他们2个神色慌张地从被害人的家中跑出来,警方到2个人的家中进行搜查,结果发现了一部分被害人家中失窃的财务,于是将二人作为谋杀和盗窃的嫌疑人拘留。
    但是到了拘留所里,2人都矢口否认自己杀人,都辩称自己只是路过想进去偷点东西,结果进去的时候发现主人已经被杀,于是他们便随便拿了点东西就跑了。但是这样的解释并不能让人信服。
    隔离审讯的时候,警察告诉Bob: “尽管你们不承认,但是我知道人就是你们2个人杀的,事情早晚会水落石出。现在我给你一个坦白的机会,如果你坦白了,但是Charlie不承认,那么你属于主动自首,同时协助警方破案,你将会被立即释放,Charlie则会坐10年牢;如果你们都坦白了,那么你们都会坐8年牢;如果都不坦白的话,可能以入室盗窃判1年牢狱。”同样的话,警察也对Charlie说了一遍。
    此时,对于Bob和Charlie来说,他们2人可选策略如下矩阵图:
Charlie
坦白 不坦白
bob 坦白 (8, 8) (0,10)
不坦白 (10,0) (1,1)

“纳什均衡”中,一方会根据对方的策略制定自己的最优策略。通过上图可以得知,“囚徒困境”中存在着2个“纳什均衡”:(8, 8)和(1, 1)。如果Bob选择坦白,Charlie的最优策略也是选择坦白;如果Bob选择不坦白,Charlie的最优策略也是选择不坦白。其中2个罪犯都选择不坦白的“纳什均衡”是一种好均衡,双方都选择坦白得到的均衡是一种坏均衡。

这个案例中,由于2个人被隔离审讯,不能串供,因此都不知道对方的策略,这个时候,出于自保的本能和心理影响,他们大多数情况都会选择坦白。原因很简单,若是 坦白最多坐8年牢,若是不坦白则最多要10年。再说了,钥匙侥幸同伙不坦白而自己坦白的话,就可以当即释放了。这样来看,坦白是最好的选择。

根据“纳什均衡”的定义我们可以知道,一场博弈中并不一定只有一个“纳什均衡”,但是均衡之间有好坏之分。比如“囚徒困境”中,两名罪犯同时选择不坦白,得到的均衡会是好的均衡。同时坦白,得到的均衡是坏的均衡。

“不可见的手”

亚当斯密认为每个人作出对自己有利选择的时候,对这个社会也最有利。

他在《国民财富的性质和原因的研究》中说:“当每个人都在追求自己私利的时候,市场这只看不见的手绘发挥最佳的效果,社会将得到最大的收益。”他认为追求自己利益最大化的同时也会给社会带来收益,通俗点说就是每个人把自己的事情做好了,社会便好了。然而,有时候并不是每个人的个体利益相加变会得到社会总体的整体利益。比如“囚徒博弈”中,每个人最希望得到的结果是自己坦白而对方不坦白,那样他们就可以被当即释放。但是2个人如果都这样想的话,便都会选择坦白,得到的结果是(8, 8),每个人坐牢8年。这并不是对2个人而言最好的结局,最好的结局是都不坦白,每人坐牢1年。

身边的“纳什均衡”

各大电商平台在双十一期间的价格战就是一个非常典型的“纳什均衡”的例子,比如某东和某猫。假设在降价之前,两家的利益均等,都是(10, 10),如果某猫要降价,虽然单位利润降低,但是销量增加,最终仍是增加效益,假设增加到14。与此同时,对方的一部分消费者会被吸引到某猫这边,对方的利润会下降,假设下降到6。若是同时降价的话,两家的销量是不变的,但是单位利润下降会导致总体利润下降,假设为(8, 8),这样便可以得到降价策略的矩阵图:

某猫
降价 不降价
某东 降价 (8, 8) (14,6)
不降价 (6,14) (10,10)

从表中可以看到,2家平台有2个“纳什均衡”: 同时降价、同时不降价。也就是(8, 8)和(10, 10)。这其中,(10, 10)的均衡是好均衡。但是2家为什么还要选择降价呢?这是因为多年价格战导致的恶性竞争。往年都要进行价格战,所以到了今年,他们知道自己不讲价也得被对方逼的降价,所以赶早不赶晚,都提前宣布降价互动了。

麦当劳和肯德基

我们经常发现,在有肯德基出现的地方,不出100米,基本上都会有麦当劳的身影,反之亦然。这同样可以用“纳什均衡”来解释。除了麦当劳和肯德基,还有耐克和阿迪,安利和雅芳等等。这些都是非常常见的均衡在实际生活中的例子。