讨论TS算法、贪心算法和UCB算法的文章: 什么是汤普森采样 - 王腾云的回答
用广告投放来做例子:
第一步: 先将三个ads都投放一段时间, 收集一部分数据. 在每一回合, 对于每个, 如果用户点击一次, 那么, 如果没有点击
第二步: 对于收集到的每个 的数据, random sample from:
第三步: 选取有最高 score 的 ad 展示出来
第四步: 不断重复2-3步, 直至收敛, 或者reward足够好.
对于, 如果, 曲线就越向1倾斜, 得到靠近1的几率较大, score偏大 如果, 曲线就越向0倾斜, 得到靠近0的几率比较大, score偏小