UCT : モンテカルロ評価を用いた木探索法 多腕バンディット問題 腕が複数あるスロットマシン 腕毎に当たりの確率が異なる 多数回プレイする中で一番儲けるには? 「探検」と「収穫」のジレンマ 過去の選択と儲けに基づいてどの腕を選ぶかをうまく決める必要がある UCB : Upper Confidence Bounds 下式を最大にする腕をプレイする