【強化学習】モデルフリーな手法における経験

モデルフリーな環境において、エージェントは自ら行動を行うことによって経験を蓄積し、それらを活用することで報酬を最大化できるようになる。この、経験と活用のバランスを適切に設定しなければ、高い報酬を得ることができない。

Epsilon-Greedy法

経験の蓄積と活用のバランスをとる手法の一つにEpsilon-Greedy法がある。この手法ではEpsilonの確率で探索、すなわち経験の蓄積をするための行動をし、それ以外の確率では経験を活用するための行動をとる。

多腕バンディット問題

蓄積と活用のトレードオフを示す問題として、多腕バンディット問題が考えられる。人工知能学会によると多腕バンディット問題とは以下のようなものを指す。

多腕バンディット問題(バンディット問題, multi-armed bandit problem)は、複数のアームと呼ばれる候補から最も良いものを逐次的に探す問題である。 アームという奇妙な単語はこの問題のもとになったスロットマシン(バンディットマシン)の比喩から来ている。

すなわち、本問題においては複数のアームの中から適当に選択して利用する行動が蓄積にあたり、使用したアームの中から過去のスコアが高かったものを使う行動が活用に当たる。また、選択・使用の行動を複数かい行っていくことから、選択の回数が多いほど十分な探索が行えることになるため、活用による1回あたりの報酬は最大スコアに近づいていく。しかし、探索をあまりに多く行い過ぎて活用をほとんど行わない場合や、活用をし過ぎて蓄積に基づく見積もりがいつまでも正確にならない場合はその限りではない。