前回、 前々回 では、価値関数を求め、それを基に行動を決定する手法について扱ってきた。 しかし、そもそもロボットの行動を決めるのは方策であるのだから、その方策を直接学習できないのだろうか?という疑問が湧く。

今回は、前回までとは全く違うアプローチとして、方策勾配法 をまとめる。 方策勾配法は、方策をあるパラメタで表される関数とし、そのパラメタを学習することで、直接方策を学習していくアプローチである。

方策を直接扱うことで

  • VπQπを求めるような複雑でメモリを消費する手法を使わなくて良い
  • 連続空間における行動を扱いやすくなる

などの利点がある。

方策勾配法においては、確率的な方策を扱う場合と確定的な方策を扱う場合がある。本記事では方策は確率的なものを扱う。(これは確定的な方策の一般化したものであるため)。 また後述するように、価値関数を最大化するように方策の勾配を求めたいが、そのときに方策(のlogを取ったもの)と報酬をかけ合わせたものの比率(これをここではscore functionと呼ぶ)を用いる方法、いわゆるlikelihood ratio methodあるいはscore function methodというものと、状態遷移パスの各点において勾配を計算することで直接価値関数の勾配を求める方法、いわゆるpathwise derivative methodと呼ばれ、DPG、SVGなどがこれにあたるものがある。 本記事では前者について述べている。

方策のモデルと勾配 

θでパラメタライズされた確率的な方策πθを求める問題を考える。 τをステップ0からHまでの状態-行動の系列(状態-行動空間でのパス)τ=(s0,a0,,sH,aH)としたとき、方策の評価関数として以下を考える。

(1)J(θ)=Eπθ[t=0HR(st,at)]=τP(τ;θ)R(τ) ここで、R(τ)=t=0HR(st,at)としている。 またP(τ;θ)はパスの生成モデルであり、定義より (2)P(τ;θ)=t=0HP(st+1|st,at)πθ(at|st) である。

以上の設定において、方策の学習は最終的に (3)maxθJ(θ)=maxθτP(τ;θ)R(τ) を求める問題となる。 そこで、微小ステップごとに評価関数のθでの微分方向 (4)θJ(θ)=θτP(τ;θ)R(τ) に方策を更新することで、方策を最適化することを考える。 これは以下のように変形できる。

(5)θJ(θ)=θτP(τ;θ)R(τ)=τθP(τ;θ)R(τ)=τP(τ;θ)P(τ;θ)θP(τ;θ)R(τ)=τP(τ;θ)θP(τ;θ)P(τ;θ)R(τ)=τP(τ;θ)θlogP(τ;θ)R(τ)=Eπθ[θlogP(τ;θ)R(st,at)]

この式を見ると、更新則によって、

  • 報酬Rが高いパスの存在確率を上げる
  • 報酬Rが低いパスの存在確率を下げる

方向に方策が更新されることがわかる。 これをパスではなく方策と遷移確率について立式するとどうなるだろうか。 式(2)より、

(6)θlogP(τ;θ)=θlog[t=0HP(st+1|st,at)πθ(at|st)]=θ[t=0HlogP(st+1|st,at)]+θ[t=0Hlogπθ(at|st)]=θt=0Hlogπθ(at|st)=t=0Hθlogπθ(at|st)

となる。状態遷移確率P(st+1|st,at)θをパラメタとして持たないので、θで微分するとこの項が消えるのである。

結局、勾配は (7)g^=Eπθ[θlogP(τ;θ)R(st,at)]whereθlogP(τ;θ)=t=0Hθlogπθ(at|st)

すなわち (8)g^=Eπθ[t=0Hθlogπθ(at|st)R(st,at)]

で表され、方策のθでの勾配のみで表現できることがわかる。

Baseline 

(8)にbaseline bという値を追加する。 (9)g^=Eπθ[t=0Hθlogπθ(at|st)(R(st,at)b)]

勾配の計算にHステップの加算を含むため、分散は増大しやすくなる。 baselineはg^の値には影響を与えないが、調整前に比べてg^の分散を減少させる効果がある。

R(st,at)bが小さいほど分散が小さくなるので、bの決定法としては、R(st,at)との二乗距離を小さくするように調整すればよい。

行動価値関数 Q(st,at) との関係 

(8)では、Hステップの累積を想定して立式したが、Hとしても同様に成り立つ。 また、報酬の加算についても割引報酬を用いても同様に導出される。

(10)g^=Eπθ[t=0θlogπθ(at|st)γtr(st,at)]=Eπθ[t=0θlogπθ(at|st)[k=0t1γkr(sk,ak)+k=tγkr(sk,ak)]]

ここで、k=0t1γkr(sk,ak)の項は、時刻tにおいての行動atの影響を受けない部分であるため、除去する。 これによって分散を増やす要素を削減することができる。

すると、行動価値関数を用いて以下のように表すことができる。

(11)g^=Eπθ[t=0θlogπθ(at|st)k=tγkr(sk,ak)]=Eπθ[t=0θlogπθ(at|st)]Q(s,a)

このように行動価値関数に方策のlog微分をかけ合わせたものが、勾配の不偏推定量であることは方策勾配定理として知られている。