速習 強化学習 の2ページ目の非数学科向けの解説

P2では,マルコフ決定過程(MDP)を定式化が全てである.

キーワードとその意味を紹介する.精密な議論は避け,直感的な説明を心がける.

可算集合:元を全て数え上げることのできる無限集合
状態:強化学習における状態(図1を参照)
行動:強化学習における行動(図1を参照)
報酬:強化学習における報酬(図1を参照)

確率測度:
確率とはσ-加法族上で定義される測度で定義される確率測度のことです.その確率をちゃんと数学的に定義するためにルベーグ積分を使うのですが,それは今回は触れずに,確率測度に必要な定義にのみ触れます.

定義:σ-加法族
ある空でない集合Sに対して,その部分集合の集合族(集合を要素に持つ集合)\mathcal{M}が以下の性質を満たすとき\mathcal{M}は(S上の)σ-加法族であるという.
1.\emptyset \in \mathcal{M}である.
2. A \in \mathcal{M}ならば補集合A^c\mathcal{M}の元つまり,A^c \in \mathcal{M}
3. n=1,2,…に対し A_n \in \mathcal{M}ならば,その和集合も\mathcal{M}の元つまり

    \[\bigcup_{n=1}^{\infty} A_n = A_1 \cup A_2 \cup \cdots \in \mathcal{M}\]



またSの部分集合でσ-加法族\mathcal{M}に属するものを\mathcal{M}-可測集合である.さらに(\mathcal{S},\mathcal{M})の対を可測空間という.

定義:測度,測度空間
可測空間(\mathcal{S},\mathcal{M})に対し,\mathcal{M}上で定義された関数\muが以下の性質を満たすとき,\muを((\mathcal{S},\mathcal{M})上の)測度という.
1. 任意のA \in \mathcal{M}に対し,0 \leq \mu (A) \leq \inftyとくに\mu(\emptyset) =0
2. A_1, A_2,\cdots \in \mathcal{M}が非交差的ならば,

    \[\mu \left( \bigcup _ { n = 1 } ^ { \infty } A _ { n } \right) = \sum _ { n = 1 } ^ { \infty } \mu \left( A _ { n } \right)\]


また,この

    \[\mathcal{S},\mathcal{M},\mu\]

の組(\mathcal{S},\mathcal{M},\mu)を測度空間という.

定義:確率測度,確率空間,確率
以下の条件を満たす三つ組(\Omega,\mathcal{F},\mathcal{P})を確率空間と呼び,その\mathcal{P}を確率測度もしくは単に確率という.
1. (\Omega,\mathcal{F},\mathcal{P})は測度空間である.
2. P(\Omega)=1である.

遷移確率カーネル:
[ 遷移確率カーネルP_0とは各状態と行動の組(x,a) \in \mathcal{X} \times \mathcal{A}に対し,\mathcal{X} \times \mathbb{R}上の確率測度P_0(\dot | x,a)を割り当てるものである.より具体的に言うとP_0は部分集合U \subset \mathcal{X} \times \mathbb{R}に対し、現在の状態がx,選択された行動がaであるとき,P_0(U | x,a)は次の状態とそれに対応する報酬がUに属する確率を表す.](P2からの抜粋)
遷移確率カーネルだけは直感的な理解ができませんでした...
P_0(U | x,a)は条件付き確率といってx,aが選択されたときのUの確率を表します.

即時報酬関数:
とは状態xにおいて行動aが選択されたときの期待値のこと

強化学習の全体像 図1

また,P2では\mathcal{X} \times \mathcal{A}などの\timesという記法が使われている.
これは集合同士の積,直積というものである.

直積とは集合A,Bがあり,Aの要素aとBの要素bのそれぞれ掛け合わせた積である.
記号で書くと

    \[A \times B = \{ ( a , b ) | a \in A \wedge b \in B \}\]


ともかける.
具体例で説明すると分かりやすい.

A={1,2,3},B={4,5,6,7}
A \times B = \{(1,4), (2,4), (3,4) ,(1,5), (2,5), (3,5), (1,6), (2,6), (3,6) , (1,7), (2,7), (3,7)  \}
である.

参考文献
速習 強化学習:Csaba Szepesvari
集合・位相入門:松坂和夫
測度・確率・ルベーグ積分:原啓介

最後に

はじめてP2だけを読んで書いたので,全体を勉強し終わったら追記するつもりです.
さすがに数学科じゃないので難しい,ちゃんと読んで理解していきたいです.

速習 強化学習 の2ページ目の非数学科向けの解説」への4件のフィードバック

  1. こことツイッターを見ている限りでは目標に対して勉強方法が適切でないように思うのですが…

    1. コメントありがとうございます.具体的にどのようなことに関してそう感じましたか?

  2. > 可算集合:(足すことが出来る集合のこと)
    ちがうとおもいます

コメントを残す

メールアドレスが公開されることはありません。

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください