確率のおさらい(1) - 名古屋で数学するプログラマ(仮)

何か世間では a-b÷c=d!（かつ (a-b)÷c=dの場合等）が話題のようですが、さっくり無視して我が道を行きます。

これから何ヶ月かかけて、ベイズ理論とか機械学習のあたりを少しずつ勉強進めていこうと思います。
主な教科書は、gihyo.jpの連載、機械学習はじめよう。
今日はその中の「第2回　確率の初歩」から。

確率変数と確率分布

まずは基礎用語と記号のおさらい・統一から。
なお以下、私自身が理解して噛み砕いた内容を記述するので、厳密な定義とは限りません。もし「絶対これは違うだろ」という間違いがあったらご指摘ください。

確率変数: 試行結果において定義される関数。よく大文字の X や Y、もしくは説明のために A や B なんかで表す。
確率分布: 確率変数とその値をとる確率との対応を示したもの。P(X) のように表す。これを単に「確率」と呼ぶこともある。

関数なのになぜ「確率変数」という名前なのか。それにはちゃんとした（厳密な定義に従った論理的な説明の付く）理由があるのですが、その説明は暇と機会があればまたその時に詳しく。

よく引き合いに出される、「サイコロの目の確率」で説明します。
X は「サイコロの目」を表す確率変数とします。つまり、X の取る値は 1, 2, 3, 4, 5, 6 のいずれかです。
すると P(X) は、「サイコロの目の確率分布」もしくは「サイコロの目の確率」と言います。
X は1〜6の値を取るのですが、それぞれの値を取る確率（＝それぞれの「サイコロの目」が出る確率）を

P(X=1), P(X=2), … , P(X=6)

もしくは（確率変数の区別が必要ない場合は）単に

P(1), P(2), … ,  P(6)

と書きます。つまりP(X=1)（もしくはP(1)）は「サイコロの目が1になる確率」です。

確率分布の「分布」という言葉の意味、というか「確率分布」であるための条件定義は、以下の2つ。

確率の値は0以上1以下
すべての取り得る値の確率の合計は1

サイコロの目で言えば、よくある説明で

すべてのサイコロの目（1, 2, … , 6）の出る確率はいずれも 1/6。
その確率の合計は 1/6 × 6 ＝ 1

ということ。
よく表にして書きます。確率分布表と言います。サイコロの例↓。

確率変数X	1	2	3	4	5	6	計
確率P	1/6	1/6	1/6	1/6	1/6	1/6	1

あとよく、これをグラフに書きます。横軸が確率変数 X の値、縦軸がそれぞれの値の確率。
そのグラフがどういう形をしているか、というのも割と重要になってくるのですが、それはまたいつか別の機会に。

同時確率と条件付き確率

ここからいきなり、確率変数の数が2つ（以上）になります。

同時確率: 2つの確率変数 X, Y について、その2つが同時に起こる確率。P(X, Y)（または P(X∩Y)）と記述。
条件付き確率: 2つの確率変数 X, Y について、X がある値を取る条件の下で Y がある値を取る確率。P(Y|X) と記述（X と Yの順序に注意）。

同時確率について、よくある参考書には集合の積記号∩を使った P(X∩Y) の記述法がよく使われるのですが、理論展開ならこの記法でも良いのですが実際に具体的な確率変数とその値、確率の値を考えたりするときは、X, Y が本当に変数のように見えていた方が扱いやすいし分かりやすいので、gihyo.jpの記事の記法に従って以降 P(X, Y) と書きます。
なお確率変数が2つある場合に、その一方だけで P(X) で書くと、「（確率変数 Y の値に寄らず）X が起こる確率」の意味になります。これを「X の周辺確率」と言います。

確率の加法定理: 2つの確率変数 X, Y において、同時確率と周辺確率の間には、以下の関係がある。
P(X) ＝ ∑_{Y}P(X, Y)
確率の乗法定理: 同時確率、条件付き確率、周辺確率の間には、以下の関係がある。
P(X, Y) = P(X)×P(Y|X)

加法定理の方は、定理というかほぼ周辺確率の定義のようなもの、直感的に理解できるのではないかと。
乗法定理の方は、逆に「条件付き確率」の定義を考えてみると分かりやすいのではないかと。
ちゃんとした証明はここではしません。読者の宿題にしますｗ（言ってみたかったｗ）