名古屋で数学するプログラマ(仮)

@antimon2 が趣味兼一部本職の数学で何かするときのブログ。

統計データ分析

荘川桜が昨日開花した模様。
2週間くらい前の開花予想通りでしたね。また見に行きたいなー。

さて勉強勉強。
今日は4月の勉強のまとめ。

今月の勉強テーマは「統計データ分析」。でした。
集めたデータが、「意味のある偏りを示しているか」(度数分析)、「データ間に関係性があるか」(相関分析、分散分析)、といった事を見る手法について、「どういう場合に」「どの手法を使えば」「何が分かるか」を把握、してみました。
以下にまとめてみます。

度数分析

アンケートの集計結果など、同じテーマ(カテゴリ)で集めたデータに、どのような偏りがあるか、を見る分析手法。
例:「ある市の男女比率が、全国の比率と比べて偏っているか」

  • 二択(「ハイ/イイエ」など)の集計データの偏りを見る場合
    • 直接確率計算(母比率からそのような結果となる偶然確率を直接計算して検定)
  • 2つの二択アンケートで「A1かつB1なのは、A2かつB1よりも○○」かどうか、を見る分析手法。
    • 直接確率計算(Fisher's exact test)
  • 三択以上のアンケートで偏りを見る場合
  • 二択だけど母数が多く直接確率計算では時間がかかる場合
  • 逆に三択以上だけど度数が少ないか実測値0の項があったり期待値が5以下の項が多いとき
    • 直接確率計算(Fisher's exact test)

相関分析

複数のデータ間に何らかの対応関係(線形関係)があるか、を見る分析手法の1つ。
例:「数学のテスト結果が良い生徒は英語のテスト結果も良いか」

  • 相関係数(データ間にどれくらいの関係性があるかを表す係数。-1≦r≦1。|r|が1に近いほど相関があり、0に近いほど相関がない)
    • ピアソンの積率相関係数(最も一般的な相関係数。普通単に「相関係数」と言えばコレ。共分散をそれぞれの標準偏差で割ったものに等しい。)
  • F値(相関係数と、相関の自由度・偶然誤差の自由度から計算。F分布による偶然確率の範囲と比較することで検定)

分散分析

グループごとに、平均に差があるかどうかを調べる分析手法。
例:「男女でテストの得点に差があるか」

  • 要因参加者間計画(As)
    • 要因(A)に注目し、それぞれ設定した各水準に、参加者(s)を割り当てたデータ。 例:「方法A1で勉強した人と、A2で勉強した人とで、成績に違いがあるか」
  • 要因参加者内計画(sA)
    • 参加者(s)の下に、それぞれ水準を設定した要因(A)を割り当てたデータ。 例:成績の悪かった生徒が、補習の前(A1)と後(A2)で成績に違いが出たか」
  • 混合計画
    • AsとsAの混合タイプ。

まとめ

てかあまりまとまってない(^-^;特に後半。
具体的な計算方法とかは今回触れなかったので、分析手法の話としては、今回はこの辺で。

次回

来月は、どっちに走ろうかな。
もっと具体的に手を動かしたい気もするから、回帰分析(グラフの近似)に手を出してみようかな。
ちゃんと理解してないから「○○分布」(カイ二乗分布、t分布、etc)を少し掘り下げてみようかな。
それとも、ベイズ理論とか、機械学習とか、もっとHotな話題に一気に触れていこうかな。