世の中で偶然起こる事象を数学的に解決する方法。統計学のすごさ。
こんにちは。
今回は、世の中の偶然は本当に偶然かを検証するために使われている仮説検定について紹介します。
たとえば、よく他人に絡まれるが、服装が原因なのか髪の長さが原因か?など偶然起こすと思われることについて
数学的に確率を計算し、その事象が起こることが本当に偶然か、その前提(服装が原因で絡まれるなど)が原因か
など調べることができます。
おそらく絡まれる系は関係ありそうです。よく電車で痴漢される女子が髪色を黒から金髪にしたら被害に遭わなくなった
とも言われています。
有名な例だと丁半博打でサイコロがイカサマかどうか判定するのに使ったりしますね。
たとえば今までに路上や電車内で他人に9回絡まれた人がいたとします。
この人が絡まれた時の髪の長さについて
短め 2回
普通 1回
長め 6回
とします。
このとき絡まれるかどうかは髪の長さに関係するか?という問題を考えてみます。
もっと簡単な例でサイコロの丁半博打を考えてみましょう。
あるサイコロを2回振ったところ、2回とも1の目であった。
このとき、このサイコロはイカサマであるだろうか?
このような問題を考えるのに仮説検定という考え方があります。
仮説検定では仮説(否定したい事実、帰無仮説と呼ぶ)を設定し、それに対し
帰無仮説の否定(対立仮説)を決めます。
今の場合ですと、サイコロがイカサマであるといいたいので、帰無仮説はサイコロはイカサマではない。
対立仮説はサイコロはイカサマであるとなります。
そしてサイコロを2回振って2回とも1の目が出る確率は(1/6)^2=1/36=0.0277・・・となります。
この現象について
確率2.7%しかないことがたまたま起きたと考える人もいれば、いやこれはサイコロがイカサマだから
起きたことだと考える人もいますよね?
ではどのように判断すればいいのでしょうか?その判断基準が有意水準です。
この有意水準は普通3%(5%のときもあります)や1%に設定されています。
そして有意水準が3%の場合、サイコロを2回振って2回とも1の目が出る確率の方が有意水準より低い
ので仮説(帰無仮説)は棄却され、対立仮説が採用されます。
ということはサイコロはイカサマであるということです。
しかし、有意水準として1%を採用すると、サイコロを2回振って2回とも1の目が出る確率は有意水準より高いので
帰無仮説は棄却されずイカサマであるかどうかはわからないということになります。
棄却できないから帰無仮説が正しい、つまりサイコロはイカサマでないというわけではないのです!
この場合は証拠不十分で帰無仮説を棄却できなかったに過ぎないのです。
そのため、帰無仮説、対立仮説のどちらも否定されません。
さて最初の問題を考えてみましょう。有意水準は3%とします。
たとえば今までに路上や電車内で他人に9回絡まれた人がいたとします。
この人が絡まれた時の髪の長さについて
短め 2回
普通 1回
長め 6回
とします。
このとき絡まれるかどうかは髪の長さに関係するか?つまり髪が長いと絡まれやすいと言えるか?
この問題を数学的に言い換えるとこうなります。
言い換え
A、B、Cの3つの選択肢があって、どれが出現する確率も同じである。
このとき9回試行して6回C、2回A、1回Bが出る確率はどれくらいか?
この確率は
9C6×3C2×(1/3)^9=9C3×(1/3)^9=0.012・・・=1.2%
よって有意水準3%を下回っているので髪が長いと絡まれやすいといえる。
しかしこう考えることもできます。
Cが6回以上出る確率を全部計算してそれが有意水準以下かどうか見る方法です。
組み合わせは
A 2 1 0 3 1 0 2 1 0 0
B 1 2 3 0 1 2 0 0 1 0
C 6 6 6 6 7 7 7 8 8 9
となります。
(A,B,C)=(2,1,6)のときと(1,2,6)のときは確率が同じなので1.2%となります。
そして(A,B,C)=(0,3,6)のときはさっきの1/3なので0.4%となります。
では7回以上について考えてみましょう。
Cが7回でAかBが2回出る確率は
9C7×2C2(1/3)^9=0.001・・・=0.1%
AとBが1回ずつの確率はさっきの確率の2倍なので0.2%
8回以上はすごく確率が低いので影響しないと考えることにすると
全部の確率は
1.2*2+0.4*2+0.1*2+0.2*2=3.8%
よって有意水準3%で棄却されず有意水準5%で棄却されることとなります。
したがって、有意水準3%のときは髪の長さによるかは不明であり、有意水準5%のときは
髪の長さによるといえます。
では起こりやすそうな全部3回ずつではどうなるでしょうか?
この確率は
9C3×6C3×3C3×(1/3)^9=0.08535・・・=8.5%
よって有意水準より高いため帰無仮説は棄却されず、髪の長さに関係しているかどうかはわからないということになります。
先ほど、有意水準は3%とか1%とか言いましたが、もちろん1%の方が基準が厳しいので1%の方が
正確であることになります。
いかがだったでしょうか?
統計学を使って何か問題が起きた時に何が原因か検証する方法について解説しました。
大学数学の授業や数学書の内容が理解できない。そういった学生さんや社会人のために数学教室を運営しているのでぜひご検討ください。
大人の数学教室のホームページはこちら
今回は以上になります。
ありがとうございました!
参考文献
[1] 仮説検定とは?初心者にもわかりやすく解説!