ぼくらの研究

ぼくらのための研究をしていきます。

予言的中区間と信頼区間の違いを簡単に説明したい

      2016/11/25

例によって小島寛之先生著の統計学入門の話。

この前の記事でこの本の用語についての質問が(何故かぼくに)きて、果たして未熟なぼくが答えていいかちょっと困ったんですけど、同じように悩んでいる人もいるかもしれないと思いシェア的な意味で記事にしてみることにしました。

問い合せフォームに届いた内容はこうです。

“この本の中で紹介されている95パーセント予言的中区間と95パーセント信頼区間の違いがいまいちよく分かりません。もやもやします”

小島先生の説明はぼくが知る限りでは一番分かりやすいんですけど、問い合せしてくださった方はどうやら完全な初心者らしくもともと難しめな統計の考え方に戸惑っていたのかもしれません。

 

ちなみに本書での説明は以下の通りです。

「95パーセント予言的中区間」のときの95パーセントというのは、たしかに「95パーセントのデータがその区間に入っている」という意味でした。だから、「次回に観測するデータは95パーセントの確率でその区間に入っている」と考えて、全く正しかったわけです。
しかし、信頼区間の場合はそうではありません。「表の枚数が10枚と観測されたとき、母数Nが95パーセントの確率でこの13≦N≦30の範囲に入っている」という意味ではないのです。
そもそもNは、「不確実にこれから決まるもの」ではなく、「すでに確定しているのだが、知らないもの」なのです。そして、図表10-1をもう一度注意深く眺めればわかる通り、「Nが異なれば母集団は異なる」わけです。
私たちの扱っている不確実現象とは、「固定された母集団からどのデータが観測されるか」というものでした。このとき決まった一定の仕組みで確率的に数値が出るのは、母数Nではなく、あくまで観測される数値(今の例では表の枚数である10)のほうなのです。

引用元:小島寛之著 完全独習 統計学入門 102pより

つまり95パーセントというのは、「区間13≦N≦30に、本当のNとしてありうるものの95パーセントが入る」という見積もりではなく、「区間推定という手続きを実行し続けるなら、観測値に対応してさまざまな区間が求まるが、その100回のうち95回は本当のNが求めた区間に入る」そういう見積もりになる、そういうパーセントなのです。

引用元:小島寛之著 完全独習 統計学入門 103pより

 

これをもうざっくりと簡単に端折って説明していきます。(原形をある程度とどめるよう努力します)

 

簡単に言えば、

95%予言的中区間というのは、「すでに傾向(平均とか偏差とか分布の形とか)が分かっているので、次に出る結果を95%の確率で推測できますよ」という区間のことです。

95%信頼区間というのは、「傾向知らないけど、その一定の幅で傾向を推測していったら、その推測幅のうちの95%には傾向が入ってるはずだよ」という区間のことです。
※1回の推定幅のうち95%が合ってるって意味じゃなくて、その幅で推定していった中の95%が合ってるという意味

 

もっと乱暴に簡単に言えば、

95パーセント予言的中区間というのは、「もう傾向知ってるから、95%の確率でこんくらいの数字になるね」と予言している区間のことです。

95パーセント信頼区間というのは、「傾向知らんけど、こんくらいの幅で予想してったらそん中の95%は当たってるはずやで」と信頼できる区間のことです。
※1つの幅データのうちの95%が合ってるんじゃなくて、そういう幅データで計測してったらそのうちの95%には狙った真値が入っているという意味

 

そして切り口を変えて言えば、

95パーセント予言的中区間というのは、すでに知っている傾向を使っての予測。(≒傾向使った予測)

95パーセント信頼区間というのは、これまで知らなかった傾向を知るための推測。(≒傾向の予測)

 

 

以上、最後のはもはや原型をとどめていないというか本来の性質からちょっとずれているような気がしないでもないですけどまぁ頭がこんがりやすいところなんでこんくらいざっくりした方がいいかな、と。

いまいちイメージができてない人の何かのとっかかりにでもなれば幸い。

 

P.S.

最初のころ、頭の悪いぼくは「ん?じゃあ最初の1つで出した95%信頼区間の精度はどれくらいなの?何パーセント当たってるの?」という頭の悪い発想をしていました。傾向の把握とそれを知った上での予測がごちゃごちゃになってました。