統計学についてすごくざっくりと簡単にまとめていく
2016/10/24
統計学の本を5、6冊読んだ。オープンライセンス統計ソフトのRもインストールしていじくってみた。頭がごちゃごちゃしているのでメモ的に書きなぐっていこうと思う。
(ちなみに読んだ本の中では小島寛之先生の完全独習 統計学入門が一番分かりやすくて本質もついてると感じた。解読不可能呪文のような数式にやられて脳死状態になってたり、何とか分かるっちゃ分かるけどモヤモヤがとれなくて困ってる人におすすめ)
統計にはざっくりと2種類ある。
記述統計と推測統計だ。
記述統計:データの特徴を示す統計手法。文字通り、物事を記述する統計だ。
推測統計:部分的な情報から全体の傾向を推定する統計手法。文字通り、物事を推測する統計だ。
この2つは密接に関係していて、記述統計によって発見したデータの特徴や法則性が推測統計に活かされる。その逆もある。
記述統計の発展によって、ぼくらは平均値、標準偏差等の形でデータの特徴をうまくつかむことができるようになった。対象(母集団)が正規分布の場合は、平均値μから標準偏差2個分(2σ)以内に95%のデータが収まること分かっているので、次の出現する値を(一定の区間を持つが)約95%の確率で的中させることが可能だ。一般にはμからσ×k以上離れるデータは全体の1/k²しかない(チェビシェフの不等式)ことも分かっている。また正規分布の対象であれば平均値や標準偏差が分からなくてもカイ二乗分布やt分布を使うことでたとえ少ない観測回数からでもそれらを高精度で推定することができる……etc.
これらの知識を使うことで、推測統計では断片的、部分的な情報から高確率で全体の傾向、まだ確認していない未知の部分の推定することができる。
選挙で開票率1%なのに堂々と当確が出せるのはこの手法のおかげ。
この推定に使われる帰納法には限界があるので結論には多少の飛躍と曖昧さがあるが、たとえ一切の飛躍がなく純粋で明確であったとしても非現実的な世界を対象にしている数学よりは粗くても現実を描けるこちらの方が有用な気はする。まぁこの2つは両輪なので区別する意味はあまりないかもだけど
ただ万能ではない。データの特徴がない場合、分からない場合は、うまく推定することができないからだ。
データが正規分布だとか分かっていれば、記述統計で発見してきたデータの法則性から高精度で全体を推定できるが、そういった前提条件がない状態では現代の統計学の知見を援用してもほぼ何もできない。できることは一応あるけど大した効果がない
つまり対象(母集団)の情報が何もない状態、あっても既存の法則が適用できない状態では、統計的手法を有効に使うことができないのだ。
ちょうど相手が日本人とわかっていれば日本語で話しかければいけるけど、相手がアメリカ人かドイツ人か中国人か秋田犬か自動車か石ころかはたまた宇宙人かも分からない状態では相手の次の行動なんて予測しようがないのに似ている(気がする)
これまで確立されてきた統計的手法は、高確率高精度でいろいろな値や傾向を推定できるものだが、前提条件を必要とする。つまりカテゴリーを必要とする。
だからカテゴライズができていないのであれば、この便利な道具を放り投げて紙とペンに持ち替え、個々別々のものとして地道にその法則性、特性を把握していくしかない感じなんだなぁというのが今のところの大筋の結論。
※もちろん暫定結論なので随時更新予定 はぁ恐ろしい学問やでほんま いろんな意味で
追記:特性や傾向を知ったとしてもそれがどんな意味をもつか、それに対してどんな対策が打てるのかという段階になるとそこは統計学の守備範囲ではなくなってくるようだ。
(読者の方のご支援により発覚した一部誤字を修正しました。返信できなかったのでこの場を借りて感謝の意を)