76、統計とは(統計を考える)



統計の目的は、データの分析にある。



統計分析の本質は、データの分析である。
先ず何よりもあるがままのデータを見る、読むことが原則である。
最初から色眼鏡で見ていたらデータの本質を見失ってしまう。
本来、現実の統計データというのは、非対称で一見不規則なものばかりである。
正規分布のように対称的で規則的な事象というのは、稀である。それこそ統計的にとってもわずかである。それが事実である。
まず先入観を持たずにデータをと直に接するように心がけるべきなのである。

統計では、一般に用いられる場合、高度な数学的技術を必要としていない。せいぜい言って四則の演算程度である。
その為に、統計を教える時、ことさらに難しい事を教えようとするのかもしれないが、それは邪道である。
統計は、高度な数学的技術を駆使するというより、数字の背後にある事実を読み取ることが重要なのである。
最大値、最小値、平均値、中央値、最頻値など集合を代表する値の位置によって集合の性格は決まる。そういった数の塊の性格をいかに読み解くかが統計の意義なのである。
数の塊を切ったり、割ったり、分解したり、足したり、引いたりして数の持つ性格を割り出していく。

統計の根本は、現実主義であり、最も重視しなければならないのは、事実である。
大変にわかりやすく、また、綺麗で尤もらしい仮説でも事実に反していたらそれは、認められない。
統計というのは、不器用で愚直な学問なのである。

統計の目的とは、データの分析にある。
まず何の目的でデータを集めるのか、それを明確にすることである。

データの分析の目的が明らかであるから、データの集め方や分析の仕方が決まるのである。
何のために、データを分析するのかが明らかでなければ、どの様にしてどのようなデータを集めたらいいか確定することはではない。
何が知りたくてデータを集め分析するのかを明らかにしないままに、学校では、統計を教えようとしている。そこに学校教育の危うさである。何を知りたいかは、生徒の自由意志によるべきなのである。

子供たちは漫画やゲームのキャラクターについて、また、自分の関心のある事、自動車とか乗り物についてやたらに詳しい。これも統計なのである。そして、子供たちの関心の向くところにこそ統計の原点がある。知りたいことだから熱心にデータを集めるのである。

統計の目的は、与えられた情報を分析する事にある。
この点を明確にしないでいきなり正規分布だ偏差だ、分散だと言われてもわけがわからなくなる。

情報を分析する目的は、個々の情報固有の性格を割り出し、分析する者それぞれの目的である予測したり、実証するという目的を実現するためである。その為には、複数の集合を選び出して分類、構成、比率、偏り、変化、推移、相関関係や因果関係を明らかにすることである。

データ分析の要は、何と何を比較するかである。何と何を比較するのか。また、何を主とし、何を従とするのか。何を目的変数とし、何を従属変数とするのかその設定の仕方で統計の成否は決まると言っても過言ではない。
何が何によってどのような影響を受けているかを知る事が、分析の目的だからである。
ところがそういう肝心な事を疎かにして、いきなり、偏差値がどうのこうの確率分布がどうのこうのと始めるから統計や確率の意義が伝わらなくなるのである。

何と何を比較するのか。総数なのか、差なのか、比なのか。比だとしても構成比なのか、相対比なのか。何を選択するかによって対象の持つ意味も違ってくる。

選択する集合の基準には、全体と部分、空間的時間的にズレがある事、例えば前年対比とか、同業者比等である。
ただ、選択する集合間を一対一に対応させる基礎となる尺度が必要条件となる。
例えば、経営の前年対比や同業者間の比較をするためには会計制度が必要とされる。
また、時系列対比をするためには、時系列が必要となる。

データの分析の基本は、全体と部分、部分と部分の関係を明らかにすることである。
全体を分析するとは、全体や部分の外形の変化、全体と部分の関係の変化、全体と部分の因果関係、全体と部分の相関関係などを明らかにすることである。何が何に対してどのような働きを及ぼしているのか、そして、それは全体に対してどのようなは影響を与えているのか。それを解明するのが統計分析である。

即ち、推移(時系列的データ)、構成比率、位置(順位、序列等)、対照(比較)、関係(相関、因果)を明らかにすることである。明らかにしたうえで、当初の目的とどう関わり合うかそれが問題なのである。全体と部分の関係、部分と部分の関係を明らかにするために、統計は基礎資料を提供する。肝心なのは、分析者が何を知りたいのかである。
この様な欲求に合わせてどの様なデータを収集しなければならないかが定まる。どの様なデータを集めなければならないのかが明らかになってはじめてデータを集める手段が決まる。闇雲にデータを集めればいいというのではない。統計とは合目的的な行為である。目的が定まらずにデータを集めても後処理が定まらないのである。
ただし、仮説は目的の基になる事を忘れてはならない。仮説を設定することでより目的は明確になる。

確率や統計は、最低限二つの要素、変数からなる。
変数は目的変数と説明変数からなる。ただ、何を目的変数とするか、何を説明変数とするかは、分析の目的に応じて任意に設定される。
二つの変数によって構成される確率や統計と複数の要素、変数からなる確率や統計がある。

データにも構造がある。
データの構造には、二つの変数からなるものと複合的なものがある。
例えば国内総生産は、単位当たり総生産に総人口をかけたものである。単位当たり量と総量の積というのは、1つの基本計である。

データの構造によってデータの収集方法や分析方法も違ってくる。

統計は、対象をあるがままに受け入れる事から始まる。
その上で平均や分散を明らかにする。
平均や分散の前提となるのが分布である。ゆえに、統計においては、分布は、現実に基づき、平均も分散も現実を反映したものになる。

統計は、あるがままの現実を受け入れてそれを数値化したものである。

その点が統計上の分布と確率分布の根本的違いである。
統計は、実態を現実を知る事に目的がある。確率は、未知なる事を明らかにするところに目的がある。
目的が違えば、同じ分布に対する認識も違ってくる。統計と確率では分布の意味も働きも違うのである。

統計の生のデータで正規分布が当てはまる事例は少ない。
正規分布は、平均と分散の関係を明らかにするうえで有効なのであり、ある程度、平均と分散が計算できる場合において有効である。データが限られている場合は、推定に基づく以外に手段はない。
故に、統計の生データを活用する際は、平均を計算したうえで二次加工する必要がある。
それが、標準正規分布であり、偏差値であり、中心極限定理である。

注意しなければならないのは、正規分布のような何らかの分布をモデル、基準とする場合は、「大数の法則」を前提としているという点である。「大数の法則」は経験則である。この点からも統計や確率が事実の上に成り立っている事がわかる。事実の上に成り立っているけれど経験則に基づいているのである。だから客観性を大前提とするのは間違いである。主観も客観も認識上の問題であって、相対的な事である。絶対的ではない。絶対的なのは事実であり、存在である。
主観的であろうと客観的であろうと事実に反したら成り立たないのである。
だから、統計では検定が必要となる。何%の確率で事実なのかが問われるのである。だから統計的帰結は、どこまで行っても相対的なのである。百%正しいと言っているわけではない。何%かの外れがあるという事を前提としているのである。

統計は、現実主義である。統計が最も重視するのは、事実であって、理屈、理論ではない。
この点に注意しないと統計は、とんでもない事に悪用される。
統計に基づいて嘘をつくなどという事が公然と為されるようにすらなる。

統計を学ぶ時、統計を一定の枠組みの中で単一の事象を基礎にして捉える傾向がある。
しかし、現実に統計を活用しようとするとそんなに単純に処理できない事がわかる。
例えば、成績の序列付けのように単純な要素だけで統計のデータは構成されているわけではない。
経済データのようにいくつかの座標軸や要素が複雑に絡み合って構成されているのが一般的である。
また、形も正規分布の様な簡潔できれいな形をしている物は希少なのである。全てのデータが正規分布になるわけではない。



ベイズ統計
確率と統計
確率と統計(教育)



参照
「道具としてのベイズ統計」 涌井良幸著 日本実業出版


       

このホームページはリンク・フリーです
ページの著作権は全て制作者の小谷野敬一郎に属しますので、一切の無断転載を禁じます。
The Copyright of these webpages including all the tables, figures and pictures belongs the author, Keiichirou Koyano.Don't reproduce any copyright withiout permission of the author.Thanks.

Copyright(C) 2017.7.18 Keiichirou Koyano