76、統計とは(統計を考える)


統計は、情報収集から始まる。


統計は、データを集める事から始まる。
そして、データを集める手段によってデータの性格は特定される。

どんなに精緻な分析をしたところでもととなったデータがいい加減では、最初から信憑性など保証できない。
統計では元となるデータが総ての結論の根拠となるのである。
その意味では、どの様にして情報収集をするか、したのかによって統計の品質は決まると言っていい。
情報収集をいい加減したら、また、元データを改竄したら、分析の質を保証する事はできないのである。

統計は、基本的に集合である。故に、統計データは基本的に集合の性格を持っている。

データは、基本的に既存のデータ、公開データを活用する場合と何らかの手段を講じて自分でデータを集める場合とがある。
いずれにしてもデータの集め方によってデータの性格は決まる。

データの収集方法は、データを何に対し、どの様に活用するのか、即ち、目的によって決められる。

データの収集方法は費用対効果で決まる。費用対効果は、データを何に対し、どの様に活用するのか、即ち、目的によって測られる。

データの性格は、いつ、だれが、何を、どの様な手段で収集したかによって決まる。
例えば、データの信憑性や質、量、密度、偏り、精度、時間的・空間的歪み、情報の機密性、固有性等である。
また、情報には鮮度があり、情報の鮮度は一律ではなく、個々の情報固有の性格である。
すぐに鮮度が失われる情報もあれば、いつまでも鮮度が保たれる不変的な情報もある。

人の趣味嗜好には流行り廃りがあるが、自然の法則は不変的である。
生鮮食品の価格は、日々変動するが、歴史的建造物の価値は緩やかに変化する。

また、データには、定性的データと定量的データがある。
定性的データは、そのままでは処理が難しいため定量化する必要がある。

データの性格は、調査手段に拘束される。
調査には全量調査と標本調査がある。
全量調査にすべくか、標本調査にすべきかは、目的と調査に掛る費用と効果との関係による。
全量調査というのは聞こえがいいが、目的によっては、全量調査をする必要もないし、調査の性格や費用、物理的な問題や時間的制約でかえって弊害になる場合もある。

データの信憑性は、データの質、データの量、データの密度によって定まる。密度は、データの時間的空間的歪みや偏向を意味する。
データの質は、調査目的、調査の対象、調査場所、調査時間、調査主体、調査手段・媒体等によって決まる。

今日、ビックデータ、ビックデータと騒がれているが意味もなく情報を集めたり、分析をしても無駄になるばかりか、害になる場合もある。
情報収集には、プライバシーにかかわる問題が数多くあるのである。

この様に統計と他の数学との差は、統計は、調査という実務が関わっていると言う点にある。

データには、一次データ、二次データ、三次データの別がある。
一次データとは、自分がじかに調べて獲得したデータである。内部データともいう。二次データと三次データは、外部データともいう。二次データとは、官公庁や調査機関、研究機関、他社の一次情報などの情報を言う。三次データとは、一次データや二次データを組み合わせたり加工したりしたデータを言う。

また、生データ、加工データがある。生データとは、何も加工がされていない、収集された状態そのもののデータで、第一次データともいわれる。
それに対して加工データとは、収集されたデータが何らかの形で加工されたものを指す。加工とは、足したり、引いたり、掛けたり、割ったりしたものを言う。例えば、成長率とか、増減とか、集計、指標、総資産利益率とか、付加価値とか、利益といったデータである。ただ、それも厳密ではなく収集された時点でどのように扱われたかにもよる。例えば利益は、差を表すが、生データとして扱われることもある。

財務省を調査主体とした法人企業統計は、営利法人を対象とした標本調査による統計である。
目的は、「我が国における法人の企業活動の実態を明らかにし、あわせて法人を対象とする各種統計調査のための基礎となる法人名簿を整備することにある。」とされる。
調査は、資本金1,000万円未満、1,000万円以上2,000万円未満、2,000万円以上5,000万円未満、5,000万円以上1億円未満、1億円以上10億円未満、10億円以上の資本金階層別、業種別に層化し、資本金5億円未満の各階層は等確率系統抽出により抽出し、資本金5億円以上は全数抽出したものである。
調査事項は、年次別調査と四半期別調査がある。調査期間は、年次調査を例にとると12月上旬と6月上旬の2回に分けて行われる。公開は、9月上旬になる。
調査方法は、調査票に基づいて郵送またはオンラインによる自計記入による。

法人企業統計をみてもわかるように一つの統計も一律な手段に基づいていると限らないのである。

この様なデータの癖をよく読まないとデータを正しく解析する事きできない。

テレビの視聴率やマーケッティング等のアンケート調査などは、公共統計以上に目的や手段、費用の制約を受ける。
目的を明確にしないと調査方法も調査対象、調査時期・期間も特定できない。

最近は、小さな町の定食屋のようなところでもアンケートをとるようになってきた。インターネットを使えば国勢調査の結果や法人企業統計などのデータを閲覧できるようになったさらに、通信情報技術の発展は、ビックデータといった巨大な統計群まで生み出している。
それをデータ解析の分野、統計学では、一緒くたに扱おうとしている。土台無理なのである。
目的や調査主体に応じて、データの質も量も密度も全く違うものになる。
その点を十分考慮しないとデータ分析そのものが中途半端なもので終わり、統計そのものの信憑性が損なわれる結果を招くのである。





ベイズ統計
確率と統計
確率と統計(教育)



参照
「道具としてのベイズ統計」 涌井良幸著 日本実業出版


       

このホームページはリンク・フリーです
ページの著作権は全て制作者の小谷野敬一郎に属しますので、一切の無断転載を禁じます。
The Copyright of these webpages including all the tables, figures and pictures belongs the author, Keiichirou Koyano.Don't reproduce any copyright withiout permission of the author.Thanks.

Copyright(C) 2018.8.18 Keiichirou Koyano