「平均」は必ずしも「普通」を示すわけではない【統計学入門】
統計学が“最強の学問”だという。ならば数字オンチは最弱かよ!?とクサしたくもなるが、何かと根拠が求められる今、数字を避けては通れないのも事実。そんな「最弱リーマン」へ必要最低限の統計知識を、明治大学准教授で経済統計を専門にする飯田泰之氏、ビジネス数学コンサルタントの深沢真太郎氏、日産自動車に勤務し、経営課題解決プロジェクトに携わる柏木吉基氏の3人が解説!
<Step1.平均からの卒業>
◆平均=“普通”じゃない!その数値だけで判断はNG
統計学、というほどでもないが、数字を分析すると言われて誰もが真っ先に思いつくのが「平均」(算術平均)だろう。
巷にも「サラリーマンの平均年収442万円」「1世帯当たりの平均貯蓄現在高は1664万円」「サラリーマンの小遣い平均月3万8457円」「平均寿命82歳」といった数字が溢れ、それらと己を比べては上だの下だの、フツーでよかっただのと思ったり。
が、決して、平均が必ずしも普通を示すわけではない、と識者3人は口を揃える。
「平均年齢30歳と聞くと、30歳前後の人がそこに多く存在するように感じますが、29歳と31歳の平均年齢も、0歳と60歳の平均年齢も30歳です。平均とは、ごくシンプルに“均してみたらこうなった”というだけの数字。あたかもそのデータの“代表”のように感じますが、必ずしもそうではないんです」(柏木氏)
「平均値を出すというのは、数値の凸凹を消す、データの特徴を消す行為なんです。ある数字を相対的に評価するためのものですが、平均値自体が単体で示唆するものはあまりない」(深沢氏)
前述の「1世帯当たりの平均貯蓄現在高は1664万円」というデータにしても、よくよく見れば、最も多かったのは「500万円未満」の世帯で、「100万円未満」の世帯も全体の1割いるわけで。
「普通の家庭はだいたい1000万円くらい貯金がある」というわけではないのだ。平均の思い込みって恐ろしい。
「平均はいってみれば “やじろべえの支点”。どこに支点を作るとつり合うかなんです。だから、とんでもなく遠くに大きな数字――外れ値が少しでもあると、その影響を大きく受けてしまう。外れ値に弱いというこの特徴には注意したほうがいいですね。特に金融系のデータは下限は0ですが、上はいくらでもある。平均はそういう数値にひっぱられやすいですから」(飯田氏)
◆中央値、最頻値も活用しよう
でも、それでも“普通”を知っておくことは大切だろう。そのためにはどうすればいいのか?
「データの特性を簡単に示す代表値には、平均以外に、最もよく出てくる数字“最頻値(MODE)”や、データを順番に並べたときに真ん中にくる“中央値(MEDIAM)”があります。“普通”を考えるときは、これらの代表値を使い分ける、あるいは組み合わせて考えてみては」(飯田氏)
例えば、競馬予想のように当たるか当たらないかだけを予測したい場合は最頻値が適しているし、また、中央値と平均値を比べることで、そのデータに極端な数字が入っているかどうかを確認することができる。
統計学入門としては、まずなんでもかんでも「平均」という考え方から卒業するのが第一歩か。そして、同時に平均値を活かすのが次のステップのようだ。
「平均だけで物事を見るのはナンセンスですが、さらに踏み込んだ分析をするために平均値は必要です。いわば、平均は統計分析の入り口なんです」(深沢氏)
では、入り口からもう一歩踏み込んでみようじゃないか!
⇒【次回】「バラツキを知る」に続く https://nikkan-spa.jp/499845
●【統計学実践例】はコチラ https://nikkan-spa.jp/506449
<中央値>
数字を上から順に並べ、データの真ん中にくる値。データ数が偶数の場合は、真ん中の2つの数字の平均がそれになる。海外では平均値よりも中央値が使われることが多いとか。データがきれいな正規分布図の場合は平均と同じ意味を持つ。「店舗の客足予想など外れ幅に比例してダメージが増えるというときは中央値で考えるといい」(飯田氏)
<最頻値>
データ内で最も多くの数が集中する値である。並数とも呼ばれ、一番よくあるという意味で、“普通”を示す。が、最頻値はひとつとは限らず、また、それぞれの数字にあまり差がないとき、あるひとつの数字を最頻値というのは違和感も生じる。「競馬予想など、単勝5だけがアタリ、6だろうが4だろうが外れは外れというときは最頻出値を使うといい」(飯田氏)
<外れ値>
ほかと極端に外れた数値のこと。データ収集や入力ミスなどでも生じることがある。平均値を歪めるのがこの外れ値。外れ値に弱い平均の欠点を最小化するために、「切り落とし平均」――上位1%下位1%を捨てて平均を出す方法も。ただ、「どんな外れ値にも意味がある」という考え方もあり、統計学者の中ではこの切り落としについて論争があるのだとか。
【飯田泰之氏】
明治大学政治経済学部准教授。『考える技術としての統計学』、『経済学的思考の技術』など著作多数。その経済統計の手腕は本誌連載「週刊チキーーダ!」でもお馴染みで、9月にこれまでの調査分析データをまとめた本が刊行予定
【柏木吉基氏】
日産自動車組織開発部ビジネス改革チームマネージャ。経営管理、数値解析、意思決定論を専門に執筆・指導なども行う。著書に『「それ、根拠あるの?」と言わせないデータ・統計分析ができる本』『Excelで学ぶ意思決定論』などがある
【深沢真太郎氏】
BMコンサルティング代表、ビジネス数字・カレッジ学長。ビジネス数学を専門に、企業や大学でコンサルティング活動を行い、これまで約3000人に指導。著書に『「仕事」で使える数学』『数学女子智香が教える仕事で数字を使うって、こういうことです。』がある
イラスト/YAGI
― [超実践]偏差値45からの統計学入門【1】 ―
『考える技術としての統計学-生活・ビジネス・投資に生かす』 世の中の動きの「芯」を捉える! |
『経済学思考の技術-論理・経済理論・データを使って考える』 論理思考・経済の基礎とデータ解釈でビジネスや日本経済を考える、体系的かつ実践的な問題解決のための技術 |
ハッシュタグ