数学

箱ひげ図のメリットとデメリットを解説【箱ひげ図が同じでも分布は全く違う】 

・箱ひげ図のメリットとデメリットを知りたい

・箱ひげ図を使うときの注意事項は?

・箱ひげ図が生まれた経緯を知りたい

こんな悩みを解決します。

箱ひげ図はアメリカの数学者・統計学者であるジョン・テューキーが考え出したものです。

データを視覚的に把握することができるため,複数のデータを比較する際にとても役立つ手法である一方,箱ひげ図だけでは分布の詳しい様子までは把握することができません。

実は,箱ひげ図が同じでも分布の様子が全く違う例が存在するのです!

箱ひげ図のメリットデメリットをきちんと押さえたうえで,上手く使いこなしていくことが重要になります。

✔︎本記事の内容

・箱ひげ図の基本

・箱ひげ図が生まれた経緯

・箱ひげ図のメリット・デメリット

・センター試験で出題された箱ひげ図

・同じ箱ひげ図でも分布が異なる例

箱ひげ図については以下の本が詳しいです。エクセルを使って箱ひげ図を書く方法も紹介されています。

この本は高校で習う「統計」の内容について、行間を埋めるというコンセプトで書かれた本です。

543ページの分厚い本ですが、様々な話題が豊富でとても分かりやすいです。

四分位数とは

ここでは,箱ひげ図をつくる際の元になる「四分位数」について解説します。

四分位数の意味

まずはじめに,データを小さい順に並べ,全体を4等分することを考えます。

データを4等分すると,3つの区切りの値が得られますが、この区切りの値を「四分位数」と言います。

3つの区切りの値は小さいほうから「第1四分位数」「第2四分位数」「第3四分位数」と呼ばれていて,それぞれ「\( Q_1\) 」「\( Q_2\) 」「\( Q_3\) 」という略号で表します。

四分位数とは

・データを4等分したときの3つの区切りの値

・小さい方から順に第1四分位数,第2四分位数,第3四分位数と呼ぶ

「第2四分位数」はデータのちょうど真ん中の値ですので「中央値」と同じです。

区切りの場所に値がない場合もありますが,この場合については次のセクションで解説します。

四分位数の求め方

四分位数は次の順番で求めます。

①中央値(第2四分位数)を求める

<データの個数が奇数のとき>

ちょうど真ん中に数がありますので,その値が中央値(第2四分位数)です。

<データの個数が偶数のとき>

ちょうど真ん中の両側にある2つの数の平均を中央値(第2四分位数)とします。

②データを「前半部分」と「後半部分」に分ける

次に中央値を境い目として,データを「前半部分」「後半部分」に分けます。

<データの個数が偶数のとき>

図のように中央値を除いて前後に分けます。

<データの個数が奇数のとき>

図のよう前後に分けます。

③「前半部分」「後半部分」それぞれの中央値を求める

最後に「前半部分」「後半部分」それぞれの中央値を求めます。

「前半部分」「後半部分」において,データの個数が奇数の場合は,先ほどと同様に,ちょうど真ん中の両側にある2つの数の平均を中央値とします。

前半部分の中央値\( =\) 第1四分位数

後半部分」の中央値\( =\) 第3四分位数

と定めます。

<データの個数が偶数のとき>

<データの個数が偶数のとき>

これで完成です!

データを,最大値、最小値、第1四分位数、第2四分位数、第3四分位数の5つの要素でまとめたものを「5数要約」と呼ぶことも押さえておきましょう。

(注意)ここで説明した四分位数の求め方は、教科書で採用されている方法です。実は、四分位数の定義は9通りもあり,定まった方法は確立されていません。

四分位数の例

【例1】データが「2, 3, 4, 4, 6, 7, 7, 9, 10」の9個の場合

図のようにデータを分けて

\[Q_2=6\]

\[ Q_1=\frac{3+4}{2}=3.5\]

\[ Q_3=\frac{7+9}{2}=8\]

 

【例2】データが「2, 3, 3, 5, 6, 7, 9, 9, 11, 12」の10個の場合

図のようにデータを分けて

\[Q_2=\frac{6+7}{2}=6.5\]

\[ Q_1=3\]

\[ Q_3=9\]

となります.

箱ひげ図とは

箱ひげ図とは「箱」とその両側に出た「ひげ」で表される図のことをいいます。

図のように最大値、最小値、第1四分位数、第2四分位数(中央値)、第3四分位数を用いて作成します。

「第1四分位数」と「第3四分位数」までを長方形の「箱」で表し、「第2四分位数(中央値)」のところで箱を分割するように線を引きます。

この「箱」の両側に、図のようにひげを「最大値」「最小値」のところまで伸ばすと「箱ひげ図」が完成します。

箱ひげ図は,データを小さい順に並べて4等分した区切りの値(四分位数)で作られているので,それぞれの区分にはデータの約25%の値が含まれることになります。

(注意1)ひげの長さは、箱の長さの1.5倍を上限とすることが多く,上限を越える位置にある値は「外れ値」として扱い「×」などの記号で表します。

(注意2)平均値を箱の中に「+」の記号で表すこともあります。

箱ひげ図を書くことで,データのおよそのばらつき具合を把握することが可能です。

箱ひげ図は品質管理等で利用されることが多く見受けられます。

箱ひげ図の例

四分位数で取り上げた例1について,箱ひげ図を作ってみます。

先ほどの結果を5数要約としてまとめると次のようになります。

最小値   2
第1四分位数 3.5
第2四分位数 6
第3四分位数 8
最大値 10

この値をもとに箱ひげ図を書くと次のようになります。

※統計解析ソフト「R」を用いて書きました。エクセルでも書くことができます。

箱ひげ図が生まれた経緯

箱ひげ図を考え出したたのは、アメリカの数学者・統計学者であるジョン・テューキー(1915-2000)です。

1977年に刊行した著書”Exploratory Data Analysis(検索型データ分析)”で、5数要約という言葉とともに,箱ひげ図を用いてデータを直感的に理解する手法を紹介しました。

テューキーは当時の統計手法が「仮説検定」一辺倒であったことに疑問を抱き,まずはデーターそのものを見ることの重要を説いたのです。

「箱ひげ図」は生まれて40年ほどの新しい手法であり,大学の統計学の本では扱われていないケースもあります。

「まずはデータを見る」「視覚的にとらえる」という点からみると,「箱ひげ図」は現場の実務で有効な手法です。

私自身,20年ほど前には聞いたこともなかった「箱ひげ図」ですが,新学習指導要領では中学2年生で扱うようになりました。

箱ひげ図のメリット

箱ひげ図を使うメリットは,データを視覚的に把握できることです。

具体的には次のようなメリットがあります。

箱ひげ図のメリット

(1)最大値、最小値、四分位数、四分位範囲が一目でわかる

(2)データの大まかな散らばり具合を把握できる

(3)複数のデータを比較しやすい

それでは,順番に解説していきます。

(1)最大値、最小値、四分位数、四分位範囲が一目でわかる

箱ひげ図は,最大値,最小値,四分位数を「箱」と「ひげ」で表現したものです。

したがって、最大値、最小値、四分位数が,四分位範囲などが一目でわかります。

「四分位範囲」とは第3四分位数と第1四分位数の差のことで,箱の長さに相当します。

箱の中にデータの上下それぞれ25%を除いた,50%の値が含まれていることを意味しています。

いわば,データの核になる部分が箱の部分なのです。

本記事では示していませんが,箱ひげ図に平均値や外れ値を記入する場合があります。

目で見て平均値や外れ値も把握することができるのでこれも便利です。

(2)データの大まかな散らばり具合を把握できる

箱ひげ図ではデータを4等分した四分位数をもとに作成されています。

したがって、箱ひげ図が示す各区分には、それぞれデータの約25%の値が含まれます。

このことからデータの大まかな散らばり具合を予測することが可能になります。

区分の幅が狭ければ,密度が大きく,データが密集している可能性があります。

逆に,区分の幅が広ければ密度が小さく,データはそれほど密集していないのではないかということが推測できます。

【例1】箱の部分が小さい場合

箱の部分がかなり小さいので,データは中央値付近に多く分布していることが予想されます。

【例2】箱の部分が大きい場合

箱が大きくひげが短いので,小さい値のデータと大きい値のデータが多く,中央値付近のデータは少ない可能性があります。

【例3】箱が左右どちらかに偏っている場合


この例の場合,「箱」「ひげ」ともに中央値より左側の部分が短く,右側の部分が長くなっています。

それぞれの区分に25%ずつのデータが含まれていることから,小さい値(左側)のデータが多く,値が大きくなるにしたがって(右側)データの個数が少なくなっていることが予想できます。

いわゆるロング―テル型といわれる分布になっている可能性があります。

(注意)実際には度数分布表を見ないと正確なことは分かりませんので注意しましょう。

(3)複数のデータを比較しやすい【センター試験より】

箱ひげ図の一番のメリットは「複数のデータを比較しやすい」ことです。

箱ひげ図を並べて表示することで,視覚的に比較しやすくなります。

大学入試センター試験で出題された箱ひげ図の例を見てみましょう。

2019年センター試験

図1は全国48地点で観測したソメイヨシノ(桜)の2012年から2017年までの6年間の開花日を、年ごとに箱ひげ図にしたもので、図2はそのヒストグラムです。

図の開花日の数値は、1月1日を「1」、12月31日を「365」とした「年間通し日」となっています。(1月1日から数えて何日目に開花したか)

この問題のように箱ひげ図を並べて書き,箱の部分の様子を年ごとに見ていくことで,ソメイヨシノの開花日の年ごとの様子が比較しやすくなります。

例えば「2013年の開花日は全体的に早めだが、開花時期はややばらつきが大きい」とか「2014年〜2016年は箱の様子から,ほぼ同じ時期に開花しているところが多い」など,視覚的に全体の様子を把握できるのが大きなメリットです。

箱ひげ図を使うと、6年間の比較が比較的簡単にできるので便利ですね。

図2のヒストグラムは,分布の様子を知るには有効ですが,ヒストグラムどうしを比べて開花日の様子を把握するのは難しいです。

2018年のセンター試験

次の図は,ある陸上競技大会に出場した選手の身長(単位cm)のデータを,「男子短距離」「男子長距離」「女子短距離」「女子長距離」の四つのグループに分けて箱ひげ図で比較したものです。

箱の部分で比較してみると,「男・女」「短距離・長距離」で非常に明確な違いがあることが読み取れます。

これはメチャクチャわかりやすいですね。

箱ひげ図のメリットが十分に生かせています!

2020年センター試験

2020年では箱ひげ図をなんと47個並べたものが出題されました。

平成27年の男性の市区町村別平均寿命のデータを47の都道府県ごとに箱ひげ図にして,並べたものです。

この問題はツイッターなどでも話題になりました。

47個もの箱ひげ図があるのですから,受験生は驚いたことでしょう。

でも,このように箱ひげ図を並べたことで,ひと目で47のデータを比較することが可能になります。

一覧できるというのは箱ひげ図の大きなメリットです。

これらを全てヒストグラムにして比較するのはさすがに厳しいですよ。

箱ひげ図はデータのおおまかな比較に最適

以上、センター試験で出題された3つの例をご紹介しました。

「箱ひげ図のはデータを比較する際にとても役立つ」ことが理解していただけたかと思います。

データを視覚化する方法としては「ヒストグラム」と「箱ひげ図」がありますが,たくさんのものを比較する場合については箱ひげ図の方が優れているといっても良いでしょう。

ちなみに,データが少ない場合の比較にも箱ひげ図は有効です。

データ数が少ない場合はヒストグラムがいびつな形になってしまうため,データを比較しにくくなってしまうからです。

箱ひげ図のデメリット

箱ひげ図ではデータを視覚的に確認することができ,特に複数のデータを比較する際に大きな武器になることがわかりました。

ところが,箱ひげ図だけだと,それぞれの区分においてデータがどのように分布しているかまでは分かりません。

これが箱ひげ図のデメリットです。

箱ひげ図のデメリット

・分布の詳しい形状まではわからない

・箱の中でどのような分布になっているかはわからない。

箱ひげ図の4つの区分には25%ずつのデータが含まれており,おおざっぱな分布の様子を把握することはできます。

しかし,箱ひげ図の4つの区分には「データの個数」についてしか情報がなく,その中で データがどのように散らばっているかまでは分からないのです。

それでは,具体例で見ていきましょう。

箱ひげ図が同じでも分布は異なる例

箱ひげ図が同じ形をしていても,データの並び方は全く異なる場合があります。

※やや極端な例です

【例】ある数学のテストをA,B,Cの3つの高校で行いました。テストは100点満点です。テストを受けた人数はA高校,B高校,C高校,それぞれ50人ずつ。それぞれ「ヒストグラム」「箱ひげ図」をつくりなさい。

それぞれの高校で,テスト点を小さい順に並べてみたところ,以下のようになりました。

得点一覧

 

A高校の得点一覧

5,5,10,10,10,15,15,15,15,20,20,20,20,20,20,25,25,25,25,30,30,30,35,35,40,60,65,65,70,70,70,75,75,75,75,80,80,80,80,80,80,85,85,85,85,90,90,90,95,95(点)

B高校の得点一覧

5,5,5,5,5,5,5,5,10,10,15,15,20,20,25,25,30,30,35,35,40,40,45,45,50,50,55,55,60,60,65,65,70,70,75,75,80,80,85,85,90,90,95,95,95,95,95,95,95,95(点)

C高校の得点一覧

5,5,5,5,5,10,10,10,10,15,15,15,20,40,40,40,40,45,45,45,45,45,50,50,50,50,50,50,55,55,55,55,55,60,60,60,60,80,85,85,85,90,90,90,90,95,95,95,95,95(点)

ヒストグラムの結果

まずはA,B,Cの高校について,ヒストグラムを作成してみます。

ここでは「R」という統計分析ソフトを使用しました。

A高校のヒストグラム

20点,80点付近を頂点とした山が2つできています。

B高校のヒストグラム

5点,95点の生徒が8名と多く,残りの生徒の得点は一様に分布しています。

 

C高校のヒストグラム

30点,70点付近の生徒がほとんどいません。A高校を逆にしたような分布で,3つ山ができています。

箱ひげ図の結果

それでは,これらのデータから箱ひげ図を作成してみます。

結論から言うと,すべて同じ形になります。

A高校の箱ひげ図

B高校の箱ひげ図

C高校の箱ひげ図

ご覧の通り,すべて同じ箱ひげ図になりました!

 

A,B,Cの分布は全く違う形をしているのにもかかわらず,箱ひげ図はすべて同じ形になっていたのです!

この例から分かるように,箱ひげ図が同じ形をしていても,データの並び方は全く異なる場合があります。

したがって,箱ひげ図によって,散らばりの度合いが分かるとは言い切れないのです。

「箱ひげ図は,データ同士の比較には有効だが,詳しい分布や散らばりの度合いまでは見抜けない」ということを覚えておきましょう。

箱ひげ図はあくまでも「データの様子を視覚的に見るための道具の一つ」「データを調べる多くの手法のうちの一つ」と思っておいた方が安全です。

まとめ

今回は箱ひげ図のメリット・デメリットについてまとめました。

箱ひげ図を使うメリットは次の3つが挙げられます。

箱ひげ図のメリット

(1)最大値、最小値、四分位数、四分位範囲が一目でわかる

(2)データの大まかな散らばり具合を把握できる

(3)複数のデータを比較しやすい

箱ひげ図の一番のメリットは「データを視覚的に把握でき,複数のデータを比較しやすい」ことでした。

ヒストグラムでは比較しにくいデータも,箱ひげ図を並べることで目で見て比較しやすくなることがわかりましたね。

逆に,箱ひげ図のデメリットはデータが具体的にどのように分布しているかまでは分からないことでした。

今回示したように,箱ひげ図が同じでも,分布は全く違うというケースが存在します。

したがって,詳しい分布を知るためにはヒストグラムを作ることが必要になってきます。

 

新学習指導要領で中学2年生から扱われるようになった箱ひげ図。古典的な方法ではありますが,視覚に訴えることができるとても有用な方法です。

今回の記事も参考にし,箱ひげ図のメリット・デメリットをきちんと把握したうえで,箱ひげ図を上手に活用できるようにしていきましょう。

最後までお読みいただきありがとうございました。

こちらの記事もおすすめ!