外資系コンサルタントが主夫になったら

主夫、はじめました。興味のあることをとことん研究します。勉強法、テクノロジーなど

データの分析は2時間で解けるようになる

目標習得時間:2時間、問題数:3問

 

■AIの基礎になっている数学

世の中は「デジタル化」と言われ、あらゆる情報がコンピュータ内で数値として管理されています。いま人工知能=AIが急速に発展している背景には、コンピュータの扱えるデータ量が飛躍的に拡大したことがあります(ビッグデータ)。

さて、日々ニュースになっているAIですが、その根幹には、今回学ぶ「データの分析」と、数Bで学ぶ「確率分布と統計的な推測」があります。これらの数学を習得し、AIのカラクリを理解しておくことは、AIに仕事を奪われないための必修事項であると言えるでしょう。

ぜひ今回はテストのためではなく、将来のために数学を学んで頂ければと思います。

 

■理解すべきことは意外と少ない

覚えるべき用語が多く、かつ混同しがちで最初のハードルが高い単元ではありますが、実はきちんと整理すれば理解すべきことは意外と多くありません。今回は、以下の6つの言葉の意味を理解することを目指しましょう。

 

<覚えるべきこと>

  • 平均値:全て足して要素の数で割る
  • 中央値:小さい順に並べたとき、真ん中に来る値
  • 分散:「誤差の2乗」の平均値
  • 標準偏差:誤差の平均値(=分散の平方根)
  • 共分散:2つのデータの関係(「2つのデータの誤差の積」の平均値)
  • 相関係数:共分散を標準偏差で割ったもの

 

それでは、順番に問題で学んでいきましょう。

 ■平均値と中央値

問1

f:id:shufu-gaishi:20190224184113p:plain

 平均値は日常生活でも使いますし、問題ないでしょう。ここで学ぶべきは「中央値」という言葉です。

定義は難しくありません。平均値は全てを足して要素の数で割ったものであるのに対し、中央値は、小さい順に並べたとき真ん中に来る値のことです。

f:id:shufu-gaishi:20190224190832p:plain

さて、計算は簡単ですが、「だいたい真ん中」の値を知るために、平均値と中央値を使い分ける理由は何でしょうか。

有名な話として、平均年収の話があります。

日本人の年収は、概ね平均値が400~450万円程度なのに対し、中央値は300~350万円程度と言われています。これは、一部のお金持ちが平均を引き上げている結果であり、中央値の方が、庶民の感覚(多くの人が得ている収入の感覚)をよく表していると言えます。

テストの問題では「平均値を求めよ」「中央値を求めよ」と指示されますが、実際の生活やビジネスの中で利用する場合は、「平均値と中央値どちらを選択したほうが良いか」をその都度判断する必要があるということです。

 

 ■分散と標準偏差

問2

f:id:shufu-gaishi:20190224192152p:plain

これらの用語は、 「偏差値」という言葉を通じて聞いたことがあるはずです。

偏差値は、平均を50として、それよりも良い成績か、悪い成績かを数値で表したものですね。このように、同類のデータが複数あると、それが平均からどの程度離れているのかを評価したくなります。これが「分散」「標準偏差」を導入するモチベーションであり、それぞれ以下のように定義されます。

<「誤差の平均」を求める計算>

f:id:shufu-gaishi:20190224192729p:plain

公式は難しいですが、意味だけ知っておけば公式を覚える必要はないと思います。

ところで、この計算は一見不思議ですね。分散には二乗の計算が含まれますが、標準偏差はこれの平方根を取ってもとに戻します。なぜこのような無駄に見える作業を行うのでしょうか?

実は、上記のように図で表現するとわからないのですが、「平均からの誤差」を数式で表現しようとすると、符号の使い方に工夫が必要です。そのため、一度二乗して符号をプラスに統一した後で、平方根を取ってもとの値に戻す作業が必要なのです。

f:id:shufu-gaishi:20190224193609p:plain

 

では、問題に当てはめて計算してみましょう。

f:id:shufu-gaishi:20190224192907p:plain

このように、公式に当てはめるのではなく、表を書いてまとめていくと、頭が整理された状態で計算を進めることができます。

この計算の結果、東京都の最高気温の平均は34.6℃であり、誤差の平均値が1.4℃であることがわかりました。すなわち、東京都の最高気温は、概ね33.2℃~36.0℃の間を推移しそうだ、ということがわかりますね。

 

■共分散と相関係数

問3

f:id:shufu-gaishi:20190224194035p:plain

分散と標準偏差を導入したことにより、一種類のデータの傾向を知ることができました。すると次は、複数のデータの関係を知りたくなります。共分散、相関係数は、これを実現するための計算です。

まずは復習で、最高速度と燃費の標準偏差を計算しましょう

<最高速度の標準偏差

f:id:shufu-gaishi:20190224194248p:plain

 

<燃費の標準偏差

f:id:shufu-gaishi:20190224194328p:plain

 

次に、最高速度と燃費の関係を知るために、共分散という計算を以下のように定義します。

f:id:shufu-gaishi:20190224194520p:plain

 

ともあれ、まずは計算してみましょう。分散や標準偏差を求めたときと同じように、表を書いて考えると簡単です。

f:id:shufu-gaishi:20190224194626p:plain

さて、値は出ましたが、この値をどう評価すればいいでしょうか。

まず、両者の「平均との差」の積(a×b)の符号を見ることによって、その座標がだいたいどのあたりにあるかがわかります。

f:id:shufu-gaishi:20190224194810p:plain

ここから考えを膨らませると、この値(a×b)を足し合わせた結果、全体としての符号がプラスかマイナスかによって、座標平面上のどのあたりに点が集まっているかがわかり、ここから二つのデータの関係が見えてきます。

f:id:shufu-gaishi:20190224195027p:plain

今回の例に当てはめると、最高速度と燃費の共分散はマイナスですから、最高速度の速い車は燃費が悪い、ということがわかりますね。

 

 さて、共分散の符号の意味が分かりましたが、一方で数値の部分「49.6」はどのように評価すればいいでしょうか。感覚的には、ここから相関の強さ(大きい値だと関係が深い、とか)が分かりそうに思われます。

残念ながら、共分散で意味を持つのは符号だけで、数字部分は意味を持ちません。なぜならば、共分散の数字部分は、元のデータの大きさ(aやbの大きさ)に依存してしまうので、単純に元データの数字が大きければ共分散の数字部分も大きく、元データの数字が小さければ共分散の数字部分も小さくなります。

 

しかし、「最高速度と燃費の相関の強さを求めたい」というモチベーションは変わりませんから、これを計算する方法を考えます。

値の大きさが元データ(aやb)に依存してしまうことが問題なので、aやbの大きさを表す数、すなわち、aとbそれぞれの平均値である標準偏差で共分散を割り算することで、標準偏差を100%としたときの割合に変換します。こうすることで、元データの大きさに寄らず、2つのデータの関係を-1から1までの値で表すことが可能になります。これが相関係数です。

f:id:shufu-gaishi:20190224202801p:plain

今回の問題に当てはめてみましょう。最高速度と燃費の相関係数は、

f:id:shufu-gaishi:20190224203044p:plain

となります。統計学の世界では、相関係数の絶対値が0.7を超えると相関が強いと言われることが多いので、最高速度と燃費には「強い負の相関がある」と言えます。

 

■公式ではなく、意味で覚えるべき

いかがだったでしょうか。この単元は言葉の多さと公式の(見た目の)難しさが課題になりますが、一つ一つの言葉の意味さえ理解していればすぐに習得できることが分かったと思います。

テストでは得点源になり、将来の役にも立つことも多い数学なので、ぜひ習得してください。