DataScience

データサイエンティストに必要な数学の知識4つ【学習手順あり】

データサイエンティスト 数学
データサイエンティストを目指す人
データサイエンティストを目指す人
データサイエンティストになりたいんだけど、数学って何を勉強したら良いんだろう…。

必要な知識と合わせて、学習手順も知りたい!

この記事では、上記のような悩みを解決していきます。

 

この記事の内容

  • データサイエンティストに必要な数学の知識4つ
  • データサイエンティストに必要な数学の学習4ステップ

 

この記事を書いている僕は、フリーランスで活動しているデータサイエンティスト。

大学時代は、数学を専攻しており、新卒で機械学習エンジニア→独立してデータサイエンティストというキャリアを歩んできました。

 

今回はそんな僕が『データサイエンティストに必要な数学の知識』を紹介していきます。

この記事を読み終えれば、データサイエンティストに必要な数学の知識が分かるだけでなく、「どのように勉強していけば良いのか」分かるようになります。

 

未経験からデータサイエンティストを目指している人は必見ですね!

 

データサイエンティストに必要な数学の知識4つ

データサイエンティスト 数学

結論、以下の4つです。

  • 確率・統計 ← 必須
  • 線形代数
  • 微分積分
  • 最適化理論

順番に見ていきましょう。

 

確率・統計 ← 必須

 

これは、言うまでもないですかね。

統計学は、データの性質を調べたり、目的に応じてデータを分析するときに使われる学問です。

ゆえに、データを武器に戦っていくデータサイエンティストにとって、統計学は重要かつ必須になります。

 

統計学が重要な理由

それは、データを分析することで、経営戦略やマーケティング戦略に活かせるからです。

もう少し言い方を換えると、ビッグデータが登場したことにより、データを分析することで有効と思われる結果を得やすくなったからです。

 

時系列で書くと、以下のとおり。

  • ビッグデータが登場する
  • データを分析すれば一定の結果を得られるようになる ← 統計学を使う
  • データサイエンティストなどのAIを武器にした職業が確立する

 

要するに、ビッグデータを有効利用するために統計学が必要で、その専門職がデータサイエンティストってわけです。

レストランで働くシェフの武器が調理器具なら、データサイエンティストの武器は統計学になります。

 

線形代数

 

機械学習や統計学を理解するときに、線形代数を使います。

より詳しく言うのであれば、線形代数の中でも「行列」が頻出ですかね。

 

行列を扱う目的は、データの扱いをカンタンにするためです。

 

たとえば、画像データを扱うとき、そのままの画像だと機械学習するのは困難です。

でも、28×28に区切ったとき、色の情報を数値にできたら、コンピューターでも計算できそうですよね。

 

この28×28の数値データを「行列」を言います。

要するに、コンピューターで計算しやすくするために、行列を含めた線形代数が重要なんだとおさえておけばOKです。

 

微分積分

 

実は、機械学習や統計学の数式計算で、微分積分が使われています。

 

ちょっとイメージ付きづらいかもしれないですが、微分積分の用途は以下です。

  • 確率の計算
  • 期待値の計算
  • 分散の計算

正確に言うと、上記で使うのは積分ですね。

 

「確率を積分で計算するって、どういうこと…」と思われるかもしれないですが、今の段階ではスルーでも良いかと。

とりあえず、「確率の計算や機械学習で微分積分を使うんだ」と認識しておきましょう。

 

最適化理論

 

そもそも、機械学習を使うときの流れは、以下のとおりです。

  • データを学習して、モデルを作る
  • モデルを使って、分類・予測する

 

たとえば株価を予測するなら、以下のとおり。

  • 過去のチャートを学習して、モデルを作る
  • モデルを使って、将来の株価を予測する

 

そして、この「過去のチャートを学習して、モデルを作る」ときに、最適化理論が使われます。

これについても、今は「どうやら機械学習では最適化理論が使われているらしいな…」程度でおさえておけば大丈夫です。

 

データサイエンティストに必要な数学の学習4ステップ

データサイエンティスト 数学

イメージを膨らませたら、あとは学習するのみ。

データサイエンティストに必要な数学の学習手順は、以下のとおりです。

  • STEP① : 簡単な本で微分積分と線形代数をおさえる
  • STEP② : 統計学を勉強する
  • STEP③ : 最適化理論を勉強する
  • STEP④ : 数式で解説されている機械学習の本を読んでみる

順番に解説します。

 

STEP① : 簡単な本で微分積分と線形代数をおさえる

 

微分積分や線形代数に、まったく触れたことがないのであれば、まずはここから。

簡単な本で、微分積分と線形代数の基礎をおさえましょう。

 

微分積分でおすすめの本

 

線形代数でおすすめの本

 

以上の2冊で、基礎をおさえるのが良いかと。

なお、勉強するときは、あまり神経質にならないで、ざっくり理解すればOKです。

「分からない部分があったら、とりあえず先に進んでみるか…」といったノリで大丈夫ですね。

 

STEP② : 統計学を勉強する

 

次は、データサイエンティストの武器になる統計学を勉強していきます。

 

統計学の勉強手順は、以下のとおりです。

  • STEP① : 統計Webを使って、無料で勉強する
  • STEP② : 参考書を使って、知識を体系的に学習する
  • STEP③ : 統計検定2級の問題集で、理解度を確認する

統計学は、データサイエンティストの武器になるので、丁寧に勉強していく感じですね。

 

※詳細は長くなってしまうので、『統計学の勉強方法を3ステップで解説』にて紹介しています。おすすめ教材も紹介しているので、あわせてどうぞ。

 

ここまで学習したら、データサイエンティストに必要な数学の基礎は、習得できているイメージです。

 

STEP③ : 最適化理論を勉強する

 

最適化理論は、機械学習のロジックを理解するのに役立ちます。

ゆえに、必修項目ではなく、「緊急性は低いけど、学んでおくと良いよね」って感じですね。

 

最適化理論でおすすめの本

最適化理論を学ぶなら、この本といっても過言ではないです。

機械学習系の本で、参考図書としてよく挙げられています。

 

統計学の勉強が完了して、機械学習を理論からしっかりと理解したい人は、読んで損がない一冊です。

 

STEP④ : 数式で解説されている機械学習の本を読んでみる

 

おそらく、ここまで学習したら、数式で解説されている機械学習の本は読めるはず。

データサイエンティストをやるなら、機械学習の知識は必須なので、復習も兼ねて一石二鳥ですね。

 

数式で解説されている機械学習の本

 

数式で解説されているものの、サンプルコードが付いているので、理解しやすい1冊担っています。

 

機械学習の理論といえばこの本。

ネット上にスライドや分かりやすい記事も載っているので、学習しやすいです。

※ただし、サンプルプログラムは付いていません。

 

はじめてのパターン認識』の方が難しいので、まずは『ITエンジニアのための機械学習理論入門』から勉強するのがおすすめですね。

おそらく、今まで勉強してきた内容で、かなり理解が進むはずですよ。

 

まとめ : データサイエンティストに完璧は必要ありません

 

というわけで、今回は以上です。

最後にお伝えしたいことがあり、それは「完璧に理解する必要はない」ということ。

 

ぶっちゃけ、数学の知識とか、完璧に理解するなんて不可能です。

微分積分や線形代数も、紹介した書籍以上に深掘りせず、統計学を学んでいく上で分からない部分が出てきたら、調べてみるくらいでOK。

他にも、プログラミングやITスキルなど、必要になる知識がたくさんあるので、神経質になりすぎないのが大事ですね。

 

なお、未経験からデータサイエンティストを目指す場合も同様。

しっかり勉強してからデータサイエンティストになるのではなく、「転職エージェントに登録しつつ勉強する」のが良いです。

 

基本的に、データサイエンティストの募集は少ないです。その上、人材確保できたら、先着順で締め切ってしまいます。

 

特に、未経験OKの会社は「競争率が高い」ので、早めに行動していきましょう。

以下が、データサイエンティスト求人の多い転職エージェントです。

 

特にdoda(デューダ)は、データサイエンティスト求人が多いですね。

 

勉強も転職も、完璧を目指さずに挑戦していきましょう。

それでは、この辺で。

 

おすすめの記事