手を動かして見る

知識がついたら

機械学習やプログラミングについて基本的なことがわかってきたら,次のステップです.実際に手を動かしてみましょう.たくさん手を動かしてなれることが大事です.

Kaggle

Kaggleというのはデータサイエンスにおいて非常に有名なコミュニティです.そこではコンペが開かれていて,ユーザー登録をすれば,誰でも無料で参加可能です.コンペは,データが与えられるので,そのデータを使って問題文の要求を満たす学習モデルをどこまで精度を高く仕上げることができるかといった内容です.コンペの多くは賞金がかけられており,最も優れた予測をした場合に,その予測モデルと引き換えに賞金が貰えます.

Kaggleにはコンペ以外にも,カーネル(kernel)というものがあり,コンペのデータの解き方がわかりやすく解説されています.さらにソースコードも公開されています.もし,解き方がわからない場合や,他の人から学びたい場合は,Kernelを読むことで知識を得ることができます.

Kaggleはコンペで優秀な成績を収めた場合もしくは,Kernelの評価が高い場合にメダル(金・銀・銅)が貰えます.そのメダルの量によってその人の力量がわかるので,メダルを集めるというのが,Kaggleの目標になります.

Kaggleでは,様々なデータが利用できて,様々な人たちの解法を見て勉強もできるといった環境が無料で提供されています.

Kaggleで一番最初にどの問題を解けば良いかと言われたら,やはりタイタニックでしょう.タイタニックの問題は難易度は高くないので,初心者にはちょうど良いと思います.タイタニックの乗客の特徴量(性別,年齢,...)が与えられているので,それを元に乗客の生死を当てるといった問題です.

 

munemakun.hatenablog.com

 

Pythonのデータ分析のための有用なライブラリ(numpy,pandas,matplotlib)の使い方が丁寧に書かれているので,もし,numpy・pandas・matplotlibの使い方がわからない方には,この本をおすすめします.

 

Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

  • 作者: Jake VanderPlas,菊池彰
  • 出版社/メーカー: オライリージャパン
  • 発売日: 2018/05/26
  • メディア: 単行本(ソフトカバー)
  • この商品を含むブログを見る
 

 

AtCoder

AtCoderとは,競技ブログラミング(競プロ)のコンテストです.競プロというのは,与えられた問題に対するプログラムを早く正確に書くことを競うものです.実は競プロのサイトは他にもいくつかあります.なぜAtCoderを紹介したかと言うと,他の有名な競プロのサイトは海外の会社なので,問題文が英語です.それに対して,AtCoderは日本の会社で問題文が日本語です.なので,AtCoderが競プロ初心者には一番適しているかと思います.

さらに,初心者向けにBeginner Contestがあります.なので,難しくて全く解けないといったことは無いので心配ありません.Kaggleとは違いAtCoderはメダルは貰えませんが,その代わりに,AtCoderではレートによってその人の力量がわかります.レートは0から始まるので,自分の成長が目に見えてわかるので,やっていて楽しいです.