以前から機械学習に興味があり、いつかはそのコンペがたくさんあることであの有名なKaggleに挑戦したいと思っていました。
そんな中数あるプログラミングスクールの中でも機械学習などの分野に定評のあるAidemyで、9月からデータ分析コースというものを受講し始めました。
約1.5ヶ月ほど受講したところで、実際に自分で題材を見つけて、分析を行いブログで記事にするというなかなかどうしてな講義が開始されました。
正直かの有名なTitanicはいろんな本で写経はしていましたが、0ベースから解析なんてしたことないので、こんなのできるのかと大変心配になりました。とはいえAidemyの受講を受けているだけで、データ分析ができるようになるなどといったうまい話はないこともわかっているジレンマ。
不安ではありますが、いつまでやだなやだなと言っていても仕方ないので、せっかくだから解析にトライしてみようと決断したわけです。
じゃあAidemyの先輩方はどんな分析をしているのかと見てみたら、全国の天気予報やら画像認識など兼ねてから興味のあったことをやっているようでした。
僕的にいつかやりたいこととして、ボートレースの機械学習をやってみたいと思っていて悩ましいところではありますが、データを簡単に取得できるということで今回はKaggleでトライすることを決断しました。
んで、せっかくだから現在Kaggleで開催されているものを選ぼうと思い、何となく、次の課題を選びました。最近デジタルマーケティングにも興味があったのでFuture Salesという単語に引かれて選んでいます。
https://www.kaggle.com/c/competitive-data-science-predict-future-sales/overview
さて、Aidemyで学んだところKaggleのコンペでは下記のような流れで分析することとなっています。
- 明らかにしたい問いや、問題の定義
- 訓練およびテストデータの取得
- データの整形、作成、クレンジング
- パターンの分析、特定、また探索的にデータを分析する
- 問題のモデル化、予測、解決
- 問題解決のステップと最終的な解決方法を視覚化、報告
- 結果の提出
ということで上に沿いながら、解析を進めていこうと思います。目標は1回目の解析完了までを来週日曜までに終わらせたいところです。スコアのレベルはさておき、提出までです。
ということでまた明日。今週は毎日更新を目標にします。当方継続する力に不安があるので、まずはそこから頑張らないとと思いながら、
みんな大好き黒霧島で沈んでいきたいと思います。
お粗末様でした。