まだpredictが着地していないにも関わらず、新しいコンペを開始しました。
旅行記も博多が途中だし、金沢行ったのでその旅行記も書きたいなと思ったりしているにも関わらずまた新しいシリーズを書き出してしまう飽き性の自分に呆れます。
上記を全部ちゃんとブログにしていつか笑い話になることを信じて本題に入っていこうと思います。今回トライするのはHome Credit Default Riskという2年前に終わっているコンペです。
https://www.kaggle.com/c/home-credit-default-risk/overview
今回もPredictの時と同様に次の流れに従いながら、進めていこうと思います。
- 明らかにしたい問いや、問題の定義
- 訓練およびテストデータの取得
- データの整形、作成、クレンジング
- パターンの分析、特定、また探索的にデータを分析する
- 問題のモデル化、予測、解決
- 問題解決のステップと最終的な解決方法を視覚化、報告
- 結果の提出
まずは問題の定義から。Kaggleは英語なのでややこしいですが2013年から2017年の間アジアを駆け回っていた頃の経験を生かして、Passion Englishで適当に役していこうと思います。
参考にするのは上記のアドレス先となります。こちらOverViewなのでまずはここから見ていこうと思います。
Descriptionの最後の文章を読むと、Home Creditというローン会社が、様々な統計と機械学習を利用することで、返済可能な客と返済不可能(デフォルト)な客を判別することが目的のようです。
続いてどんなデータがあるか見ていこうと思います。
このコンペに参加することでダウンロードできるファイルは次の9つです。
まずはどんなファイルがあるかを確認し、中身はまた別途見ていこうと思います。下記のアドレスに英語で説明されています。
https://www.kaggle.com/c/home-credit-default-risk/data
- application_{train|test}.csv(2個)
こちらメインのテーブルです。それぞれ1つずつローンの情報とtrainにはデフォルトしたかという情報(Target)が含まれているようです。testはそれはないのでこの二つのテーブルがtrain_dfとtest_dfになりそうです。 - bureau.csv
調査所のデータ。全顧客が過去に借りた他の金融機関からのローン情報となります。 - bureau_balance.csv
bureau.csvの毎月の残高データです。bureauと組み合わせて使いそうです。 - POS_CASH_balance.csv
Home Credit社のもつ申請者の月次クレジットカード残高を販売拠点ごとにまとめたもののようです。 - credit_card_balance.csv
Home Credit社のもつ申請者の月次クレジットカード残高のスナップショットとなります。申請者の実績なのでこれも重要情報になりそうです。 - previous_application.csv
申請者のHome Credit社でのローン履歴となります。 - installments_payments.csv
サンプルローンに関連するHome Credit社にある過去実績とのこと。中身見ないと他のデータとの関連があまり見えてきません。。。 - HomeCredit_columns_description.csv
各種カラムの説明。
ちなみにこのファイル全部+sample submissionで合計2.5GBの大容量です。
ということでこれらのデータを活用して、applicationテーブルのtestの顧客のデフォルトを0 or 1で予測することが本コンペの目的となります。outputとしてはtitanicと同じようですが複数ファイルを活用するあたりでなかなか苦労しそうです。
次回はそれぞれのファイルのカラム詳細を見ていこうと思います。