# 第3回データ分析コンペティション：Demand Forecast

## 背景
　第3回データ分析コンペティションでは、**需要予測（Demand Forecast）** に取り組んでいただきます。このコンペでは、平成25年1月~平成27年9月の売り上げ履歴のデータから、その翌月である平成27年10月の売り上げ(単位: 個数/月)を予測します。

## 目標
過去2回のコンペと異なる点が3つあります。

#### 1. データが時系列
今回のコンペでは日付情報の入った時系列データを扱います。平成25年1月~平成27年9月の期間の日ごとの売り上げ履歴が与えられるので、これをもとに平成27年10月の、各店舗・商品ごとのひと月の売り上げ個数を予測してください。

#### 2. 訓練データとテストデータの形式が異なる
今回のコンペでは、訓練データとテストデータの形式が大きく異なります。訓練データの各行は「この日にこの店舗でこの商品が何個売れた」という情報です。一方で、テストデータの各行は店舗と商品の組み合わせになっています。この店舗と商品の各組み合わせに対して、平成27年10月のひと月の合計売り上げ個数を予測してください。

#### 3. 補足情報が配布される
従来のコンペで配布されるデータは訓練データとテストデータのみでしたが、今回はこれらに加えて補足情報 (supplemental information) が配布されます。例えば、goods.csv (詳細はデータの項参照) の情報を使えば、テストデータ上で goods_id=5825 と記載されている商品の商品名は「Pokemon XY Booster Phantom power」である、という追加の情報を得ることができます。これまでのように訓練データのみでモデルを構築し予測することも可能ですが、もし余力があれば補足情報を活用してみてください。

## データ

　データ分析コンペティションでは、一般的に**訓練データ**と**テストデータ**が与えられます。今回の場合はこれらに加え補足情報も与えられています。訓練データ、テストデータ、補足情報は以下のような点で異なります。  
- 訓練データ：このデータによって機械学習モデルを学習させます。
- テストデータ：このデータに対する予測を提出して、その精度を競います。  
- 補足情報：モデルを学習させる際に活用しても良い補足のデータ。

### ファイル一覧
今回与えられるデータは次の5つのcsvファイルです。
* train.csv ... 訓練データ
* test.csv ... テストデータ
* genres.csv ... 商品カテゴリに関する補足情報
* goods.csv ... 商品に関する補足情報
* stores.csv ... 店舗に関する補足情報

### カラム情報一覧
データに含まれるカラムの情報は以下です。
* index ... (店舗, 商品) の各組み合わせに対してわりふられるID
* store_id ... 店舗ID
* goods_id ... 商品ID
* goods_genre_id ... 商品カテゴリID
* units_sold_day ... 商品の一日の売り上げ個数
* units_sold_month ... 商品のひと月の売り上げ個数 (今回の予測のターゲット)
* price ... 商品の現在の値段
* yy-mm-dd ... 日付 (yy/mm/dd形式)
* num_month ... 便宜上各月にわりふられた値 (平成25年1月=-33, 平成25年2月=-32,...,平成27年9月=-1)
* goods_name ... 商品名
* store_name ... 店舗名
* goods_genre_name ... 商品カテゴリ名

## 評価指標
　今回のコンペティションでは、**平均二乗誤差 (Root Mean Square Error, RMSE)** を競います。RMSEは常に正であり、0に近いほど予測が真の値によりよくフィットしていることを示します。

## 提出/採点/順位
　予測は**Omnicampus**上で提出してください。提出するデータの形式は以下のようなcsvファイルとなります。今回予測するのは商品のひと月の売り上げ個数 (units_sold_month) ですが、評価指標としてRMSEを採用するため、必ずしもint型である必要はありません。
 
ID|units_sold_month
---|---
0|0.5
1|0.5
2|0.5
…|…
2326|0.5
2327|0.5
2328|0.5

　**sample_submission.csv**がこの形式に準じた提出ファイルの例となっているので、参考にしてください。 提出ファイルがこの形式に準じていなかった場合にはスコアが-999となるので、そのような際は提出ファイルの形式を確認してみましょう。  

　提出自体の回数は無制限ですが、採点は1日に3回、以下の時間に行われます。
   - 3時
   - 15時
   - 21時

　コンペティション期間中の採点はテストデータの一部に対して行われます。これは「順位表に対する過学習」という現象を避けるためです。この採点結果に基づいてコンペティション期間中はOmnicampus上で順位表が更新されていきます。このようにコンペティション期間中に一部のデータに対する採点結果に基づいて更新される順位表は**Public Leaderboard**と呼ばれます。  

　これに対して、コンペティション終了後に行われる採点はテストデータ全体に対して行われます。最終順位はこの採点結果に基づいて確定されます。このように確定された順位表はPublic Leaderboardに対して**Private Leaderboard**と呼ばれます。

## タイムライン

開始日： 2020年7月1日 (水)  
提出期限： **2020年7月19日 (日) 23:59:59**  
順位発表： 2020年7月20日 (月)

## ルール
- **外部データ使用の禁止**  
　データ分析においては、EDAやモデルの学習など全ての段階において外部データを使用しないでください。つまり今回のコンペティションでは、input/train.csv, input/test.csv, input/goods.csv, input/genres.csv, item/stores.csv のみを使用して、データ分析に取り組んでください。  

- **Hand-Labelingの禁止**  
　モデルによってではなく手作業で予測を作成することは**Hand-Labeling**と呼ばれ、ほとんどのデータ分析コンペティションでは禁止されています。今回のコンペティションでもこのルールを採用し、全てあるいは一部のテストデータに対してHand-Labelingをすることを禁止します。予測は訓練データやテストデータ以外のデータに対しても適用可能なモデルによって自動で為されるようにしてください。

- **再現性の確保**  
　可能な限り予測の再現性を確保してください。再現性を保つためには、**乱数生成においてシード値を指定すること**が必要条件です。  
 「可能な限り」という表現がなされているのは、再現性がどうしても保てない場合が存在するためです。例えば最近では、PyTorchというディープラーニングフレームワークがバージョンアップにより全体的に精度を落とすということがありました。この場合、バージョンアップ前に作成した予測をバージョンアップ後に再現するためには、バージョンダウンする必要があります。今回のコンペティションにおいては、再現性の確保のためにそこまでする必要はありません。  

- **Private Sharingの禁止**  
　データ分析コンペティションでは一般的に、公平性の観点から個人的な情報共有は厳しく規制されています。多くの場合、チームの結成を規定の方法で宣言した場合のみチーム内での情報共有が許可されます。チーム外の個人的な情報共有は**Private Sharing**と呼ばれ、固く禁じられています。  
　過去のコンペでは、入門者の参加するチュートリアルとしての位置付けであったためPrivate Sharingを一部許可していましたが、**今回のコンペではPrivate Sharingは禁止**とします。#discussion_competition チャンネルでの議論はこれまで通りしてしていただいてかまいませんが、その他の場所(DMなど)で個人的に情報交換することは固く禁じます。