# [README] 第2回データ分析コンペティション：NFL Draft Prediction

## 概要
　本コンペでは、ナショナル・フットボール・リーグ（NFL）の選手に関する身体能力テストやポジション情報などのデータをもとに、その選手がドラフトで指名されるかどうか（Draftedか否か）を予測する分類モデルの構築を目指します。

　ドラフトは、各チームが大学選手の中から戦力を見極めて指名するイベントであり、その判断材料として選手の身体能力・ポジション・大学などの情報が参考にされます。本コンペでは、選手のパフォーマンス指標（40ヤード走、垂直跳び、ベンチプレスなど）やポジション、体格、出身校などの特徴量を用いて、「Drafted（1: 指名された / 0: 指名されなかった）」の2値を予測する分類モデルを構築していただきます。

　スポーツ×データサイエンスの面白さを体感しながら、実践的な課題にチャレンジしてみましょう！

## タスク
　選手の身体能力テストや体格、ポジション情報などのデータから、その選手がドラフトで指名されるかどうかを予測してください。

　このコンペティションでは、「Drafted」列が目的変数（ターゲット）となり、それ以外のカラムが説明変数となります。「Drafted」列が **1 の場合は「指名された」**、**0 の場合は「指名されなかった」**ことを表します。

## データ
　データ分析コンペティションでは、一般的に**訓練データ**と**テストデータ**が与えられます。今回の場合、**訓練データは train.csv** 、**テストデータは test.csv** となっています。訓練データとテストデータは以下のような点で異なります。  
- 訓練データ：このデータによって機械学習モデルを学習させます。
- テストデータ：このデータに対する予測を提出して、その精度を競います。   

　含まれているデータの種類は以下のようになっています。  

変数 |定義 |備考  
---|---|---
Id |選手ごとの一意のID |
Year |データの対象となる年 |
Age |年齢 |
School |所属学校名 |
Height |身長 |
Weight |体重 |
Sprint_40yd |40ヤード走のタイム |
Vertical_Jump |垂直跳びの到達点	|
Bench_Press_Reps |ベンチプレスの回数 |
Broad_Jump |立ち幅跳びの距離 |
Agility_3cone |3コーンドリルのタイム |
Shuttle |20ヤードシャトルランのタイム |
Player_Type |大まかな役割の分類 |
Position_Type |ポジションのタイプ |
Position |詳細なポジション |
Drafted |ドラフトされたかどうか |1 = ドラフトで指名された, 0 = 指名されなかった|

## 評価指標
　今回のコンペティションでは、テストデータに対して予測された確率と正解データとの間の[ROC曲線下の面積](https://en.wikipedia.org/wiki/Receiver_operating_characteristic)である**AUC**をスコアとして採用します。AUCスコアの高さを競うコンペティションとなります。

## 提出/採点/順位
　予測は**Omnicampus**上で提出してください。提出するデータの形式は以下のようなcsvファイルとなります。

Id|Drafted
---|---
2781|0
2782|0
2783|1
…|…
3474|1
3475|0
3476|1

　また、 sample_submission.csv がこの形式に準じた提出ファイルの例となっているので、参考にしてください。 提出ファイルがこの形式に準じていなかった場合にはスコアが -1 となるので、そのような際は提出ファイルの形式を確認してみましょう。  

　提出自体の回数は無制限です。採点タイミングは1日に3回、日本時間で3時・15時・21時になります。ただし、受講生全員の採点が完了するには、30分程度かかる場合があります。そのため、採点結果は採点タイミングから遅れて反映される場合がありますので、ご注意ください。採点結果を確認する際には、採点時刻が更新されているかどうかをよく確認ください。

　**コンペティション期間中の採点はテストデータの一部に対して行われます。**これは「順位表に対する過学習」という現象を避けるためです。この採点結果に基づいてコンペティション期間中はOmnicampus上で順位表が更新されていきます。このようにコンペティション期間中に一部のデータに対する採点結果に基づいて更新される順位表は **Public Leaderboard** と呼ばれます。  

　**これに対して、コンペティション終了後に行われる採点は、テストデータ内の Public Leaderboard で用いなかった部分のデータに対して行われます。**最終順位はこの採点結果に基づいて確定されます。このように確定された順位表は Public Leaderboard に対して **Private Leaderboard** と呼ばれます。

　最終的な順位は、**最後に提出されたファイル**によって決定されます。

　Private Leaderboardの上位に位置する方には、Google Colab上で動作するコードの提出をお願いする予定です。これは最終順位を確定する前に、再現性を確認するためです。ご協力よろしくお願いいたします。

## タイムライン
開始日、提出期限、順位発表の時期は別途アナウンスします。

## ルール
- **外部データ使用の禁止**  
　データ分析においては、EDA（**beginner.ipynb**にて簡単に用語解説しています）やモデルの学習など全ての段階において外部データを使用しないでください。つまり今回のコンペティションでは、input/train.csvおよびinput/test.csvのみを使用して、データ分析に取り組んでください。事前学習済みモデルの利用も禁止です。  

- **Hand-Labelingの禁止**  
　モデルではなく手作業で予測を作成することはHand-Labelingと呼ばれ、ほとんどのデータ分析コンペティションで禁止されています。今回のコンペティションでもこのルールを採用し、全てまたは一部のテストデータに対してHand-Labelingを行うことを禁止します。EDAの結果から導出したルールや特定の条件に基づき、**予測の一部を人為的に決定すること**もHand-Labelingに該当します。ただし、ルールベースのロジックをコードとして記述し、説明変数の加工や変換といった再現可能な特徴量エンジニアリングを行う場合は問題ありません。すべての予測はモデルによって生成されなければならず、手作業による予測は認められません。データの加工は再現可能な手法に基づき、提出する予測は他の同様の内容を持つデータに対しても適用可能なモデルによって**自動で行われる**必要があります。

- **チームアップの禁止**
　本コンペティションでは、参加者同士のチームアップは禁止されています。**スコアを上げることを目的とした**受講生間の共同作業による予測の生成、モデルの作成、コードの作成は認められません。ただし、学びを深めるための公開された場での情報交換やディスカッションは奨励されています。この場合は、個別に協力するのではなく、他の受講生がアクセスできる場で行うことが推奨されます。

- **再現性の確保**  
　可能な限り予測の再現性を確保してください。再現性を保つためには、**乱数生成においてシード値を指定すること**が必要条件です。入門者は後述のbeginner.ipynbで作成したモデルのどの部分で乱数が用いられていてシード値が指定されているのか探してみましょう。用いられている機械学習ライブラリscikit-learnでは、一般的に乱数生成のシード値はrandom_stateという引数やアトリビュートで指定することとされています。  
　「可能な限り」という表現がなされているのは、再現性がどうしても保てない場合が存在するためです。例えば、PyTorchというディープラーニングフレームワークがバージョンアップにより全体的に精度を落とすということがありました。この場合、バージョンアップ前に作成した予測をバージョンアップ後に再現するためには、バージョンダウンする必要があります。今回のコンペティションにおいては、再現性の確保のためにそこまでする必要はありません。  

- **Private Sharingの許可**  
　データ分析コンペティションでは一般的に、公平性の観点から個人的な情報共有は厳しく規制されています。多くの場合、チームの結成を規定の方法で宣言した場合のみチーム内での情報共有が許可されます。チーム外の個人的な情報共有は**Private Sharing**と呼ばれ、固く禁じられています。  
　しかし今回のコンペティションは入門者の参加するチュートリアルとしての位置付けであるため、Private Sharingの禁止は適用しません。身近に経験者がいれば積極的にアドバイスを求めても良いですし、オンラインで他の受講生と情報交換やディスカッションをしても構いません。ただしオンラインで他の受講生と情報交換やディスカッションをする際には、できるだけ個人的なやりとりではなく公開された場で行い、全ての受講生が知見を共有できるよう心がけてください。

- **フォーク元(参考コード)の明記**  
本コンペは非常にレベルの高く参考になるnotebookが沢山インターネットに報告されています。このような優秀な取り組みを探し、コードを解読することも一つの勉強ですので、ぜひ参考にしてください。他者のコードを参考にすること自体は全く問題ありません。 一方、GCIでは教育的な観点から、ご自身の取り組みと引用を区別していただいております。従って**コードを引用した際には、フォーク元を明示**してください。本コンペでは上位入賞対象者にはコードを開示していただいております。この際にフォーク元を開示して頂かず明らかに他者のコードであると発覚した場合には、入賞を取り消さざるを得ない可能性もあるので、自分がどのコードを参考にしたか記録するためにも自分の参考にしたnotebookは記録しておくようにしましょう。

## 修了要件
**Public Leaderboard**上で、baseline.ipynbを上のセルから順に実行して作成したCSVファイルを提出した際に表示される **「ベースラインスコア 0.80792」を超えること**が修了要件の一つとなります。
**最後に提出したファイルで判定**されますので、ご注意ください。
Late Submissionで最後に提出したファイルのスコアがベースラインを上回った場合も、修了要件を満たします。