# Notebookについて
このNotebookではRiiid! Answer Correctness Predictionのコンペ説明と簡単なEDAからriideducationモジュールを使った最初のSubmitまで行うためのものです。<br/>
このNotebookからスタートして自分のNotebookを作っていくと捗るかも?

# Descroption
あなたの好きな先生を思い出してみてください。彼らはあなたに学ぶためのやる気とインスピレーションを与えてくれました。彼らはあなたの長所と短所を知っていたので、あなたの能力に基づいて授業が行わることがあったでしょう。例えば、微積分に進む前に代数を理解しているかどうかを確認します。しかし、多くの生徒へ個人に合わせた学習にまでは着手できていません。データが溢れている世の中では、あなたのようなデータサイエンティストが支援することができます。機械学習は世界中の若者に成功への道を提供することができ、あなたをこのミッションへ招待します。

2018年、2億6000万人の子どもたちが学校に通っていませんでした。同時に、これらの若い生徒の半数以上が、最低限の読解力と数学の基準を満たしていませんでした。COVID-19によってほとんどの国が一時的に学校を閉鎖せざるを得なくなったとき、教育はすでに厳しい状況に置かれていました。これにより、学習の機会と知的発達がさらに遅れることになりました。すべての国でより格差が拡大する可能性があります。私たちは、出席、エンゲージメント、個別への注目するという観点から、現在の教育システムを再考する必要があります。

教育市場に創造的な破壊を提供するAIソリューションプロバイダーであるRiiid Labsは、世界の教育関係者にAIを活用した従来の学習方法を再考させる方法を与えています。教育の機会均等を強く信じているRiiidは、2017年にディープラーニングアルゴリズムに基づいたAIチューターを発売し、100万人以上の韓国の学生を魅了した。今年は、1億人以上の生徒のインタラクションを収録した世界最大のAI教育用オープンデータベース「EdNet」をリリースしました。

今回のコンペでは、学生の知識を経時的にモデル化する「知識トレース」のアルゴリズムを作成することが課題となっています。目標は、将来のインタラクションで学生がどのようなパフォーマンスを発揮するかを正確に予測することです。Riiid の EdNet データを使用して機械学習のスキルを組み合わせます。

あなたの革新的なアルゴリズムは、教育におけるグローバルな課題に取り組むのに役立つでしょう。成功すれば、インターネットに接続している学生であれば、どこに住んでいるかに関係なく、パーソナライズされた学習体験の恩恵を享受することが可能になります。あなたの参加により、私たちは、COVID-19後の世界における教育のためのより良くより公平なモデルを構築することができます。

# Evaluation
提出物は、予測された確率と観察されたターゲットの間のAUC(ROC曲線の下の領域)で評価されます。

AUCについて簡単な説明すると、偽陽性がなるべく少なくかつ真陽性がなるべく多くなると良い評価となる指標です。


## 参考
- [AUCについて](https://www.medcalc.org/manual/roc-curves.php#:~:text=The%20area%20under%20the%20ROC,groups%20(diseased%2Fnormal).)
- [【ROC曲線とAUC】機械学習の評価指標についての基礎講座](https://www.randpy.tokyo/entry/roc_auc)
- [機械学習の評価指標 – ROC曲線とAUC](https://techblog.gmo-ap.jp/2018/12/14/%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92%E3%81%AE%E8%A9%95%E4%BE%A1%E6%8C%87%E6%A8%99-roc%E6%9B%B2%E7%B7%9A%E3%81%A8auc/)


## Submission File
これはカーネルコンペでKaggleのカーネルを使ってサブミットする必要があります。



# Notebook制限
- CPU Notebook <= 9 hours run-time
- GPU Notebook <= 9 hours run-time
- TPU Notebook <= 3 hours run-time

# Rules
- チーム外でのコード、データの共有はできません
- チーム人数は最大5名までです
- 1日あたり5回のサブミットが可能です
- 最終提出物としては最大2つまで選択可能です

# Introduction
このコンペでは、各生徒がどの問題を正解できるかを予測します。<br/>

コンペの特徴
- Kaggle Notebooksからのみサブミットできます
- riiideducationというカスタムのPythonモジュールを使用する必要があります。このモジュールの目的は、情報の流れを制御して、将来のデータを使用して予測を行わないようにするためのものです。このモジュールを適切に使用しないと、コードが失敗する可能性があります。


# Library

In [None]:
import os
import sys

import numpy as np
import pandas as pd
import matplotlib as plt
import seaborn as sns

import riiideducation
env = riiideducation.make_env()

import warnings
warnings.simplefilter("ignore")

# Load Data

train.csvがあまりに大きいため普通に読み込むとメモリに収まりません。<br/>
以下のNotebookを参考にデータを読み込みました。

[Tutorial on reading large datasets](https://www.kaggle.com/rohanrao/tutorial-on-reading-large-datasets)

pandasでデータを読み込む際型推測に多くのリソースを割くため事前に型を定義しておくとその分のリソースを節約できます。

In [None]:
train_df = pd.read_csv('/kaggle/input/riiid-test-answer-prediction/train.csv', low_memory=False, nrows=10**5, 
                       dtype={'row_id': 'int64', 'timestamp': 'int64', 'user_id': 'int32', 'content_id': 'int16', 'content_type_id': 'int8',
                              'task_container_id': 'int16', 'user_answer': 'int8', 'answered_correctly': 'int8', 'prior_question_elapsed_time': 'float32', 
                             'prior_question_had_explanation': 'boolean',
                             }
                      )
train_df = train_df.query('answered_correctly != -1').reset_index(drop=True)
train_df['prior_question_had_explanation'] = train_df['prior_question_had_explanation'].astype(float)

In [None]:
# %%time
example_test_df = pd.read_csv('/kaggle/input/riiid-test-answer-prediction/example_test.csv')
lectures_df = pd.read_csv('/kaggle/input/riiid-test-answer-prediction/lectures.csv')
questions_df = pd.read_csv('/kaggle/input/riiid-test-answer-prediction/questions.csv')

In [None]:
train_df.head()

In [None]:
from IPython.display import display
display(example_test_df.head())
display(lectures_df.head())
display(questions_df.head())

In [None]:
train_df.info()

In [None]:
from IPython.display import display
display(example_test_df.info())
display(lectures_df.info())
display(questions_df.info())

# iter_test関数
テストセット内の質問の各バッチをループするジェネレータ。便宜上、サンプルのテスト行に直接アクセスできますが、コードはAPIを介して実際のテストセットからのみ行を取得できます。予測を呼び出すと、次のバッチに進むことができます。


Yields:
- より多くのバッチがあり、predictは最後のyield以降正常に呼び出されましたが、次のタプルが生成されます。
    - test_df: 次のバッチのテスト機能と前のバッチのユーザー応答を含むDataFrame。
    - sample_prediction_df: 予測例を含むDataFrame。記入して予測関数に戻すことを目的としています。
- 前回のyield以降、predictが正常に呼び出されなかった場合、エラーが出力され、Noneが生成されます。

In [None]:
iter_test = env.iter_test()
(test_df, sample_prediction_df) = next(iter_test)
test_df

In [None]:
sample_prediction_df

現在のバッチの予測を行わずに次のバッチに続行しようとすると、以下のようなエラーが発生することに注意してください。

In [None]:
next(iter_test)

# predict関数
現在のバッチの予測を保存します。 iter_testジェネレーターから返されるsample_prediction_dfで見たものと同じ形式を期待します。

引数:
- predictions_df：sample_prediction_dfと同じ形式である必要があるDataFrame。

iter_testジェネレーターの反復が成功した後に呼び出されない場合、この関数は例外を発生させます。

In [None]:
env.predict(sample_prediction_df)

# Loopについて
テストセットジェネレーターの残りのすべてのバッチをループして、それぞれのデフォルトの予測を作成しましょう。 iter_testジェネレーターは、最後に到達すると、値の戻りを停止します。

独自のノートブックを作成するときは、iter_test / predictループについての仮定をできるだけ少なくする堅牢なコードを作成するようにしてください。たとえば、テストセットには、これまでtrain内で観察されたことのない質問IDが含まれています。

このコンテストでは、基本的にsample_prediction_dfの構造はされません。

In [None]:
for (test_df, sample_prediction_df) in iter_test:
    test_df['answered_correctly'] = 0.5
    env.predict(test_df.loc[test_df['content_type_id'] == 0, ['row_id', 'answered_correctly']])

# コード変更に伴うiterの再実行はNotebookの再起動が必要です
make_envを呼び出すか、iter_testを使って反復処理を行うことはノートブックの実行ごとに一度だけ許されています。しかし、モデルをイテレートしている間に、何かを試して、モデルを少し変えて、もう一度やってみるのは合理的です。残念ながら、単にコードを再実行しようとしたり、ブラウザのページをリフレッシュしようとしても、以前と同じNotebookの実行セッションで実行されていることになり、riideducationモジュールはまだエラーを投げます。これを回避するには、ノートブックの実行セッションを明示的に再起動する必要があります。これはノートブックエディタのメニューバーの上部にある "Run"->"Restart Session "をクリックすることで行うことができます。