In [1]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

/kaggle/input/riiid-test-answer-prediction/lectures.csv
/kaggle/input/riiid-test-answer-prediction/example_sample_submission.csv
/kaggle/input/riiid-test-answer-prediction/example_test.csv
/kaggle/input/riiid-test-answer-prediction/questions.csv
/kaggle/input/riiid-test-answer-prediction/train.csv
/kaggle/input/riiid-test-answer-prediction/riiideducation/__init__.py
/kaggle/input/riiid-test-answer-prediction/riiideducation/competition.cpython-37m-x86_64-linux-gnu.so


In [None]:
import riiideducation
env = riiideducation.make_env()

In [2]:
import pandas as pd
import numpy as np
import lightgbm as lgb
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import train_test_split
import gc

dir_path = '/kaggle/input/riiid-test-answer-prediction/'
file_train = 'train.csv'
file_questions = 'questions.csv'
file_lectures = 'lectures.csv'

In [5]:
import warnings
warnings.filterwarnings("ignore")
import matplotlib.pyplot as plt
plt.rcParams.update({'figure.max_open_warning': 0})
import seaborn as sns

# modelling
import pandas as pd
import numpy as np
from scipy import stats
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV, RepeatedKFold, cross_val_score, cross_val_predict, KFold
from sklearn.metrics import make_scorer, mean_squared_error
from sklearn.linear_model import LinearRegression, Lasso, Ridge, ElasticNet
from sklearn.svm import LinearSVR, SVR
from sklearn.neighbors import KNeighborsRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor, AdaBoostRegressor
from xgboost import XGBRegressor
from sklearn.preprocessing import PolynomialFeatures, MinMaxScaler, StandardScaler

In [6]:
nrows = 100 * 10000
train = pd.read_csv(
                    dir_path + file_train, 
                    nrows=nrows, 
                    usecols=['row_id', 'timestamp', 'user_id', 'content_id', 
                             'content_type_id', 'task_container_id', 'answered_correctly',
                            'prior_question_elapsed_time','prior_question_had_explanation'],
                    dtype={
                            'row_id': 'int64',
                            'timestamp': 'int64',
                            'user_id': 'int32',
                            'content_id': 'int16',
                            'content_type_id': 'int8',
                            'task_container_id': 'int8',
                            'answered_correctly': 'int8',
                            'prior_question_elapsed_time': 'float32',
                            'prior_question_had_explanation': 'str'
                        }
                   )

lectures = pd.read_csv(
                       dir_path + file_lectures, 
                       usecols=['lecture_id','tag','part','type_of'], 
                       nrows=nrows,
                       dtype={
                           'lecture_id': 'int16',
                           'tag': 'int16',
                           'part': 'int8',
                           'type_of': 'str'
                       }
                    )

questions = pd.read_csv(
                        dir_path + file_questions, 
                        nrows=nrows,
                        usecols=['question_id','bundle_id','part','tags'], 
                        dtype={
                           'question_id': 'int16',
                           'bundle_id': 'int16',
                           'part': 'int8',
                           'tags': 'str'
                       }
                    )


In [10]:
train.head()

#row_id：（int64）行的ID代码。

#timestamp：（int64）从该用户交互到该用户第一次事件完成之间的时间（以毫秒为单位）。

#user_id：（int32）用户的ID代码。

#content_id：（int16）用户交互的ID代码 问题id

#content_type_id：（int8）如果事件是向用户提出的问题，则为0；如果事件是用户正在观看讲座，则为1。

#task_container_id：（int16）这批问题或讲座的ID代码。例如，用户可能会先看到三个问题，然后再查看其中任何一个的解释。这三个都将共享一个task_container_id。

#user_answer：（int8）用户对问题的答案（如果有）。将-1读为null，以进行讲座。

#answered_correctly：（int8）用户是否正确响应。将-1读为null，以进行讲座。可当label

#priority_question_elapsed_time：（float32）用户回答上一个问题束中的每个问题所花费的平均时间（以毫秒为单位），而忽略了其间的任何讲座。用户的第一个问题包或讲座的null。请注意，时间是用户解决上一个捆绑软件中每个问题所花费的平均时间。

#before_question_had_explanation：（布尔）用户在回答上一个问题包之后是否忽略了两者之间的任何演讲，是否看到了说明和正确的回答。该值在单个问题包中共享，对于用户的第一个问题包或讲座，该值为null。通常，用户看到的前几个问题是入职诊断测试的一部分，他们没有得到任何反馈。


Unnamed: 0,row_id,timestamp,user_id,content_id,content_type_id,task_container_id,answered_correctly,prior_question_elapsed_time,prior_question_had_explanation
0,0,0,115,5692,0,1,1,,
1,1,56943,115,5716,0,2,1,37000.0,False
2,2,118363,115,128,0,0,1,55000.0,False
3,3,131167,115,7860,0,3,1,19000.0,False
4,4,137965,115,7922,0,4,1,11000.0,False


In [17]:
questions.head()
#questions.csv：向用户提出的问题的元数据。

#question_id：当内容类型为问题（0）时，train / test content_id列的外键。

#bundle_id：一起解决问题的代码。类别变量

#correct_answer：问题的答案。可以与train/user_answer列进行比较，以检查用户是否正确。

#part：TOEIC测试的相关部分。问题属于哪个组 哪类问题

#tags：问题的一个或多个详细标签代码。不会提供标签的含义，但是这些代码足以将问题聚在一起。  （可以切开做一百多个特征）

Unnamed: 0,question_id,bundle_id,part,tags
0,0,0,1,51 131 162 38
1,1,1,1,131 36 81
2,2,2,1,131 101 162 92
3,3,3,1,131 149 162 29
4,4,4,1,131 5 162 38


In [14]:
lectures.head()

#tutorials.csv：用户在学习过程中观看的讲座的元数据。 文献

#lecture_id：当内容类型为演讲者（1）时，train/测试content_id列的外键。

#part：讲座的顶级类别代码。

# tag：一个用于演讲的标签代码。不会提供标签的含义，但是这些代码足以将讲座聚在一起。

# type_of：简要介绍讲座的核心目的 解决问题类型

# example_test_rows.csv时间序列API会传递测试集数据的三个样本组。格式与train.csv大致相同。有两个不同的列可以反映AI辅导员在任何给定时间实际可获得的信息，但是出于API性能的考虑，将用户交互分组在一起，而不是一次严格显示单个用户的信息。一些用户将出现在火车集中未显示的隐藏测试集中，从而模拟了快速适应为网站的新到达者建模的挑战。

# previous_group_responses（字符串）以该组第一行中列表的字符串表示形式提供前一个组的所有user_answer条目。每个组中的所有其他行均为空。如果您使用的是Python，则可能需要在非空行上调用eval。有些行可能为空，也可能为空列表。

# previous_group_answers_correct（字符串）为上一组提供所有Answer_correctly字段，格式和警告与先前的group_responses相同。有些行可能为空，也可能为空列表。

Unnamed: 0,lecture_id,tag,part,type_of
0,89,159,5,concept
1,100,70,1,concept
2,185,45,6,concept
3,192,79,5,solving question
4,317,156,5,solving question


In [16]:
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 9 columns):
 #   Column                          Non-Null Count    Dtype  
---  ------                          --------------    -----  
 0   row_id                          1000000 non-null  int64  
 1   timestamp                       1000000 non-null  int64  
 2   user_id                         1000000 non-null  int32  
 3   content_id                      1000000 non-null  int16  
 4   content_type_id                 1000000 non-null  int8   
 5   task_container_id               1000000 non-null  int8   
 6   answered_correctly              1000000 non-null  int8   
 7   prior_question_elapsed_time     976277 non-null   float32
 8   prior_question_had_explanation  996184 non-null   object 
dtypes: float32(1), int16(1), int32(1), int64(2), int8(3), object(1)
memory usage: 35.3+ MB


In [None]:
# 1箱型图
fig = plt.figure(figsize=(4,6))
sns.boxplot(train['prior_question_elapsed_time'],orient="v",width=0.5)