学生のパフォーマンス

データセットの説明：

このデータは、ポルトガルの2008個の学校の中等教育における生徒の成績から取得したデータである。今回は数学にフォーカスしたデータを扱う。


特徴量：

sex:性別(F or M)

age:15~22の年齢

famsize:家族の規模(LE3:3人以下、GT3:３人以上)

Pstatus:親の同棲状況(T:同居、A:離れて)

Medu:母親の教育(0:なし、1:初等教育、2:5-9年生、3:中等教育、4:高等教育)

Fedu:父親の教育(0:なし、1:初等教育、2:5-9年生、3:中等教育、4:高等教育)

traveltime:自宅から学校までの移動時間(数値:1〜<15分、2〜15〜30分、3〜30分〜1時間、または4〜>1時間)

studytime:毎週の学習時間(数値:1 - <2時間、2 - 2 - 5時間、3 - 5から10時間、または4 - >10時間)

nursery:保育園に通った(バイナリ:はいまたはいいえ)

internet：-自宅でのインターネットアクセス(バイナリ:はいまたはいいえ)

romantic:ロマンチック-ロマンチックな関係(バイナリ: はいまたはいいえ)

famrel:家族関係の質 (数値: 1 - 非常に悪いから 5 - 非常に良い)

health:現在の健康状態 (数値: 1 - 非常に悪いから 5 - 非常に良い)

absences:欠席数 (数値: 0 から 93)

G3:最終成績

必要なモジュールのインポート

In [10]:
import pandas as pd
import numpy as np
import tensorflow as tf
import tensorflow.keras as keras
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import LabelEncoder

データの取得

In [2]:
#今回利用するデータは区切り文字が";"であるためsepに設定する
df = pd.read_csv('student-mat.csv',sep=";")

print(df)
print(df.shape)
print(df.columns)

    school sex  age address famsize Pstatus  Medu  Fedu      Mjob      Fjob  \
0       GP   F   18       U     GT3       A     4     4   at_home   teacher   
1       GP   F   17       U     GT3       T     1     1   at_home     other   
2       GP   F   15       U     LE3       T     1     1   at_home     other   
3       GP   F   15       U     GT3       T     4     2    health  services   
4       GP   F   16       U     GT3       T     3     3     other     other   
..     ...  ..  ...     ...     ...     ...   ...   ...       ...       ...   
390     MS   M   20       U     LE3       A     2     2  services  services   
391     MS   M   17       U     LE3       T     3     1  services  services   
392     MS   M   21       R     GT3       T     1     1     other     other   
393     MS   M   18       R     LE3       T     3     2  services     other   
394     MS   M   19       U     LE3       T     1     1     other   at_home   

     ... famrel freetime  goout  Dalc  Walc health 

データの整形

In [3]:
#入力(特徴量)と出力(目的変数)の分割
X = df.loc[:,['sex','age','famsize','Pstatus','Medu','Fedu','traveltime','studytime','nursery','internet','romantic','famrel','health','absences']]
le = LabelEncoder()
#ラベルエンコーディング

X['sex'] = le.fit_transform(df['sex'])
X['famsize'] = le.fit_transform(df['famsize'])
X['Pstatus'] = le.fit_transform(df['Pstatus'])
X['nursery'] = le.fit_transform(df['nursery'])
X['internet'] = le.fit_transform(df['internet'])
X['romantic'] = le.fit_transform(df['romantic'])

X = (X - X.mean())/X.std()

y = df['G3']

print(y)

0       6
1       6
2      10
3      15
4      10
       ..
390     9
391    16
392     7
393    10
394     9
Name: G3, Length: 395, dtype: int64


データの分割

In [4]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state=42)
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

(355, 14) (40, 14) (355,) (40,)


モデルの構築と学習

In [12]:
regr = RandomForestRegressor()

regr.fit(X_train, y_train)

モデルの予測

In [13]:
y_pred = regr.predict(X_test)
y_pred = np.reshape(y_pred, y_test.shape)

モデルの評価

In [14]:
# 評価（平均二乗誤差）
mse = mean_squared_error(y_test, y_pred)
print("Mean Squared Error:", mse)

Mean Squared Error: 24.1114475


In [15]:
# 評価（R2スコア）
r2 = r2_score(y_test, y_pred)
print("R2 Score:", r2)

R2 Score: 0.023605679431044635
