In [1]:
# pandasをインポート
import pandas as pd

# データを読み込む
train = pd.read_csv('train.csv')

# 最初の5行だけ表示
train.head()

# 機械学習プロジェクトは、まずデータの中身を見ることからスタート！！

Unnamed: 0,id,N_Days,Drug,Age,Sex,Ascites,Hepatomegaly,Spiders,Edema,Bilirubin,Cholesterol,Albumin,Copper,Alk_Phos,SGOT,Tryglicerides,Platelets,Prothrombin,Stage,Status
0,0,2249.0,,13149.0,F,,,,N,0.7,,3.49,,,,,425.0,11.1,1.0,C
1,1,3157.0,,27394.0,F,,,,N,1.6,,3.5,,,,,142.0,10.6,4.0,C
2,2,1030.0,Placebo,22960.0,F,N,N,N,N,1.8,412.0,3.31,96.0,1293.0,91.0,113.0,422.0,10.3,2.0,C
3,3,249.0,,22646.0,F,,,,N,2.1,,3.4,,,,,166.0,10.3,4.0,D
4,4,994.0,D-penicillamine,21294.0,F,N,N,N,N,0.5,231.0,3.9,31.0,1689.0,164.3,166.0,356.0,10.6,3.0,C


In [2]:
# 欠損値があるかチェックしよう
train.isnull().sum()

# 欠損チェックは、前処理の最初の一歩！！

Unnamed: 0,0
id,0
N_Days,0
Drug,6595
Age,0
Sex,0
Ascites,6590
Hepatomegaly,6597
Spiders,6601
Edema,0
Bilirubin,0


In [3]:
# 欠損値が多すぎる列を削除
train = train.drop(['Drug', 'Ascites', 'Hepatomegaly', 'Spiders', 'Cholesterol', 'Copper', 'Alk_Phos', 'SGOT', 'Tryglicerides', 'Platelets'], axis=1)


In [4]:
# 'Prothrombin'を中央値で埋める
train['Prothrombin'] = train['Prothrombin'].fillna(train['Prothrombin'].median())

In [5]:
# 念のため、欠損値がゼロかチェック
print(train.isnull().sum())

#CSVデータのカラム名は、そのまま使う！（スペルミスごと合わせる）

id             0
N_Days         0
Age            0
Sex            0
Edema          0
Bilirubin      0
Albumin        0
Prothrombin    0
Stage          0
Status         0
dtype: int64


In [6]:
# 特徴量（説明変数）をXに
X = train.drop(['id', 'Status'], axis = 1)

# 正解ラベル（目的変数）をYに
Y = train['Status']

#「Status」が今回のターゲット！！

In [7]:
# 'Sex'を数値に変換
X['Sex'] = X['Sex'].map({'M' : 0, 'F' : 1})

# 'Edema'を数値化
for col in [ 'Edema']:
  X[col] = X[col].map({'N' : 0, 'Y' : 1})

In [8]:
# モデルを作成
from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier(random_state=0)

# モデルを学習させる
model.fit(X ,  Y)

In [9]:
# データを読み込む
test = pd.read_csv('test.csv')

#確認してみる
test.head()

Unnamed: 0,id,N_Days,Drug,Age,Sex,Ascites,Hepatomegaly,Spiders,Edema,Bilirubin,Cholesterol,Albumin,Copper,Alk_Phos,SGOT,Tryglicerides,Platelets,Prothrombin,Stage
0,15000,2170.0,D-penicillamine,20510.0,F,N,Y,N,N,0.6,257.0,3.36,42.0,804.0,74.4,83.0,,11.5,4.0
1,15001,2580.0,,23376.0,F,,,,N,0.6,,4.08,,,,,419.0,10.3,3.0
2,15002,1614.0,Placebo,22514.0,F,N,N,N,S,0.6,248.0,2.93,24.0,5833.0,73.53,86.0,,9.8,1.0
3,15003,1401.0,D-penicillamine,19025.0,F,N,N,N,N,1.5,283.0,4.22,57.0,1003.0,99.0,114.0,223.0,9.6,3.0
4,15004,1022.0,,24107.0,F,,,,N,0.6,,3.34,,,,,248.0,10.6,2.0


In [10]:
# 欠損値を確認する
test.isnull().sum()

Unnamed: 0,0
id,0
N_Days,0
Drug,4333
Age,0
Sex,0
Ascites,4336
Hepatomegaly,4336
Spiders,4340
Edema,0
Bilirubin,0


In [11]:
# 欠損値を削除
test = test.drop(['Drug', 'Ascites', 'Hepatomegaly', 'Spiders', 'Cholesterol', 'Copper', 'Alk_Phos', 'SGOT', 'Tryglicerides', 'Platelets'], axis = 1)

In [12]:
# 'Prothrombin'の欠損値を中央値で埋める
test['Prothrombin'] = test['Prothrombin'].fillna(test['Prothrombin'].median())

In [13]:
# 欠損がないかチェック
print(test.isnull().sum())

id             0
N_Days         0
Age            0
Sex            0
Edema          0
Bilirubin      0
Albumin        0
Prothrombin    0
Stage          0
dtype: int64


In [14]:
# 'Sex'と’Edema'を数値に変換する
test['Sex'] = test['Sex'].map({'M' : 0, 'F' : 1})

for col in ['Edema']:
  test[col] = test[col].map({'N' : 0, 'Y' : 1, 'S' : 2})

In [15]:
# 特徴量だけ取り出して X_test にする
X_test = test.drop(['id'], axis = 1)

#確認する
print(X_test.head())

   N_Days      Age  Sex  Edema  Bilirubin  Albumin  Prothrombin  Stage
0  2170.0  20510.0    1      0        0.6     3.36         11.5    4.0
1  2580.0  23376.0    1      0        0.6     4.08         10.3    3.0
2  1614.0  22514.0    1      2        0.6     2.93          9.8    1.0
3  1401.0  19025.0    1      0        1.5     4.22          9.6    3.0
4  1022.0  24107.0    1      0        0.6     3.34         10.6    2.0


In [16]:
# testデータを予測する
pred_test = model.predict(X_test)

In [17]:
# 提出用ファイルを作成
submission = pd.DataFrame({
    'id' : test['id'],         #元のtestデータのid列
    'Status' : pred_test #予測結果（0または1）
})

In [19]:
#submissionを整数に変換
submission['Status'] = submission['Status'].map({'C' : 0, 'D' : 1})
# CSVファイルとして保存
submission.to_csv('submission.csv', index = False)