## データの加工

In [571]:
import numpy as np
import pandas as pd
from sklearn import tree
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

inputfilename = "./input/questionnaire.csv"
data = pd.read_csv(inputfilename).drop(
    columns=['あなたの年代は？','何時から遊び始めたいですか？','何時に遊び終わりたいですか？','タイムスタンプ','所要時間(h)'])
replace_dict = {'男性':0, '女性':1, 'ない':0, 'ある':1}
data = data.replace(replace_dict)

In [563]:
train, test = train_test_split(data, test_size=0.20)
train = train.reset_index(drop=True)
test  = test.reset_index(drop=True)

In [564]:
x_train = train.drop(columns="上記の条件の際に，どの遊びをレコメンドして欲しいですか？(1つのみ)")
y_train = train.loc[:,'上記の条件の際に，どの遊びをレコメンドして欲しいですか？(1つのみ)']

x_test = test.drop(columns="上記の条件の際に，どの遊びをレコメンドして欲しいですか？(1つのみ)")
y_test = test.loc[:,'上記の条件の際に，どの遊びをレコメンドして欲しいですか？(1つのみ)']

## 主成分分析

In [565]:
pca = PCA(n_components=6)
pca.fit(x_train)
x_train_pca = pca.transform(x_train)
sum(pca.explained_variance_ratio_)

0.8076327038357072

In [566]:
pca.fit(x_test)
x_test_pca = pca.transform(x_test)
sum(pca.explained_variance_ratio_)

0.9152574481176555

## ランダムフォレスト

In [567]:
clf = RandomForestClassifier(max_depth=5, random_state=0)

In [568]:
# original
clf.fit(x_train,y_train)

# pca
#clf.fit(x_train_pca,y_train)

RandomForestClassifier(max_depth=5, random_state=0)

In [569]:
print(clf.feature_importances_)

[0.05141493 0.03741679 0.06892262 0.07369305 0.0733093  0.06595636
 0.08482569 0.0822703  0.06015848 0.07750795 0.07394493 0.06737469
 0.08927055 0.09393436]


In [570]:
# original
clf.score(x_test,y_test)

# pca
#clf.score(x_test_pca,y_test)

0.2

In [572]:
for i in range(1,5):
    tree.export_graphviz(clf.estimators_[i-1],'tree' + str(i) + '.dot')

In [573]:
import pydotplus
from IPython.display import Image
 
graph = pydotplus.graphviz.graph_from_dot_file('boston_tree.dot')
graph.write_png('boston_tree.png')
Image(graph.create_png())

ModuleNotFoundError: No module named 'pydotplus'