<a href="https://colab.research.google.com/github/machine-perception-robotics-group/MPRGDeepLearningLectureNotebook/blob/master/00_no_deep_ml/materials_info.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# データサイエンス演習

データを分析して，機械学習を用いて予測する一連の流れを行います．
ここでは，Boston Housing データセットを用いて，住宅価格を予測します．

###Boston Housing dataset

Boston Housingは，13属性（説明変数）＋1属性（目的変数）の14属性で構成されています．
各属性は以下のようになっています．

*  CRIM： 町別の「犯罪率」
*  ZN： 25,000平方フィートを超える区画に分類される住宅地の割合＝「広い家の割合」
*  INDUS： 町別の「非小売業の割合」
*  CHAS： チャールズ川に接している場合は1、そうでない場合は0
*  NOX： 「NOx濃度（0.1ppm単位）」＝一酸化窒素濃度（parts per 10 million単位）
*  RM： 1戸当たりの「平均部屋数」
*  AGE： 1940年より前に建てられた持ち家の割合＝「古い家の割合」
*  DIS： 5つあるボストン雇用センターまでの加重距離＝「主要施設への距離」
*  RAD： 「主要高速道路へのアクセス性」の指数
*  TAX： 10,000ドル当たりの「固定資産税率」
*  PTRATIO： 町別の「生徒と先生の比率」
*  B： 「1000(Bk - 0.63)」の二乗値。Bk＝「町ごとの黒人の割合」を指す
*  LSTAT： 「低所得者人口の割合」
*  MEDV：「住宅価格」（1000ドル単位）の中央値

Boston Housing datasetを読み込みます．このデータセットはScikit learnのチュートリアルでも利用されているので，データのダウンロードを行う関数load_boston()も用意されています．

In [None]:
#ボストン住宅価格データセットの読み込み
from sklearn.datasets import load_boston
boston = load_boston()
#説明変数
X_array = boston.data
#目的変数
y_array = boston.target

データを分析するために，データをpandasモジュールのデータフレームに変換します．
そして，データフレームを出力して，データの中身を確認します．
データ数は506個，14属性(説明変数+目的変数)となっています．

In [None]:
import pandas as pd
import numpy as np
from pandas import DataFrame

df = DataFrame(X_array, columns = boston.feature_names).assign(MEDV=np.array(y_array))

# ヘッダ出力
print(df.head)

CRIM(犯罪率)とMEDV(住宅価格)の関係を可視化します．

In [None]:
df.plot.scatter(x='CRIM', y='MEDV',xlim=[0,100], ylim=[0,80])

これらの結果からは，関係があるかどうかわからないので，線形回帰してみます．
ここでは，Seabornというモジュールを利用します．
また，相関係数も確認します．

In [None]:
import seaborn as sns

In [None]:
#CRIM(犯罪率)，MEDV(住宅価格)で可視化
sns.regplot('CRIM','MEDV',data = df)
df[['CRIM','MEDV']].corr()

次に，ZN(宅地比率)とMEDV(住宅価格)の関係を可視化します．

In [None]:
#ZN(宅地比率)，MEDV(住宅価格)で可視化
sns.regplot('ZN','MEDV',data = df)
df[['ZN','MEDV']].corr()

INDUS(非小売業エーカーの割合)とMEDV(住宅価格)の関係も可視化します．

In [None]:
#INDUS(非小売業エーカーの割合)，MEDV(住宅価格)で可視化
sns.regplot('INDUS','MEDV',data = df)
df[['INDUS','MEDV']].corr()

In [None]:
#CHAS(チャーリーズ川ダミー変数)、MEDV(住宅価格)で可視化
sns.regplot('CHAS','MEDV',data = df)
df[['CHAS','MEDV']].corr()

In [None]:
#RM(1住戸あたりの平均部屋数)、MEDV(住宅価格)で可視化
sns.regplot('RM','MEDV',data = df)
df[['RM','MEDV']].corr()

###線形回帰による住宅価格の予測

線形回帰により，住宅価格の予測を行います．

In [None]:
from sklearn.model_selection import train_test_split
from sklearn import linear_model

# 訓練データとテストデータに8:2で分割
X_train, X_test, y_train, y_test = train_test_split(X_array, y_array, test_size=0.2, random_state=0)

# 線形回帰で学習
model = linear_model.LinearRegression()
model.fit(X_train, y_train)

各説明変数に対する係数を確認します．

In [None]:
np.set_printoptions(suppress=True, precision=3)
print(model.coef_)
print(model.intercept_)

住宅価格のように数値を予測する回帰モデルの性能評価には，
* 残差プロット：残差（目的変数の真値と予測値の差分）
* 平均二乗誤差：残差平方和をデータ数で正規化した値
* 決定係数：相関係数の二乗

を利用します．

残差プロットは，目的変数の真値と予測値の差分の分布を可視化したものです．
回帰モデルが目的変数を正しく予測できた場合の残差は0になります．


In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

Y_pred = model.predict(X_test) # 検証データを用いて目的変数を予測

plt.scatter(Y_pred, Y_pred - y_test, color = 'blue')      # 残差をプロット 
plt.hlines(y = 0, xmin = -10, xmax = 50, color = 'black') # x軸に沿った直線をプロット
plt.title('Residual Plot')                                # 図のタイトル
plt.xlabel('Predicted Values')                            # x軸のラベル
plt.ylabel('Residuals')                                   # y軸のラベル
plt.grid()                                                # グリッド線を表示

plt.show()                                               # 図の表示

平均二乗誤差は，残差の平方和をデータ数で正規化したものです．
回帰モデルの性能を数値化することができます．
誤差が小さいほど回帰モデルの性能は良いです．
平均二乗誤差は，metricsのmean_squared_errorを利用することで算出できます．

In [None]:
from sklearn.metrics import mean_squared_error

Y_train_pred = model.predict(X_train) # 学習データに対する目的変数を予測
Y_pred = model.predict(X_test) # 学習データに対する目的変数を予測
print('MSE train data: ', mean_squared_error(y_train, Y_train_pred)) # 学習データを用いたときの平均二乗誤差を出力
print('MSE test data: ', mean_squared_error(y_test, Y_pred))         # 検証データを用いたときの平均二乗誤差を出力

決定係数は，回帰モデルの予測誤差を反映した指標であり，値が大きいほど回帰モデルがデータにフィットしているといえます．
決定係数は、metricsのr2_scoreを利用することで算出できます．
また、LinearRegressionモデルのscoreメソッドでも算出できます．

In [None]:
from sklearn.metrics import r2_score

print('r^2 train data: ', r2_score(y_train, Y_train_pred))
print('r^2 test data: ', r2_score(y_test, Y_pred))

In [None]:
# 訓練データを用いた評価
print('r^2 train data: ', model.score(X_train, y_train))
# テストデータを用いた評価
print('r^2 test data: ', model.score(X_test, y_test))

学習データと検証データに対する決定係数を比較すると，検証データを用いたときの決定係数の方が小さいです．これは，学習した回帰モデルが過学習している可能性があると言えます．

###ランダムフォレスト回帰による住宅価格の予測

次に，ランダムフォレスト回帰を用いて，回帰モデル学習・評価します．
ランダムフォレスト回帰にはensembleのRandomForestRegressorを用います．
決定木の数は10とします．
学習データ，検証データに対する平均二乗誤差と決定係数を確認します．

In [None]:
from sklearn.model_selection import train_test_split
from sklearn import ensemble
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

# 訓練データとテストデータに8:2で分割
X_train, X_test, y_train, y_test = train_test_split(X_array, y_array, test_size=0.2, random_state=0)


#sklearnのランダムフォレスト回帰
rfr = ensemble.RandomForestRegressor(n_estimators=10)
rfr.fit(X_train, y_train)

Y_train_pred = rfr.predict(X_train) # 学習データに対する目的変数を予測
Y_pred = rfr.predict(X_test) # 学習データに対する目的変数を予測
print('MSE train data: ', mean_squared_error(y_train, Y_train_pred)) # 学習データを用いたときの平均二乗誤差を出力
print('MSE test data: ', mean_squared_error(y_test, Y_pred))         # 検証データを用いたときの平均二乗誤差を出力


print('r^2 train data: ', r2_score(y_train, Y_train_pred))
print('r^2 test data: ', r2_score(y_test, Y_pred))

###勾配ブースティングによる住宅価格の予測

勾配ブースティングを用いて，同様に回帰モデルを学習・評価します．
勾配ブースティングで学習する弱識別器の数は150とします．

In [None]:
from sklearn.model_selection import train_test_split
from sklearn import ensemble
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

# 訓練データとテストデータに8:2で分割
X_train, X_test, y_train, y_test = train_test_split(X_array, y_array, test_size=0.2, random_state=0)

#sklearnの勾配ブースティング
gbr = ensemble.GradientBoostingRegressor(n_estimators = 150, max_depth=3)
gbr.fit(X_train, y_train)

Y_train_pred = gbr.predict(X_train) # 学習データに対する目的変数を予測
Y_pred = gbr.predict(X_test) # 学習データに対する目的変数を予測
print('MSE train data: ', mean_squared_error(y_train, Y_train_pred)) # 学習データを用いたときの平均二乗誤差を出力
print('MSE test data: ', mean_squared_error(y_test, Y_pred))         # 検証データを用いたときの平均二乗誤差を出力


print('r^2 train data: ', r2_score(y_train, Y_train_pred))
print('r^2 test data: ', r2_score(y_test, Y_pred))

###交差検証法

学習データと検証データを分けて回帰モデルを学習・評価しました．
学習データと検証データを入れ替えて，各回帰モデルの交差検証誤差を比較します．
ここでは，平均二乗誤差を比較します．

In [None]:
from numpy import mean
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import ShuffleSplit
from sklearn import linear_model, ensemble

#交差検証
cv = ShuffleSplit(n_splits=5, test_size=0.2, random_state=0)

# 線形回帰で学習
model = linear_model.LinearRegression()
linear_preds = cross_val_score(model, X_array, y_array, cv=cv, scoring='neg_mean_squared_error')
print("Linear Regression  : ", round(mean(abs(linear_preds)), 3) )


#ランダムフォレスト回帰
rfr = ensemble.RandomForestRegressor(n_estimators=10)
rfr_preds = cross_val_score(rfr, X_array, y_array, cv=cv, scoring= 'neg_mean_squared_error')
print("Random Forest : ", round(mean(abs(rfr_preds)), 3) )

#勾配ブースティング
gbr = ensemble.GradientBoostingRegressor(n_estimators = 150, max_depth=3)
gbr_preds = cross_val_score(gbr, X_array, y_array, cv=cv, scoring= 'neg_mean_squared_error')
print("Gradient Boosting : ", round(mean(abs(gbr_preds)), 3) )


###演習


1.   各回帰モデルのハイパーパラメータを変えて平均二乗誤差と決定係数を比較しましょう



#マテリアルズインフォマティクス

データサイエンス演習で行ったことを踏まえて，材料データベースを対象として回帰モデルの学習・評価を行います．


まず，Materials Projectのデータ取得や、物性計算に便利なモジュールをインストールします．

In [None]:
!pip install -q pymatgen

ここでは，説明変数として，


*   化学式
*   物質特性

の２つを比較します．



まず，必要なモジュールをインポートします．

In [None]:
from pymatgen.core.composition import Composition
from numpy import zeros, mean


Density Functional Theoryという第一原理計算の手法で計算した物質のバンドギャップデータを取得します．
バンドギャップは，電子が移動する時の障壁の大きさを表したものです．
例えば，石はバンドギャップが広いので電気が通りません．
金属は，バンドギャップが狭く，電気が通ります．
半導体は，その中間で電気を通したり通さなかったりします．

In [None]:
!wget https://citrineinformatics.box.com/shared/static/0ch2f96jxbqtntia49ipk7g8vx64tuap.csv
!mv 0ch2f96jxbqtntia49ipk7g8vx64tuap.csv bandgapDFT.csv

trainFile = open("bandgapDFT.csv","r").readlines()

bandgapDFT.csvは，一行目が化学式、二行目がバンドギャップ(eV)となっています．
化学式を機械学習で扱うために，固定長ベクトルに変換する必要があります．
そのための関数としてnaiveVectorize関数を用意します．
naiveVectorize関数の引数に与えるcompositionは，pymatgenモジュールのCompositionオブジェクトです．
このオブジェクトは，化学式から原子や構成比などを取得できます．

In [None]:
#input:pymatgenのCompositionオブジェクト
#output:組成ベクトル
def naiveVectorize(composition):
       vector = zeros((MAX_Z))
       for element in composition:
               #elementは原子。fractionはその原子が組成に含まれる割合
               fraction = composition.get_atomic_fraction(element)
               vector[element.Z - 1] = fraction
       return(vector)

csvファイルからから化学式とバンドギャップを読み込み，naiveVectorize関数で化学式から説明変数のベクトルを用意します．

In [None]:
materials = []
bandgaps = []
naiveFeatures = []

MAX_Z = 100 #特徴量ベクトル最大長さ

for line in trainFile:
       split = str.split(line, ',')
       material = Composition(split[0])
       materials.append(material) #化学式
       naiveFeatures.append(naiveVectorize(material)) #特徴量ベクトル生成
       bandgaps.append(float(split[1])) #バンドギャップの読み込み

バンドギャップの平均値からの誤差を求めてみます．

In [None]:
baselineError = mean(abs(mean(bandgaps) - bandgaps))
print("Mean Absolute Error : " + str(round(baselineError, 3)) + " eV")

機械学習によりバンドギャップの予測を行います．
ここでは，ランダムフォレスト回帰を用いてバンドギャップを回帰して予測します．

In [None]:
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import ShuffleSplit
from sklearn import linear_model, metrics, ensemble

#sklearnのランダムフォレスト回帰
rfr = ensemble.RandomForestRegressor(n_estimators=10)

#交差検証します
cv = ShuffleSplit(n_splits=10, test_size=0.1, random_state=0)

scores_composition = cross_val_score(rfr, naiveFeatures,\
    bandgaps, cv=cv, scoring='neg_mean_absolute_error')

print("Mean Absolute Error by Random Forest with composition data: "\
    + str(round(abs(mean(scores_composition)), 3)) + " eV")

次に物質の特性を説明変数として利用します．
ここでは，原子の組成比，電気陰性度などの4つの値を説明変数として用います．

In [None]:
physicalFeatures = []

for material in materials:
       theseFeatures = []
       fraction = []
       atomicNo = []
       eneg = []
       group = []

       for element in material:
               fraction.append(material.get_atomic_fraction(element))
               atomicNo.append(float(element.Z))
               eneg.append(element.X)
               group.append(float(element.group))

       mustReverse = False
       if fraction[1] > fraction[0]:
               mustReverse = True

       for features in [fraction, atomicNo, eneg, group]:
               if mustReverse:
                       features.reverse()
       theseFeatures.append(fraction[0] / fraction[1])
       theseFeatures.append(eneg[0] - eneg[1])
       theseFeatures.append(group[0])
       theseFeatures.append(group[1])
       physicalFeatures.append(theseFeatures)

線形回帰モデルで学習します．

In [None]:
from sklearn.linear_model import LinearRegression

linear = LinearRegression()
scores_physical =cross_val_score(linear, physicalFeatures,\
    bandgaps, cv=cv, scoring='neg_mean_absolute_error')

print("Mean Absolute Error by Random Forest with physical data: "\
    + str(round(abs(mean(scores_physical)), 3)) + " eV")

線形回帰モデルにLASSOを追加して学習します．

In [None]:
from sklearn.linear_model import Lasso
clf = Lasso(alpha=0.1)
scores_physical =cross_val_score(clf, physicalFeatures,\
    bandgaps, cv=cv, scoring='neg_mean_absolute_error')

print("Mean Absolute Error by Random Forest with physical data: "\
    + str(round(abs(mean(scores_physical)), 3)) + " eV")


次に，ランダムフォレスト回帰で学習します．

In [None]:
scores_physical =cross_val_score(rfr, physicalFeatures,\
    bandgaps, cv=cv, scoring='neg_mean_absolute_error')

print("Mean Absolute Error by Random Forest with physical data: "\
    + str(round(abs(mean(scores_physical)), 3)) + " eV")

勾配ブースティングで学習します．

In [None]:
from sklearn.ensemble import GradientBoostingRegressor
gbr = GradientBoostingRegressor(n_estimators = 150, max_depth=3)
scores_physical =cross_val_score(gbr, physicalFeatures,\
    bandgaps, cv=cv, scoring='neg_mean_absolute_error')

print("Mean Absolute Error by Random Forest with physical data: "\
    + str(round(abs(mean(scores_physical)), 3)) + " eV")


##参考資料
https://qiita.com/KentoObata/items/7fd8c7527d586dffc329

https://qiita.com/yut-nagase/items/6c2bc025e7eaa7493f89