# データサイエンス演習

データを分析して，機械学習を用いて予測する一連の流れを行います．
ここでは，Boston Housing データセットを用いて，住宅価格を予測します．

## Boston Housing dataset

Boston Housingは，13属性（説明変数）＋1属性（目的変数）の14属性で構成されています．
各属性は以下のようになっています．

*  CRIM： 町別の「犯罪率」
*  ZN： 25,000平方フィートを超える区画に分類される住宅地の割合＝「広い家の割合」
*  INDUS： 町別の「非小売業の割合」
*  CHAS： チャールズ川に接している場合は1、そうでない場合は0
*  NOX： 「NOx濃度（0.1ppm単位）」＝一酸化窒素濃度（parts per 10 million単位）
*  RM： 1戸当たりの「平均部屋数」
*  AGE： 1940年より前に建てられた持ち家の割合＝「古い家の割合」
*  DIS： 5つあるボストン雇用センターまでの加重距離＝「主要施設への距離」
*  RAD： 「主要高速道路へのアクセス性」の指数
*  TAX： 10,000ドル当たりの「固定資産税率」
*  PTRATIO： 町別の「生徒と先生の比率」
*  B： 「1000(Bk - 0.63)」の二乗値。Bk＝「町ごとの黒人の割合」を指す
*  LSTAT： 「低所得者人口の割合」
*  MEDV：「住宅価格」（1000ドル単位）の中央値

Boston Housing datasetを読み込みます．このデータセットはScikit learnのチュートリアルでも利用されているので，データのダウンロードを行う関数load_boston()も用意されています．

**注意**<br>
~~Boston Housing datasetは黒人の割合などの差別的なデータを含んでいるため，倫理的な観点からScikit learnのversion 1.0以降から非推奨となっています．version 1.2ではこのデータが削除されることが決まっています．<br>
代わりのデータとして，California Housing datasetが用意されています．
version 1.2以降でもBoston Housing datasetを使用したい場合はWebから直接ダウンロードしてください．
version 1.0以降のScikit learnでは，この旨を伝える警告文が出力されますがエラーではないです．~~

* Boston Housing datasetの読み込み
```python
import pandas as pd
import numpy as np
data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]
```

* California Housing datasetの読み込み
```python
from sklearn.datasets import fetch_california_housing
housing = fetch_california_housing()
```

In [None]:
# ボストン住宅価格データセットを利用するためにversion 1.1.0のsklearnをインストール
! pip install -U scikit-learn==1.1.0

In [None]:
# sklearnのバージョン確認
import sklearn
print(sklearn.__version__)

In [None]:
#ボストン住宅価格データセットの読み込み
from sklearn.datasets import load_boston
boston = load_boston()
#説明変数
X_array = boston.data
#目的変数
y_array = boston.target

データを分析するために，データをpandasモジュールのデータフレームに変換します．
そして，データフレームを出力して，データの中身を確認します．
データ数は506個，14属性(説明変数+目的変数)となっています．

In [None]:
import pandas as pd
import numpy as np
from pandas import DataFrame

df = DataFrame(X_array, columns = boston.feature_names).assign(MEDV=np.array(y_array))
df

MEDV(住宅価格)と説明変数の関係性の可視化をします．
関係を可視化する説明変数を以下に示します．
* CRIM(犯罪率)とMEDV(住宅価格)
* ZN(宅地比率)とMEDV(住宅価格)
* INDUS(非小売業エーカーの割合)とMEDV(住宅価格)
* CHAS(チャーリーズ川ダミー変数)とMEDV(住宅価格)
* RM(1住戸あたりの平均部屋数)とMEDV(住宅価格)

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

fig, ax = plt.subplots(nrows=2, ncols=3, figsize=(20, 10))
df.plot.scatter(x='CRIM', y='MEDV', ax=ax[0,0], legend=False)
df.plot.scatter(x='ZN', y='MEDV', ax=ax[0,1], legend=False)
df.plot.scatter(x='INDUS', y='MEDV', ax=ax[0,2], legend=False)
df.plot.scatter(x='CHAS', y='MEDV', ax=ax[1,0], legend=False)
df.plot.scatter(x='RM', y='MEDV', ax=ax[1,1], legend=False)
ax[1,2].axis('off')

plt.show()

これらの結果からは，関係があるかどうかわからないので，それぞれ線形回帰してみます．
ここでは，Seabornというモジュールを利用します．
また，相関係数も確認します．

In [None]:
import seaborn as sns

fig, ax = plt.subplots(nrows=2, ncols=3, figsize=(20, 10))

#CRIM(犯罪率)，MEDV(住宅価格)で可視化
sns.regplot(x='CRIM',y='MEDV', data = df, ax=ax[0,0])
print(df[['CRIM','MEDV']].corr())

#ZN(宅地比率)，MEDV(住宅価格)で可視化
sns.regplot(x='ZN', y='MEDV', data = df, ax=ax[0,1])
print(df[['ZN','MEDV']].corr())

#INDUS(非小売業エーカーの割合)，MEDV(住宅価格)で可視化
sns.regplot(x='INDUS', y='MEDV', data = df, ax=ax[0,2])
print(df[['INDUS','MEDV']].corr())

#CHAS(チャーリーズ川ダミー変数)、MEDV(住宅価格)で可視化
sns.regplot(x='CHAS',y='MEDV',data = df, ax=ax[1,0])
print(df[['CHAS','MEDV']].corr())

#RM(1住戸あたりの平均部屋数)、MEDV(住宅価格)で可視化
sns.regplot(x='RM',y='MEDV',data = df, ax=ax[1,1])
print(df[['RM','MEDV']].corr())

ax[1,2].axis('off')

plt.show()

薄い青色の範囲は，回帰を行う際の信頼区間を表しています．
これらの結果から，RMは他のデータよりもMEDVとの相関関係が強いことが確認できます．

### 線形回帰による住宅価格の予測

線形回帰により，住宅価格の予測をして，各説明変数に対する係数を確認します．
ここでは，Scikit-learnのtrain_test_splitを用いて，データを訓練用として8割，テスト用として2割となるよう分割しています．
`test_size`という引数を変更することでデータの分割割合が操作できます．

In [None]:
from sklearn.model_selection import train_test_split
from sklearn import linear_model

# 訓練データとテストデータに8:2で分割
X_train, X_test, y_train, y_test = train_test_split(X_array, y_array, test_size=0.2, random_state=0)

# 線形回帰で学習
model = linear_model.LinearRegression()
model.fit(X_train, y_train)
np.set_printoptions(suppress=True, precision=3)
print(model.coef_)
print(model.intercept_)

住宅価格のように数値を予測する回帰モデルの性能評価には，
* 残差プロット：残差（目的変数の真値と予測値の差分）
* 平均二乗誤差：残差平方和をデータ数で正規化した値
* 決定係数：相関係数の二乗

を利用します．

**残差プロット**<br>
残差プロットは，目的変数の真値と予測値の差分の分布を可視化したものです．
回帰モデルを$f:~\mathbb{R}^{n}\rightarrow \mathbb{R}$，テスト用データの真値を$\hat{y}$とすると，残差プロット$s$は以下のように定義できます．
$$
s(x_{i}, \hat{y}_{i}) = f(x_{i}) - \hat{y}_{i}
$$
回帰モデルが目的変数を正しく予測できた場合の残差は0になります．


In [None]:
Y_pred = model.predict(X_test) # 検証データを用いて目的変数を予測

plt.scatter(Y_pred, Y_pred - y_test, color = 'blue')      # 残差をプロット 
plt.hlines(y = 0, xmin = -10, xmax = 50, color = 'black') # x軸に沿った直線をプロット
plt.title('Residual Plot')                                # 図のタイトル
plt.xlabel('Predicted Values')                            # x軸のラベル
plt.ylabel('Residuals')                                   # y軸のラベル
plt.grid()                                                # グリッド線を表示

plt.show()                                               # 図の表示

**平均二乗誤差**<br>
平均二乗誤差は，残差の平方和をデータ数で正規化したものです．
平均二乗誤差は各データに対する値ではなく，テストデータ全体を用いて1つのスコアを出力するため，回帰モデルの性能を数値化することができます．
平均二乗誤差が小さいほど優れた回帰モデルであることを示しています．

回帰モデルを先ほどと同様に$f:~\mathbb{R}^{n}\rightarrow \mathbb{R}$，$N$をテストデータの総数とすると，平均二乗誤差$s$は以下のように定義できます．
$$
s = \frac{1}{N}\sum_{i=1}^{N}\left(f(x_{i}) - \hat{y}_{i}\right)^{2}
$$

In [None]:
Y_train_pred = model.predict(X_train) # 学習データに対する目的変数を予測
Y_pred = model.predict(X_test) # 学習データに対する目的変数を予測
print('MSE train data: ', np.mean((y_train - Y_train_pred)**2)) # 学習データを用いたときの平均二乗誤差を出力
print('MSE test data: ', np.mean((y_test - Y_pred)**2))         # 検証データを用いたときの平均二乗誤差を出力

**決定係数**<br>
決定係数も回帰モデルの予測誤差を反映した指標です．
このスコアは0から1の範囲で表されるスコアで，1に近いほど回帰モデルがデータにフィットしていると捉えることができます．
回帰モデルを$f:~\mathbb{R}^{n}\rightarrow \mathbb{R}$，$N$をテストデータの総数，$\mu_{y}$は真値の平均値，つまり$\mu_{y} = \frac{1}{N}\sum_{i=1}^{N}y_{i}$とすると，決定係数$s$は以下のように定義できます．
$$
s = 1 - \frac{\sum_{i=1}^{N}\left(y_{i} - f(x_{i})\right)^{2}}{\sum_{i=1}^{N}\left(y_{i} - \mu_{y}\right)^{2}}
$$

決定係数は、metricsの`r2_score`を利用することで算出できます．

また、以下に示すように，LinearRegressionモデルのscoreメソッドでも算出できます．
```python
print('r^2 train data: ', model.score(X_train, y_train))
print('r^2 test data: ', model.score(X_test, y_test))
```

In [None]:
from sklearn.metrics import r2_score

print('r^2 train data: ', r2_score(y_train, Y_train_pred))
print('r^2 test data: ', r2_score(y_test, Y_pred))

学習データと検証データに対する決定係数を比較すると，検証データを用いたときの決定係数の方が小さいです．
これは，学習した回帰モデルが過学習している可能性があると言えます．

### ランダムフォレスト回帰による住宅価格の予測

次に，ランダムフォレスト回帰を用いて，回帰モデル学習・評価します．
ランダムフォレスト回帰にはensembleのRandomForestRegressorを用います．
決定木の数は10とします．
学習データ，検証データに対する平均二乗誤差と決定係数を確認します．

In [None]:
from sklearn.model_selection import train_test_split
from sklearn import ensemble
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

# 訓練データとテストデータに8:2で分割
X_train, X_test, y_train, y_test = train_test_split(X_array, y_array, test_size=0.2, random_state=0)


#sklearnのランダムフォレスト回帰
rfr = ensemble.RandomForestRegressor(n_estimators=10)
rfr.fit(X_train, y_train)

Y_train_pred = rfr.predict(X_train) # 学習データに対する目的変数を予測
Y_pred = rfr.predict(X_test) # 学習データに対する目的変数を予測
print('MSE train data: ', np.mean((y_train - Y_train_pred)**2)) # 学習データを用いたときの平均二乗誤差を出力
print('MSE test data: ', np.mean((y_test - Y_pred)**2))         # 検証データを用いたときの平均二乗誤差を出力


print('r^2 train data: ', r2_score(y_train, Y_train_pred))
print('r^2 test data: ', r2_score(y_test, Y_pred))

### 勾配ブースティングによる住宅価格の予測

勾配ブースティングを用いて，同様に回帰モデルを学習・評価します．
勾配ブースティングで学習する弱識別器の数は150とします．

In [None]:
from sklearn.model_selection import train_test_split
from sklearn import ensemble
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

# 訓練データとテストデータに8:2で分割
X_train, X_test, y_train, y_test = train_test_split(X_array, y_array, test_size=0.2, random_state=0)

#sklearnの勾配ブースティング
gbr = ensemble.GradientBoostingRegressor(n_estimators = 150, max_depth=3)
gbr.fit(X_train, y_train)

Y_train_pred = gbr.predict(X_train) # 学習データに対する目的変数を予測
Y_pred = gbr.predict(X_test) # 学習データに対する目的変数を予測
print('MSE train data: ', np.mean((y_train - Y_train_pred)**2)) # 学習データを用いたときの平均二乗誤差を出力
print('MSE test data: ', np.mean((y_test - Y_pred)**2))         # 検証データを用いたときの平均二乗誤差を出力


print('r^2 train data: ', r2_score(y_train, Y_train_pred))
print('r^2 test data: ', r2_score(y_test, Y_pred))

### 交差検証法

学習データと検証データを分けて回帰モデルを学習・評価しました．
学習データと検証データを入れ替えて，各回帰モデルの交差検証誤差を比較します．
ここではデータを5分割して平均二乗誤差を比較します．

In [None]:
from numpy import mean
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import ShuffleSplit
from sklearn import linear_model, ensemble

#交差検証
cv = ShuffleSplit(n_splits=5, test_size=0.2, random_state=0)

# 線形回帰で学習
model = linear_model.LinearRegression()
linear_preds = cross_val_score(model, X_array, y_array, cv=cv, scoring='neg_mean_squared_error')
print("Linear Regression  : ", round(mean(abs(linear_preds)), 3) )


#ランダムフォレスト回帰
rfr = ensemble.RandomForestRegressor(n_estimators=10)
rfr_preds = cross_val_score(rfr, X_array, y_array, cv=cv, scoring= 'neg_mean_squared_error')
print("Random Forest      : ", round(mean(abs(rfr_preds)), 3) )

#勾配ブースティング
gbr = ensemble.GradientBoostingRegressor(n_estimators = 150, max_depth=3)
gbr_preds = cross_val_score(gbr, X_array, y_array, cv=cv, scoring= 'neg_mean_squared_error')
print("Gradient Boosting  : ", round(mean(abs(gbr_preds)), 3) )

## 演習


1.   各回帰モデルのハイパーパラメータを変えて平均二乗誤差と決定係数を比較しましょう



# マテリアルズインフォマティクス

データサイエンス演習で行ったことを踏まえて，材料データベースを対象として回帰モデルの学習・評価を行います．


まず，Materials Projectのデータ取得や、物性計算に便利なモジュールをインストールします．<br>
pymatgenのみをインストールするとscipyがうまく動かないことがあるので，その対策として`pip install pywin32-ctypes`を先に実行しておきます．

In [None]:
!pip install pywin32-ctypes
!pip install -q pymatgen

ここでは，説明変数として，


*   化学式
*   物質特性

の２つを比較します．



まず，必要なモジュールをインポートします．

In [None]:
import numpy as np
import pandas as pd
from pymatgen.core.composition import Composition

## Density Functional Theory
Density Functional Theoryという第一原理計算の手法で計算した物質のバンドギャップデータを取得します．
バンドギャップは，電子が移動する時の障壁の大きさを表したものです．
例えば，石はバンドギャップが広いので電気が通りません．
金属は，バンドギャップが狭く，電気が通ります．
半導体は，その中間で電気を通したり通さなかったりします．

bandgapDFT.csvをPandasで読み込むことでデータフレームへ変換して，データの中身を確認します．
データフレームを表示すると，一行目が化学式、二行目がバンドギャップ(eV)が4096サンプル含まれていることが確認できます．
eVはエネルギーの単位の１つで，電子ボルト(electron volt)を表しています．

In [None]:
!wget -nv https://citrineinformatics.box.com/shared/static/0ch2f96jxbqtntia49ipk7g8vx64tuap.csv
!mv 0ch2f96jxbqtntia49ipk7g8vx64tuap.csv bandgapDFT.csv

bandgap_df = pd.read_csv('bandgapDFT.csv', names=('Chemical formula', 'BandGap'))
bandgap_df.T

## 化学式の構成比を用いたバンドギャップの予測
化学式を機械学習で扱うために，固定長ベクトルに変換する必要があります．
そのための関数としてnaiveVectorize関数を用意します．
naiveVectorize関数の引数に与えるcompositionは，pymatgenモジュールのCompositionオブジェクトです．
このオブジェクトは，化学式から原子や構成比などを取得できます．

In [None]:
#input:pymatgenのCompositionオブジェクト
#output:組成ベクトル
def naiveVectorize(composition):
    vector = np.zeros((MAX_Z))
    for element in composition:
        #elementは原子。fractionはその原子が組成に含まれる割合
            fraction = composition.get_atomic_fraction(element)
            vector[element.Z - 1] = fraction
    return(vector)

データフレームから化学式とバンドギャップを取得します．

バンドギャップはデータフレームから取得したものをそのまま利用します．
一方，化学式はそのまま利用することができないため，事前に作成したnaiveVectorize関数で説明変数のベクトルに変換します．
* materials: 化学式が格納される空のリスト
* naiveFeatures: 化学式の特徴ベクトルが格納される空のリスト
* bandgaps: 各化学式に対するバンドギャップデータ
* formulas: データフレームから取得した化学式

MAX_Zはデータ内の原子中の最大原子番号-1よりも大きい値を指定する必要があります．
これは，各原子の組成比を原子番号-1の要素に割り当てたベクトルを特徴量として利用するためです．

In [None]:
materials = []
naiveFeatures = []
bandgaps = bandgap_df['BandGap'].values
formulas = bandgap_df['Chemical formula'].values

MAX_Z = 100 #特徴量ベクトル最大長さ

for formula in formulas:
    material = Composition(formula)
    materials.append(material) #化学式
    naiveFeatures.append(naiveVectorize(material)) #特徴量ベクトル生成

バンドギャップの平均値からの誤差を求めてみます．
ここでは，平均絶対誤差(Mean Absolute Error)を用いて誤差を計算します．

In [None]:
baselineError = np.mean(abs(np.mean(bandgaps) - bandgaps))
print("Mean Absolute Error : " + str(round(baselineError, 3)) + " eV")

### 線形回帰による予測
線形回帰モデルで学習します．
説明変数は先ほど作成した，化学式の構成比が含まれる特徴ベクトル`naiveFeatures`とします．
また，目的変数は各化学式のバンドギャップです．
データは訓練用とテスト用で9:1として，それぞれを10分割して交差検証を行い，計算した平均絶対誤差を表示します．

In [None]:
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import ShuffleSplit
from sklearn.linear_model import LinearRegression

cv = ShuffleSplit(n_splits=10, test_size=0.1, random_state=0)

linear = LinearRegression()
scores_physical =cross_val_score(linear, naiveFeatures,\
    bandgaps, cv=cv, scoring='neg_mean_absolute_error')

print("Mean Absolute Error by Linear Regression with composition data: "\
    + str(round(abs(np.mean(scores_physical)), 3)) + " eV")

### LASSO正則化を用いた線形回帰による予測
線形回帰モデルにLASSOを追加して学習します．
ここでは，LASSO正則化の係数を0.1としています．
この予測も交差検証を行います．
訓練データとテストデータの割合やデータの分割数は先ほどと同様です．

In [None]:
from sklearn.linear_model import Lasso

clf = Lasso(alpha=0.1)
scores_physical =cross_val_score(clf, naiveFeatures,\
    bandgaps, cv=cv, scoring='neg_mean_absolute_error')

print("Mean Absolute Error by Linear Regression+LASSO with composition data: "\
    + str(round(abs(np.mean(scores_physical)), 3)) + " eV")

### ランダムフォレスト回帰による予測
次に，ランダムフォレスト回帰で学習します．
決定木の数は10としています．
この予測も交差検証を行います．
訓練データとテストデータの割合やデータの分割数は先ほどと同様です．

In [None]:
from sklearn import ensemble

rfr = ensemble.RandomForestRegressor(n_estimators=10)
scores_composition = cross_val_score(rfr, naiveFeatures,\
    bandgaps, cv=cv, scoring='neg_mean_absolute_error')

print("Mean Absolute Error by Random Forest with composition data: "\
    + str(round(abs(np.mean(scores_composition)), 3)) + " eV")

### 勾配ブースティングによる予測
勾配ブースティングで学習します．
ここでは，弱識別器の数を150としています．
この予測も交差検証を行います．
訓練データとテストデータの割合やデータの分割数は先ほどと同様です．

In [None]:
from sklearn.ensemble import GradientBoostingRegressor

gbr = GradientBoostingRegressor(n_estimators = 150, max_depth=3)
scores_physical =cross_val_score(gbr, naiveFeatures,\
    bandgaps, cv=cv, scoring='neg_mean_absolute_error')

print("Mean Absolute Error by Gradient Boosting with composition data: "\
    + str(round(abs(np.mean(scores_physical)), 3)) + " eV")

## 物質の特性を用いたバンドギャップの予測
次に物質の特性を説明変数として利用します．

説明変数として使用する特性は，
* 原子の組成比
* 原子番号
* 電気陰性度 (electronegativity)
* 族

の4種類の値を使用します．

In [None]:
physicalFeatures = []

for material in materials:
    theseFeatures = []
    fraction = []
    atomicNo = []
    eneg = []
    group = []

    for element in material:
        fraction.append(material.get_atomic_fraction(element))
        atomicNo.append(float(element.Z))
        eneg.append(element.X)
        group.append(float(element.group))

    mustReverse = False
    if fraction[1] > fraction[0]:
        mustReverse = True

    for features in [fraction, atomicNo, eneg, group]:
        if mustReverse:
            features.reverse()
    theseFeatures.append(fraction[0] / fraction[1])
    theseFeatures.append(eneg[0] - eneg[1])
    theseFeatures.append(group[0])
    theseFeatures.append(group[1])
    physicalFeatures.append(theseFeatures)

### 線形回帰モデルによる予測
線形回帰モデルで学習します．
この予測も交差検証を行います．
訓練データとテストデータの割合やデータの分割数は先ほどと同様です．

In [None]:
linear = LinearRegression()
scores_physical =cross_val_score(linear, physicalFeatures,\
    bandgaps, cv=cv, scoring='neg_mean_absolute_error')

print("Mean Absolute Error by Linear Regression with physical data: "\
    + str(round(abs(np.mean(scores_physical)), 3)) + " eV")

### LASSO正則化を用いた線形回帰モデルによる予測
線形回帰モデルにLASSOを追加して学習します．
ここでは，LASSO正則化の係数を0.1としています．
この予測も交差検証を行います．
訓練データとテストデータの割合やデータの分割数は先ほどと同様です．

In [None]:
clf = Lasso(alpha=0.1)
scores_physical =cross_val_score(clf, physicalFeatures,\
    bandgaps, cv=cv, scoring='neg_mean_absolute_error')

print("Mean Absolute Error by Linear Regression+LASSO with physical data: "\
    + str(round(abs(np.mean(scores_physical)), 3)) + " eV")

### ランダムフォレスト回帰による予測
次に，ランダムフォレスト回帰で学習します．
決定木の数は10としています．
この予測も交差検証を行います．
訓練データとテストデータの割合やデータの分割数は先ほどと同様です．

In [None]:
rfr = ensemble.RandomForestRegressor(n_estimators=10)
scores_physical =cross_val_score(rfr, physicalFeatures,\
    bandgaps, cv=cv, scoring='neg_mean_absolute_error')

print("Mean Absolute Error by Random Forest with physical data: "\
    + str(round(abs(np.mean(scores_physical)), 3)) + " eV")

### 勾配ブースティングによる予測
勾配ブースティングで学習します．
ここでは，弱識別器の数を150としています．
この予測も交差検証を行います．
訓練データとテストデータの割合やデータの分割数は先ほどと同様です．

In [None]:
gbr = GradientBoostingRegressor(n_estimators = 150, max_depth=3)
scores_physical =cross_val_score(gbr, physicalFeatures,\
    bandgaps, cv=cv, scoring='neg_mean_absolute_error')

print("Mean Absolute Error by Gradient Boosting with physical data: "\
    + str(round(abs(np.mean(scores_physical)), 3)) + " eV")

# 参考資料
https://qiita.com/KentoObata/items/7fd8c7527d586dffc329

https://qiita.com/yut-nagase/items/6c2bc025e7eaa7493f89