# scikit-learn を用いた機械学習の例題と練習問題 

何よりも[公式ページ](https://scikit-learn.org/)を見るのが一番

scikit-learnがインストールされていない場合、自分でインストールする必要があります
- 例えば、以下のコードでImportError: No module named sklearnが出た場合


### 線形回帰

広告のデータ http://logopt.com/data/Advertising.csv を用いる．

テレビ(TV)，ラジオ(Radio)，新聞(Newspaper)への広告から売り上げ(Sales)を予測する．


In [None]:
import pandas as pd #まずはpandasモジュールを準備する．

In [None]:
#csvファイルからデータ読み込み
data = pd.read_csv('http://logopt.com/data/Advertising.csv', index_col =0) #0行目をインデックスにする．
data.head()

独立変数（特徴ベクトル）$X$ は TV, Ratio, Newspaperの列，従属変数 $y$ は Salesの列


In [None]:
X = data[['TV', 'Radio', 'Newspaper']]
y = data['Sales']
X.head()

## scikit-learnの基本手順

### 手順１：クラスをインポートして，インスタンスを生成する．

### 手順２：fitメソッドを用いて，データから学習する．

### 手順３：predictメソッドを用いて予測を行う．


In [None]:
from sklearn.linear_model import LinearRegression #線形回帰クラス LinearRegression のインポート
reg = LinearRegression() # 線形回帰クラスのインスタンス reg 生成
reg.fit(X, y)           # fitによる学習
yhat = reg.predict(X)   # predictによる予測

In [None]:
print("y-切片= ",reg.intercept_)
print("係数 = ",reg.coef_)

In [None]:
SSE = ((yhat-y)**2).sum()      # Sum of Square Error
SST = ((y.mean()-y)**2).sum()  # Total Sum of Square
print("R2 =", 1-SSE/SST)       # 決定係数 R^2

In [None]:
print(reg.score(X,y)) #決定係数の別計算

## 問題

http://logopt.com/data/SATGPA.csv データを用いて，2種類のSATの成績からGPAを予測せよ．

### 問題

http://logopt.com/data/Boston.csv のBostonの住宅データを用いて回帰分析を行え．

medvが住宅の価格で，他のデータ（犯罪率や人口など）から予測する．


### 問題

http://logopt.com/data/Auto.csv の車の燃費のデータを用いて回帰分析を行え．

データの詳細については，

https://vincentarelbundock.github.io/Rdatasets/doc/ISLR/Auto.html

を参照せよ．

最初の列が燃費（mpg: Mile Per Gallon)であり，これを他の列の情報を用いて予測する．最後の列は車名なので無視して良い．

### 例題２

http://logopt.com/data/Diamond.csv からダイアモンドの価格データを読み込み，線形回帰による予測を行う．

列は ["carat","colour","clarity","certification","price"] であり，他の情報から価格(price)の予測を行え．

カラット(carat)以外の列は情報が文字列として保管されている．

これはカテゴリー変数とよばれ，sciki-learnで扱うには，数値に変換してあげる必要がある．

pandasの**get_dummies関数**で数値情報（ダミー変数）に変換してから，線形回帰を行う．

たとえば，色を表すcolour列はD,E,F,G,H,Iの文字列が入っている．これを各値が入っているとき1，それ以外のとき0の数値に変換したものが**ダミー変数**になる．

色はいずれかの値をとるので，ダミー変数は独立でない（1つが1になると，他のすべては0になる）．

最初のダミー変数を除くには，get_dummies関数の引数の**drop_first**をTrueに設定すれば良い．

In [None]:
diamond = pd.read_csv('http://logopt.com/data/Diamond.csv', index_col=0)
diamond.head()

In [None]:
diamond = pd.get_dummies(diamond, drop_first=True) #ダミー変数の最初のものを除く
#diamond = pd.get_dummies(diamond) # 除かなくても結果は同じ
diamond.head()

In [None]:
y = diamond.price                # 従属変数(price)の抽出
X = diamond.drop('price',axis=1) # 独立変数（特徴ベクトル）をpriceの列を除くことによって生成
X.head()

In [None]:
from sklearn.linear_model import LinearRegression #線形回帰クラスのインポート
reg = LinearRegression() # 線形回帰クラスのインスタンス生成
reg.fit(X, y)           # 学習
yhat = reg.predict(X)   # 予測

In [None]:
print("y-切片= ",reg.intercept_)
print("係数 = ",reg.coef_)
print("決定変数= ",reg.score(X,y)) #決定係数の別計算

### 問題

http://logopt.com/data/carprice.csv から車の価格データを読み込み，線形回帰による予測を行え．

データの詳細は
https://vincentarelbundock.github.io/Rdatasets/doc/DAAG/carprice.html
にある．

車種(Type)，100マイル走る際のガロン数（gpm100），都市部での1ガロンあたりの走行距離（MPG.city），高速道路での１ガロン当たりの走行距離（MPG.highway）から，価格(Price)を予測せよ．

### 問題

seabornの例題であるtipsデータに対して線形回帰を用いてもらえるチップの額を予測せよ．

In [None]:
import seaborn as sns
tips = sns.load_dataset('tips')
tips.head()

### B.3  ロジスティック回帰

iris（アヤメ）のデータを用いてロジスティック回帰（分類）を行う．


In [None]:
import pandas as pd

In [None]:
iris = pd.read_csv("http://logopt.com/data/iris.data",
                   names=['sepal length','sepal width','petal length','petal width', 'class'])

In [None]:
#  独立変数（特徴ベクトル） X 
X = iris[ ['sepal length','sepal width','petal length','petal width'] ]

In [None]:
#従属変数 y 
y = iris['class']
y.head() 

In [None]:
#特徴ベクトルの抽出
X= iris[ ['sepal length','sepal width','petal length','petal width'] ]
X .head() 

## 手順１：分類するためのクラスをインポートして，インスタンスを生成する．

> ### 以下の例では，ロジスティック回帰を用いた分類を行う．

## 手順２：fitメソッドを用いて，データから学習する．

## 手順３：predictメソッドを用いて予測を行う．


In [None]:
from sklearn.linear_model import LogisticRegression #ロジスティック回帰クラスの読み込み

In [None]:
logreg =  LogisticRegression() # インスタンスの生成
logreg.fit(X, y) # 学習

In [None]:
logreg.predict([[3, 5, 4, 2]]) # 試しに予測

### 予測と実際の誤差を検証（元データXを入れたときの予測y_predと本当の値yの比較）

### metricsにある正確度を計算する関数 accuracy_score を利用

In [None]:
y_pred = logreg.predict(X)

In [None]:
from sklearn import metrics
print(metrics.accuracy_score(y, y_pred))

### 問題

titanicデータに対してロジスティック回帰を行い，死亡確率の推定を行え．

ヒント：このデータは欠損値を含んでいる．pandasのところで学んだ欠損値処理を参照せよ．

また，このデータはターゲットとなる**survived**と同じ意味をもつ列を含んでいる．それを入れると正確度は当然100%になる．
その行を見つけて除くにはどうしたら良いか考えよ．

In [None]:
import seaborn as sns
titanic = sns.load_dataset('titanic')
titanic.head()



### 問題
 "http://logopt.com/data/cancer.csv" にある胸部癌か否かを判定するデータセットを用いて分類を行え．

最初の列**diagnosis**が癌か否かを表すものであり，'M'が悪性（malignant），'B'が良性（benign）

In [None]:
cancer = pd.read_csv("http://logopt.com/data/cancer.csv", index_col=0)
#従属変数 y 
y = cancer['diagnosis']
#特徴ベクトルの抽出
X= cancer.iloc[ : , 1: ]
X .head() 

## 問題

$K$ 近傍法とは，(Xの空間で）データに近い $K$ 個のデータの値(y)の多数決で分類を行う最も簡単な分類手法である．

以下のようにしてクラスをインポートできる．
```python
from sklearn.neighbors import KNeighborsClassifier
```

クラス **KNeighborsClassifier** は引数 **n_neighbors** でパラメータ $K$ を設定できる．

irisデータに対して，$K$ 近傍法で元データを予測したしたときの正確度を計算せよ．パラメータ $K$（近傍の数）が5のときはどうか？また，パラメータ $K$ が 1のときはどうか？

### B.4  正規化とB.7 仮説の評価

### 多項式回帰

宣伝の効果のデータを用いて多項式回帰を行う．

pandasで2次の項（たとえばテレビとラジオの相乗効果の列 TV*Radio）を生成してから，線形回帰を行う．

In [None]:
data = pd.read_csv('http://logopt.com/data/Advertising.csv', index_col =0)
data['TV*Radio'] = data.TV * data.Radio
data['TV*Newspaper'] = data.TV * data.Newspaper
data['Radio*Newspaper'] = data.Radio * data.Newspaper
data.head()

In [None]:
X = data[['TV', 'Radio', 'Newspaper','TV*Radio','TV*Newspaper','Radio*Newspaper']]
y = data['Sales']

In [None]:
from sklearn.linear_model import LinearRegression #クラスのインポート
lin_reg = LinearRegression()     # 線形回帰クラスのインスタンス生成
lin_reg.fit(X, y)    # 学習
yhat = lin_reg.predict(X)   # 予測
print(lin_reg.score(X,y)) #決定係数　（線形回帰だと R^2は 0.897210638179

In [None]:
print("y-切片= ",lin_reg.intercept_)
print("係数 = ",lin_reg.coef_)

### 過剰適合（過学習）

元データを入れてテストをすることは良くない．

### irisデータに対してK(=1)近傍法を適用したときのように，過剰適合をしてしまう！

### 学習データをテストデータを分ける！ train_test_split関数を使うと簡単．

**（最近のバージョンではmodel_selection内にあるが，古いバージョンの場合には,cross_validationの中にあるので注意）**

例としてBostonの住宅データの予測を線形回帰とリッジ回帰（正規化を入れた回帰）行う．

medvが住宅の価格で，他のデータ（犯罪率や人口など）から予測する．

In [None]:
boston = pd.read_csv('http://logopt.com/data/Boston.csv',index_col=0)
boston.head()

In [None]:
X = boston.iloc[:,range(13)] # 最後の列以外のデータを独立変数（特徴ベクトル）として抽出
y = boston.medv #最後の列(medv)を従属変数として抽出

In [None]:
from sklearn.model_selection import train_test_split #古いバージョンの場合には,cross_validationの中にある．
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)#30%のデータをテスト用，それ以外を学習用に分離

In [None]:
from sklearn.linear_model import LinearRegression #クラスのインポート
lin_reg = LinearRegression()     # 線形回帰クラスのインスタンス生成
lin_reg.fit(X_train, y_train)    # 学習
yhat = lin_reg.predict(X_test)   # 予測
print(lin_reg.score(X_test,y_test)) #決定係数

### リッジ回帰

正規化項を追加した線形回帰は，**リッジ回帰**とよばれる．

パラメータ $\lambda$ はリッジ回帰クラス Ridge では引数 alpha で与える．


In [None]:
from sklearn.linear_model import Ridge #クラスのインポート
ridge_reg = Ridge(alpha=100.0)     # リッジ回帰クラスのインスタンス生成
ridge_reg.fit(X_train, y_train)    # 学習
yhat = ridge_reg.predict(X_test)   # 予測
print(ridge_reg.score(X_test,y_test)) #決定係数

### 問題

1. irisデータを学習用とテスト用に分けてから，ロジスティック回帰による分類を行い，正確度を計算せよ．
2. titanicデータ学習用とテスト用に分けてから，ロジスティック回帰による分類を行い，正確度を計算せよ．
3. 例題2で用いた ダイアモンドの価格データhttp://logopt.com/data/Diamond.csv に対して線形回帰とリッジ回帰による予測を行え．また，学習用とテスト用に分けて決定変数を計算し，評価せよ．


### B.5 カーネルとSVM (Support Vector Machine) 

カーネルはクラス **SVC** (Support Vector Classifier) の引数 **kernel**で与える．

Gaussカーネル（引数は'rbf'）を用いると非線形な境界をもつ問題に対しても，精度良く分類が可能になる．

irisデータで試してみよう．

In [None]:
import pandas as pd
iris = pd.read_csv("http://logopt.com/data/iris.data",
                   names=['sepal length','sepal width','petal length','petal width', 'class'])
X = iris[ ['sepal length','sepal width','petal length','petal width'] ]
y = iris['class']
from sklearn.model_selection import train_test_split  #古いバージョンの場合には,cross_validationの中にある．
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

In [None]:
from sklearn.svm import SVC      #クラスのインポート
svc = SVC(kernel='rbf', gamma="scale")        # インスタンス生成
#svc = SVC(kernel='linear') 
svc.fit(X_train, y_train)    # 学習
yhat = svc.predict(X_test)   # 予測
from sklearn import metrics
print(metrics.accuracy_score(y_test, yhat)) # 精度

### B.7 仮説の評価

###  １つのテストデータだけではばらつきが大きすぎて信用できない！

### 交差検証を行えば良い！cross_val_scoreを用いる．

上で用いたサポートベクトル分類 svcのインスタンスで試してみる．

引数の*cv*は交差検証(cross validiation)の分割数．

引数の**scoring='accuracy'**は分類の正確度を表す指標を指定している．

（回帰分析のときには，引数を決定変数'r2'などに設定する．）


In [None]:
from sklearn.model_selection import cross_val_score #古いバージョンの場合には,cross_validationの中にある．
scores = cross_val_score(svc, X, y, cv=10, scoring='accuracy')
print(scores)
print(scores.mean())

### B.8 ニューラルネット，B.9 単純Bayes，B.10 決定木，B.11 アンサンブル法（ランダムフォレスト）

他の手法も，scikit-learnでは同じ手順で分析を行うことができる．

上の続きとしてirisデータで色々試してみよう．

In [None]:
from sklearn.neural_network import MLPClassifier
neural = MLPClassifier(solver='lbfgs', alpha=1e-5, hidden_layer_sizes=(10, 3), random_state=1)
neural.fit(X_train, y_train)    # 学習
yhat = neural.predict(X_test)   # 予測
from sklearn import metrics
print(metrics.accuracy_score(y_test, yhat)) # 精度　
scores = cross_val_score(neural, X, y, cv=10, scoring='accuracy')
print(scores)
print(scores.mean())

In [None]:
from sklearn.naive_bayes import GaussianNB #単純Bayes
bayes = GaussianNB()
bayes.fit(X_train, y_train)    # 学習
yhat = bayes.predict(X_test)   # 予測
from sklearn import metrics
print(metrics.accuracy_score(y_test, yhat)) # 精度　
scores = cross_val_score(bayes, X, y, cv=10, scoring='accuracy')
print(scores)
print(scores.mean())

In [None]:
from sklearn import tree
tree_class = tree.DecisionTreeClassifier() #決定木
tree_class.fit(X_train, y_train)    # 学習
yhat = tree_class.predict(X_test)   # 予測
from sklearn import metrics
print(metrics.accuracy_score(y_test, yhat)) # 精度　
scores = cross_val_score(tree_class, X, y, cv=10, scoring='accuracy')
print(scores)
print(scores.mean())

In [None]:
from sklearn.ensemble import RandomForestClassifier #ランダムフォレスト
forest = RandomForestClassifier(n_estimators=100)
forest.fit(X_train, y_train)    # 学習
yhat = forest.predict(X_test)   # 予測
from sklearn import metrics
print(metrics.accuracy_score(y_test, yhat)) # 精度　
scores = cross_val_score(forest , X, y, cv=10, scoring='accuracy')
print(scores)
print(scores.mean())


### 問題

titanicデータ学習用とテスト用に分けてから，ニューラルネット（旧バージョンでは実装されていないので，跳ばして良い．），単純Bayes，決定木，ランダム森による分類を行い，交差検証を行え．

### B.12 クラスタリング

UCI機械学習レポジトリのワインに関するデータセットを用いてクラスタリングを解説する．

使用するのは**KMeans**クラスで実装されている $k$-平均法である．

元データはこちらに格納されている．

http://logopt.com/data/wine.data

列名は https://archive.ics.uci.edu/ml/datasets/Wine で解説されているが，必要ならば以下のリストを用いて，列名を設定して読み込め．

L = [ 'Alcohol', 'Malic','Ash', 'Alcalinity', 'Magnesium', 'Phenols', 'Flavanoids', 'Nonflavanoid', 'Proanthocyanins', 'Color', 'Hue', 'OD280', 'OD315', 'Proline']

In [None]:
import pandas as pd
L = [ 'Alcohol', 'Malic','Ash', 'Alcalinity', 'Magnesium', 'Phenols', 'Flavanoids', 'Nonflavanoid',
     'Proanthocyanins', 'Color', 'Hue', 'OD280', 'OD315', 'Proline']
wine = pd.read_csv('http://logopt.com/data/wine.data',names=L)
wine.head()

In [None]:
from sklearn.cluster import KMeans  # クラスをインポート
kmeans = KMeans(n_clusters=8)       # インスタンス生成
kmeans.fit(wine)                    # 学習

In [None]:
wine['label'] = kmeans.labels_
wine.head()

### 問題

irisのデータセットの各データを $k$-平均法を用いて3つのクラスターに分けよ．

### B.13 主成分分析

irisデータセットを用いて主成分分析と可視化の方法を説明する．


In [None]:
import pandas as pd
iris = pd.read_csv("http://logopt.com/data/iris.data",
                   names=['sepal length','sepal width','petal length','petal width', 'class'])
X = iris[ ['sepal length','sepal width','petal length','petal width'] ]

In [None]:
from sklearn.decomposition import PCA
pca = PCA(n_components=2) # 2次元に射影
pca.fit(X)
pca.components_ #射影行列

In [None]:
Z = pca.transform(X) # 射影したデータ
# 射影した2次元データを元のデータフレームに追加
iris['X']=Z[:,0]
iris['Y']=Z[:,1]

In [None]:
#seabornの lmplot で描画（hueは色調指定，fit_reg=Falseは線を描画しない）
import seaborn as sns
%matplotlib inline
sns.lmplot(x='X',y='Y',hue='class',fit_reg=False,data=iris);

### 問題

http://logopt.com/data/drinks.csv にある国別のアルコール摂取量データを用いて主成分分析を行え．

4次元の数値データを2次元に射影し，2次元座標で表示せよ．その際，色調としては，大陸(continent)列を用いよ．

### 問題

クラスタリングの例で用いたワインのデータを2次元に射影して，クラスタリングされたラベルを色調として描画せよ．