# Supervised learning

1. Linear Regression  
    回帰
    単回帰:独立な説明変数が1つ  
    重回帰:独立な説明変数が2つ以上  
    多項式回帰:独立な説明変数は1つだが、べき乗で表される  
    - 方法
    - 得意領域
    - 注意点  
    Anscom's quartet⇒可視化大事  
    線型回帰は同じとなるが4つの異なるデータパターンがある
        1. 普通
        2. 曲線
        3. 外れ値
        4. 線形でないデータの外れ

In [None]:
from sklearn.linear_model import LinearRegression

X = [[10.0], [8.0], [13.0], [9.0], [11.0], [14.0], [6.0], [4.0], [12.0], [7.0], [5.0]]
y = [8.04, 6.95, 7.58, 8.81, 8.33, 9.96, 7.24, 4.26, 10.84, 4.82, 5.68]
model = LinearRegression()
model.fit(X, y) 
print(model.intercept_) # 切片 
print(model.coef_) # 傾き
y_pred = model.predict([[0], [1]]) 
print(y_pred) # x=0, x=1に対する予測結果

2. Regularization  
    回帰、過学習防止のため誤差関数に罰則項を設ける
    - 方法  
        誤差関数=損失関数+罰則項(正則化項)
        - Rigde:罰則項=α×学習パラメータの二乗和
        $$
        α(w_1^2+w_2^2)
        $$
        - Lasso:罰則項=α×学習パラメータの絶対値の和
        $$
        α(|w_1|+|w_2|)
        $$
    - 得意領域
    - 注意点


3. Logistic Regression  
    分類、連続値から二値分類する、シグモイド関数
    - 方法
    - 得意領域
    - 注意点

In [None]:
import numpy as np
from sklearn.linear_model import LogisticRegression

X_train = np.r_[np.random.normal(3, 1, size=50), np.random.normal(-1, 1, size=50)].reshape((100, -1))
y_train = np.r_[np.ones(50), np.zeros(50)]

model = LogisticRegression()
model.fit(X_train, y_train)
model.predict_proba([[0], [1], [2]])[:, 1]

4. SVM(Linear Support Vector Machine)  
    分類/回帰
    - 方法  
        マージンの最大化  
        マージン:決定領域と各クラスの最も近いデータ値の距離の差
        - ハードマージン:マージン内にデータを許容しない
        - ソフトマージン:マージン内にデータを許容する
    - 得意領域
    - 注意点

In [None]:
from sklearn.svm import LinearSVC
from sklearn.datasets import make_blobs
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# データ生成
centers = [(-1, -0.125), (0.5, 0.5)]
X, y = make_blobs(n_samples=50, n_features=2, centers=centers, cluster_std=0.3)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

model = LinearSVC() 
model.fit(X_train, y_train) # 学習
y_pred = model.predict(X_test) 
accuracy_score(y_pred, y_test) # 評価

5. Support Vector Machine(kernel method)  
    分類、kernel法版SVM  
    - 方法  
        決定領域を決められないデータを高次元化して分類する。  
        カーネル関数には、線形カーネル、シグモイドカーネル、多項カーネル、RBFカーネルなどがある。
    - 得意領域
    - 注意点

In [None]:
from sklearn.svm import SVC
from sklearn.datasets import make_gaussian_quantiles
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# データ生成
X, y = make_gaussian_quantiles(n_features=2, n_classes=2, n_samples=300)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

model = SVC()#デフォルトカーネル:RBF
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
accuracy_score(y_pred, y_test)

6. NaiveBayes  
    - 方法
    - 得意領域
    - 注意点

7. Random Forest  
    回帰/分類
    - 方法  
        複数の決定木を組み合わせる
        - 決定木学習  
            ジニ係数などの不純度が小さくなるようにデータを分割
    $$
    ジニ係数=1-\sum_{i=1}^{c}p_i^2 \quad
    $$
        - ランダムフォレストの特徴  
            ブーストラップ法でデータを水増し、特徴量をランダムに選び、多様性を持った決定木学習       
    - 得意領域
    - 注意点

In [None]:
from sklearn.datasets import load_wine
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# データ読み込み
data = load_wine()
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.3)

model = RandomForestClassifier() 
model.fit(X_train, y_train) # 学習
y_pred = model.predict(X_test) 
accuracy_score(y_pred, y_test) # 評価

8. Neural Network  
    - 方法  
        - アーリーストッピング  
            train-dataを更に検証用に分け、検証データで過学習になったら学習をやめる
    - 得意領域
    - 注意点

9. kNN(k-Nearest Neighbor method)  
    回帰/分類
    - 方法  
        入力データに近いk個の学習データから多数決で分類する
    - 得意領域
    - 注意点

In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# データ生成
X, y = make_moons(noise=0.3)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

model = KNeighborsClassifier() 
model.fit(X_train, y_train) # 学習
y_pred = model.predict(X_test) 
accuracy_score(y_pred, y_test) # 評価

# Unsupervised learning

1. PCA(Principal Component Analysis)

    次元削減、低次元の方向と重要度を見つける。
    - 方法
    分散共分散行列をもとに固有値問題を解く。
    主成分ごとの固有値を固有値の総和で割ったものを寄与率とする。
    寄与率:主成分が元データ情報の説明率
    - 得意領域

    - 注意点
    累積寄与率が急激に上がらなければPCAは不適切。

In [None]:
from sklearn.datasets import load_iris
from sklearn.decomposition import PCA
data = load_iris()
model = PCA(n_components=2)
model = model.fit(data.data)

print(model.transform(data.data))# 変換後データ

2. LSA(Latent Semantic Analysis)  
    次元削減、文章や単語の行列を潜在的な意味空間へ変換する。
    - 方法
    - 得意領域
    - 注意点

In [None]:
from sklearn.decomposition import TruncatedSVD
model = TruncatedSVD(n_components=2)
model.fit(data)

print(model.transform(data))# 変換後データ
print(model.explained_variance_ratio_)# 寄与率

3. NMF(Non-negative Matrix Factorization)   
    次元削減、元データを2つの行列に分解する。(W,H)
    行列要素が非負で、分解後も非負/変数が直行しない(⇔PCA)
    - 方法
    - 得意領域
    - 注意点

In [None]:
from sklearn.decomposition import NMF
from sklearn.datasets.samples_generator import make_blobs

centers = [[5, 10, 5], [10, 4, 10], [6, 8, 8]]
X, _ = make_blobs(centers=centers) # centersを中心としたデータ生成

model = NMF(n_components=2)# 潜在変数の数
model.fit(X)
W = model.transform(X) # 分解後の行列
H = model.components_

4. LDA(Latent Dirichlet allocation)  
    次元削減、トピックモデル、PLSIのベイズ化モデル
    - 方法  
        各単語がどのトピックから生成されたかに関する確率分布を求める。
    $$
        p(θ,z|w,α,β)=\frac{p(θ,z,w|α,β)}{p(w|α,β)}
    $$
        p(w|α,β)は出せないので、以下で近似。

    $$
        q(θ,z|γ,φ)=q(θ|φ)\prod_{n=1}{N}q(z_n|φ_n)
    $$

        q(θ|γ)がディリクレ分布(パラメータ:トピック数)  
        q(z|φ)が多項分布(パラメータ:単語数×トピック数)

    - 得意領域
    - 注意点

In [1]:
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation
 

# removeで本文以外の情報を取り除く
data = fetch_20newsgroups(remove=('headers', 'footers', 'quotes'))
max_features = 1000
# 文書 データをベクトルに変換
tf_vectorizer = CountVectorizer(max_features=max_features,
stop_words='english')
tf = tf_vectorizer.fit_transform(data.data)
n_topics = 20
model = LatentDirichletAllocation(n_components=n_topics)
model.fit(tf)
print(model.components_) # 各トピックが持つ単語分布 
print(model.transform(tf)) # トピックで表現された文書

ModuleNotFoundError: No module named 'sklearn'

5. k-means method  
    クラスタリング
    - 方法  
        クラスタ重心を決め、距離でクラスタ分類する。  
        クラスタ平均が重心と同じになるまで、クラスタ平均で分類を繰り返す。
    - 得意領域
    - 注意点

In [None]:
from sklearn.cluster import KMeans
from sklearn.datasets import load_iris

data = load_iris()
model = KMeans(n_clusters=3) # クラスタ数を3に設定
model.fit(data.data)
print(model.labels_) # 各データ点が所属するクラスタ 
print(model.cluster_centers_) # fit()によって計算された重心

6. GMM(Gaussian Mixture Model)  
    クラスタリング、複数の正規分布で評価
    - 方法
    - 得意領域
    - 注意点

In [None]:
from sklearn.datasets import load_iris
from sklearn.mixture import GaussianMixture

data = load_iris()

model = GaussianMixture(n_components=3) # ガウス分布の数
model.fit(data.data) 
print(model.predict(data.data)) # クラスを予測 
print(model.means_) # 各ガウス分布の平均 
print(model.covariances_) # 各ガウス分布の分散

7. LLE(Local Linear Embedding)  
    次元削除、多面体学習、k-meansの次元削除版
    - 方法
    - 得意領域  
        ねじれ、曲がった高次元データ
    - 注意点

In [None]:
from sklearn.datasets import samples_generator
from sklearn.manifold import LocallyLinearEmbedding


data, color = samples_generator.make_swiss_roll(n_samples=1500)
n_neighbors = 12 # 近傍点の数 
n_components = 2 # 削減後の次元数
model = LocallyLinearEmbedding(n_neighbors=n_neighbors,
n_components=n_components)
model.fit(data)
print(model.transform(data)) # 変換したデータ

8. t-SNE(t-Distributed Stochastic Neighbor Embedding)  
    次元削減、多様体学習、自由度1のt分布
    - 方法
    - 得意領域
    バラけた三次元データ
    - 注意点
    4次元以上は精度でないかも

In [None]:
import sklearn.manifold import TSNE
import sklearn.datasets import load_digits
data = load_digits()
model = TSNE(n_components=2)#削減後次元
model.fit(data)