# 機械学習

## 教師あり学習（データの特徴から、目的変数を予測）

### 分類（ラベルが離散的）
#### 電子メールの自動スパム検出、テキストの単語出現頻度
#### ガウシアンナイーブベイズ、サポートベクターマシン、ランダムフォレスト分類などのアルゴリズム

### 回帰（ラベルが連続量）
#### 望遠鏡で観測された天体、銀河の距離測定
#### 線形回帰、サポートベクターマシン、ランダムフォレスト回帰などのアルゴリズム

## 教師なし学習（データの特徴をモデル化し、目的変数がない）

### クラスタリング（データをグループ別に区別）
#### 画像のカラー圧縮
#### k平均法、ガウス混合モデル、スペクトルクラスタリングなどのアルゴリズム

### 次元削減（データをより簡潔な表現にする）
#### 主成分分析、多様体学習などのアルゴリズム

## 半教師あり学習
## 強化学習

# 予測モデル(kaggleでの代表格)
## 重回帰分析
### Ridge回帰
### Lasso回帰
### ENet
## 勾配ブースティング
### XGBoost(めっちゃ時間かかる)
### LightGBM
### CatBoost
## RandomForest

# アンサンブル学習
## ブースティング
### 繰り返し学習で未学習を減らす、バイアス（誤差平均）を減らす
## バギング
### ランダム抽出で平均を取る、バリアンス（分散）を減らす

# 指標
## MAE(平均絶対誤差)
## MSE, RMSE(平均二乗誤差)
## RMSLE(対数平均二乗誤差)

# 分割・検証
## ホールドアウト(train_test_split())
## クロスバリデーション(KFold)
## グリッドサーチ(GridSearchCV)

# 標準化 0~1にまとめる
# 正規化 -1~1にまとめる、平均０、分散１
# 多重共線性
## 説明変数同士に相関があると、予測が引っ張られてしまい
## 目的変数の予測精度が下がる。よって、説明変数同士は独立であるべき

In [None]:
# モデルの作り方

# モデルのインポート
# model = LinearRegression()
# model.fit(x, y)
# y_pred = model.predict(X)

In [None]:
# 回帰
from sklearn.linear_model import LinearRegression, Ridge, Lasso  #線形回帰
from sklearn.preprocessing import PolynomialFeatures # 多項式基底関数
#(GaussianFeatures() : カスタム器を自分で作る必要あり p397)
from sklearn.svm import SVC # グラフ化は自作関数 p410 PCAとパイプラインを組む
from sklearn.ensemble import RandomForestRegression # ランダムフォレスト

In [None]:
# 分類
from sklearn.naive_bayes import GaussianNB  #ガウシアンナイーブベイズ
from sklearn.naive_bayes import MultinomialNB # 多項分布ナイーブベイズ, make_pipeline(TfidfVectorizer(), MultinomialNB())
from sklearn.svm import SVC # グラフ化は自作関数 p410 
from sklearn.tree import DecisionTreeClassifer # bag = BaggingClassifier(DecisionTreeClassifier(), ...)
from sklearn.ensemble import RandomForestClassifier # ランダムフォレスト

In [None]:
# 次元削減
from sklearn.decomposition import PCA   #主成分分析
from sklearn.manifold import Isomap # 多様体学習 PCAに劣る

In [None]:
# クラスタリング
from sklearn.mixture import GaussianMixture # ガウス混合モデル　k平均法の進化
from sklearn.cluster import KMeans #　k平均法
# ほかにもDBSCAN, 平均値シフト、親和性伝播

In [None]:
# カーネル密度推定
from sklearn.neighbors import KernelDensity

In [None]:
# 役立つもの
from sklearn.model_selection import train_test_split                 # train, testデータを分ける
Xtain, Xtest, Ytran, Ytest = train_test_split(X, Y, random_state=1)

from sklearn.metrics import accuracy_score  # 精度
accuracy_score(test, model)

from sklearn.metrics import confusion_matrix #混同行列 --> sns.heatmap(mat)
mat = confusion_matrix(test, model)

from sklearn.model_selection import cross_val_score  # 交差検証１
cross_val_score(model, x, y, cv=5)

from sklearn.model_selection import LeaveOneOut  # 交差検証２
scores = cross_val_score(model, x, y, cv=LeaveOneOut())
scores.mean()

from sklearn.model_selection import learning_curve # 学習曲線

from sklearn.feature_extraction import DictVectorizer  # カテゴリ特徴量
from sklearn.preprocessing import OneHotEncoder
from sklearn.feature_extraction import FeatureHasher

In [None]:
# 多項式関数
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import make_pipeline

def PolynomialRegression(degree=2, **kwargs):
    return make_pipeline(PolynomialFeatures(degree), LinearRegression(**kwargs))

In [None]:
# GridSearch
from sklearn.model_selection import GridSearchCV 

param_grid = {'parameter1' : [0, 1, 2],
              'parameter2' : [True, False],
              'parameter3' : np.arange(21)}

grid = GridSearch(model, param_grid, cv=7)

grid.fit(X, y)

print(grid.best_params_)

model = grid.best_estimator_

y_pred = model.fit(X, y).predict(X_test)
#ここからはアドリブでプロットする。