# 【データ分析 -要点整理-】

## 1. データ分析の流れ

- タスクと評価指標
- 特徴量の作成
- モデルの作成
- モデルの評価
- モデルのチューニング
- アンサンブル

## 2.タスクと評価指標

In [2]:
# Markdown形式での画像の挿入
#<img src='img/linear_regression.png' width='300' >
#![回帰](/img/linear_regression.png) 

In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import tqdm



### 2.1 タスクの種類

タスク
- 教師あり学習
    - [回帰](/img/linear_regression.png)
        - 物の値段、物価のリターンや店舗への来客数などといった数値を予測
        - Kaggleコンペ
            - House Prices
            - Zillow Prize
    - 分類
        - [二値分類](/img/binary_classification.png)
            - 患者が病気にかかっている（1）か否(0)かなど、0,1の2種類で予測する or 0から1の間の確率で予測
            - Kaggleコンペ
                - Titanic
                - Home Credit Default Risk
        - 多クラス分類
            - [マルチクラス分類](/img/multi-class_classification.png) 
                - レコードが複数のクラスのうちどれか一つに属している場合の予測
                    - 目的変数は A,B,C のどれか1つに属する
                - Kaggleコンペ
                    - Two Sigma Connect
            - [マルチラベル分類](/img/multi-label_classification.png)
                - 同時に複数のクラスに属する場合がある場合の予測
                    - 目的変数は A,B,C の1だけに属しているとは限らない
                - Kaggleコンペ
                    - Human Protein Atlas Image Classification
    - [レコメンデーション](/img/recommendation.png) 
        - ユーザが購入しそうな商品や反応しそうな広告などを予測する（ユーザごとに商品や広告を複数個予測するケースが主となる）
        - 順位をつける場合もつけない場合も、各ユーザが各商品を購入するかしないかという __二値分類問題__ として解くことが一般的
        - 購入可能性に応じた順位をつけて予測
        - 順位をつけずに予測
            - マルチラベル分類と同様に複数の正解があり複数の予測値を出す
        - Kaggleコンペ
            - Stander Product Recommendation
            - Instacart Market Basket Analysis
    - その他
        - 物体検出
            - 画像に含まれる物体のクラスとその存在する領域を短形領域（bounding box）で推定するタスク
            - Kaggleのコンペ
                - Google AI Open Images - Object Detection Track
        - セグメンテーション
            - 画像に含まれる物体の存在領域を画像のピクセル単位で推定するタスク
            - Kaggleコンペ
                - TGS Salt Identification Challenge
- 教師なし学習
    - クラスタリング
    - 主成分分析
    - その他
- 強化学習
    - A / B テスト
    - レコメンデーション
    - ゲーム：囲碁、将棋

### 2.2データセットの種類

データセット
- テーブルデータ
    - ExcelなどのスプレッドシートやpandasのDataFrameで表されるような行と列を持つ形式のデータ
- 外部データ
    - 画像認識や自然言語処理における学習済みモデル
- 時系列データ
    - 時間の推移と共に観測されたデータ
    - Kaggleコンペ
        - 各飲食店の日次の来客数などが与えられ、将来の来客数を予測するタスク
            - Recruit Restaurant Visitor Forecasting
        - 各顧客の金融商品の購入履歴などが月単位で与えられ、最新月の購入商品を予測するタスク
            - Santander Product Recommendation
        - 共同購入型クーポンサイトにおけるユーザ、過去に販売されたクーポンと購入履歴などが与えられ、将来に各ユーザがどのクーポンを購入するかを予測するタスク
            - Coupon Purchase Prediction
- 画像や自然言語などのデータ
    - 画像・動画・音声・波形といったデータを主に扱うタスクには、深層学習が用いられることがほとんど
    - Kaggleコンペ
        - テーブルデータの中に自然言語処理があり、うまく特徴量に落とし込む必要がある
            - Quora Question Pairs
        - テーブルデータの列に広告の画像や広告のタイトルや説明といった自然言語が含まれるコンペ
            - Avito Demand Prediction Challenge

### 2.3 評価指標

評価指標
- 回帰
    - __RMSE__
    - __RMSLE__
    - __MAE__
    - __R^2__
- 分類
    - 二値分類
        - 0か1の2種類のラベルで予測値を提出する場合
            - __F1-score__
        - 0から1の間の確率を表す数値で予測を提出する場合
            - __logloss__
            - __AUC__
    - 多クラス分類
        - マルチクラス分類
            - __multi-class logloss__
        - マルチラベル分類
            - __mean-F1__
            - __macro-F1__
- レコメンド
    - 順位をつけて予測を提出する場合
        - __MAP@K__
    - 順位をつけないで予測を提出する場合
        - __mean-F1__
        - __macro-F1__


#### 2.3.1. 回帰

__RMSE（Root Mean Squared Error：平均平方二乗誤差）__

In [10]:
from sklearn.metrics import mean_squared_error

# va_y：真の値, pred：予測値
va_y = [100, 160, 60]
pred = [80, 100, 100]

rmse = np.sqrt(mean_squared_error(va_y, pred))
print(rmse)

43.20493798938573


__RMSLE（Root Mean Squared Logarithmic Error）__

In [11]:
from sklearn.metrics import mean_squared_log_error

# va_y：真の値, pred：予測値
va_y = [100, 0, 400]
pred = [200, 10, 200]

rmsle = np.sqrt(mean_squared_log_error(va_y, pred))
print(rmsle)

1.4944905400842203


__MAE（Mean Absolute Error）__

In [13]:
from sklearn.metrics import mean_absolute_error

# va_y：真の値, pred：予測値
va_y = [100, 160, 60]
pred = [80, 100, 100]

mae = mean_absolute_error(va_y, pred)
print(mae)

40.0


__決定係数（$R^2$）__

In [16]:
from sklearn.metrics import r2_score

# va_y：真の値, pred：予測値
va_y = [100, 160, 60]
pred = [100, 160, 50]

r2 = r2_score(va_y, pred)
print(r2)

0.9802631578947368


#### 2.3.2 分類
二値分類にの評価指標は以下の2つに分けられる
- 0か1の2種類のラベルで予測値を提出する場合
- 0から1の間の確率を表す数値で予測を提出する場合

0か1の2種類のラベルで予測値を提出する場合

0から1の間の確率を表す数値で予測を提出する場合

## 3. 特徴量の作成

## 4. モデルの作成

## 5. モデルの評価

## 6. モデルのチューニング

## 7. アンサンブル

# 【機械学習手法のまとめ】

## 1. 教師あり学習

### 1.1 回帰

### 1.2 分類

__SVM（Support Vector Machine：サポートベクターマシン）__ \
なるべく公平な境界線を引いて、分類を予測するアルゴリズム
- LinearSVC（Linear Support Vector Classification：線形サポートベクター分類）
- SVC（Support Vector Classification：サポートベクター分類）
    - kernel = "linear"：線形分類
    - kernel = "rbf"   ：非線形分類

__LinearSVC（Linear Support Vector Classification：線形サポートベクター分類）__\
LinearSVCはカーネルが線形カーネルの場合に特化したSVMであり, 計算が高速だったり, 他のSVMにはないオプションが指定できたりする.

In [None]:
from sklearn.svm import LinearSVC

model = LinearSVC()
model.fit(X_train, y_train)

pred = model.predict(X_test)

__SVC（Support Vector Classification：サポートベクター分類）__\
SVCは標準的なソフトマージン(エラーを許容する)SVM \
境界線に近い点をサポートベクトルと呼び、サポートベクトルから境界線までの距離が1番遠くなるように線を引く（サポートベクトルからのマージン（余白））。この考え方を使って学習データに忠実に境界線を引いたものをハードマージンといい、多少の誤差を許容してゆるい線を引くのがソフトマージン。 \
デフォルトでは kernel="rbf", C=1.0, gamma= 1/特徴数 となっている。

線形分類
- kernel = "linear"：線形分類

In [None]:
from sklearn import svm
# 線形分類
model = svm.SVC(kernel='liner')
model.fit(X_train, y_train)

pred = model.predict(X_test)

非線形分類
- kernel = "rbf"   ：非線形分類
- gamma            ：パラメータの数値を大きくすると境界線が複雑に、小さくすると単純に調整できる
    - gamma = "scale" or "auto"：お任せに設定

In [None]:
from sklearn import svm
# 非線形分類
model = svm.SVC(kernel='rbf', gamma='scale')
model.fit(X_train, y_train)

pred = model.predict(X_test)

__KNeighbors Classifier（K近傍法）__ \
近いものは仲間。近くのk個を調べて、多数決で分類を予測するアルゴリズム。

パラメータ
- n_neighbors：k
    - 近傍オブジェクト数（初期値:5）
- weights：重み
    - ‘uniform’ : 均一の重み（初期値）
    - ‘distance’ : 距離に応じた重み

In [None]:
from sklearn.neighbors import KNeighborsClassifier

model = KNeighborsClassifier()
model.fit(X_train, y_train)

pred = model.predict(X_test)

__RandomForestClassifier（ランダムフォレスト）__ \
ランダムフォレストは決定木をたくさん作って多数決で予測をする、精度の高いアルゴリズム

In [None]:
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier()
model.fit(X_train, y_train)

pred = model.predict(X_test)

## 2. 教師なし学習

### 2.1 クラスタリング

### 2.2 主成分分析 

## 3. 強化学習