# 基本的情報

## 機械学習の種類

### 教師あり学習とは

- 正解となるラベルデータ(`正解ラベル`)を必要とする学習
- `説明変数`が`目的変数`を予測できるような、内部パラメーター(学習モデル)を求めること
  - 説明変数
    - 目的変数を説明するためのデータ
    - 特徴データ、特徴量
  - 目的変数
    - タスクとなる課題に対して目的となるデータ
    - 正解ラベルである目的のデータ

### 教師あり学習の種類

- (教師あり)回帰
  - 目的変数(正解ラベル)が連続値となるデータ
  - 参考書籍内で紹介されている例
    - 線形回帰
      - 重回帰
- (教師あり)分類
  - 目的変数がカテゴライズされたデータ
  - 参考書籍内で紹介されている例
    - サポートベクタマシンによる分類
    - 決定木
    - ランダムフォレスト

### 教師なし学習とは

- 正解ラベルを用いない方法

### 教師なし学習の種類

- クラスタリング
  - 与えられたデータをグルーピングする手法
  - 参考書籍内で紹介されている例
    - k-means
    - 階層的クラスタリング
- 次元削減
  - 説明変数(特徴量)の次元数を、より小さい次元数で言い表す手法
  - 参考書籍内で紹介されている例
    - 主成分分析

### 強化学習とは

- ブラックボックス的な環境の中で行動するエージェントが、得られる報酬を最大化するよう、状態に応じた行動を学習していく手法


## 機械学習関連の用語メモ

### 勾配ブースティング(Gradient Boosting)

- アンサンブル学習のアルゴリズム
  - `アンサンブル学習`とは、複数の弱学習器を一つにまとめて学習する手法
- 回帰・分類のどちらでも利用
- フレームワークたち
  - XGBoost(eXtreme Gradient Boosting)
  - LightGBM
  - Catboost

### 正則化

- 機会学習において、過学習を防ぐための手法
  - 回帰モデル、ランダムフォレスト、さらにニューラルネットワーク等々で利用
  - 損失関数（誤差関数）に正則化項を導入する
- よく使われる手法
  - L1正則化
  - L2正則化


## Jupyter Notebookに関するメモ

### マジックコマンド

IPython kernelで提供されるマジックコマンドを、Notebook上で利用できる

In [1]:
# 「%timeit」は、1行のプログラムに対して計測
%timeit -n 1000 -r 10 [x*x for x in range(1000)]

155 µs ± 11.8 µs per loop (mean ± std. dev. of 10 runs, 1000 loops each)


In [2]:
%%timeit -n 1000 -r 10

# 「%%timeit」は、セル全体の処理に対して計測
ret = []
for x in range(1000):
    ret.append(x)

154 µs ± 7.39 µs per loop (mean ± std. dev. of 10 runs, 1000 loops each)


### シェルコマンド

文頭に`!`を入れることで、シェルコマンドを実行できる

In [3]:
!pwd

/home/jovyan/work
