# Python で気軽に化学・化学工学
# 第 5 章 5.1 特徴量の標準化

## Jupyter Notebook の有用なショートカットのまとめ
- <kbd>Esc</kbd>: コマンドモードに移行（セルの枠が青）
- <kbd>Enter</kbd>: 編集モードに移行（セルの枠が緑）
- コマンドモードで <kbd>M</kbd>: Markdown セル (説明・メモを書く用) に変更
- コマンドモードで <kbd>Y</kbd>: Code セル (Python コードを書く用) に変更
- コマンドモードで <kbd>H</kbd>: ヘルプを表示
- コマンドモードで <kbd>A</kbd>: ひとつ**上**に空のセルを挿入
- コマンドモードで <kbd>B</kbd>: ひとつ**下**に空のセルを挿入
- コマンドモードで <kbd>D</kbd><kbd>D</kbd>: セルを削除
- <kbd>Ctrl</kbd>+<kbd>Enter</kbd>: セルの内容を実行
- <kbd>Shift</kbd>+<kbd>Enter</kbd>: セルの内容を実行して下へ

わからないことがありましたら、関係する単語やエラーの文章などでウェブ検索してご自身で調べてみましょう。

### あやめのデータセット (iris_with_species.csv)
有名な [Fisher’s Iris Data](https://en.wikipedia.org/wiki/Iris_flower_data_set)。150個のあやめについて、がく片長(Sepal Length)、がく片幅(Sepal Width)、花びら長(Petal Length)、花びら幅(Petal Width)が計測されています。

In [None]:
import pandas as pd # pandas のインポート

In [None]:
dataset = pd.read_csv('iris_with_species.csv', index_col=0, header=0) # あやめのデータセットの読み込み

In [None]:
x = dataset.iloc[:, 1:] # 数値データの特徴量のみを x に (あやめのデータでは 0 列目が Species でカテゴリーの特徴量であるため、それ以外の特徴量を取り出しています)

## 特徴量の標準化

In [None]:
autoscaled_x = (x - x.mean()) / x.std() # 平均を引いてから、標準偏差で割ります。x は DataFrame 型、x.mean(), x.std() は Series 型でデータ型は異なりますが、特徴量の名前が同じであるため、x のすべてのサンプルに対して x.mean() を引き、x.std() で割る計算になります。

In [None]:
x # 標準化前のデータセット

In [None]:
autoscaled_x # 標準化後のデータセット。値が変わっています

In [None]:
autoscaled_x.mean() # 特徴量の標準化後の平均。e-15 は 10 の -15 乗を表します。およそ 0 になっています

In [None]:
autoscaled_x.std() # 特徴量の標準化後の標準偏差。およそ 1 になっています

#### 【参考】
上の `autoscaled_x = (x - x.mean()) / x.std()` を実行したときにエラーが出た場合、`x` の特徴量の中に、標準偏差が 0 の特徴量があり、0 で割っていることが原因と考えられます。以下の 2 つのセルを実行して、標準偏差が 0 の特徴量を削除してから、上の `autoscaled_x = (x - x.mean()) / x.std()` のセルに戻り、再度実行してみてください。

In [None]:
x.std() == 0 # 標準偏差が 0 の特徴量は True となります

In [None]:
x = x.drop(x.columns[x.std() == 0], axis=1) # 標準偏差が 0 の特徴量を削除します

### 練習問題

データセット `virtual_equipment.csv` を読み込み、`state` の特徴量をダミー変数にして温度のデータとつなげてから、特徴量の標準化をしましょう。一番下にコードの例があります。

### 仮想的な装置のデータセット (virtual_equipment.csv)
仮想的な装置において、時刻ごとの 2 つの温度の測定値 (`T1`, `T2`) とそのときの装置の状態 (`state`) が入ったデータセット。`state` の種類としては、normal (正常)、abnormal_1 (異常1)、abnormal_2 (異常2)、abnormal_3 (異常3) があります。

### 練習問題 コードの例

In [None]:
import pandas as pd

In [None]:
dataset = pd.read_csv('virtual_equipment.csv', index_col=0, header=0)

In [None]:
dataset # 念のため確認

In [None]:
dummy_dataset = pd.get_dummies(dataset.iloc[:, 2]) # カテゴリー変数をダミー変数に変換

In [None]:
dummy_dataset # 念のため確認

In [None]:
x = pd.concat([dataset.iloc[:, :-1], dummy_dataset], axis=1) # 数値データのみ、変数を横につなげて x に

In [None]:
x # 念のため確認

In [None]:
autoscaled_x = (x - x.mean()) / x.std() # 平均を引いてから、標準偏差で割ります。x は DataFrame 型、x.mean(), x.std() は Series 型でデータ型は異なりますが、特徴量の名前が同じであるため、x のすべてのサンプルに対して x.mean() を引き、x.std() で割る計算になります。

In [None]:
autoscaled_x # 確認

In [None]:
autoscaled_x.mean() # 念のため確認

In [None]:

autoscaled_x.std() # 念のため確認