# Data Preprocessing Tools

## ライブラリのインポート

In [0]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

## データセットのインポート

In [0]:
dataset = pd.read_csv('Data.csv')
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values

'''
.values : ilocメソッドではpdのデータフレーム型になっている -> valuesをすることでnpのndArray型に変換している
'''

In [0]:
print(X)

In [0]:
print(y)

## 欠損値の処理
欠損値を埋める三つの方法
1. 平均
2. 最頻値
3. 中央値

In [0]:
# 平均値で埋める
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
# データ変換
# fitとtransformをする必要がある
imputer.fit(X[:, 1:3]) # オブジェクトに対し、内部で行う演算を学習する
X[:, 1:3] = imputer.transform(X[:, 1:3]) # 学習した演算を実行する

In [0]:
print(X)

## カテゴリ変数の処理
### 独立変数（説明変数）のエンコーディング

文字データを数字データに変換する

2つ手法がある

- one-hotエンコーディング(こっちの方が多い)
- バイナリーエンコーディング

### one-hotエンコーディング
1. エンコーディングしたい列を指定する
2. 列に含まれている内容ごとに新しい列を作成する（今回だったら、「France「 「Germany」 「Spain」の三つの列を作成する）
3. 該当する項目は「1.0」、該当しない場合は「0.0」が代入される


### 独立変数のエンコーディング

In [0]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [0])], remainder='passthrough')
X = np.array(ct.fit_transform(X))

In [17]:
print(X)

[[1.0 0.0 0.0 44.0 72000.0]
 [0.0 0.0 1.0 27.0 48000.0]
 [0.0 1.0 0.0 30.0 54000.0]
 [0.0 0.0 1.0 38.0 61000.0]
 [0.0 1.0 0.0 40.0 nan]
 [1.0 0.0 0.0 35.0 58000.0]
 [0.0 0.0 1.0 nan 52000.0]
 [1.0 0.0 0.0 48.0 79000.0]
 [0.0 1.0 0.0 50.0 83000.0]
 [1.0 0.0 0.0 37.0 67000.0]]


### 従属変数のエンコーディング

In [0]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
# データの変換（fitとtransformを同時に行う）
y = le.fit_transform(y)

In [0]:
print(y)

### 訓練用データセットとテストデータセットへの分割
### 従属変数（目的変数）のエンコーディング
one-hotエンコーディングはだめ
- モデルがうまくいったかのテストをする際に、複数の列ができてしまうとテストできないから

ので、one-hotエンコーディングを使わず、数字に変換してく！


In [0]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 1)

In [0]:
print(X_train)

In [0]:
print(X_test)

In [0]:
print(y_train)

In [0]:
print(y_test)

## フィーチャースケーリング

例えば、家賃を推測するモデルの場合。
床面積、駅からの距離、値段、築年数など、さまざまなデータがある。が、そのデータ同士を比べるとき、それぞれ、単位が違う。単位が違うと、比べた際に、非常に分析しずらい。

そこでフィーチャースケーリングを行うことで、分析しやすい形に直している。


手法は２つある

- 標準化(だいたいこっち)
- 正規化

### 標準化
平均0、分散1に変換していく！

### 正規化
最小０、最大１の範囲にデータを収める！

In [0]:
from sklearn.preprocessing import StandardScaler # 標準化するためのクラス
sc = StandardScaler()
X_train[:, 3:] = sc.fit_transform(X_train[:, 3:]) # one-hotエンコーディングされた列は除外する
X_test[:, 3:] = sc.transform(X_test[:, 3:]) # 上でfitをしているので、transformだけでOK

In [0]:
print(X_train)

In [0]:
print(X_test)