<a href="https://colab.research.google.com/github/BUN-Nakai/MachineLearningAlgorithm/blob/main/data_preprocessing_tools.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Data Preprocessing Tools

## ライブラリのインポート

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

## データセットのインポート

In [3]:
dataset = pd.read_csv("Data.csv")
dataset


Unnamed: 0,Country,Age,Salary,Purchased
0,France,44.0,72000.0,No
1,Spain,27.0,48000.0,Yes
2,Germany,30.0,54000.0,No
3,Spain,38.0,61000.0,No
4,Germany,40.0,,Yes
5,France,35.0,58000.0,Yes
6,Spain,,52000.0,No
7,France,48.0,79000.0,Yes
8,Germany,50.0,83000.0,No
9,France,37.0,67000.0,Yes


In [7]:
type(dataset)

pandas.core.frame.DataFrame

In [4]:
# valuesはDataFrame->numpyのarrayになる
# : -> 行の全要素,　:-1 → 最後の列以外の左側
X = dataset.iloc[:, :-1].values
# : -> 行の全要素,　-1 → 最後の列
Y = dataset.iloc[:, -1].values

In [5]:
X

array([['France', 44.0, 72000.0],
       ['Spain', 27.0, 48000.0],
       ['Germany', 30.0, 54000.0],
       ['Spain', 38.0, 61000.0],
       ['Germany', 40.0, nan],
       ['France', 35.0, 58000.0],
       ['Spain', nan, 52000.0],
       ['France', 48.0, 79000.0],
       ['Germany', 50.0, 83000.0],
       ['France', 37.0, 67000.0]], dtype=object)

In [8]:
type(X)

numpy.ndarray

In [6]:
Y

array(['No', 'Yes', 'No', 'No', 'Yes', 'Yes', 'No', 'Yes', 'No', 'Yes'],
      dtype=object)

In [10]:
type(Y)

numpy.ndarray

## 欠損値の処理

In [None]:
# 基本的に、欠損値は全体の1％未満の場合には消してもよいと考えられている
# 今回は欠損値の処理は、削除せず、値を補完する
# 補完する数値は、平均、最頻値、中央値あたりがよく使用される

In [11]:
# 今回は平均値を使用する
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy="mean")
# fitメソッドは、データに関して何か演算を行う（実際に値を変換/反映するのはtransformメソッド）
# 全行、2列目と3列目を指定する
imputer.fit(X[:,1:3])
X[:, 1:3] = imputer.transform(X[:, 1:3])

In [12]:
X

array([['France', 44.0, 72000.0],
       ['Spain', 27.0, 48000.0],
       ['Germany', 30.0, 54000.0],
       ['Spain', 38.0, 61000.0],
       ['Germany', 40.0, 63777.77777777778],
       ['France', 35.0, 58000.0],
       ['Spain', 38.77777777777778, 52000.0],
       ['France', 48.0, 79000.0],
       ['Germany', 50.0, 83000.0],
       ['France', 37.0, 67000.0]], dtype=object)

## カテゴリ変数の処理

### 独立変数のエンコーディング

In [13]:
# エンコーディングは、機械学習に使用できるようにデータを変換する事
# 今回は数字以外を数字にしていく

In [14]:
# エンコーディングは、One-Hotエンコーディング（ダミー変数）、バイナリエンコーディングの2つがある
# 今回はOne-Hotを使用
# 他講義では、pd.get_dummiesメソッドを使用
# 列のデータを変換する為のクラス
from sklearn.compose import ColumnTransformer
# One-Hotエンコーディングを行う為のクラス
from sklearn.preprocessing import OneHotEncoder

In [15]:
# インスタンス作成
# remainder="passthrough" 変換した以外の列の値を残す（無視する）という設定
ct = ColumnTransformer(transformers=[("encoder",  OneHotEncoder(), [0])], remainder="passthrough")
# 一度に演算と変換を行う
X = np.array(ct.fit_transform(X))

In [16]:
X

array([[1.0, 0.0, 0.0, 44.0, 72000.0],
       [0.0, 0.0, 1.0, 27.0, 48000.0],
       [0.0, 1.0, 0.0, 30.0, 54000.0],
       [0.0, 0.0, 1.0, 38.0, 61000.0],
       [0.0, 1.0, 0.0, 40.0, 63777.77777777778],
       [1.0, 0.0, 0.0, 35.0, 58000.0],
       [0.0, 0.0, 1.0, 38.77777777777778, 52000.0],
       [1.0, 0.0, 0.0, 48.0, 79000.0],
       [0.0, 1.0, 0.0, 50.0, 83000.0],
       [1.0, 0.0, 0.0, 37.0, 67000.0]], dtype=object)

### 従属変数のエンコーディング

In [17]:
# 従属変数は、ダミー変数にはしない
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
Y = le.fit_transform(Y)


In [18]:
Y

array([0, 1, 0, 0, 1, 1, 0, 1, 0, 1])

### 訓練用データセットとテストデータセットへの分割

In [19]:
from sklearn.model_selection import train_test_split
# データの分割(分割は、テスト2割とする)
# random_state=を指定しておくと、同じルールに従って分割するようになる（指定していないと分割する度（実行する度）にランダムになる）
X_train, X_test, Y_train, Y_test = train_test_split(X,Y, test_size=0.2, random_state=1)

In [20]:
X_train

array([[0.0, 0.0, 1.0, 38.77777777777778, 52000.0],
       [0.0, 1.0, 0.0, 40.0, 63777.77777777778],
       [1.0, 0.0, 0.0, 44.0, 72000.0],
       [0.0, 0.0, 1.0, 38.0, 61000.0],
       [0.0, 0.0, 1.0, 27.0, 48000.0],
       [1.0, 0.0, 0.0, 48.0, 79000.0],
       [0.0, 1.0, 0.0, 50.0, 83000.0],
       [1.0, 0.0, 0.0, 35.0, 58000.0]], dtype=object)

In [21]:
X_test

array([[0.0, 1.0, 0.0, 30.0, 54000.0],
       [1.0, 0.0, 0.0, 37.0, 67000.0]], dtype=object)

In [22]:
Y_train

array([0, 1, 0, 0, 1, 1, 0, 1])

In [23]:
Y_test

array([0, 1])

## フィーチャースケーリング

In [24]:
# 標準化(平均が0、標準偏差を1にする)
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
# AgeとSalaryを標準化していく
X_train = sc.fit_transform(X_train[:,3:])
# ↑でfitを行っているので↓ではtransformのみ
X_test = sc.transform(X_test[:,3:])


# 機械学習の分野では正規化とは最小が0、最大が1の範囲となるようにすること

In [25]:
X_train

array([[-0.19159184, -1.07812594],
       [-0.01411729, -0.07013168],
       [ 0.56670851,  0.63356243],
       [-0.30453019, -0.30786617],
       [-1.90180114, -1.42046362],
       [ 1.14753431,  1.23265336],
       [ 1.43794721,  1.57499104],
       [-0.74014954, -0.56461943]])

In [26]:
X_test

array([[-1.46618179, -0.9069571 ],
       [-0.44973664,  0.20564034]])

In [None]:
# 単回帰分析ではフィーチャースケーリング（標準化）は必要ない
# クラスタリングを行う場合にはフィーチャースケーリング（標準化）する