# Data Preprocessing Tools

## Importing the libraries

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

## importing the dataset

In [2]:
dataset=pd.read_csv('Data.csv')
x = dataset.iloc[:,  :-1].values #第一個 : 是選擇所有行，第二個 :-1 是所有列(但撇除最右邊的那列)
y = dataset.iloc[:,  -1].values #取最後一行內容


[['France' 44.0 72000.0]
 ['Spain' 27.0 48000.0]
 ['Germany' 30.0 54000.0]
 ['Spain' 38.0 61000.0]
 ['Germany' 40.0 nan]
 ['France' 35.0 58000.0]
 ['Spain' nan 52000.0]
 ['France' 48.0 79000.0]
 ['Germany' 50.0 83000.0]
 ['France' 37.0 67000.0]]


In [None]:
print(x)

In [None]:
print(y)

## Taking care of missing data

In [None]:
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
# 尋找 Nan (np.nan)，替換策略為 mean。 mean 為非缺失值的平均值，將缺失值替換為平均值

imputer.fit(x[:,1:3]) # fit() 為計算數據統計量，計算為平均值後，會將計算的統計值存在 SimpleImputer 物件中
x[:, 1:3]=imputer.transform(x[:, 1:3]) # transform() 為將統計量替換到實際數據上

## Encoding categorical data

In [None]:
from sklearn.compose import ColumnTransformer
# `ColumnTransformer` 用於對數據集的不同列應用不同的轉換。

from sklearn.preprocessing import OneHotEncoder
# `OneHotEncoder` 用於將類別變量轉換為 one-hot 編碼。

ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [0])], remainder='passthrough')

# `transformers` 是一個列表，其中每個元素是一個三元組（名稱，轉換器，列）
# `encoder` 是這個轉換器的名稱，可以是任意字符串
# `OneHotEncoder()` 是我們要使用的轉換器
# `[0`] 指定了我們要對第 0 列應用 OneHotEncoder
# `remainder='passthrough'` 表示對於未指定的列，保持原樣，不做任何處理

x = np.array(ct.fit_transform(x))

In [None]:
print(x)

## Encoding the Dependent Variable

In [None]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
y = le.fit_transform(y)

In [None]:
print(y)

## Splitting the dataset into the Training set and Test set

In [None]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=1)

# train_test_split(x, y, test_size=0.2, random_state=1) 將數據集 x 和標籤 y 分割成訓練集和測試集
# `x`：特徵數據集
# `y`：目標變量（標籤）
# `test_size=0.2`：指定測試集佔整個數據集的比例。這裡是 20%
# `random_state=1`：指定隨機種子，確保每次分割得到的結果相同。這對於重現實驗結果很有用。

In [None]:
print(x_train)

In [None]:
print(x_test)

In [None]:
print(y_train)

In [None]:
print(y_test)

## Feature Scaling

In [None]:
from sklearn.preprocessing import StandardScaler

sc = StandardScaler()

x_train[:, 3:]=sc.fit_transform(x_train[:, 3:])
# `fit_transform` 方法首先計算這些列的均值和標準差，然後使用這些計算結果對數據進行標準化

x_test[:, 3:]=sc.transform(x_test[:, 3:])
# `transform` 方法，使用原本算好的均值和標準差對其進行標準化
# 亦即測試數據是使用訓練數據的均值跟標準差進行標準化
# 這樣保證 2 種數據集縮放方式的一致性

In [None]:
print(x_train)

In [None]:
print(x_test)