In [None]:
%pip install pandas numpy matplotlib scikit-learn

# 載入與探索資料 (使用 Pandas 與 scikit-learn)
* 我們常用 Pandas DataFrame 來處理結構化的資料

* 載入 CSV 檔案： 使用 pd.read_csv()

* 載入 scikit-learn 內建資料集： scikit-learn 提供了一些範例資料集 (如波士頓房價資料集)，這些資料集載入後通常是 dictionary 格式

* 可以透過 `.keys()` 查看包含哪些內容 (如 data, target, feature_names, description)
* 需要將其轉換為 DataFrame 格式以便操作

In [None]:
# 載入必要的套件、從 scikit-learn 套件中匯入 fetch_openml函式來從 OpenML 平台（一個公開的資料集儲存庫）下載各種資料集。
# name='boston'：指定要下載的資料集名稱。version=1：指定版本號。
# as_frame=True：預設值為False True讓輸出的資料以 pandas DataFrame 格式呈現；False則是傳回 numpy 陣列
# fetch_openml() 回傳一個 Bunch 物件（類似字典）
#boston.frame：當 as_frame=True 時，包含所有欄位的 DataFrame。
import pandas as pd
from sklearn.datasets import fetch_openml
boston = fetch_openml(name='boston', version=1, as_frame=True)
df = boston.frame
df["target"]=boston.target
df.head(5)

# 課堂練習: 探索 DataFrame(上一周上課內容複習)
* 查看前/後幾筆資料：df.head() / df.tail() (預設顯示前/後 5 筆，可指定數字)

* 查看資料的維度 (形狀)：df.shape (回傳 (列數, 欄位數))

* 查看資料的基本資訊 (欄位數、資料筆數、是否有缺失值、資料型態)：df.info()

* 查看數值欄位的敘述性統計 (平均值、標準差、最小值、最大值、四分位數等)：df.describe()

* 查看類別欄位中各類別的出現次數：df['欄位名稱'].value_counts()

In [None]:
# 查看前三筆資料
df.head(3)

In [None]:
# 查看末三筆資料
df.tail(3)

In [None]:
# 查看資料集大小 (列、欄)
df.shape

In [None]:
# 查看資料集的基本資訊
df.info()

In [None]:
# 查看數值欄位的敘述性統計
df.describe()

In [None]:
# 查看類別欄位 'MEDV' 中各類別的出現次數
df['MEDV'].value_counts()

# 資料清理 - 處理遺失值 (Missing Values)

* 使用 `df.info()` 可以快速查看每個欄位非空值的數量，從而推算遺失值.
* 使用 `df.isnull()` 或 `df.isna()`：回傳一個與 DataFrame 形狀相同的 boolean DataFrame，True 表示該位置是遺失值 (NaN)，False 表示非遺失值.
* 搭配 .sum()：`df.isnull().sum()` 可以快速計算每個欄位的遺失值數量.
* 搭配 .any()：`df.isnull().any()` 可以快速判斷哪些欄位包含遺失值.


# 課堂練習：刪除缺失值

* 任務： 創建一個新的 DataFrame，其中包含幾列和幾行，並手動將一些值設為 np.nan。

然後嘗試使用 `df.dropna()` 刪除包含遺失值的列。

觀察刪除前後 DataFrame 的形狀 (.shape) 變化。

In [None]:
import pandas as pd
import numpy as np

# 創建範例 DataFrame
data = {
    'col1': [1, 2, np.nan, 4],
    'col2': [5, np.nan, np.nan, 8],
    'col3': [9, 10, 11, 12]  # 補上 col3 的資料
}
test_df = pd.DataFrame(data)

# 觀察原始 DataFrame
print("原始 DataFrame:\n", test_df)
print("原始形狀:", test_df.shape)

# 處理缺失值後再次觀察
test_df_dropped = test_df.dropna()  # 刪除包含 NaN 的列
print("\n刪除遺失值後的 DataFrame:\n", test_df_dropped)
print("刪除遺失值後的形狀:", test_df_dropped.shape)

In [None]:
# 處理缺失值後再次觀察
test_df_dropped_column = test_df.dropna(axis=1)  # 刪除包含 NaN 的欄
print("\n刪除遺失值後的 DataFrame:\n", test_df_dropped_column)
print("刪除遺失值後的形狀:", test_df_dropped_column.shape)

In [None]:
# 處理缺失值後再次觀察
test_df_dropped_thresh2 = test_df.dropna(thresh=2)  #刪除遺失值數量超過 N 的列
print("\n刪除遺失值後的 DataFrame:\n", test_df_dropped_thresh2)
print("刪除遺失值後的形狀:", test_df_dropped_thresh2.shape)

# 課堂練習: 填補缺失值

In [None]:
 # 載入必要的套件
import pandas as pd
from sklearn.datasets import fetch_openml
boston = fetch_openml(name='boston', version=1, as_frame=True)
df = boston.frame
df.head(5)

In [None]:
#處理遺失值
import pandas as pd
import numpy as np

# 建立模擬資料
data = {
    'CRIM': [0.1, np.nan, 0.3, 0.2],
    'RM': [6.5, 7.1, np.nan, 5.9],
    'AGE': [65, 72, np.nan, 65]
}

df = pd.DataFrame(data)

print("原始資料：")
print(df)
#查看資料
print("查看資料分布：\n",df.describe())
# 平均值填補 CRIM 欄位
df['CRIM'] = df['CRIM'].fillna(df['CRIM'].mean())
print("\n平均值填補 CRIM 欄位：\n",df)
# 中位數填補 RM 欄位
df['RM'] = df['RM'].fillna(df['RM'].median())
print("\n中位數填補 RM 欄位：\n",df)
# 眾數填補 AGE 欄位
df['AGE'] = df['AGE'].fillna(df['AGE'].mode()[0])
print("\n眾數填補 AGE 欄位：\n",df)

print("\n填補後的資料：")
print(df)



# 課堂範例: 處理異常值(接續波士頓房價資料集)


In [None]:
 # 載入必要的套件
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_openml
boston = fetch_openml(name='boston', version=1, as_frame=True)
df = boston.frame
df.head(5)


# 只選擇數值型欄位
numeric_cols = df.select_dtypes(include='number').columns.tolist()

# 畫出這些欄位的 boxplot
plt.figure(figsize=(max(12, len(numeric_cols) * 0.8), 6))
plt.boxplot(df[numeric_cols].values, tick_labels=numeric_cols, showfliers=True)

plt.xticks(rotation=45, ha="right")
plt.title("Boston Housing Dataset – Box Plots of Numerical Features")
plt.tight_layout()
plt.show()

In [None]:
# 畫出這些欄位的 boxplot
# CRIM: 有非常多的點遠高於上界，表示有些地區的犯罪率極高。每人平均的城鎮犯罪率（per capita crime rate by town）
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_openml
boston = fetch_openml(name='boston', version=1, as_frame=True)
df = boston.frame
df.head(5)
print(df["CRIM"].values,"type:",type(df["CRIM"].values))
plt.figure(figsize=(max(12, len(numeric_cols) * 0.8), 6))
plt.boxplot(df["CRIM"].values, tick_labels=["CRIM"])

plt.xticks(rotation=45, ha="right")
plt.title("Boston Housing Dataset – Box Plots [CRIM]")
plt.tight_layout()
plt.show()


In [None]:
# 使用 IQR 方法偵測異常值 (以波士頓房價資料集的 'CRIM' 欄位為例)
# 首先使用 describe() 獲取四分位數
desc = df['CRIM'].describe()
Q1 = desc['25%']
Q3 = desc['75%']
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
print("lower_bound:",lower_bound,"upper_bound:",upper_bound)
# 找出異常值
outliers = df[(df['CRIM'] < lower_bound) | (df['CRIM'] > upper_bound)]

print("CRIM 欄位的異常值數量:", len(outliers))
print("outliers data：\n")
outliers

# 課堂練習：處理異常值(接續波士頓房價資料集)

1.   任務： 繼續使用波士頓房價資料集 (df)，偵測其他欄位（例如：'TAX' 或 'B'）的異常值。
2. 任務： 使用四分位距 (IQR) 方法，計算該欄位的異常值上下限。
3. 任務： 找出並列出該欄位中被判定為異常值的資料點數量


In [None]:
# 任務 1 & 2
selected_column = 'TAX' # 或其他欄位
col_desc = df[selected_column].describe()
Q1 = col_desc['25%']
Q3 = col_desc['75%']
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
print(f"{selected_column} 欄位的 IQR 上限: {upper_bound}, 下限: {lower_bound}\n")

# 任務 3
outliers = df[(df[selected_column] < lower_bound) | (df[selected_column] > upper_bound)]
print(f"{selected_column} 欄位的異常值數量: {len(outliers)}\n")
print("部分異常值資料點:\n", outliers.head())

# 課堂範例: 針對所有欄位計算異常值

In [None]:
# 載入必要的套件  
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_openml
boston = fetch_openml(name='boston', version=1, as_frame=True)
df = boston.frame
df["target"]=boston.target
print(df.columns)

for col in df.select_dtypes(include=['float64', 'int64']).columns:
    col_name = col + "outlier"
    q1 = df[col].quantile(0.25)
    q3 = df[col].quantile(0.75)
    IQR = q3 - q1
    lower_bound = q1 - 1.5 * IQR
    upper_bound = q3 + 1.5 * IQR

    # 先全部設為 0（非離群值）
    df[col_name] = False

    # 再將離群值的位置更新為 1
    df.loc[(df[col] < lower_bound) | (df[col] > upper_bound), col_name] = True
df["out_sum"]=0
for col in df.select_dtypes(include=['boolean']).columns:
    if "outlier" in col:
        #print(df[col],"type",type(df[col]))
        df["out_sum"] = df["out_sum"] + df[col].astype(int)


df[df["out_sum"]==0]



# 課堂範例: 偵測並移除重複資料

In [None]:
# 建立含重複資料的範例
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'Bob', 'Alice', 'Eve'],
    'Score': [90, 85, 78, 85, 90, 95]
}
df = pd.DataFrame(data)

print("原始資料：")
print(df)

# 偵測重複資料
print("\n重複資料筆數：", df.duplicated().sum())
print("\n重複資料：")
print(df[df.duplicated()])

# 移除重複資料（保留第一次出現）
df_cleaned = df.drop_duplicates()
print("\n移除重複後的資料：")
print(df_cleaned)

# 課堂範例: 標準化(接續波士頓房價資料)

In [None]:
 # 載入必要的套件
import pandas as pd
from sklearn.datasets import fetch_openml
boston = fetch_openml(name='boston', version=1, as_frame=True)
df = boston.frame
df.head(5)

In [None]:
# 使用 Scikit-learn 進行標準化範例 (以波士頓房價資料集的 'DIS' 欄位為例)
# 注意：標準化通常是對特徵 (X) 進行，不對目標變數 (Y) 進行

from sklearn.preprocessing import StandardScaler, MinMaxScaler

# 變異數標準化 (Z-score)
# fit_transform 會 fit 然後 transform
scaler_z = StandardScaler()
df['DIS_z'] = scaler_z.fit_transform(df[['DIS']])

# 最小-最大標準化 (Min-Max)
# fit_transform 會 fit 然後 transform
scaler_mm = MinMaxScaler()
df['DIS_mm'] = scaler_mm.fit_transform(df[['DIS']])

print(df[['DIS', 'DIS_z', 'DIS_mm']].head())
print("\n查看標準化後的統計量")
print(df[['DIS_z', 'DIS_mm']].describe()) # 查看標準化後的統計量

# 課堂練習：資料轉換(接續波士頓房價資料集)

- 任務： 繼續使用波士頓房價資料集 (df)，選擇一個數值欄位（例如：'LSTAT'），嘗試分別對其應用變異數標準化 (StandardScaler) 和最小-最大標準化 (MinMaxScaler)。

- 任務： 觀察兩種標準化方法後，新欄位的 .describe() 結果有何不同。

In [None]:
# 任務 1 & 2
from sklearn.preprocessing import StandardScaler, MinMaxScaler #
selected_column = 'LSTAT'

scaler_z = StandardScaler()
df["LSTAT_z"] = scaler_z.fit_transform(df[[selected_column]])

scaler_mm = MinMaxScaler()
df["LSTAT_mm"] = scaler_mm.fit_transform(df[[selected_column]])

print(f"{selected_column} 欄位標準化後的敘述性統計:\n")
print("Z-score:\n", df["LSTAT_z"].describe())
print("\nMin-Max:\n", df["LSTAT_mm"].describe())

In [None]:
# 任務 1 & 2
from sklearn.preprocessing import StandardScaler, MinMaxScaler #
selected_column = 'LSTAT'

scaler_z = StandardScaler()
df[f'{selected_column}_z'] = scaler_z.fit_transform(df[[selected_column]])

scaler_mm = MinMaxScaler()
df[f'{selected_column}_mm'] = scaler_mm.fit_transform(df[[selected_column]])

print(f"{selected_column} 欄位標準化後的敘述性統計:\n")
print("Z-score:\n", df[f'{selected_column}_z'].describe())
print("\nMin-Max:\n", df[f'{selected_column}_mm'].describe())

# 順序尺度 (Ordinal Scale) 範例程式碼
- 順序尺度 (Ordinal Scale)： 類別之間有明確的大小或順序關係 (如：滿意度 1-5 等級，產品品質等級 S/M/L)
- 可以直接對應成數值，保留其順序關係
- 使用 Pandas 的 .map() 方法或替換功能實現

In [None]:
# 順序尺度編碼範例 (假設有一個 'size' 欄位: S, M, L)
# Series.map(dict) 在 pandas 中進行資料映射
data_size = {'size': ['S', 'M', 'L', 'S', 'M', 'L']}
df_size = pd.DataFrame(data_size)
print("type",type(df_size),"shape:",df_size.shape,"value:\n",df_size)
size_mapping = {'S': 1, 'M': 2, 'L': 3}
print("type:",type(df_size["size"]),"\nvalue:\n",df_size["size"])
df_size['size_encoded'] = df_size['size'].map(size_mapping)
print(df_size)

# 名目尺度 (Nominal Scale) 範例程式碼
- 類別之間沒有大小或順序關係，僅作為區分 (如：性別 男/女，顏色 紅/藍/綠)
- 不能直接對應成連續數值，否則模型會誤解其有順序關係
- 常用方法是 One-hot Encoding
- 將一個有 k 個類別的欄位展開為 k 個新的欄位
- 每個新的欄位對應一個類別，該列屬於該類別則為 1，否則為 0
- 使用 Pandas 的 pd.get_dummies() 函數或 Scikit-learn 的 OneHotEncoder 實現
- 注意：類別種類太多時，One-hot Encoding 可能產生過多特徵，導致「維數災難」

In [None]:
# 名目尺度 One-hot Encoding 範例 (假設有一個 'color' 欄位: Red, Blue, Green)
data_color = {'color': ['Red', 'Blue', 'Green', 'Red', 'Green']}
df_color = pd.DataFrame(data_color)
df_color_encoded = pd.get_dummies(df_color['color'])
print(df_color_encoded)
print()

# 將 One-hot Encoding 結果與原 DataFrame 合併
df_combined = pd.concat([df_color, df_color_encoded], axis=1)
print(df_combined)

# 課堂範例 :使用相關係數進行特徵選取
- df.corr()：計算 DataFrame 中所有數值欄位之間的皮爾森相關係數矩陣
- 可以檢視特徵之間的高度相關性 (冗餘特徵)，或特徵與目標變數的相關性

In [None]:
 # 載入必要的套件
import pandas as pd
from sklearn.datasets import fetch_openml
boston = fetch_openml(name='boston', version=1, as_frame=True)
df = boston.frame
df['target'] = df['MEDV']
df.head(5)

In [None]:
# 計算相關係數矩陣並查看與目標變數的相關性
correlation_matrix = df.corr()
print("特徵與目標變數的相關係數:\n", correlation_matrix['target'].sort_values(ascending=False))
# 可以考慮移除與目標變數相關性低的特徵，或特徵之間相關性高的特徵 (擇一保留)

# 課堂示範 & 練習: 資料切割 (Data Splitting)

In [None]:
# 切割資料集範例 (波士頓房價資料集)
from sklearn.model_selection import train_test_split

# 將特徵 (X) 和目標變數 (Y) 分開
# 在進行資料前處理時，通常只對特徵 (X) 進行處理，目標變數 (Y) 不處理標準化等
X = df.drop('target', axis=1) # 移除 target 欄位作為特徵
Y = df['target'] # target 欄位作為目標變數

# 將資料分割為訓練集和測試集，測試集佔 33%
# random_state 確保每次分割結果相同
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.33, random_state=42)

# 學生自行練習: 查看分割後的資料形狀
print("原始資料形狀:", df.shape)
print("訓練集特徵形狀:", X_train.shape)
print("測試集特徵形狀:", X_test.shape)
print("訓練集目標形狀:", Y_train.shape)
print("測試集目標形狀:", Y_test.shape)