In [None]:
%pip install wget

In [None]:
import wget

wget.download("https://github.com/roberthsu2003/machine_learning/raw/refs/heads/main/source_data/ChineseFont.ttf")

In [2]:
import matplotlib as mpl
from matplotlib.font_manager import fontManager
fontManager.addfont("ChineseFont.ttf")
mpl.rc('font', family="ChineseFont")

## 使用特徵比較多的威斯康辛州乳癌資料集

## 說明
max_iter的意思?
1. 優化過程
   - 邏輯迴歸使用梯度下降等優化算法來找到最佳的模型參數
   - 每次迭代都是調整模型參數的一個步驟
   - 目標是最小化損失函數（通常是對數損失）
2. 完整數據集的使用
   - 在每次迭代中，算法都會使用完整的訓練數據集
   - 這表示在一次迭代中，所有訓練樣本都被用來更新模型參數

3. 停止條件
   - 當算法達到收斂（模型參數幾乎不再變化）時會提前停止
   - 如果達到 max_iter 設定的1000次仍未收斂，則強制停止

### `fit_transform()`
- 這個方法會**同時執行兩個步驟**：
  1. **fit (擬合)**：計算訓練數據的統計量（平均值和標準差）
  2. **transform (轉換)**：使用計算出的統計量來標準化數據
- 主要用於**訓練數據集**
- 只能在訓練集上使用一次

### `transform()`
- 只執行**轉換步驟**
- 使用之前 `fit_transform` 時計算好的統計量來進行標準化
- 用於**測試數據集**
- 可以重複使用在不同的數據集上

### 為什麼要這樣區分？
1. **數據洩漏問題**：
   - 如果在測試集上使用 `fit_transform()`，會導致模型看到測試數據的分布，造成數據洩漏
   - 正確做法是只用訓練集的統計量來轉換測試集

2. **一致性**：
   - 確保測試集使用相同的縮放參數
   - 保持訓練集和測試集的轉換標準一致



In [3]:
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

cancer = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(
cancer.data, cancer.target, stratify=cancer.target, random_state=42)

# Scale the data 將數據進行標準化
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)



logreg = LogisticRegression(max_iter=1000).fit(X_train_scaled, y_train)
print("訓練時的分數:{:.3f}".format(logreg.score(X_train_scaled, y_train)))
print("測試時的分數:{:.3f}".format(logreg.score(X_test_scaled, y_test)))

訓練時的分數:0.988
測試時的分數:0.986


In [4]:
## 調整c參數
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

cancer = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(
cancer.data, cancer.target, stratify=cancer.target, random_state=42)

# Scale the data 將數據進行標準化
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)



logreg100 = LogisticRegression(max_iter=1000,C=100).fit(X_train_scaled, y_train)
print("訓練時的分數:{:.3f}".format(logreg100.score(X_train_scaled, y_train)))
print("測試時的分數:{:.3f}".format(logreg100.score(X_test_scaled, y_test)))

訓練時的分數:0.998
測試時的分數:0.944
