![image.png](attachment:image.png)

### Linear Regression（線性回歸）

**定義：**  
線性回歸是一種監督學習演算法，主要用來預測連續型數據。其目標是找出自變量（輸入特徵）與應變量（輸出值）之間的線性關係。

**公式：**  
線性回歸的基本公式為：
$y$ = $\beta_0$ + $\beta_1x1$ + $\beta_2x2$ + $\ldots$ + $\beta_nxn$ + $\epsilon$ 
其中，$ y $ 是應變量，\( $x_1$, $x_2$, $\ldots$, $x_n$ \) 是自變量，\( $\beta_0$ \) 是截距，\( $\beta_1$, $\beta_2$, $\ldots$, $\beta_n$ \) 是回歸係數，\( $\epsilon \$) 是誤差項。

**用途：**
- 房價預測
- 銷售預測
- 股價預測

**優點：**
- 簡單且易於理解
- 計算速度快，適合處理大數據

**缺點：**
- 僅能捕捉線性關係，對非線性數據表現較差
- 對異常值敏感


In [1]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# 載入波士頓房價資料集
boston = pd.read_csv('dataset/housing.csv')

# 獲取特徵值和目標值
X = boston.drop('MEDV', axis=1)
y = boston['MEDV']

# 拆分訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=1)

# 建立線性回歸模型
model = LinearRegression()

# 訓練模型
model.fit(X_train, y_train)

# 預測結果
predictions = model.predict(X_test)

# 評估模型
print('MSE:', mean_squared_error(y_test, predictions))


MSE: 9873488488.137503


## [練習](https://www.kaggle.com/datasets/nikhil7280/student-performance-multiple-linear-regression)

描述：

學生表現數據集是一個用於研究影響學生學術表現因素的數據集。該數據集包含10,000名學生的記錄，每個記錄包含各種預測變量和表現指數的信息。

變量：
- **Hours Studied（學習時間）**：每位學生花費在學習上的總時間。
- **Previous Scores（先前成績）**：學生在之前測試中的成績。
- **Extracurricular Activities（課外活動）**：學生是否參加課外活動（是或否）。
- **Sleep Hours（睡眠時間）**：學生每天的平均睡眠時間。
- **Sample Question Papers Practiced（練習樣本試卷數量）**：學生練習的樣本試卷數量。

目標變量：
- **Performance Index（表現指數）**：每位學生的整體表現測量。表現指數代表學生的學術表現，已四捨五入至最接近的整數。指數範圍從10到100，值越高表示表現越好。

該數據集旨在提供有關預測變量與表現指數之間關係的洞見。研究人員和數據分析師可以使用此數據集探索學習時間、先前成績、課外活動、睡眠時間和練習樣本試卷數量對學生表現的影響。

In [3]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# 載入波士頓房價資料集
boston = pd.read_csv('dataset/Student_Performance.csv')

# 獲取特徵值和目標值
X = boston.drop('Performance Index', axis=1)
y = boston['Performance Index']

# 拆分訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=1)

# 建立線性回歸模型
model = LinearRegression()

# 訓練模型
model.fit(X_train, y_train)

# 預測結果
predictions = model.predict(X_test)

# 評估模型
print('MSE:', mean_squared_error(y_test, predictions))


MSE: 4.358598457324996


### Logistic Regression（邏輯回歸）

**定義：**  
邏輯回歸也是一種監督學習演算法，但它主要用來處理二元分類問題。其目標是估計某事件發生的機率，通常用於預測二分類結果（如是否會發生某事件）。

**公式：**  
邏輯回歸的公式為：
$ P(y=1|x) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_n x_n)}}  $
其中，$ P(y=1|x) $ 是事件 $ y $ 發生的機率，$ x_1 $, $ x_2 $, $\ldots$, $ x_n $ 是自變量，$\beta_0$ 是截距，$\beta_1$, $\beta_2$, $\ldots$, $\beta_n$ 是回歸係數。

**用途：**
- 二元分類（如是否患病）
- 電子郵件分類（如垃圾郵件分類）
- 客戶流失預測

**優點：**
- 適合處理二元分類問題
- 較為簡單且解釋性強

**缺點：**
- 對於多分類問題較為複雜
- 當資料特徵之間高度相關時，模型性能會下降

In [14]:
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report

# cross entropy 交叉熵

# 加載 iris 資料集
iris = datasets.load_iris()
X = iris.data  # 特徵
y = iris.target  # 標籤

# 將數據分成訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 創建邏輯回歸模型
logreg = LogisticRegression()

# 訓練模型
logreg.fit(X_train, y_train)

# 使用模型進行預測
y_pred = logreg.predict(X_test)

# 計算準確度
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')

# 顯示分類報告
print(classification_report(y_test, y_pred, target_names=iris.target_names))


Accuracy: 0.91
              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        19
  versicolor       0.76      1.00      0.87        13
   virginica       1.00      0.69      0.82        13

    accuracy                           0.91        45
   macro avg       0.92      0.90      0.89        45
weighted avg       0.93      0.91      0.91        45



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


## [練習](https://www.kaggle.com/datasets/prishasawhney/mushroom-dataset)
這個資料集是來自 UCI 資料庫的原始蘑菇資料集的清理版本，用於二元分類。此資料集經過各種技術清理，如模態填補、獨熱編碼、z-score 正規化和特徵選擇。資料集中包含以下 9 個欄位：

1. **Cap Diameter（帽徑）**：蘑菇帽子的直徑
2. **Cap Shape（帽形狀）**：蘑菇帽子的形狀
3. **Gill Attachment（鰓附著）**：蘑菇鰓的附著方式
4. **Gill Color（鰓顏色）**：蘑菇鰓的顏色
5. **Stem Height（莖高）**：蘑菇莖的高度
6. **Stem Width（莖寬）**：蘑菇莖的寬度
7. **Stem Color（莖顏色）**：蘑菇莖的顏色
8. **Season（季節）**：蘑菇生長的季節
9. **Target Class（目標類別）**：蘑菇是否可食用的標籤

目標類別包含兩個值 - 0 或 1，其中 0 表示可食用，1 表示有毒。
