# 鐵達尼號生還預測：羅吉斯迴歸模型

## 1. 環境準備
導入所需的套件，並從我們建立的 `data_preprocessing.py` 腳本中導入資料準備函式。

In [1]:
import pandas as pd
import sys
import os
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

In [2]:
# 將專案根目錄添加到 sys.path 中，以便導入自定義模組
# 這裡使用相對路徑回到專案根目錄
project_root = os.path.abspath(os.path.join(os.getcwd(), '..', '..', '..'))
if project_root not in sys.path:
    sys.path.append(project_root)

# 從 src.utils.data_preprocessing 導入 prepare_data_for_modeling 函式
from src.utils.data_preprocessing import prepare_data_for_modeling

C:\Users\jedi8\Documents\GitHub\IanLi-Data-Analytics-Projects\src\utils\data_preprocessing.py

from src.utils.data_preprocessing import prepare_data_for_modeling

ModuleNotFoundError: No module named 'src'

## 2. 資料準備
呼叫 `prepare_data_for_modeling` 函式來載入資料、進行特徵編碼和分割，為模型訓練做好準備。

In [None]:
# 定義清理後資料檔案的路徑和目標欄位
# 相對於 Notebook 的路徑: projects/01_Exploratory_Data_Analysis/001_EDA_Project_A_Titanic_Survival_Analysis/data/train_cleaned.csv
cleaned_data_path = '../data/train_cleaned.csv'
target_column = 'Survived'

# 這些是不具預測性的 ID 或已被轉換/合併的原始欄位
features_to_drop = ['PassengerId', 'Name', 'Ticket', 'SibSp', 'Parch', 'Fare', 'Age']

# 執行資料準備函式
X_train, X_test, y_train, y_test = prepare_data_for_modeling(
    cleaned_data_path,
    features_to_drop=features_to_drop,
    target_column=target_column
)

print("資料準備完成！")
print(f"訓練集特徵數量: {X_train.shape[1]}")
print(f"訓練集樣本數: {X_train.shape[0]}")
print(f"測試集樣本數: {X_test.shape[0]}")

## 3. 模型訓練與評估

In [None]:
# 初始化羅吉斯迴歸模型
# max_iter 增加迭代次數以確保收斂，random_state 確保結果可重現
log_reg = LogisticRegression(max_iter=1000, random_state=42)

# 使用訓練集進行模型訓練
log_reg.fit(X_train, y_train)

# 在測試集上進行預測
y_pred = log_reg.predict(X_test)

print("模型訓練與預測完成！")

In [None]:
# 評估模型效能
accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)
class_report = classification_report(y_test, y_pred)

print(f"模型準確率 (Accuracy): {accuracy:.4f}\
print("混淆矩陣 (Confusion Matrix):")
print(conf_matrix)
print("
分類報告 (Classification Report):")
print(class_report)