# 1. 讀取檔案

In [42]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import numpy as np

# 使用 pandas 的 read_csv 函式讀取訓練資料
df = pd.read_csv("data/train.csv")

# 2.資料預處理

In [None]:
# 直接刪除任何含有缺失值的整行資料
df_clean = df.dropna()

# 3.特徵工程

In [None]:
# 定義要用來預測的特徵欄位
# TODO:這串列遺漏了部分特徵，另外，有方法額外加上新的特徵嗎？
features = ['weight', 'acceleration', 'model_year', 'cylinders', 'displacement', 'horsepower']
# 定義我們要預測的目標欄位
target = 'mpg'

# 從乾淨的資料中選取 X 和 y
X = df_clean[features]
y = df_clean[target]


# 4. 訓練模型

In [None]:
# 分割訓練集與測試集 (用於本地評估模型好壞)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 建立並訓練模型
model = LinearRegression()
model.fit(X_train, y_train)

# 進行預測與評估
train_predictions = model.predict(X_train)
test_predictions = model.predict(X_test)
train_rmse = np.sqrt(mean_squared_error(y_train, train_predictions))
test_rmse = np.sqrt(mean_squared_error(y_test, test_predictions))

print("模型已訓練完成！")
print(f"訓練誤差 (Train RMSE): {train_rmse:.4f} MPG")
print(f"測試誤差 (Test RMSE):  {test_rmse:.4f} MPG")
print("\n--- 模型學到的關係 ---")

# 各個特徵的權重
for feature, coef in zip(features, model.coef_):
    print(f"特徵 '{feature}' 的權重: {coef:.4f}")

模型已訓練完成！
訓練誤差 (Train RMSE): 3.4119 MPG
測試誤差 (Test RMSE):  3.8504 MPG

--- 模型學到的關係 ---
特徵 'weight' 的權重: -0.0067
特徵 'acceleration' 的權重: 0.0325
特徵 'model_year' 的權重: 0.7999
特徵 'cylinders' 的權重: 0.3731
特徵 'displacement' 的權重: -0.0031
特徵 'horsepower' 的權重: -0.0095


# 5.輸出提交檔案

In [46]:
# 讀取需要進行預測的測試檔案 test.csv
df_test = pd.read_csv("data/test.csv")

# 對測試資料進行預處理
df_test = df_test.fillna(0)

# 使用訓練好的模型，對測試資料進行預測
predictions = model.predict(df_test[features])

# 建立一個新的 DataFrame
submission_df = pd.DataFrame({'Id':df_test['id'], 'mpg': predictions})

# 保存為 submission.csv
submission_df.to_csv('submission.csv', index=False)
print("提交文件 'submission.csv' 已成功生成！")

提交文件 'submission.csv' 已成功生成！
