# 機器學習作業

1. 資料來源：[https://www.kaggle.com/competitions/boston20200827/](https://www.kaggle.com/competitions/boston20200827/)
2. 要求：
- 完整的機器學習預測流程,包括:資料前處理、視覺化、模型訓練、預測、結果評估等。
- 至少使用兩種模型並比較其效果。

## 資料欄位說明

| 欄位      | 說明                                           |
|-----------|------------------------------------------------|
| ID        | 資料的唯一識別碼。                             |
| CRIM      | 每人均犯罪率。                                 |
| ZN        | 佔地面積超過 25,000 平方英尺的住宅用地比例。   |
| INDUS     | 每鎮非零售業務用地的比例。                     |
| CHAS      | 查爾斯河虛擬變數（= 1 如果地段鄰近河流；否則為 0）。|
| NOX       | 一氧化氮濃度（每 10 百萬分之一）。             |
| RM        | 每棟住宅的平均房間數。                         |
| AGE       | 1940 年之前建造的自住單位比例。                 |
| DIS?      | 到波士頓五個就業中心的加權平均距離。           |
| RAD       | 到放射狀公路的可達性指數。                     |
| TAX       | 每 10,000 美元的房產稅率。                     |
| PTRATIO   | 每個城鎮的學生與教師比例。                     |
| B 1000    | 1000(Bk - 0.63)^2，其中 Bk 是鎮上黑人比例。    |
| LSTAT     | 低收入人口的比例（百分比）。                   |
| PRICE     | 自住單位的中位數價格（以千美元計）。           |


推測自這份資料：[https://www.kaggle.com/competitions/boston-dataset/data?select=boston_data.csv](https://www.kaggle.com/competitions/boston-dataset/data?select=boston_data.csv)


## 載入資料

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
train_df = pd.read_csv(r'./boston20200827/Boston_train.csv')
test_df = pd.read_csv(r'./boston20200827/Boston_test.csv')
combined_df = pd.concat([train_df, test_df], sort=False)

train_df.head()

In [None]:
combined_df.describe()

In [None]:
combined_df.info()

## 資料視覺化

In [None]:
plt.figure(figsize=(50,50))
sns.pairplot(combined_df)

In [None]:
sns.displot(combined_df['PRICE'])

In [None]:
plt.figure(figsize=(50,50))
sns.heatmap(combined_df.corr(), annot=True)

## 資料前處理

In [None]:
combined_df.isnull().sum()

模型的目標是預測房價（PRICE），因此缺少目標值的數據對於訓練模型來說是沒有意義的。

這些缺失目標值的樣本無法提供有用的信息來幫助模型學習，因此應該將它們從訓練數據中移除。

In [None]:
combined_df = combined_df.dropna(subset=['PRICE'])
combined_df.isnull().sum()

## 特徵工程