## 範例：加州房價數據集 (Scikit-learn) 與 Ames 房價數據集 (OpenML)

這兩個都是常用於迴歸分析的房價預測數據集。

### 加州房價數據集 (`fetch_california_housing`)
- **來源**：基於1990年加州人口普查數據。
- **目標**：預測加州各區域的房價中位數。
- **特徵**：包含收入中位數、房屋年齡中位數、平均房間數、平均臥室數、區域人口、平均入住率、緯度、經度等。

### Ames 房價數據集 (`fetch_openml(name="house_prices")`)
- **來源**：愛荷華州艾姆斯市的房產銷售數據 (2006-2010年)。
- **目標**：預測房屋的最終售價。
- **特徵**：非常豐富，包含約80個特徵，涵蓋房屋的各種屬性，如地段、大小、建築年份、房間數量、設施質量、外部條件等，包含數值型和類別型特徵。
- **注意**：透過 `fetch_openml` 獲取，可能需要網路連線。

## 加州房價數據集 (Scikit-learn) 

In [3]:
from sklearn.datasets import fetch_california_housing
import pandas as pd

housing = fetch_california_housing()
# 加州房價資料集（California housing dataset）說明：
# 這個資料集來自 1990 年美國加州的人口普查數據，目標是預測各區域的房價中位數（MedHouseVal）。
# 
# 特徵說明如下：
# - MedInc：區域住戶年收入中位數（單位：萬美元）
# - HouseAge：區域房屋年齡中位數（單位：年）
# - AveRooms：每戶平均房間數
# - AveBedrms：每戶平均臥室數
# - Population：區域人口數
# - AveOccup：每戶平均居住人數
# - Latitude：區域緯度
# - Longitude：區域經度
# 
# 目標變數（target）為房價中位數（單位：萬美元）。
# 
# 資料筆數：20640 筆，特徵數量：8 個。
# 
# 將 housing 轉換為 DataFrame，並設定欄位名稱為繁體中文
col_names = ['年收入中位數', '房屋年齡中位數', '平均房間數', '平均臥室數', '人口數', '平均居住人數', '緯度', '經度']
df_california = pd.DataFrame(housing.data, columns=col_names)
df_california['房價中位數'] = housing.target

# 顯示前五筆資料
df_california.head()


Unnamed: 0,年收入中位數,房屋年齡中位數,平均房間數,平均臥室數,人口數,平均居住人數,緯度,經度,房價中位數
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422


### Ames 房價數據集 

In [5]:
# 載入 Ames 房價數據集
from sklearn.datasets import fetch_openml
housing_ames = fetch_openml(name="house_prices", as_frame=True, parser='auto')
# Ames 房價數據集說明：
# 這個資料集來自美國愛荷華州艾姆斯市，涵蓋 2006-2010 年間的房屋銷售資料。
# 目標是預測房屋的最終售價（SalePrice）。
# 
# 特徵數量：約 80 個，包含數值型與類別型特徵，涵蓋房屋的各種屬性：
# - 例如：地段、土地面積、建築年份、房間數量、建材品質、車庫資訊、外部條件等。
# 
# 這個資料集常用於迴歸分析與機器學習模型的訓練與評估。
# 
# 資料筆數：1460 筆，特徵數量：80 個，目標變數為 SalePrice（最終售價）。
# 
# 顯示前五筆資料
# 將欄位名稱改為繁體中文
col_names_ames = [
    '編號', '建築類型', '分區', '臨街長度', '土地面積', '街道', '巷弄', '地形', '地勢', '公共設施', '土地配置', '坡度',
    '鄰里', '主要狀況', '次要狀況', '建築型態', '房屋型態', '整體品質', '整體狀況', '建造年份', '翻新年份',
    '屋頂類型', '屋頂材質', '外牆材質1', '外牆材質2', '外部品質', '外部狀況', '外部裝修', '基礎', '地下室高度',
    '地下室狀況', '地下室曝光', '地下室成品類型1', '地下室成品面積1', '地下室成品類型2', '地下室成品面積2',
    '地下室未成品面積', '地下室總面積', '暖氣類型', '暖氣品質', '空調', '一樓面積', '二樓面積', '低溫區面積',
    '低溫區成品面積', '低溫區未成品面積', '總房間數', '臥室數', '全衛浴數', '半衛浴數', '廚房數', '廚房品質',
    '房屋功能', '房屋功能成品面積', '壁爐數', '車庫類型', '車庫建造年份', '車庫面積', '車庫品質', '車庫狀況',
    '車道', '泳池', '泳池品質', '圍欄', '雜項特徵', '雜項面積', '出售月份', '出售年份', '銷售類型', '銷售狀況',
    '總樓層面積', '地下室衛浴數', '地下室半衛浴數', '三季房面積', '壁爐品質', '木地板面積', '二樓房間數', '地下室房間數',
    '地下室臥室數', '地下室廚房數', '地下室廚房品質', '地下室衛浴品質', '地下室半衛浴品質', '地下室房間品質'
]
# 只取前80個欄位名稱（與原始資料對應）
housing_ames.data.columns = col_names_ames[:80]
housing_ames.data.head()
housing_ames.data.head()


Unnamed: 0,編號,建築類型,分區,臨街長度,土地面積,街道,巷弄,地形,地勢,公共設施,...,總樓層面積,地下室衛浴數,地下室半衛浴數,三季房面積,壁爐品質,木地板面積,二樓房間數,地下室房間數,地下室臥室數,地下室廚房數
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,0,,,,0,2,2008,WD,Normal
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,0,,,,0,5,2007,WD,Normal
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,0,,,,0,9,2008,WD,Normal
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,0,,,,0,2,2006,WD,Abnorml
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,0,,,,0,12,2008,WD,Normal
