## 作業 1: 土地描述文本分析 (Strings 應用)

### 題目說明
請撰寫一個程式來分析土地描述文本，從中提取關鍵信息，例如地段編號、面積、位置和土地用途分類等資訊。

### 要求
1. 處理至少 5 筆不同的土地描述文本
2. 從每筆描述中提取：地段編號、城市、區域、面積（含單位）、土地用途
3. 使用字串處理方法如 `.split()`、`.find()`、正則表達式等
4. 將提取的資訊整理成結構化的格式輸出

In [None]:
def analize_and_extract_string(descriptions):
    descriptions_tmp = {
        "地段編號": [],
        "城市": [],
        "總面積": [],
        "土地用途": []
    }

    for desc in descriptions:
        tmp_string = desc.split("，")
        descriptions_tmp["地段編號"].append(tmp_string[0].replace("地段編號", ""))
        descriptions_tmp["城市"].append(tmp_string[1].replace("位於", ""))
        descriptions_tmp["總面積"].append(tmp_string[2].replace("總面積", ""))
        descriptions_tmp["土地用途"].append(tmp_string[3])

    return descriptions_tmp

# 測試資料
descriptions = [
    "地段編號A12345，位於臺北市信義區，總面積250.75平方公尺，住宅用地",
    "地段編號Z78910，位於新北市板橋區，總面積180.30平方公尺，商業用地",
    "地段編號G64026，位於台北市文山區，總面積235.70平方公尺，工業用地",
    "地段編號I19980，位於新竹縣竹東鎮，總面積630.35平方公尺，能源用地",
    "地段編號U80130，位於彰化縣埔心鄉，總面積990.50平方公尺，教育用地",
]

# 呼叫並印出結果
descriptions_extracted = analize_and_extract_string(descriptions)
for i in range(len(descriptions)):
    print(f"地段編號: {descriptions_extracted['地段編號'][i]}")
    print(f"城市: {descriptions_extracted['城市'][i]}")
    print(f"總面積: {descriptions_extracted['總面積'][i]}")
    print(f"土地用途: {descriptions_extracted['土地用途'][i]}")
    print("------")


## 作業 2: 土地交易資料分析 (Lists 應用)

### 題目說明
請撰寫一個程式來處理和分析土地交易資料，使用列表（Lists）來儲存和操作交易資料，並計算關鍵統計數據。

### 要求
1. 計算每個區域的每平方公尺平均價格
2. 找出最貴和最便宜的交易紀錄
3. 分析不同年份的價格趨勢
4. 根據不同條件篩選交易資料

In [None]:
def land_transaction_data_analysis(land_transaction_data, analysis_items):
    match analysis_items:
        case "平均價格":
            average_price = []
            for data in land_transaction_data:
                average_price.append(data[1] / data[0])  # 價格 / 面積
            return average_price

        case "最貴價格":
            highest_price = max(data[1] for data in land_transaction_data)
            return highest_price

        case "最便宜價格":
            lowest_price = min(data[1] for data in land_transaction_data)
            return lowest_price

        case "價格趨勢":
            yearly_prices = {}
            for data in land_transaction_data:
                year = data[3]
                unit_price = data[1] / data[0]
                if year not in yearly_prices:
                    yearly_prices[year] = []
                yearly_prices[year].append(unit_price)

            trend = {}
            for year in sorted(yearly_prices):
                avg = sum(yearly_prices[year]) / len(yearly_prices[year])
                trend[year] = round(avg, 2)

            return trend

        case _:
            return "不支援的分析項目"
            

transactions = [
    (120.5, 7500000, "中正區", 2023),
    (85.3, 5200000, "大安區", 2023),
    (150.2, 9800000, "信義區", 2022),
    (95.6, 6300000, "松山區", 2024),
    (110.0, 7000000, "內湖區", 2022),
    (80.0, 4800000, "萬華區", 2023),
    (140.3, 9000000, "士林區", 2022),
    (105.5, 6800000, "文山區", 2023),
    (130.7, 8500000, "北投區", 2023),
    (92.4, 5900000, "中山區", 2024),
]

print("平均價格：", land_transaction_data_analysis(transactions, "平均價格"))
print("最貴價格：", land_transaction_data_analysis(transactions, "最貴價格"))
print("最便宜價格：", land_transaction_data_analysis(transactions, "最便宜價格"))
print("價格趨勢：", land_transaction_data_analysis(transactions, "價格趨勢"))

## 作業 3: 土地登記資訊系統 (Dictionaries 應用)

### 題目說明
請開發一個使用字典（Dictionaries）來組織土地登記資訊的程式。您將創建一個系統，其中地段編號作為鍵（key）來存取詳細的財產資訊。

### 要求
1. 設計適當的字典結構來儲存土地資訊
2. 實現新增地段資料的功能
3. 實現根據各種條件查詢土地資料的功能
4. 實現計算整個登記系統統計數據的功能

In [6]:
def analize_and_extract_string(descriptions):
    descriptions_tmp = {
        "地段編號": [],
        "城市": [],
        "總面積": [],
        "土地用途": []
    }

    for desc in descriptions:
        tmp_string = desc.split("，")
        descriptions_tmp["地段編號"].append(tmp_string[0].replace("地段編號", ""))
        descriptions_tmp["城市"].append(tmp_string[1].replace("位於", ""))
        descriptions_tmp["總面積"].append(tmp_string[2].replace("總面積", ""))
        descriptions_tmp["土地用途"].append(tmp_string[3])

    return descriptions_tmp

# 測試資料
descriptions = [
    "地段編號A12345，位於臺北市信義區，總面積250.75平方公尺，住宅用地",
    "地段編號Z78910，位於新北市板橋區，總面積180.30平方公尺，商業用地",
    "地段編號G64026，位於台北市文山區，總面積235.70平方公尺，工業用地",
    "地段編號I19980，位於新竹縣竹東鎮，總面積630.35平方公尺，能源用地",
    "地段編號U80130，位於彰化縣埔心鄉，總面積990.50平方公尺，教育用地",
]

# 呼叫並印出結果
descriptions_extracted = analize_and_extract_string(descriptions)
for i in range(len(descriptions)):
    print(f"地段編號: {descriptions_extracted['地段編號'][i]}")
    print(f"城市: {descriptions_extracted['城市'][i]}")
    print(f"總面積: {descriptions_extracted['總面積'][i]}")
    print(f"土地用途: {descriptions_extracted['土地用途'][i]}")
    print("------")


地段編號: A12345
城市: 臺北市信義區
總面積: 250.75平方公尺
土地用途: 住宅用地
------
地段編號: Z78910
城市: 新北市板橋區
總面積: 180.30平方公尺
土地用途: 商業用地
------
地段編號: G64026
城市: 台北市文山區
總面積: 235.70平方公尺
土地用途: 工業用地
------
地段編號: I19980
城市: 新竹縣竹東鎮
總面積: 630.35平方公尺
土地用途: 能源用地
------
地段編號: U80130
城市: 彰化縣埔心鄉
總面積: 990.50平方公尺
土地用途: 教育用地
------


## 作業 4: 房地產市場趨勢分析 (Pandas 和 Numpy 應用)

### 題目說明
使用 Pandas 和 Numpy 來分析房地產市場的趨勢數據。您將處理一個包含多年房地產交易記錄的資料集，進行數據清理、統計分析和視覺化。

### 要求
1. 導入並清理房地產交易資料
2. 使用 Pandas 計算各區域、各類型房產的價格統計數據
3. 使用 Numpy 進行時間序列分析，計算價格變化趨勢
4. 創建數據視覺化來呈現市場趨勢

In [7]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

data = {
    '日期': pd.date_range(start='2018-01-01', periods=100, freq='M'),
    '區域': np.random.choice(['中正區', '大安區', '信義區', '松山區', '內湖區'], 100),
    '面積': np.random.uniform(20, 200, 100),
    '價格': np.random.uniform(5000000, 50000000, 100),
    '類型': np.random.choice(['公寓', '電梯大樓', '透天厝', '華廈'], 100)
}

df = pd.DataFrame(data)
df.dropna(inplace=True)  # 若有缺值就刪除
df['單價'] = df['價格'] / df['面積']  # 單價 = 總價 / 面積
region_stats = df.groupby('區域')['價格'].describe()
type_stats = df.groupby('類型')['價格'].describe()
print("各區域價格統計：")
print(region_stats)
print("\n各類型價格統計：")
print(type_stats)
df['年月'] = df['日期'].dt.to_period('M')
monthly_avg_price = df.groupby('年月')['單價'].mean()
x = np.arange(len(monthly_avg_price))
y = monthly_avg_price.values
z = np.polyfit(x, y, 1)  # 一階多項式（線性）
p = np.poly1d(z)         # 趨勢線方程式
plt.figure(figsize=(12, 6))
plt.plot(monthly_avg_price.index.astype(str), monthly_avg_price.values, label='每月平均單價')
plt.plot(monthly_avg_price.index.astype(str), p(x), label='價格趨勢線', linestyle='--')
plt.xticks(rotation=45)
plt.xlabel('年月')
plt.ylabel('平均單價（元/坪）')
plt.title('房地產市場價格趨勢分析')
plt.legend()
plt.tight_layout()
plt.show()


ModuleNotFoundError: No module named 'pandas'

## 作業 5: 土地價格預測模型 (scikit-learn 應用)

### 題目說明
使用 scikit-learn 建立一個預測土地價格的機器學習模型。您將使用歷史交易數據來訓練模型，並評估其預測準確性。

### 要求
1. 準備並預處理土地交易資料集
2. 選擇適當的特徵並進行特徵工程
3. 使用 scikit-learn 訓練至少兩種不同的模型 (如線性迴歸、隨機森林等)
4. 評估並比較不同模型的性能
5. 使用最佳模型進行價格預測

In [8]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score

# ==== 模擬資料 ====
np.random.seed(42)
n_samples = 500
data = {
    '面積': np.random.uniform(20, 500, n_samples),
    '距離市中心': np.random.uniform(0, 30, n_samples),
    '地形': np.random.choice(['平地', '坡地', '山坡地'], n_samples),
    '用途分區': np.random.choice(['住宅區', '商業區', '工業區', '農業區'], n_samples),
    '臨路寬度': np.random.uniform(2, 20, n_samples),
    '價格': None
}

df = pd.DataFrame(data)
df['價格'] = (df['面積'] * 100000 +
              df['臨路寬度'] * 50000 -
              df['距離市中心'] * 100000 +
              np.random.normal(0, 1000000, n_samples))

for idx, row in df.iterrows():
    if row['地形'] == '平地':
        df.at[idx, '價格'] *= 1.2
    elif row['地形'] == '坡地':
        df.at[idx, '價格'] *= 0.9

    if row['用途分區'] == '商業區':
        df.at[idx, '價格'] *= 1.5
    elif row['用途分區'] == '工業區':
        df.at[idx, '價格'] *= 1.3
    elif row['用途分區'] == '農業區':
        df.at[idx, '價格'] *= 0.7

# ==== 分割資料 ====
X = df.drop('價格', axis=1)
y = df['價格']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# ==== 預處理器 ====
numeric_features = ['面積', '距離市中心', '臨路寬度']
categorical_features = ['地形', '用途分區']

preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numeric_features),
        ('cat', OneHotEncoder(), categorical_features)
    ]
)

# ==== 建立兩種模型 ====
models = {
    "線性迴歸": Pipeline([
        ('preprocess', preprocessor),
        ('regressor', LinearRegression())
    ]),
    "隨機森林": Pipeline([
        ('preprocess', preprocessor),
        ('regressor', RandomForestRegressor(random_state=42))
    ])
}

# ==== 模型訓練與比較 ====
results = {}
for name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    rmse = np.sqrt(mean_squared_error(y_test, y_pred))
    r2 = r2_score(y_test, y_pred)
    results[name] = {'RMSE': rmse, 'R2': r2}
    print(f"\n模型：{name}")
    print(f"→ RMSE: {rmse:,.2f}")
    print(f"→ R²: {r2:.4f}")

# ==== 使用最佳模型進行預測 ====
best_model_name = max(results, key=lambda x: results[x]['R2'])
best_model = models[best_model_name]
sample = pd.DataFrame({
    '面積': [150],
    '距離市中心': [10],
    '地形': ['平地'],
    '用途分區': ['商業區'],
    '臨路寬度': [12]
})
predicted_price = best_model.predict(sample)[0]
print(f"\n✅ 最佳模型：{best_model_name}")
print(f"🏠 預測價格（示例土地）: {predicted_price:,.2f} 元")


ModuleNotFoundError: No module named 'pandas'