# House Price Prediction

```Data/house_price.csv```には、住宅の価格(```SalePrice```)と住宅の関連情報が格納されています。

- このデータを用いて、住宅の価格(```SalePrice```)を予測するモデルを構築、評価しなさい。
- データ中身を確認しながら、適切な特徴量エンジニアリングやモデル選定ための考えもまとめてください。

In [None]:
import pandas as pd
data = pd.read_csv('Data/house_price.csv')

# 最初の数行を表示して確認
print(data.head())

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.impute import SimpleImputer

# カテゴリカル特徴量を数値に変換
data_encoded = pd.get_dummies(data)

# 欠損値を平均値で補完
imputer = SimpleImputer(strategy='mean')
data_imputed = imputer.fit_transform(data_encoded)

# Numpy配列からDataFrameに戻す
data_imputed = pd.DataFrame(data_imputed, columns=data_encoded.columns)

# 特徴量とターゲット変数を分割
X = data_imputed.drop('SalePrice', axis=1)
y = data_imputed['SalePrice']

# データを訓練用とテスト用に分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# ランダムフォレストモデルの構築と訓練
rf_model = RandomForestRegressor(random_state=42)
rf_model.fit(X_train, y_train)

In [None]:
# テストデータに対する予測
y_pred = rf_model.predict(X_test)

# 平均二乗誤差（Mean Squared Error）
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse}')

#決定係数（R-squared）
r2 = r2_score(y_test, y_pred)
print(f'R-squared: {r2}')

In [None]:
!pip install matplotlib
import matplotlib.pyplot as plt
plt.scatter(y_test, y_pred)
plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], linestyle='--', color='red', label='Regression Line')
plt.xlabel('Actual Prices')
plt.ylabel('Predicted Prices')
plt.legend()
plt.show()

#【考えのまとめ】予想される住宅価格と実際の住宅価格がほぼ一致している。このモデルの決定係数は、0.889であることから、適合度が高いと言える。