In [1]:
import pandas as pd
import joblib

# 数値データのみのテストデータを読み込む
test_data_path = '/Users/hayakawakazue/Downloads/data/test/test_cleaned5/test_33_cleaned_preprocessed.csv'
test_data = pd.read_csv(test_data_path)

# モデルの読み込み
model_path = '/Users/hayakawakazue/Downloads/data/models/21_24_25_29_30_33_random_forest.joblib'
model = joblib.load(model_path)

# 重要な特徴量のリスト
important_features = ['面積/築年数比', '価格増加率', '価格/面積比', '面積（㎡）', 'エリア人気度スコア', '面積×築年数']

# テストデータから重要な特徴量を選択
X_test = test_data[important_features]

# 取引価格のログを予測
y_pred_log = model.predict(X_test)

# 予測結果をデータフレームに追加
test_data['取引価格（総額）_log_pred'] = y_pred_log

# 予測結果を保存
predicted_test_path = '/Users/hayakawakazue/Downloads/data/test/test_cleaned6/test_33_predicted.csv'
test_data.to_csv(predicted_test_path, index=False)

# データの行数と列数をプリントする
print(f"\nデータの行数: {test_data.shape[0]}")
print(f"データの列数: {test_data.shape[1]}")

print(test_data.head())
print(f"予測結果を保存しました: {predicted_test_path}")



データの行数: 66
データの列数: 8
    面積/築年数比     価格増加率    価格/面積比     面積（㎡）  エリア人気度スコア    面積×築年数        ID  \
0 -0.979852 -0.026594 -8.434468 -1.721483 -84.860927 -0.042909  33001344   
1  7.054872 -0.026594 -8.434468  0.558901 -84.860927 -2.377518  33000471   
2 -0.186402 -0.026594 -8.434468 -0.011195 -84.860927 -0.125114  33000579   
3 -0.137441 -0.026594 -8.434468  1.128997 -84.860927  0.696931  33000984   
4 -0.999593 -0.026594 -8.434468 -0.011195 -84.860927  1.946440  33001008   

   取引価格（総額）_log_pred  
0           6.502118  
1           7.394001  
2           6.794347  
3           6.948196  
4           6.544535  
予測結果を保存しました: /Users/hayakawakazue/Downloads/data/test/test_cleaned6/test_33_predicted.csv


各都道府県ごとに予測結果を保存する

In [2]:
import pandas as pd

# データの読み込み
sample_submission_path = '/Users/hayakawakazue/Downloads/data/submission/sample_submission.csv'
sample_submission = pd.read_csv(sample_submission_path)

# 予測結果のデータ
predicted_data_path = '/Users/hayakawakazue/Downloads/data/test/test_cleaned6/test_33_predicted.csv'
predicted_data = pd.read_csv(predicted_data_path)

# IDを軸にしてマージ
submission = pd.merge(sample_submission, predicted_data[['ID', '取引価格（総額）_log_pred']], on='ID', how='left')

# 必要な列のみを保持
submission = submission[['ID', '取引価格（総額）_log_pred']]
submission.columns = ['ID', '取引価格（総額）_log']

# ファイルの保存
submission_path = '/Users/hayakawakazue/Downloads/data/submission/submission_33.csv'
submission.to_csv(submission_path, index=False)

# 結果の確認
print(submission.head())
print(f"予測結果を保存しました: {submission_path}")


        ID  取引価格（総額）_log
0  1000000           NaN
1  1000056           NaN
2  1000108           NaN
3  1000109           NaN
4  1000110           NaN
予測結果を保存しました: /Users/hayakawakazue/Downloads/data/submission/submission_33.csv
