In [1]:
import pandas as pd
import joblib

# 数値データのみのテストデータを読み込む
test_data_path = '/Users/hayakawakazue/Downloads/data/test5/test_data_cleaned_preprocessed.csv'
test_data = pd.read_csv(test_data_path)

# モデルの読み込み
model_path = '/Users/hayakawakazue/Downloads/data/models/combined_all_train_random_forest.joblib'
model = joblib.load(model_path)

# 重要な特徴量のリスト
important_features = ['価格増加率', '建築年', 'エリア人気度スコア', '価格/面積比', '面積（㎡）', '面積/築年数比', '市区町村コード']

# テストデータから重要な特徴量を選択
X_test = test_data[important_features]

# 取引価格のログを予測
y_pred_log = model.predict(X_test)

# 予測結果をデータフレームに追加
test_data['取引価格（総額）_log_pred'] = y_pred_log

# 予測結果を保存
predicted_test_path = '/Users/hayakawakazue/Downloads/data/test6/test_data_predicted.csv'
test_data.to_csv(predicted_test_path, index=False)

# データの行数と列数をプリントする
print(f"\nデータの行数: {test_data.shape[0]}")
print(f"データの列数: {test_data.shape[1]}")

print(test_data.head())
print(f"予測結果を保存しました: {predicted_test_path}")



データの行数: 19466
データの列数: 9
      価格増加率       建築年  エリア人気度スコア    価格/面積比     面積（㎡）   面積/築年数比   市区町村コード  \
0 -0.014136 -0.487670 -47.639632 -1.526759  0.746786 -0.348720 -1.811724   
1 -0.014136  1.963661 -47.639632 -1.526759 -0.156522  0.621648 -1.811724   
2 -0.014136 -0.487670 -47.639632 -1.526759 -1.963136 -0.514477 -1.811724   
3 -0.014136 -0.306090 -47.639632 -1.526759 -0.608175 -0.423025 -1.811724   
4 -0.014136 -1.213990 -47.639632 -1.526759 -1.737309 -0.511998 -1.811724   

        ID  取引価格（総額）_log_pred  
0  1000000           6.466868  
1  1000056           7.057948  
2  1000108           6.408814  
3  1000109           6.423222  
4  1000110           6.407881  
予測結果を保存しました: /Users/hayakawakazue/Downloads/data/test6/test_data_predicted.csv


# sample_submissionの形式とIDを軸にマージする

In [4]:
import pandas as pd

# データの読み込み
sample_submission_path = '/Users/hayakawakazue/Downloads/data/submission/sample_submission.csv'
sample_submission = pd.read_csv(sample_submission_path)

# 予測結果のデータ
predicted_data_path = '/Users/hayakawakazue/Downloads/data/test6/test_data_predicted.csv'
predicted_data = pd.read_csv(predicted_data_path)

# IDを軸にしてマージ
submission = pd.merge(sample_submission, predicted_data[['ID', '取引価格（総額）_log_pred']], on='ID', how='left')

# 必要な列のみを保持
submission = submission[['ID', '取引価格（総額）_log_pred']]
submission.columns = ['ID', '取引価格（総額）_log']

# ファイルの保存
submission_path = '/Users/hayakawakazue/Downloads/data/submission/submission_test_data_2024_06_26.csv'
submission.to_csv(submission_path, index=False)

# 結果の確認
print(submission.head())
print(f"予測結果を保存しました: {submission_path}")


        ID  取引価格（総額）_log
0  1000000      6.466868
1  1000056      7.057948
2  1000108      6.408814
3  1000109      6.423222
4  1000110      6.407881
予測結果を保存しました: /Users/hayakawakazue/Downloads/data/submission/submission_test_data_2024_06_26.csv


# 削除するIDを指定してフィルタリングする

In [4]:
import pandas as pd

# CSVファイルの読み込み
file_path = '/Users/hayakawakazue/Downloads/data/submission/submission_17_20_21_25.csv'
df = pd.read_csv(file_path)

# IDが指定している数字で始まる行を除外するフィルタリング
filtered_df = df[~df['ID'].astype(str).str.startswith(('21', '25'))]

# 必要なカラムのみを選択
filtered_df = filtered_df[['ID', '取引価格（総額）_log']]

# フィルタリングしたデータを新しいCSVファイルに保存
filtered_file_path = '/Users/hayakawakazue/Downloads/data/submission/filtered_submission_17_20.csv'
filtered_df.to_csv(filtered_file_path, index=False)

print(f'Filtered data saved to {filtered_file_path}')


Filtered data saved to /Users/hayakawakazue/Downloads/data/submission/filtered_submission_17_20.csv


# 保有するIDを指定しそれ以外を削除する

In [3]:
import pandas as pd

# CSVファイルの読み込み
file_path = '/Users/hayakawakazue/Downloads/data/submission/submission_42_43_44_45_46_47.csv'
df = pd.read_csv(file_path)

# IDが26, 28, 34で始まる行を保持し、それ以外を除外するフィルタリング
filtered_df = df[df['ID'].astype(str).str.startswith(('43', '44', '47'))]

# 必要なカラムのみを選択
filtered_df = filtered_df[['ID', '取引価格（総額）_log']]

# フィルタリングしたデータを新しいCSVファイルに保存
filtered_file_path = '/Users/hayakawakazue/Downloads/data/submission/filtered_submission_43_44_47.csv'
filtered_df.to_csv(filtered_file_path, index=False)

print(f'Filtered data saved to {filtered_file_path}')


Filtered data saved to /Users/hayakawakazue/Downloads/data/submission/filtered_submission_43_44_47.csv
