In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import subprocess
!pip install shap
!pip install --upgrade shap

try:
    import japanize_matplotlib
    print("japanize_matplotlib is already installed.")
except ImportError:
    !pip install japanize_matplotlib
    print("japanize_matplotlib has been installed.")

try:
    import catboost
    print("catboost is already installed.")
except ImportError:
    !pip install catboost
    print("catboost has been installed.")

try:
    import optuna
    print("optuna is already installed.")
except ImportError:
    !pip install optuna
    print("optuna has been installed.")

try:
    import geolib
    print("geolib is already installed.")
except ImportError:
    !pip install geolib
    print("geolib has been installed.")

# mkdirとechoコマンドの実行
try:
    subprocess.check_call('mkdir -p /etc/OpenCL/vendors && echo "libnvidia-opencl.so.1" > /etc/OpenCL/vendors/nvidia.icd', shell=True)
    print('Directory and file for OpenCL vendors have been created.')
except subprocess.CalledProcessError as e:
    print(f"Error running mkdir and echo command: {e}")

Collecting shap
  Downloading shap-0.46.0-cp310-cp310-manylinux_2_12_x86_64.manylinux2010_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (24 kB)
Collecting slicer==0.0.8 (from shap)
  Downloading slicer-0.0.8-py3-none-any.whl.metadata (4.0 kB)
Downloading shap-0.46.0-cp310-cp310-manylinux_2_12_x86_64.manylinux2010_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl (540 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m540.1/540.1 kB[0m [31m9.9 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading slicer-0.0.8-py3-none-any.whl (15 kB)
Installing collected packages: slicer, shap
Successfully installed shap-0.46.0 slicer-0.0.8
Collecting japanize_matplotlib
  Downloading japanize-matplotlib-1.1.3.tar.gz (4.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m4.1/4.1 MB[0m [31m31.4 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: japanize_matplotlib
  Building w

In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import japanize_matplotlib
import joblib
import json

import sys
sys.path.append('/content/drive/MyDrive/yuto/project_directory/code')

from utils import (ProcessData,
                   trans_chara,
                   fill_missing_values,
                   fill_missing_with_mode,
                   find_nearest_station_main_table,
                   calculate_distance,
                   convert_kanji_to_fullwidth_2,
                   encode_geohash,
                   to_cat_col,
                   TreeExecution,
                   VotingModel,
                   submisson_datetime,
                   check_dataframe_elements
                   )

TOTAL_PRICE_LOG="取引価格（総額）_log"
PRICE_PER_AREA_LOG="単位面積あたりの取引価格_log"

TARGET="取引価格（総額）_log"

Dask dataframe query planning is disabled because dask-expr is not installed.

You can install it with `pip install dask[dataframe]` or `conda install dask`.
This will raise in a future version.



In [4]:
df=pd.read_csv("/content/drive/MyDrive/yuto/project_directory/data/intermediate_results/checkpoints/preprocess_main_table.csv",index_col=0)
df=df[['dataset', 'ID', '価格情報区分', '都道府県名', '市区町村名', '地区名', '住所不一致_Flag', '住所',
       '最寄駅：名称', '最寄駅：距離（分）', '徒歩時間_10分単位', 'x_api', 'y_api', 'lon', 'lat',
       '間取り', '面積（㎡）', '建築年', '建物の構造', '用途', '今後の利用目的', '都市計画', '建ぺい率（％）',
       '容積率（％）', '取引時点', '改装', '取引の事情等', '取引価格（総額）_log', '建築西暦年', '築年数',
       'log_面積（㎡）', '購入までの築年数', '面積（㎡）-最寄駅：距離（分）', '面積（㎡）-築年数',
       '面積（㎡）容積率（％）_combi', '旧耐震フラグ', '最寄駅までの距離', 'geohash_2', 'geohash_3',
       'geohash_4', 'geohash_5', 'geohash_6', 'geohash_7', '県_市_count',
       '建築年_count', '県_市_geohash_2_駅数', '県_市_geohash_3_駅数', '県_市_geohash_4_駅数',
       '県_市_geohash_5_駅数', '県_市_geohash_6_駅数', '県_市_geohash_7_駅数',
       '県_市_geohash_2_駅徒歩時間平均', '県_市_geohash_2_建築年平均', '県_市_geohash_3_駅徒歩時間平均',
       '県_市_geohash_3_建築年平均', '県_市_geohash_4_駅徒歩時間平均', '県_市_geohash_4_建築年平均',
       '県_市_geohash_5_駅徒歩時間平均', '県_市_geohash_5_建築年平均', '県_市_geohash_6_駅徒歩時間平均',
       '県_市_geohash_6_建築年平均', '県_市_geohash_7_駅徒歩時間平均', '県_市_geohash_7_建築年平均']]


In [5]:
# データフレームを分割
df_train = df[df['dataset'] == 'train'].set_index('ID')
df_test = df[df['dataset'] == 'test'].set_index('ID')

# datasetカラムを削除
df_train = df_train.drop(columns=['dataset'])
df_test = df_test.drop(columns=['dataset'])

df_train,cat_cols=to_cat_col(df_train)

# インデックスを読み込み
# インデックスを読み込み
train_index = np.load('/content/drive/MyDrive/yuto/project_directory/data/intermediate_results/checkpoints/train_index.npy')
test_index = np.load('/content/drive/MyDrive/yuto/project_directory/data/intermediate_results/checkpoints/test_index.npy')
print(train_index)
print(test_index)
# インデックスを設定して順序を再現
df_train = df_train.loc[train_index]
df_test = df_test.loc[test_index]

print("Train DataFrame:")
print(df_train)
print("\nTest DataFrame:")
print(df_test)

[37000457 37011047 37018527 ...  6008180  6006734  6009259]
[ 1000107  1000109  1000112 ... 47037850 47037855 47037856]
Train DataFrame:
             価格情報区分 都道府県名     市区町村名   地区名  住所不一致_Flag             住所 最寄駅：名称  \
ID                                                                            
37000457     成約価格情報   香川県       高松市   西宝町           0      香川県高松市西宝町    昭和町   
37011047  不動産取引価格情報   香川県       高松市    桜町           0       香川県高松市桜町     栗林   
37018527  不動産取引価格情報   香川県       丸亀市   中府町           0      香川県丸亀市中府町     丸亀   
37013457  不動産取引価格情報   香川県       高松市    錦町           0       香川県高松市錦町     高松   
37037251     成約価格情報   香川県  仲多度郡多度津町    本通           0  香川県仲多度郡多度津町本通    多度津   
...             ...   ...       ...   ...         ...            ...    ...   
6018727   不動産取引価格情報   山形県       酒田市    幸町           0       山形県酒田市幸町     酒田   
6001936   不動産取引価格情報   山形県       山形市   十日町           0      山形県山形市十日町     山形   
6008180   不動産取引価格情報   山形県       山形市  小荷駄町           0     山形県山形市小荷駄町     

In [6]:
#print(abc)

In [7]:
tree_class=TreeExecution(df_train,y_name=TARGET,cat_cols=cat_cols)
#model_lgbm=tree_class.lightgbm_simple()
fitted_models_lgbm,mae_score,oof_df=tree_class.lightgbm_l1_cv_tg()

Output hidden; open in https://colab.research.google.com to view.

In [8]:
oof_df.to_csv("/content/drive/MyDrive/yuto/project_directory/data/cv_predictions/sub_oof_lgbm_l1_cv_tg.csv")
oof_df

Unnamed: 0_level_0,target,pred_lgbm
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
37000457,7.361728,7.278978
37011047,6.278754,6.339059
37018527,7.278754,7.212331
37013457,7.255273,7.210788
37037251,6.623249,6.740825
...,...,...
6018727,7.579784,7.545260
6001936,6.477121,6.552850
6008180,7.431364,7.333372
6006734,7.176091,7.042474


In [9]:
#model_cat=VotingModel(fitted_models_cat,cat_cols)
model_lgbm = VotingModel(fitted_models_lgbm,cat_cols)
#model_xg=VotingModel(fitted_models_xg,cat_cols)
#y_pred_cat=pd.Series(model_cat.predict_cat(df_test.drop(f"{TARGET}",axis=1)),index=df_test.index)
y_pred_lgbm=pd.Series(model_lgbm.predict_lgbm(df_test.drop(f"{TOTAL_PRICE_LOG}",axis=1)),index=df_test.index)
#y_pred_xg=pd.Series(model_xg.predict_xg(df_test_tree.drop("取引価格（総額）_log",axis=1)),index=df_test_tree.index)


y_pred=y_pred_lgbm
# 単位面積あたりの取引価格の対数から10のべき乗を取る
#price_per_area = 10**y_pred_lgbm
# その値に面積を掛けて、取引価格（総額）を計算
#predicted_price_total = price_per_area * df_test_tree00["面積（㎡）"]
# 取引価格（総額）の対数を計算
#y_pred= np.log10(predicted_price_total)
#y_pred=y_pred.rename(columns={"面積（㎡）":"取引価格（総額）_log"})
# Seriesの名前を変更
y_pred.name = "取引価格（総額）_log"

#y_pred=y_pred_cat
#y_pred=y_pred_lgbm
# y_predをデータフレームに変換
df_pred = pd.DataFrame(y_pred, columns=["取引価格（総額）_log"])
#print(df_pred)
#print("--------------------------------------------------------------------------------")
# インデックスをリセットし、カラム名を'ID'に変更
#df_pred.reset_index(inplace=True)
#print(df_pred)
#print("--------------------------------------------------------------------------------")
#df_pred.rename(columns={'index': 'ID'}, inplace=True)
#print(df_pred)
#print("--------------------------------------------------------------------------------")

# 結果を表示
print(df_pred)

now_str=submisson_datetime()
df_pred.to_csv("/content/drive/MyDrive/yuto/project_directory/data/intermediate_results/one_model_predictions/sub_test_lgbm_l1_cv_tg.csv")


          取引価格（総額）_log
ID                    
1000107       6.775977
1000109       7.321303
1000112       6.670467
1000114       6.476497
1000117       7.405344
...                ...
47036620      7.534591
47037115      7.455753
47037850      7.256834
47037855      7.519464
47037856      7.565352

[54402 rows x 1 columns]


In [10]:
df_sub=pd.read_csv("/content/drive/MyDrive/yuto/project_directory/data/intermediate_results/one_model_predictions/test_l1_tg20240910_144521.csv",index_col=0)
df_sub

Unnamed: 0_level_0,取引価格（総額）_log
ID,Unnamed: 1_level_1
1000107,6.775977
1000109,7.321303
1000112,6.670467
1000114,6.476497
1000117,7.405344
...,...
47036620,7.534591
47037115,7.455753
47037850,7.256834
47037855,7.519464


In [11]:
def ML_Record(df, model, cv_score, now_str, model_name):
    # 例として、取得したカラム名のリスト
    columns = df.columns.tolist()

    # モデルがアンサンブルか単一のモデルかをチェック
    if hasattr(model, 'estimators'):
        # 各estimatorのパラメータを取得し、全て同じかチェック
        params_list = [estimator.get_params() for estimator in model.estimators]
        # 最初のモデルのパラメータを基準に比較
        base_params = params_list[0]
        all_same = all(params == base_params for params in params_list)

        if all_same:
            print("All estimators have the same parameters.")
        else:
            print("Not all estimators have the same parameters.")

        # 各estimatorのパラメータを表示
        for i, params in enumerate(params_list):
            print(f"Estimator {i} parameters: {params}")
    else:
        # 単一のモデルの場合
        base_params = model.get_params()
        print("Single model parameters:", base_params)

    # ピリオドをアンダースコアに置き換えたファイル名
    cv_score_str = str(cv_score).replace(".", "_")

    # モデルの保存
    joblib.dump(model, f"/content/drive/MyDrive/yuto/project_directory/models/sub_model_{model_name}_{cv_score_str}.pkl")

    # jsonファイル作成
    data_to_save = {
        'columns': columns,
        f'{model_name}_params': base_params,
        'cv_score': cv_score,
        'lb_score': None
    }
    filename = f"/content/drive/MyDrive/yuto/project_directory/data/model_params/sub_model_{model_name}_{cv_score_str}.json"
    with open(filename, 'w', encoding='utf-8') as f:
        json.dump(data_to_save, f, ensure_ascii=False, indent=4)

In [12]:
ML_Record(df_train, model_lgbm, mae_score, now_str, model_name="lgbm_l1_cv_tg")

All estimators have the same parameters.
Estimator 0 parameters: {'boosting_type': 'gbdt', 'class_weight': None, 'colsample_bytree': 0.25115722950204683, 'importance_type': 'split', 'learning_rate': 0.04475736155212619, 'max_depth': 146, 'min_child_samples': 594, 'min_child_weight': 8.279252981359091, 'min_split_gain': 0.7386917462339693, 'n_estimators': 48260, 'n_jobs': None, 'num_leaves': 31, 'objective': 'l1', 'random_state': 42, 'reg_alpha': 0.0, 'reg_lambda': 0.0, 'subsample': 0.6115829632198598, 'subsample_for_bin': 200000, 'subsample_freq': 0, 'metrics': 'mae', 'boost_from_average': False, 'verbose': -1, 'colsample_bynode': 0.23761739079852606, 'bagging_fraction': 0.9163657118215358, 'feature_fraction': 0.5366140292624185, 'max_bin': 1728, 'epsilon': 7.743499163314079, 'alpha': 0.7814548201134592, 'min_sum_hessian_in_leaf': 0.05058971217721564}
Estimator 1 parameters: {'boosting_type': 'gbdt', 'class_weight': None, 'colsample_bytree': 0.25115722950204683, 'importance_type': 'spl