In [1]:
import warnings
import pandas as pd

from sklearn.metrics import mean_absolute_error

pd.set_option("display.max_columns", 50)
warnings.simplefilter("ignore")

train  = pd.read_csv("train/01.csv")
test   = pd.read_csv("test.csv")
submit = pd.read_csv("sample_submission.csv")

In [2]:
# 種類：中古マンション等のみ 必要なし
del train["種類"]
del test["種類"]

# 種類：nanのみ 必要なし
del train["地域"]
del test["地域"]

In [14]:
print("-------- Train --------")
print(train["建築年"].unique())
print()
print("-------- Test --------")
print(test["建築年"].unique())

-------- Train --------
['平成8年' '平成19年' '平成25年' '平成10年' '平成7年' '平成15年' '平成6年' '昭和64年' '平成21年'
 '平成3年' '平成18年' nan '平成11年' '平成13年' '平成16年' '昭和57年' '昭和58年' '平成2年' '平成17年'
 '昭和49年' '平成9年' '平成14年' '昭和55年' '平成5年' '平成4年' '昭和48年' '昭和53年' '昭和52年'
 '昭和62年' '昭和61年' '昭和59年' '平成24年' '昭和60年' '平成20年' '昭和56年' '昭和63年' '昭和54年'
 '平成22年' '昭和50年' '平成12年' '平成23年' '昭和45年' '平成26年' '昭和51年' '令和3年' '平成27年'
 '平成28年' '昭和46年' '昭和44年' '令和2年' '平成29年' '平成30年' '平成31年' '昭和43年' '昭和47年'
 '昭和39年' '戦前']

-------- Test --------
['昭和64年' '平成3年' '昭和61年' '昭和59年' '平成2年' '平成9年' '平成19年' '平成16年' '令和2年'
 '平成31年' '昭和49年' '昭和57年' '平成28年' '平成24年' '平成18年' '平成14年' '平成17年' '平成26年'
 '平成30年' '平成21年' '昭和45年' '平成29年' '令和3年' '平成25年' '昭和53年' '昭和60年' '昭和54年'
 '平成4年' '平成11年' '平成6年' '昭和63年' '平成5年' '平成7年' '平成8年' '昭和51年' '昭和56年'
 '昭和48年' '昭和44年' '平成15年' '平成13年' '昭和46年' '平成12年' '昭和55年' '平成27年' nan
 '昭和62年' '昭和39年' '平成20年' '平成10年' '昭和52年' '昭和58年' '平成22年' '昭和50年' '昭和47年'
 '平成23年' '令和4年' '昭和43年' '昭和42年' '昭和41年' '昭和37年' '昭和25年' '昭和40年' '戦前'
 '昭和23年']


In [None]:
def convert_wareki_to_seireki(wareki):
    if wareki == wareki:
        if wareki == '戦前':
            wareki = '昭和20年'
        value = wareki[2:-1]
        if value == '元':
            value = 1
        else:
            value = int(value)
        if '昭和' in wareki:
            seireki = 1925+value
        elif '平成' in wareki:
            seireki = 1988+value
        elif '令和' in wareki:
            seireki = 2018+value
    else:
        seireki = wareki
    return seireki

In [25]:
def convert_wareki_to_seireki(wareki):
    if wareki == wareki:
        # convert 戦前
        if wareki == "戦前":
            wareki = "昭和20年"
            
        # storing number
        value = wareki[2:-1]
        
        if value == "元":
            value = 1
        else:
            value = int(value)
        
        # convert 元号
        if "昭和" in wareki:
            seireki = 1925 + value
        elif "平成" in wareki:
            seireki = 1988 + value
        elif "令和" in wareki:
            seireki = 2018 + value    
    else:
        seireki = wareki
    return seireki

print(train["建築年"].apply(lambda x: convert_wareki_to_seireki(x)).unique())
print()
print(test["建築年"].apply(lambda x: convert_wareki_to_seireki(x)).unique())

[1996. 2007. 2013. 1998. 1995. 2003. 1994. 1989. 2009. 1991. 2006.   nan
 1999. 2001. 2004. 1982. 1983. 1990. 2005. 1974. 1997. 2002. 1980. 1993.
 1992. 1973. 1978. 1977. 1987. 1986. 1984. 2012. 1985. 2008. 1981. 1988.
 1979. 2010. 1975. 2000. 2011. 1970. 2014. 1976. 2021. 2015. 2016. 1971.
 1969. 2020. 2017. 2018. 2019. 1968. 1972. 1964. 1945.]

[1989. 1991. 1986. 1984. 1990. 1997. 2007. 2004. 2020. 2019. 1974. 1982.
 2016. 2012. 2006. 2002. 2005. 2014. 2018. 2009. 1970. 2017. 2021. 2013.
 1978. 1985. 1979. 1992. 1999. 1994. 1988. 1993. 1995. 1996. 1976. 1981.
 1973. 1969. 2003. 2001. 1971. 2000. 1980. 2015.   nan 1987. 1964. 2008.
 1998. 1977. 1983. 2010. 1975. 1972. 2011. 2022. 1968. 1967. 1966. 1962.
 1950. 1965. 1945. 1948.]


In [26]:
test["面積（㎡）"] = test["面積（㎡）"].replace("2000㎡以上", "2000").astype(int)

train["建築年"] = train["建築年"].apply(lambda x: convert_wareki_to_seireki(x))
test["建築年"]  = test["建築年"].apply(lambda x: convert_wareki_to_seireki(x))

features = ["面積（㎡）", "建築年"]

x_train = train[features]
y_train = train[["取引価格（総額）_log"]]
i_train = train[["ID"]]

x_test  = test[features]
i_test  = test[["ID"]]

In [27]:
for col in x_train.columns:
    if x_train[col].dtype == "O":
        x_train[col] = x_train[col].astype("category")

for col in x_test.columns:
    if x_test[col].dtype == "O":
        x_test[col] = x_test[col].astype("category")

In [28]:
params = {
    "boosting_type"  : "gbdt",
    "objective"      : "regression_l1",
    "metric"         : "mean_absolute_error",
    "learning_rate"  : 0.02,
    "num_leaves"     : 31,
    "n_estimators"   : 1000,
    "random_state"   : 2022,
    "importance_type": "gain"
}

In [29]:
import pickle
import numpy as np
import lightgbm as lgb

from sklearn.model_selection import KFold

df_valid_pred = pd.DataFrame()
metrics = []
df_imp  = pd.DataFrame()

n_splits = 5
cv = list(KFold(n_splits=n_splits, shuffle=True, random_state=2022).split(x_train))

for nfold, i in enumerate(cv):
    print(f"Fold: {nfold}")
    i_tr, i_va = i[0], i[1]
    x_tr, y_tr, i_tr = x_train.loc[i_tr], y_train.loc[i_tr], i_train.loc[i_tr]
    x_va, y_va, i_va = x_train.loc[i_va], y_train.loc[i_va], i_train.loc[i_va]
    print(f"train_x: {x_tr.shape}, valid_x: {x_va.shape}")
    
    print("training start!")
    model = lgb.LGBMRegressor(**params)
    model.fit(x_tr,
              y_tr,
              eval_set=[(x_tr, y_tr), (x_va, y_va)],
              early_stopping_rounds=100,
              verbose=500)
    
    with open(f"model_lgb_fold{nfold}.h5", "wb") as f:
        pickle.dump(model, f, protocol=4)
    
    # valid
    p_va = model.predict(x_va)
    tmp_pred = pd.DataFrame({"p_va": p_va, "y_va": np.array(y_va).reshape(-1)})
    df_valid_pred = pd.concat([df_valid_pred, tmp_pred], ignore_index=True)
    
    # metrics
    metric_va = mean_absolute_error(y_va, p_va)
    metrics.append([nfold, metric_va])
    
    # importance
    tmp_imp = pd.DataFrame({"col"  : x_tr.columns,
                            "imp"  : model.feature_importances_,
                            "nfold": nfold
                           })
    tmp_imp.sort_values(by="imp", ascending=False)
    df_imp = pd.concat([df_imp, tmp_imp], ignore_index=True)
    
    print()

Fold: 0
train_x: (19840, 2), valid_x: (4960, 2)
training start!
Training until validation scores don't improve for 100 rounds
[500]	training's l1: 0.135599	valid_1's l1: 0.138617
Early stopping, best iteration is:
[530]	training's l1: 0.135483	valid_1's l1: 0.138581

Fold: 1
train_x: (19840, 2), valid_x: (4960, 2)
training start!
Training until validation scores don't improve for 100 rounds
[500]	training's l1: 0.135016	valid_1's l1: 0.14259
[1000]	training's l1: 0.134266	valid_1's l1: 0.142396
Did not meet early stopping. Best iteration is:
[1000]	training's l1: 0.134266	valid_1's l1: 0.142396

Fold: 2
train_x: (19840, 2), valid_x: (4960, 2)
training start!
Training until validation scores don't improve for 100 rounds
[500]	training's l1: 0.136739	valid_1's l1: 0.136582
[1000]	training's l1: 0.135997	valid_1's l1: 0.136104
Did not meet early stopping. Best iteration is:
[1000]	training's l1: 0.135997	valid_1's l1: 0.136104

Fold: 3
train_x: (19840, 2), valid_x: (4960, 2)
training star

In [30]:
df_metrics = pd.DataFrame(metrics, columns=["nfold", "mae"])
mae_mean = df_metrics["mae"].mean()
print(f"MAE: {round(mae_mean, 6)}")

MAE: 0.138561


In [31]:
np.abs(df_valid_pred["y_va"] - df_valid_pred["p_va"]).mean()

0.1385607810559552

# cv: 0.138808 → 0.138561
# public_score: 0.3275