##### 対数をとるのは、価格が高い家の予測誤差も、価格が低い家の予測誤差も等しく結果に影響するようにするため。RMSEだと、予測値と実際の値の差が非常に大きいデータがあった場合に、他の予測精度がよかったとしても、差が大きくなってしまったデータに全体の予測精度が大きく影響を受ける。一方で、正解値、予測値それぞれの対数をとることで、予測値・実際の値およびその値の差が小さくなり、あるデータの評価が全体に及ぼす影響を比較的小さくすることができる。

In [1]:
import warnings
import pandas as pd
import numpy as np

from sklearn.metrics import mean_absolute_error

pd.set_option("display.max_columns", 50)
warnings.simplefilter("ignore")

test   = pd.read_csv("test.csv")
submit = pd.read_csv("sample_submission.csv")

train = pd.DataFrame()

# extraction train data
for i in range(1, 48):
    if i < 10:
        train = pd.concat([train, pd.read_csv(f"train/0{i}.csv")])
    else:
        train = pd.concat([train, pd.read_csv(f"train/{i}.csv")])


# function for reduce memory
def reduce_mem_usage(df):
    start_mem = df.memory_usage().sum() / 1024**2
    print('Memory usage of dataframe is {:.2f} MB'.format(start_mem))
    
    for col in df.columns:
        col_type = df[col].dtype
        
        if col_type != object:
            c_min = df[col].min()
            c_max = df[col].max()
            if str(col_type)[:3] == 'int':
                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8)
                elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max:
                    df[col] = df[col].astype(np.int16)
                elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max:
                    df[col] = df[col].astype(np.int32)
                elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max:
                    df[col] = df[col].astype(np.int64)  
            else:
                if c_min > np.finfo(np.float16).min and c_max < np.finfo(np.float16).max:
                    df[col] = df[col].astype(np.float16)
                elif c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max:
                    df[col] = df[col].astype(np.float32)
                else:
                    df[col] = df[col].astype(np.float64)
        else:
            pass

    end_mem = df.memory_usage().sum() / 1024**2
    print('Memory usage after optimization is: {:.2f} MB'.format(end_mem))
    print('Decreased by {:.1f}%'.format(100 * (start_mem - end_mem) / start_mem))
    
    return df

train = reduce_mem_usage(train)

train = train.reset_index(drop=True)

df = pd.concat([train, test])

Memory usage of dataframe is 163.00 MB
Memory usage after optimization is: 144.73 MB
Decreased by 11.2%


In [2]:
# ------ 建築年 ------
def convert_wareki_to_seireki(wareki):
    if wareki == wareki:
        # convert 戦前
        if wareki == "戦前":
            wareki = "昭和20年"
            
        # storing number
        value = wareki[2:-1]
        
        if value == "元":
            value = 1
        else:
            value = int(value)
        
        # convert 元号
        if "昭和" in wareki:
            seireki = 1925 + value
        elif "平成" in wareki:
            seireki = 1988 + value
        elif "令和" in wareki:
            seireki = 2018 + value    
    else:
        seireki = wareki
    return seireki

# 特徴エンジニアリング

In [3]:
# Basic feature enginnering

# ------ 面積（㎡） ------
df["面積（㎡）"] = df["面積（㎡）"].replace("2000㎡以上", "2000").astype(int)

# ------ 建築年 ------ datatype: int
df["建築年"] = df["建築年"].apply(lambda x: convert_wareki_to_seireki(x))

# ------ 最寄駅：距離（分） ------
df["最寄駅：距離（分）"] = df["最寄駅：距離（分）"].replace(["30分?60分","1H?1H30","1H30?2H", "2H?"], ["45","75","105","120"])

# ------ 市区町村コード ------
df["市区町村コード"] = df["市区町村コード"].astype("category")

# --------------------------------------------------------
# 取引時点  ---  取引時点_enc

enc_dic = {}

for i, e in enumerate(sorted(list(set(df["取引時点"])))):
    enc_dic[e] = i

df["取引時点_enc"] = df["取引時点"].map(enc_dic)

In [4]:
df.isnull().sum()

ID                   0
種類                   0
地域              758115
市区町村コード              0
都道府県名                0
市区町村名                0
地区名                671
最寄駅：名称            2752
最寄駅：距離（分）        23178
間取り              27916
面積（㎡）                0
土地の形状           758115
間口              758115
延床面積（㎡）         758115
建築年              22108
建物の構造            21221
用途               80518
今後の利用目的         367504
前面道路：方位         758115
前面道路：種類         758115
前面道路：幅員（ｍ）      758115
都市計画             20328
建ぺい率（％）          24861
容積率（％）           24861
取引時点                 0
改装               73123
取引の事情等          738867
取引価格（総額）_log     21405
取引時点_enc             0
dtype: int64

In [5]:
df.dtypes

ID                 int64
種類                object
地域               float64
市区町村コード         category
都道府県名             object
市区町村名             object
地区名               object
最寄駅：名称            object
最寄駅：距離（分）         object
間取り               object
面積（㎡）              int64
土地の形状            float64
間口               float64
延床面積（㎡）          float64
建築年              float64
建物の構造             object
用途                object
今後の利用目的           object
前面道路：方位          float64
前面道路：種類          float64
前面道路：幅員（ｍ）       float64
都市計画              object
建ぺい率（％）          float64
容積率（％）           float64
取引時点              object
改装                object
取引の事情等            object
取引価格（総額）_log     float16
取引時点_enc           int64
dtype: object

In [9]:
# 15
features = ["都道府県名","面積（㎡）","建築年","最寄駅：距離（分）","最寄駅：名称","市区町村コード",
            "地区名","間取り","建物の構造","用途","今後の利用目的","都市計画","改装",
             "取引の事情等","取引時点_enc"]

train = df.iloc[:len(train)].copy()
test  = df.iloc[len(train):].copy()

x_train = train[features]
y_train = train[["取引価格（総額）_log"]]

x_test  = test[features]

# if you want to use to change the type of data--------------------------------------------------------

# for col in df.columns:
#     if df[col].dtype == "O":
#         df[col] = df[col].astype("category")

In [67]:
x_train.dtypes

都道府県名              object
面積（㎡）               int64
建築年               float64
最寄駅：距離（分）           int64
最寄駅：名称           category
市区町村コード          category
地区名                object
間取り                object
建物の構造              object
用途                 object
今後の利用目的            object
都市計画               object
改装                 object
取引の事情等             object
取引時点_enc            int64
取引価格（総額）_log      float16
最寄駅：名称_enc          int64
取引価格（総額）          float16
最寄駅：名称_target     float64
市区町村コード_enc         int64
市区町村_target       float64
地区名_enc             int64
地区名_target        float16
間取り_enc             int64
建物の構造_enc           int64
dtype: object

In [72]:
x_train.isnull().sum()

都道府県名                 0
面積（㎡）                 0
建築年                   0
最寄駅：距離（分）             0
最寄駅：名称                0
市区町村コード               0
地区名                   0
間取り                   0
建物の構造                 0
用途                    0
今後の利用目的               0
都市計画              18440
改装                69339
取引の事情等           715116
取引時点_enc              0
取引価格（総額）_log          0
最寄駅：名称_enc            0
取引価格（総額）              0
最寄駅：名称_target         0
市区町村コード_enc           0
市区町村_target           0
地区名_enc               0
地区名_target            0
間取り_enc               0
建物の構造_enc             0
用途_enc                0
今後の利用目的_enc           0
dtype: int64

In [12]:
pd.concat([x_train, y_train], axis=1).corr()

Unnamed: 0,面積（㎡）,建築年,取引時点_enc,取引価格（総額）_log
面積（㎡）,1.0,0.052178,-0.017275,0.368999
建築年,0.052178,1.0,0.136947,0.540332
取引時点_enc,-0.017275,0.136947,1.0,0.110127
取引価格（総額）_log,0.368999,0.540332,0.110127,1.0


# 建築年

In [22]:
# remove null
median = df.groupby("市区町村コード")["建築年"].agg(["median"]).reset_index()

x_train  = pd.merge(x_train, median, on="市区町村コード", how="left")
x_test   = pd.merge(x_test, median, on="市区町村コード", how="left")

x_train.loc[x_train["建築年"].isnull(), "建築年"] = x_train["median"]
x_test.loc[x_test["建築年"].isnull(), "建築年"] = x_test["median"]

# 1つ 福岡県のデータが nan のため、大体の県平均で補完
x_train.loc[x_train["建築年"].isnull(), "建築年"] = 1995.0

del x_train["median"]
del x_test["median"]
del median

# 最寄駅：距離（分）

In [60]:
# remove null

data = df[~df["最寄駅：距離（分）"].isnull()]
data["最寄駅：距離（分）"] = data["最寄駅：距離（分）"].astype(int)

dis_station  = data.groupby("最寄駅：名称")["最寄駅：距離（分）"].agg(["mean"]).reset_index()
dis_areaname = data.groupby("市区町村名")["最寄駅：距離（分）"].agg(["mean"]).reset_index()
dis_district = data.groupby("地区名")["最寄駅：距離（分）"].agg(["mean"]).reset_index()
dis_cityplan = data.groupby("都市計画")["最寄駅：距離（分）"].agg(["mean"]).reset_index()
dis_usage    = data.groupby("用途")["最寄駅：距離（分）"].agg(["mean"]).reset_index()


train = pd.merge(train, dis_station, on="最寄駅：名称", how="left").rename(columns={"mean":"最寄駅_mean"})
test  = pd.merge(test, dis_station, on="最寄駅：名称", how="left").rename(columns={"mean":"最寄駅_mean"})

train = pd.merge(train, dis_areaname, on="市区町村名", how="left").rename(columns={"mean":"市区町村_mean"})
test  = pd.merge(test, dis_areaname, on="市区町村名", how="left").rename(columns={"mean":"市区町村_mean"})

train = pd.merge(train, dis_district, on="地区名", how="left").rename(columns={"mean":"地区_mean"})
test  = pd.merge(test, dis_district, on="地区名", how="left").rename(columns={"mean":"地区_mean"})

train = pd.merge(train, dis_cityplan, on="都市計画", how="left").rename(columns={"mean":"都市計画_mean"})
test  = pd.merge(test, dis_cityplan, on="都市計画", how="left").rename(columns={"mean":"都市計画_mean"})

train = pd.merge(train, dis_usage, on="用途", how="left").rename(columns={"mean":"用途_mean"})
test  = pd.merge(test, dis_usage, on="用途", how="left").rename(columns={"mean":"用途_mean"})


x_train.loc[x_train["最寄駅：距離（分）"].isnull(), "最寄駅：距離（分）"] = train["最寄駅_mean"]
x_train.loc[x_train["最寄駅：距離（分）"].isnull(), "最寄駅：距離（分）"] = train["市区町村_mean"]
x_train.loc[x_train["最寄駅：距離（分）"].isnull(), "最寄駅：距離（分）"] = train["地区_mean"]
x_train.loc[x_train["最寄駅：距離（分）"].isnull(), "最寄駅：距離（分）"] = train["都市計画_mean"]
x_train.loc[x_train["最寄駅：距離（分）"].isnull(), "最寄駅：距離（分）"] = train["用途_mean"]

x_test.loc[x_test["最寄駅：距離（分）"].isnull(), "最寄駅：距離（分）"] = test["最寄駅_mean"]
x_test.loc[x_test["最寄駅：距離（分）"].isnull(), "最寄駅：距離（分）"] = test["市区町村_mean"]
x_test.loc[x_test["最寄駅：距離（分）"].isnull(), "最寄駅：距離（分）"] = test["地区_mean"]
x_test.loc[x_test["最寄駅：距離（分）"].isnull(), "最寄駅：距離（分）"] = test["都市計画_mean"]
x_test.loc[x_test["最寄駅：距離（分）"].isnull(), "最寄駅：距離（分）"] = test["用途_mean"]

x_train["最寄駅：距離（分）"] = x_train["最寄駅：距離（分）"].astype(int)
x_test["最寄駅：距離（分）"]  = x_test["最寄駅：距離（分）"].astype(int)

del data, dis_station, dis_areaname, dis_district, dis_cityplan, dis_usage 

target = x_train.groupby("最寄駅：距離（分）")["取引価格（総額）"].mean()
x_train["最寄駅：距離（分）_target"] = x_train["最寄駅：距離（分）"].map(target)
x_test["最寄駅：距離（分）_target"] = x_test["最寄駅：距離（分）"].map(target)

del target

print(x_train.isnull().sum())
print()
print(x_test.isnull().sum())

# 最寄駅：名称

In [39]:
# concat target
x_train = pd.concat([x_train, y_train], axis=1)

# remove the nulldata
x_train = x_train[~x_train["最寄駅：名称"].isnull()].reset_index(drop=True)

# remove null
x_test.iloc[21267, 4] = "別府大学"
x_test.iloc[21385, 4] = "美栄橋" 
x_test.iloc[21389, 4] = "奥武山公園"
x_test.iloc[21394, 4] = "金沢"
x_test.iloc[21397, 4] = "安里"
x_test.iloc[21399, 4] = "浦添前田"
x_test.iloc[21400, 4] = "コザ"
x_test.iloc[21401, 4] = "大里"
x_test.iloc[21402, 4] = "コザ"
x_test.iloc[21403, 4] = "比屋根"
x_test.iloc[21404, 4] = "与儀"

In [91]:
# from sklearn.preprocessing import LabelEncoder

# a = list(x_train["最寄駅：名称"].unique())
# b = list(x_test["最寄駅：名称"].unique())

# le = LabelEncoder()
# le.fit(a+b)
# print(le.classes_.shape)

# x_train["最寄駅：名称_enc"] = le.transform(x_train["最寄駅：名称"])
# x_test["最寄駅：名称_enc"] = le.transform(x_test["最寄駅：名称"])

# # convert the type of data to category
# x_train["最寄駅：名称"] = x_train["最寄駅：名称"].astype("category")
# x_test["最寄駅：名称"] = x_test["最寄駅：名称"].astype("category")

# -------- target endocing 
x_train["取引価格（総額）"] = np.exp(x_train["取引価格（総額）_log"])
target = x_train.groupby("最寄駅：名称")["取引価格（総額）"].mean()

x_train["最寄駅：名称_target"] = x_train["最寄駅：名称"].map(target)
x_test["最寄駅：名称_target"] = x_test["最寄駅：名称"].map(target)

x_test["最寄駅：名称_target"].iloc[[1325]] = 1264.0
x_test["最寄駅：名称_target"].iloc[[15935]] = 1320.0
x_test["最寄駅：名称_target"].iloc[[19837]] = 1275.0
x_test.iloc[21400:21405]["最寄駅：名称_target"] = 1174.0

# del target

In [None]:
# 市区町村_target       5
# 地区名_target       30

# 市区町村コード（市区町村名も同じユニーク数）

In [44]:
# label encode
le = LabelEncoder()
le.fit(list(x_train["市区町村コード"])+list(x_test["市区町村コード"]))
print(le.classes_.shape)

x_train["市区町村コード_enc"] = le.transform(x_train["市区町村コード"]).astype(int)
x_test["市区町村コード_enc"] = le.transform(x_test["市区町村コード"]).astype(int)

# target encode
target = x_train.groupby("市区町村コード")["取引価格（総額）"].mean()
x_train["市区町村_target"] = x_train["市区町村コード"].map(target)
x_test["市区町村_target"] = x_test["市区町村コード"].map(target)

x_test["市区町村_target"].fillna(1502.0, inplace=True)

del target

(615,)


# 地区名

In [48]:
# fill na
x_train["地区名"] = x_train["地区名"].fillna(x_train["最寄駅：名称"])
x_test.loc[x_test["地区名"].isnull(), "地区名"] = "鶴見"

# label encode
le = LabelEncoder()
le.fit(list(x_train["地区名"])+list(x_test["地区名"]))
print(le.classes_.shape)

x_train["地区名_enc"] = le.transform(x_train["地区名"]).astype(int)
x_test["地区名_enc"] = le.transform(x_test["地区名"]).astype(int)

# convert the type of data to category
x_train["最寄駅：名称"] = x_train["最寄駅：名称"].astype("category")
x_test["最寄駅：名称"] = x_test["最寄駅：名称"].astype("category")

# target encode
x_train["取引価格（総額）"] = np.exp(x_train["取引価格（総額）_log"])
target = x_train.groupby("地区名")["取引価格（総額）"].mean()

x_train["地区名_target"] = x_train["地区名"].map(target)
x_test["地区名_target"] = x_test["地区名"].map(target)

x_test["地区名_target"].iloc[2258:2261] = 1268.0
x_test["地区名_target"].iloc[12783] = 1128.0
x_test["地区名_target"].fillna(1200.0, inplace=True)

del target

(12222,)


# 間取り

In [56]:
x_train["間取り"].fillna("missing", inplace=True)
x_test["間取り"].fillna("missing", inplace=True)

# label encode
le = LabelEncoder()
le.fit(list(x_train["間取り"])+list(x_test["間取り"]))
print(le.classes_.shape)

x_train["間取り_enc"] = le.transform(x_train["間取り"]).astype(int)
x_test["間取り_enc"] = le.transform(x_test["間取り"]).astype(int)

# convert the type of data to category
x_train["間取り"] = x_train["間取り"].astype("category")
x_test["間取り"] = x_test["間取り"].astype("category")

(67,)


# 建物の構造

In [58]:
x_train["建物の構造"].fillna("missing", inplace=True)
x_test["建物の構造"].fillna("missing", inplace=True)

# label encode
le = LabelEncoder()
le.fit(list(x_train["建物の構造"])+list(x_test["建物の構造"]))
print(le.classes_.shape)

x_train["建物の構造_enc"] = le.transform(x_train["建物の構造"]).astype(int)
x_test["建物の構造_enc"] = le.transform(x_test["建物の構造"]).astype(int)

# convert the type of data to category
x_train["建物の構造"] = x_train["建物の構造"].astype("category")
x_test["建物の構造"] = x_test["建物の構造"].astype("category")

# 用途

In [70]:
x_train["用途"].fillna("missing", inplace=True)
x_test["用途"].fillna("missing", inplace=True)

# label encode
le = LabelEncoder()
le.fit(list(x_train["用途"])+list(x_test["用途"]))
print(le.classes_.shape)

x_train["用途_enc"] = le.transform(x_train["用途"]).astype(int)
x_test["用途_enc"] = le.transform(x_test["用途"]).astype(int)

# convert the type of data to category
x_train["用途"] = x_train["用途"].astype("category")
x_test["用途"] = x_test["用途"].astype("category")

(24,)


# 今後の利用目的

In [71]:
# オープンフロア　（店舗／事務所）
# train data
x_train["今後の利用目的"][(x_train["間取り"] == "オープンフロア") & (x_train["今後の利用目的"].isnull())] = x_train["今後の利用目的"].value_counts().index[2] + "/" + x_train["今後の利用目的"].value_counts().index[3]
x_train["今後の利用目的"][(x_train["間取り"] == "１Ｋ") & (x_train["今後の利用目的"].isnull())] = x_train["今後の利用目的"].value_counts().index[0] + "/" + x_train["今後の利用目的"].value_counts().index[1]
x_train["今後の利用目的"][(x_train["間取り"] == "１ＬＤＫ") & (x_train["今後の利用目的"].isnull())] = x_train["今後の利用目的"].value_counts().index[0] + "/" + x_train["今後の利用目的"].value_counts().index[1]
x_train["今後の利用目的"][(x_train["間取り"] == "missing") & (x_train["今後の利用目的"].isnull())] = x_train["今後の利用目的"].value_counts().index[0] + "/" + x_train["今後の利用目的"].value_counts().index[1]
x_train["今後の利用目的"][(x_train["間取り"] == "２ＤＫ") & (x_train["今後の利用目的"].isnull())] = x_train["今後の利用目的"].value_counts().index[0] + "/" + x_train["今後の利用目的"].value_counts().index[1]
x_train["今後の利用目的"][(x_train["間取り"] == "１ＤＫ") & (x_train["今後の利用目的"].isnull())] = x_train["今後の利用目的"].value_counts().index[0] + "/" + x_train["今後の利用目的"].value_counts().index[1]
x_train["今後の利用目的"][(x_train["間取り"] == "１Ｒ") & (x_train["今後の利用目的"].isnull())] = x_train["今後の利用目的"].value_counts().index[0] + "/" + x_train["今後の利用目的"].value_counts().index[1]
x_train["今後の利用目的"][(x_train["間取り"] == "２Ｋ") & (x_train["今後の利用目的"].isnull())] = x_train["今後の利用目的"].value_counts().index[0] + "/" + x_train["今後の利用目的"].value_counts().index[1]

# test data
x_test["今後の利用目的"][(x_test["間取り"] == "オープンフロア") & (x_test["今後の利用目的"].isnull())] = x_train["今後の利用目的"].value_counts().index[2] + "/" + x_train["今後の利用目的"].value_counts().index[3]
x_test["今後の利用目的"][(x_test["間取り"] == "１Ｋ") & (x_test["今後の利用目的"].isnull())] = x_train["今後の利用目的"].value_counts().index[0] + "/" + x_train["今後の利用目的"].value_counts().index[1]
x_test["今後の利用目的"][(x_test["間取り"] == "１ＬＤＫ") & (x_test["今後の利用目的"].isnull())] = x_train["今後の利用目的"].value_counts().index[0] + "/" + x_train["今後の利用目的"].value_counts().index[1]
x_test["今後の利用目的"][(x_test["間取り"] == "missing") & (x_test["今後の利用目的"].isnull())] = x_train["今後の利用目的"].value_counts().index[0] + "/" + x_train["今後の利用目的"].value_counts().index[1]
x_test["今後の利用目的"][(x_test["間取り"] == "２ＤＫ") & (x_test["今後の利用目的"].isnull())] = x_train["今後の利用目的"].value_counts().index[0] + "/" + x_train["今後の利用目的"].value_counts().index[1]
x_test["今後の利用目的"][(x_test["間取り"] == "１ＤＫ") & (x_test["今後の利用目的"].isnull())] = x_train["今後の利用目的"].value_counts().index[0] + "/" + x_train["今後の利用目的"].value_counts().index[1]
x_test["今後の利用目的"][(x_test["間取り"] == "１Ｒ") & (x_test["今後の利用目的"].isnull())] = x_train["今後の利用目的"].value_counts().index[0] + "/" + x_train["今後の利用目的"].value_counts().index[1]
x_test["今後の利用目的"][(x_test["間取り"] == "２Ｋ") & (x_test["今後の利用目的"].isnull())] = x_train["今後の利用目的"].value_counts().index[0] + "/" + x_train["今後の利用目的"].value_counts().index[1]

x_train["今後の利用目的"].fillna(x_train["今後の利用目的"].value_counts().index[0], inplace=True)
x_test["今後の利用目的"].fillna(x_train["今後の利用目的"].value_counts().index[0], inplace=True)

# label encode
le = LabelEncoder()
le.fit(list(x_train["今後の利用目的"])+list(x_test["今後の利用目的"]))
print(le.classes_.shape)

x_train["今後の利用目的_enc"] = le.transform(x_train["今後の利用目的"]).astype(int)
x_test["今後の利用目的_enc"] = le.transform(x_test["今後の利用目的"]).astype(int)

# convert the type of data to category
x_train["今後の利用目的"] = x_train["今後の利用目的"].astype("category")
x_test["今後の利用目的"] = x_test["今後の利用目的"].astype("category")

(9,)


# 都市計画

In [82]:
from tqdm import tqdm

areas = set(list(x_train["地区名"].unique()) + list(x_test["地区名"].unique()))

# fill na
for area in tqdm(areas):
    if len(x_train[x_train["地区名"] == area]["都市計画"].value_counts()) > 0:
        x_train.loc[(x_train["地区名"] == area) & (x_train["都市計画"].isnull()), "都市計画"] = x_train[x_train["地区名"] == area]["都市計画"].value_counts().index[0]
    else:
        x_train.loc[(x_train["地区名"] == area) & (x_train["都市計画"].isnull()), "都市計画"] = "商業地域"

# fill na
for area in tqdm(areas):
    if len(x_test[x_test["地区名"] == area]["都市計画"].value_counts()) > 0:
        x_test.loc[(x_test["地区名"] == area) & (x_test["都市計画"].isnull()), "都市計画"] = x_test[x_test["地区名"] == area]["都市計画"].value_counts().index[0]
    else:
        x_test.loc[(x_test["地区名"] == area) & (x_test["都市計画"].isnull()), "都市計画"] = "商業地域"        

# label encode
le = LabelEncoder()
le.fit(list(x_train["都市計画"])+list(x_test["都市計画"]))
print(le.classes_.shape)

x_train["都市計画_enc"] = le.transform(x_train["都市計画"]).astype(int)
x_test["都市計画_enc"] = le.transform(x_test["都市計画"]).astype(int)

# convert the type of data to category
x_train["都市計画"] = x_train["都市計画"].astype("category")
x_test["都市計画"] = x_test["都市計画"].astype("category")

100%|██████████| 12222/12222 [35:51<00:00,  5.68it/s] 
100%|██████████| 12222/12222 [01:35<00:00, 128.65it/s]


(16,)


# 都道府県名

In [85]:
# label encode
le = LabelEncoder()
le.fit(list(x_train["都道府県名"])+list(x_test["都道府県名"]))
print(le.classes_.shape)

x_train["都道府県名_enc"] = le.transform(x_train["都道府県名"]).astype(int)
x_test["都道府県名_enc"] = le.transform(x_test["都道府県名"]).astype(int)

# convert the type of data to category
x_train["都道府県名"] = x_train["都道府県名"].astype("category")
x_test["都道府県名"] = x_test["都道府県名"].astype("category")

(47,)


# 改装

In [87]:
x_train["改装"].fillna("missing", inplace=True)
x_test["改装"].fillna("missing", inplace=True)

# label encode
le = LabelEncoder()
le.fit(list(x_train["改装"])+list(x_test["改装"]))
print(le.classes_.shape)

x_train["改装_enc"] = le.transform(x_train["改装"]).astype(int)
x_test["改装_enc"] = le.transform(x_test["改装"]).astype(int)

# convert the type of data to category
x_train["改装"] = x_train["改装"].astype("category")
x_test["改装"] = x_test["改装"].astype("category")

(3,)


# 取引の事情等

In [89]:
x_train["取引の事情等"].fillna("missing", inplace=True)
x_test["取引の事情等"].fillna("missing", inplace=True)

# label encode
le = LabelEncoder()
le.fit(list(x_train["取引の事情等"])+list(x_test["取引の事情等"]))
print(le.classes_.shape)

x_train["取引の事情等_enc"] = le.transform(x_train["取引の事情等"]).astype(int)
x_test["取引の事情等_enc"] = le.transform(x_test["取引の事情等"]).astype(int)

# convert the type of data to category
x_train["取引の事情等"] = x_train["取引の事情等"].astype("category")
x_test["取引の事情等"] = x_test["取引の事情等"].astype("category")

(10,)


In [None]:
x_train.to_csv("train1.csv", index=False)
x_test.to_csv("test1.csv", index=False)

In [188]:
print(x_train.isnull().sum())
print()
print(x_test.isnull().sum())

都道府県名               0
面積（㎡）               0
建築年                 0
最寄駅：距離（分）           0
最寄駅：名称              0
市区町村コード             0
地区名                 0
間取り                 0
建物の構造               0
用途                  0
今後の利用目的             0
都市計画                0
改装                  0
取引の事情等              0
取引時点_enc            0
取引価格（総額）_log        0
最寄駅：名称_enc          0
取引価格（総額）            0
最寄駅：名称_target       0
市区町村コード_enc         0
市区町村_target         0
地区名_enc             0
地区名_target          0
間取り_enc             0
建物の構造_enc           0
用途_enc              0
今後の利用目的_enc         0
都市計画_enc            0
都道府県名_enc           0
改装_enc              0
取引の事情等_enc          0
最寄駅：距離（分）_target    0
dtype: int64

都道府県名               0
面積（㎡）               0
建築年                 0
最寄駅：距離（分）           0
最寄駅：名称              0
市区町村コード             0
地区名                 0
間取り                 0
建物の構造               0
用途                  0
今後の利用目的             0
都市計画                0
改装                

In [189]:
x_train.dtypes

都道府県名               category
面積（㎡）                  int64
建築年                  float64
最寄駅：距離（分）              int64
最寄駅：名称              category
市区町村コード             category
地区名                   object
間取り                 category
建物の構造               category
用途                  category
今後の利用目的             category
都市計画                category
改装                  category
取引の事情等              category
取引時点_enc               int64
取引価格（総額）_log         float16
最寄駅：名称_enc             int64
取引価格（総額）             float16
最寄駅：名称_target        float64
市区町村コード_enc            int64
市区町村_target          float64
地区名_enc                int64
地区名_target           float16
間取り_enc                int64
建物の構造_enc              int64
用途_enc                 int64
今後の利用目的_enc            int64
都市計画_enc               int64
都道府県名_enc              int64
改装_enc                 int64
取引の事情等_enc             int64
最寄駅：距離（分）_target     float16
dtype: object

# LightGBM

In [209]:
x_train.dtypes

都道府県名               category
面積（㎡）                  int64
建築年                  float64
最寄駅：距離（分）              int64
最寄駅：名称              category
市区町村コード             category
地区名                   object
間取り                 category
建物の構造               category
用途                  category
今後の利用目的             category
都市計画                category
改装                  category
取引の事情等              category
取引時点_enc               int64
取引価格（総額）_log         float16
最寄駅：名称_enc             int64
取引価格（総額）             float16
最寄駅：名称_target        float64
市区町村コード_enc            int64
市区町村_target          float64
地区名_enc                int64
地区名_target           float64
間取り_enc                int64
建物の構造_enc              int64
用途_enc                 int64
今後の利用目的_enc            int64
都市計画_enc               int64
都道府県名_enc              int64
改装_enc                 int64
取引の事情等_enc             int64
最寄駅：距離（分）_target     float64
dtype: object

In [208]:
# 取引価格（総額）_log

In [259]:
%%time

from sklearn.model_selection import train_test_split
import pickle

# x_train["地区名_target"] = x_train["地区名_target"].astype(float)
# x_train["最寄駅：距離（分）_target"] = x_train["最寄駅：距離（分）_target"].astype(float)

y_train = x_train["取引価格（総額）_log"].astype(float)

remove_col = ["最寄駅：名称", "市区町村コード", "地区名", "間取り", "建物の構造",
              "用途", "今後の利用目的", "都道府県名", "都市計画", "改装", "取引の事情等",
              "取引価格（総額）" ,"取引価格（総額）_log"]

cat_list = ["最寄駅：名称_enc", "市区町村コード_enc", "地区名_enc", "間取り_enc", "建物の構造_enc",
            "用途_enc", "今後の利用目的_enc", "都道府県名_enc", "都市計画_enc", "改装_enc",
            "取引の事情等_enc"]


x_tr, x_va, y_tr, y_va = train_test_split(
                            x_train.drop(remove_col, axis=1),
                            y_train.values,
                            shuffle=True,
                            random_state=2023,
                            test_size=0.2)

import lightgbm as lgb

# --- base ---
params = {
    "boosting_type"  : "gbdt",
    "objective"      : "regression_l1",
    "metric"         : "mean_absolute_error",
    "learning_rate"  : 0.14235555551694776,
    "num_leaves"     : 73,
    "n_estimators"   : 1000,
    "random_state"   : 2022,
    "importance_type": "gain",
}

df_pred  = pd.DataFrame()

model = lgb.LGBMRegressor(**params)
model.fit(x_tr, y_tr,
          eval_set=[(x_tr, y_tr), (x_va, y_va)],
          categorical_feature=cat_list,
          early_stopping_rounds=20,
          verbose=0)

with open(f"model_lgb_.h5", "wb") as f:
    pickle.dump(model, f, protocol=4)

p_va = model.predict(x_va)

tmp_pred = pd.DataFrame({"p_va_lgb": p_va})
df_pred  = pd.concat([df_pred, tmp_pred])

mean_absolute_error(y_va, p_va)

CPU times: user 10min 29s, sys: 9.93 s, total: 10min 39s
Wall time: 3min 3s


0.07271248232889684

In [260]:
mean_absolute_error(y_va, p_va)

0.07271248232889684

In [261]:
df_imp = pd.DataFrame({"col": x_tr.columns, "imp": model.feature_importances_})

df_imp.groupby("col")["imp"].agg(["mean"]).sort_values(by="mean", ascending=False)

Unnamed: 0_level_0,mean
col,Unnamed: 1_level_1
建築年,1283310.0
地区名_enc,1029078.0
最寄駅：名称_enc,713750.5
面積（㎡）,626475.5
市区町村コード_enc,539288.8
地区名_target,330738.5
取引時点_enc,221251.5
最寄駅：名称_target,213575.8
市区町村_target,113599.4
改装_enc,82040.46


# catboost

In [266]:
%%time

import catboost as cat

params = {
    "loss_function": "MAE",
    "learning_rate"  : 0.14235555551694776,
    "depth": 7
}

model = cat.CatBoostRegressor(**params)
model.fit(x_tr, y_tr, 
          eval_set=[(x_tr, y_tr), (x_va, y_va)],
          cat_features=cat_list,
          early_stopping_rounds=20,
          verbose=0)

with open(f"model_cat_.h5", "wb") as f:
    pickle.dump(model, f, protocol=4)

# valid
p_va = model.predict(x_va)

tmp_pred = pd.DataFrame({"p_va_cat": p_va})
df_pred  = pd.concat([df_pred, tmp_pred], axis=1)

mean_absolute_error(y_va, p_va)

Custom logger is already specified. Specify more than one logger at same time is not thread safe.

CPU times: user 1h 25min 29s, sys: 8min 38s, total: 1h 34min 8s
Wall time: 29min


0.07617441634284869

In [267]:
mean_absolute_error(y_va, p_va)

0.07617441634284869

# xgboost

In [268]:
%%time

import xgboost as xgb

params = {
    "objective": "reg:linear",
    "eval_metric": "mae",
    "n_estimators": 1000,
    "learning_rate"  : 0.14235555551694776,
    "max_depth": 7,
    "random_state": 2023,
}

model = xgb.XGBRegressor(**params, enable_categorical=True)
model.fit(x_tr, y_tr, 
          eval_set=[(x_tr, y_tr), (x_va, y_va)],
          early_stopping_rounds=20, verbose=0)

with open(f"model_xgb_.h5", "wb") as f:
    pickle.dump(model, f, protocol=4)

# valid
p_va = model.predict(x_va)

tmp_pred = pd.DataFrame({"p_va_xgb": p_va})
df_pred  = pd.concat([df_pred, tmp_pred], axis=1)

mean_absolute_error(y_va, p_va)

Parameters: { enable_categorical } might not be used.

  This may not be accurate due to some parameters are only used in language bindings but
  passed down to XGBoost core.  Or some parameters are not used but slip through this
  verification. Please open an issue if you find above cases.


CPU times: user 1h 2min 30s, sys: 36.8 s, total: 1h 3min 7s
Wall time: 19min 42s


0.07510298458284495

In [269]:
mean_absolute_error(y_va, p_va)

0.07510298458284495

# ensemble

In [278]:
lgb = 0.7
cat = 0.1
xgb = 0.2

p_va = (df_pred["p_va_lgb"]*lgb + df_pred["p_va_cat"]*cat + df_pred["p_va_xgb"]*xgb)

mean_absolute_error(y_va, p_va)

0.0713108277879112

# inference

In [279]:
remove_col = ["最寄駅：名称", "市区町村コード", "地区名", "間取り", "建物の構造",
              "用途", "今後の利用目的", "都道府県名", "都市計画", "改装", "取引の事情等"]

x_te = x_test.drop(remove_col, axis=1)

In [280]:
# LGBM predict function
def ensemble_predict(input_x, input_id):
    # モデル読み込み
    with open(f"./model_lgb_.h5", "rb") as f:
        lgb_model = pickle.load(f)
    with open(f"./model_cat_.h5", "rb") as f:
        cat_model = pickle.load(f)
    with open(f"./model_xgb_.h5", "rb") as f:
        xgb_model = pickle.load(f)

    # 推論
    lgb_pred = lgb_model.predict(input_x)
    cat_pred = cat_model.predict(input_x)
    xgb_pred = xgb_model.predict(input_x)

    # 予測値の格納
    input_id["lgb_pred"] = lgb_pred
    input_id["cat_pred"] = cat_pred
    input_id["xgb_pred"] = xgb_pred

    return input_id

In [281]:
i_te = test[["ID"]]

df_test_pred = ensemble_predict(x_te, i_te)



# ensemble（test）

In [282]:
pred = (df_test_pred["lgb_pred"]*lgb + df_test_pred["cat_pred"]*cat + df_test_pred["xgb_pred"]*xgb)

# stacking

In [284]:
# 第1段階の予測値を積み重ねる
stack_pred = np.column_stack((df_pred["p_va_lgb"],
                              df_pred["p_va_cat"],
                              df_pred["p_va_xgb"]))

In [301]:
with open(f"./model_lgb_.h5", "rb") as f:
    lgb_model = pickle.load(f)
with open(f"./model_cat_.h5", "rb") as f:
    cat_model = pickle.load(f)
with open(f"./model_xgb_.h5", "rb") as f:
    xgb_model = pickle.load(f)



In [303]:
lgb_model.fit(stack_pred, y_va)
cat_model.fit(stack_pred, y_va)
xgb_model.fit(stack_pred, y_va)

In [294]:
# 各モデルの検証データを積み重ねる
stack_test_pred = np.column_stack((df_test_pred["lgb_pred"],
                                   df_test_pred["cat_pred"],
                                   df_test_pred["xgb_pred"]))



In [305]:
# スタッキング
lgb_test_pred = lgb_model.predict(stack_test_pred)
cat_test_pred = cat_model.predict(stack_test_pred)
xgb_test_pred = xgb_model.predict(stack_test_pred)

In [308]:
pred = (lgb_test_pred*lgb + cat_test_pred*cat + xgb_test_pred*xgb)

# submit

In [309]:
submit["取引価格（総額）_log"] = pred
submit.to_csv("submission.csv", index=False)

# optuna

# lightgbm

In [258]:
# %%time
import optuna

def objective(trial):
    
    learning_rate = trial.suggest_uniform('learning_rate', 0.02, 0.4)
    num_leaves =  trial.suggest_int("num_leaves", 10, 80)    
    
    params = {
        "boosting_type"  : "gbdt",
        "objective"      : "regression_l1",
        "metric"         : "mean_absolute_error",
        "n_estimators"   : 1000,
        "random_state"   : 2022,
        "importance_type": "gain",
        
        # adjustment
        'learning_rate': learning_rate,
        'num_leaves': num_leaves,
    }
        
    
    model = lgb.LGBMRegressor(**params)
    model.fit(x_tr, y_tr,
              eval_set=[(x_tr, y_tr), (x_va, y_va)],
              categorical_feature=cat_list,
              early_stopping_rounds=20,
              verbose=0)

    p_va = model.predict(x_va)
    score = mean_absolute_error(y_va, p_va)
    print(score)
    return score

# パラメータ最適化
study = optuna.create_study(sampler=optuna.samplers.RandomSampler(seed=2023))
study.optimize(objective, n_trials=30)
print()
print("Best Param:", study.best_params)    
print("Best Metric:", study.best_value)

Best Param: {'learning_rate': 0.14235555551694776, 'num_leaves': 73}
Best Metric: 0.07271248232889684


# catboost

In [265]:
%%time

import catboost as cat

def objective(trial):
    
    learning_rate = trial.suggest_loguniform('learning_rate', 0.02, 0.4)
    depth =  trial.suggest_int('depth', 3, 15)  
            
    params = {
        "loss_function": "MAE",
        
        # adjustment
        'learning_rate': learning_rate,
        'depth': depth,
    }
        
    model = cat.CatBoostRegressor(**params)
    model.fit(x_tr, y_tr, 
              eval_set=[(x_tr, y_tr), (x_va, y_va)],
              cat_features=cat_list,
              early_stopping_rounds=20,
              verbose=0)

    # valid
    p_va = model.predict(x_va)

    score = mean_absolute_error(y_va, p_va)
    print(score)
    return score

# パラメータ最適化
study = optuna.create_study(sampler=optuna.samplers.RandomSampler(seed=2023))
study.optimize(objective, n_trials=3)
print()
print("Best Param:", study.best_params)    
print("Best Metric:", study.best_value)

# xgboost

In [264]:
%%time

import xgboost as xgb

def objective(trial):
    
    learning_rate = trial.suggest_uniform('learning_rate', 0.02, 0.4)
    max_depth =  trial.suggest_int('max_depth', 3, 15)  
        
    params = {
        "objective": "reg:linear",
        "eval_metric": "mae",
        "n_estimators": 1000,
        "random_state": 2023,
        
        # adjustment
        'learning_rate': learning_rate,
        'max_depth': max_depth,
    }
        
    
    model = xgb.XGBRegressor(**params, enable_categorical=True)
    model.fit(x_tr, y_tr, 
          eval_set=[(x_tr, y_tr), (x_va, y_va)],
          early_stopping_rounds=20, verbose=0)

    # valid
    p_va = model.predict(x_va)

    score = mean_absolute_error(y_va, p_va)
    print(score)
    return score

# パラメータ最適化
study = optuna.create_study(sampler=optuna.samplers.RandomSampler(seed=2023))
study.optimize(objective, n_trials=5)
print()
print("Best Param:", study.best_params)    
print("Best Metric:", study.best_value)

[32m[I 2023-01-06 00:44:13,025][0m A new study created in memory with name: no-name-38515b58-d05f-4f52-8bac-33bff6d3c4e1[0m


Parameters: { enable_categorical } might not be used.

  This may not be accurate due to some parameters are only used in language bindings but
  passed down to XGBoost core.  Or some parameters are not used but slip through this
  verification. Please open an issue if you find above cases.





KeyboardInterrupt

