## 패키지

In [342]:
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestRegressor
from tqdm import tqdm

## 데이터

* 단지코드
* 총세대수
* 임대건물구분
* 지역
* 공급유형
* 전용면적
* 전용면적별세대수
* 공가수
* 신분
* 임대료보증금
* 임대료
* 도보 10분거리 내 지하철역 수(환승노선 수 반영)
* 도보 10분거리 내 버스정류장 수
* 단지내주차면수
* 등록차량수

In [343]:
train = pd.read_csv('./parking_data/train.csv')
test = pd.read_csv('./parking_data/test.csv')
submission = pd.read_csv('./parking_data/sample_submission.csv')
age_gender_info = pd.read_csv('./parking_data/age_gender_info.csv')

In [344]:
train.shape, test.shape

((2952, 15), (1022, 14))

In [345]:
train.head(2)

Unnamed: 0,단지코드,총세대수,임대건물구분,지역,공급유형,전용면적,전용면적별세대수,공가수,자격유형,임대보증금,임대료,도보 10분거리 내 지하철역 수(환승노선 수 반영),도보 10분거리 내 버스정류장 수,단지내주차면수,등록차량수
0,C2483,900,아파트,경상북도,국민임대,39.72,134,38.0,A,15667000,103680,0.0,3.0,1425.0,1015.0
1,C2483,900,아파트,경상북도,국민임대,39.72,15,38.0,A,15667000,103680,0.0,3.0,1425.0,1015.0


In [346]:
test.head(2)

Unnamed: 0,단지코드,총세대수,임대건물구분,지역,공급유형,전용면적,전용면적별세대수,공가수,자격유형,임대보증금,임대료,도보 10분거리 내 지하철역 수(환승노선 수 반영),도보 10분거리 내 버스정류장 수,단지내주차면수
0,C1072,754,아파트,경기도,국민임대,39.79,116,14.0,H,22830000,189840,0.0,2.0,683.0
1,C1072,754,아파트,경기도,국민임대,46.81,30,14.0,A,36048000,249930,0.0,2.0,683.0


In [347]:
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2952 entries, 0 to 2951
Data columns (total 15 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   단지코드                          2952 non-null   object 
 1   총세대수                          2952 non-null   int64  
 2   임대건물구분                        2952 non-null   object 
 3   지역                            2952 non-null   object 
 4   공급유형                          2952 non-null   object 
 5   전용면적                          2952 non-null   float64
 6   전용면적별세대수                      2952 non-null   int64  
 7   공가수                           2952 non-null   float64
 8   자격유형                          2952 non-null   object 
 9   임대보증금                         2383 non-null   object 
 10  임대료                           2383 non-null   object 
 11  도보 10분거리 내 지하철역 수(환승노선 수 반영)  2741 non-null   float64
 12  도보 10분거리 내 버스정류장 수            2948 non-null   float64
 13  단지내

In [348]:
test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1022 entries, 0 to 1021
Data columns (total 14 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   단지코드                          1022 non-null   object 
 1   총세대수                          1022 non-null   int64  
 2   임대건물구분                        1022 non-null   object 
 3   지역                            1022 non-null   object 
 4   공급유형                          1022 non-null   object 
 5   전용면적                          1022 non-null   float64
 6   전용면적별세대수                      1022 non-null   int64  
 7   공가수                           1022 non-null   float64
 8   자격유형                          1020 non-null   object 
 9   임대보증금                         842 non-null    object 
 10  임대료                           842 non-null    object 
 11  도보 10분거리 내 지하철역 수(환승노선 수 반영)  980 non-null    float64
 12  도보 10분거리 내 버스정류장 수            1022 non-null   float64
 13  단지내

## 임대보증금, 임대료 문자열 전처리

In [349]:
cate_cols = train.select_dtypes(include = 'object').columns.tolist()
train[cate_cols].head()

Unnamed: 0,단지코드,임대건물구분,지역,공급유형,자격유형,임대보증금,임대료
0,C2483,아파트,경상북도,국민임대,A,15667000,103680
1,C2483,아파트,경상북도,국민임대,A,15667000,103680
2,C2483,아파트,경상북도,국민임대,A,27304000,184330
3,C2483,아파트,경상북도,국민임대,A,27304000,184330
4,C2483,아파트,경상북도,국민임대,A,27304000,184330


In [350]:
train.loc[train['임대보증금'] == '-', '임대보증금'] = np.nan
test.loc[test['임대보증금'] == '-', '임대보증금'] = np.nan
train.loc[train['임대료'] == '-', '임대료'] = np.nan
test.loc[test['임대료'] == '-', '임대료'] = np.nan

In [351]:
train[['임대료', '임대보증금']] = train[['임대료', '임대보증금']].astype(float)
test[['임대료', '임대보증금']] = test[['임대료', '임대보증금']].astype(float)

In [352]:
cate_cols = train.select_dtypes(include = 'object').columns.tolist()
train[cate_cols].head()

Unnamed: 0,단지코드,임대건물구분,지역,공급유형,자격유형
0,C2483,아파트,경상북도,국민임대,A
1,C2483,아파트,경상북도,국민임대,A
2,C2483,아파트,경상북도,국민임대,A
3,C2483,아파트,경상북도,국민임대,A
4,C2483,아파트,경상북도,국민임대,A


## 결측치 확인

In [353]:
train.isnull().sum()

단지코드                              0
총세대수                              0
임대건물구분                            0
지역                                0
공급유형                              0
전용면적                              0
전용면적별세대수                          0
공가수                               0
자격유형                              0
임대보증금                           581
임대료                             590
도보 10분거리 내 지하철역 수(환승노선 수 반영)    211
도보 10분거리 내 버스정류장 수                4
단지내주차면수                           0
등록차량수                             0
dtype: int64

In [354]:
test.isnull().sum()

단지코드                              0
총세대수                              0
임대건물구분                            0
지역                                0
공급유형                              0
전용면적                              0
전용면적별세대수                          0
공가수                               0
자격유형                              2
임대보증금                           186
임대료                             186
도보 10분거리 내 지하철역 수(환승노선 수 반영)     42
도보 10분거리 내 버스정류장 수                0
단지내주차면수                           0
dtype: int64

In [355]:
# 임대보증금

In [356]:
train[train['임대보증금'].isnull()]['자격유형'].value_counts()

D    569
H      8
K      4
Name: 자격유형, dtype: int64

In [357]:
test[test['임대보증금'].isnull()]['자격유형'].value_counts()

D    180
L      4
C      2
Name: 자격유형, dtype: int64

In [358]:
train[train['임대보증금'].isnull()].공급유형.value_counts()

임대상가    562
국민임대      8
공공분양      7
행복주택      4
Name: 공급유형, dtype: int64

In [359]:
test[test['임대보증금'].isnull()].공급유형.value_counts()

임대상가    177
영구임대      5
행복주택      4
Name: 공급유형, dtype: int64

In [360]:
train[['임대보증금', '임대료']] = train[['임대보증금', '임대료']].fillna(0)
test[['임대보증금', '임대료']] = test[['임대보증금', '임대료']].fillna(0)

In [361]:
cols = ['도보 10분거리 내 지하철역 수(환승노선 수 반영)', '도보 10분거리 내 버스정류장 수']
train[cols] = train[cols].fillna(0)
test[cols] = test[cols].fillna(0)

In [362]:
test[test.단지코드=='C2411']

Unnamed: 0,단지코드,총세대수,임대건물구분,지역,공급유형,전용면적,전용면적별세대수,공가수,자격유형,임대보증금,임대료,도보 10분거리 내 지하철역 수(환승노선 수 반영),도보 10분거리 내 버스정류장 수,단지내주차면수
193,C2411,962,아파트,경상남도,국민임대,39.43,56,25.0,A,11992000.0,100720.0,0.0,2.0,840.0
194,C2411,962,아파트,경상남도,국민임대,39.72,336,25.0,A,11992000.0,100720.0,0.0,2.0,840.0
195,C2411,962,아파트,경상남도,국민임대,39.82,179,25.0,A,11992000.0,100720.0,0.0,2.0,840.0
196,C2411,962,아파트,경상남도,국민임대,46.9,240,25.0,,71950000.0,37470.0,0.0,2.0,840.0
197,C2411,962,아파트,경상남도,국민임대,51.93,150,25.0,A,21586000.0,171480.0,0.0,2.0,840.0


In [363]:
# test.loc[test.단지코드.isin(['C2411']) & test.자격유형.isnull(), '자격유형'] = 'A'

In [364]:
# test[test.단지코드=='C2253'].head() # 임대보증금과 임대료가 존재하는 경우 자격유형이 C => C로 채우면 될듯

In [365]:
# test.loc[test.단지코드.isin(['C2253']) & test.자격유형.isnull(), '자격유형'] = 'C'

## 컬럼명 변경

지하쳘역 수와 버스 정류장 수의 컬럼명을 지하철, 버스로 변경하였습니다.

In [366]:
train.columns

Index(['단지코드', '총세대수', '임대건물구분', '지역', '공급유형', '전용면적', '전용면적별세대수', '공가수',
       '자격유형', '임대보증금', '임대료', '도보 10분거리 내 지하철역 수(환승노선 수 반영)',
       '도보 10분거리 내 버스정류장 수', '단지내주차면수', '등록차량수'],
      dtype='object')

In [367]:
train.columns = [
    '단지코드', '총세대수', '임대건물구분', '지역', '공급유형', '전용면적', '전용면적별세대수', '공가수', '신분',
    '임대보증금', '임대료', '지하철', '버스',
    '단지내주차면수', '등록차량수'
]

test.columns = [
    '단지코드', '총세대수', '임대건물구분', '지역', '공급유형', '전용면적', '전용면적별세대수', '공가수', '신분',
    '임대보증금', '임대료', '지하철', '버스',
    '단지내주차면수'
]

## 지역명 숫자로 매핑

In [368]:
local_map = {}
for i, loc in enumerate(train['지역'].unique()):
    local_map[loc] = i

In [369]:
train['지역'] = train['지역'].map(local_map)
test['지역'] = test['지역'].map(local_map)

## 전용면적을 5의 배수로 변경

In [370]:
train['전용면적'] = train['전용면적']//5*5
test['전용면적'] = test['전용면적']//5*5

## 전용면적 상/하한 적용

상한100, 하한 15

In [371]:
idx = train[train['전용면적']>100].index
train.loc[idx, '전용면적'] = 100
idx = test[test['전용면적']>100].index
test.loc[idx, '전용면적'] = 100

idx = train[train['전용면적']<15].index
train.loc[idx, '전용면적'] = 15
idx = test[test['전용면적']<15].index
test.loc[idx, '전용면적'] = 15

In [372]:
test['전용면적'].unique()

array([ 35.,  45.,  50.,  30.,  55.,  25.,  75., 100.,  15.,  20.,  40.,
        60.,  80.,  70.])

## 단지별 데이터 1차원으로 취합

In [373]:
train['전용면적'].unique()

array([ 35.,  50.,  55.,  30.,  45.,  40.,  25.,  70.,  15.,  20., 100.,
        60.,  75.,  80.,  65.])

In [374]:
columns = ['단지코드', '총세대수', '공가수', '지역', '단지내주차면수', '지하철', '버스']
target = '등록차량수'
area_columns = []
for area in train['전용면적'].unique():
    area_columns.append(f'면적_{area}')

In [375]:
new_train = pd.DataFrame()
new_test = pd.DataFrame()

In [376]:
for i, code in tqdm(enumerate(train['단지코드'].unique())):
    temp = train[train['단지코드']==code]
    temp.index = range(temp.shape[0])
    for col in columns:
        new_train.loc[i, col] = temp.loc[0, col]
    
    for col in area_columns:
        area = float(col.split('_')[-1])
        new_train.loc[i, col] = temp[temp['전용면적']==area]['전용면적별세대수'].sum()
    
    new_train.loc[i, '등록차량수'] = temp.loc[0, '등록차량수']
    
for i, code in tqdm(enumerate(test['단지코드'].unique())):
    temp = test[test['단지코드']==code]
    temp.index = range(temp.shape[0])
    for col in columns:
        new_test.loc[i, col] = temp.loc[0, col]
    
    for col in area_columns:
        area = float(col.split('_')[-1])
        new_test.loc[i, col] = temp[temp['전용면적']==area]['전용면적별세대수'].sum()

423it [00:02, 192.89it/s]
150it [00:00, 206.24it/s]


In [377]:
print(new_train.shape)
new_train.head()

(423, 23)


Unnamed: 0,단지코드,총세대수,공가수,지역,단지내주차면수,지하철,버스,면적_35.0,면적_50.0,면적_55.0,...,면적_25.0,면적_70.0,면적_15.0,면적_20.0,면적_100.0,면적_60.0,면적_75.0,면적_80.0,면적_65.0,등록차량수
0,C2483,900.0,38.0,0.0,1425.0,0.0,3.0,149.0,665.0,86.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1015.0
1,C2515,545.0,17.0,1.0,624.0,0.0,3.0,80.0,132.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,205.0
2,C1407,1216.0,13.0,2.0,1285.0,1.0,1.0,0.0,124.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1064.0
3,C1945,755.0,6.0,3.0,734.0,1.0,3.0,240.0,303.0,212.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,730.0
4,C1470,696.0,14.0,4.0,645.0,0.0,2.0,254.0,246.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,553.0


## 결측치 처리

In [378]:
new_train = new_train.fillna(-1)
new_test = new_test.fillna(-1)

In [379]:
#########

In [380]:
# train.groupby(['단지코드']).nunique(dropna=False).sum(axis=0)

In [381]:
# 값이 423보다 크면 하나의 단지코드에 대해 둘 이상의 항목이 존재하는 것

In [382]:
# # 하나의 단지코드에 하나의 값만 존재하는 변수들
# unique_cols = ['총세대수', '지역', '공가수', 
#                '도보 10분거리 내 지하철역 수(환승노선 수 반영)',
#                '도보 10분거리 내 버스정류장 수',
#                '단지내주차면수', '등록차량수']
# train_agg = train.set_index('단지코드')[unique_cols].drop_duplicates()
# test_agg = test.set_index('단지코드')[[col for col in unique_cols if col!='등록차량수']].drop_duplicates()

In [383]:
# # 하나의 단지코드에 둘 이상의 값이 존재하는 변수들
# def reshape_cat_features(data, cast_col, value_col):
#     res = data.drop_duplicates(['단지코드', cast_col]).assign(counter=1).pivot(index='단지코드', columns=cast_col, values=value_col).fillna(0)
#     res.columns.name = None
#     res = res.rename(columns={col:cast_col+'_'+col for col in res.columns})
#     return res

In [384]:
#########

## 학습

In [385]:
x_train = new_train.iloc[:, 1:-1]
y_train = new_train.iloc[:,-1]
x_test = new_test.iloc[:,1:]

In [386]:
x_train.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 423 entries, 0 to 422
Data columns (total 21 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   총세대수      423 non-null    float64
 1   공가수       423 non-null    float64
 2   지역        423 non-null    float64
 3   단지내주차면수   423 non-null    float64
 4   지하철       423 non-null    float64
 5   버스        423 non-null    float64
 6   면적_35.0   423 non-null    float64
 7   면적_50.0   423 non-null    float64
 8   면적_55.0   423 non-null    float64
 9   면적_30.0   423 non-null    float64
 10  면적_45.0   423 non-null    float64
 11  면적_40.0   423 non-null    float64
 12  면적_25.0   423 non-null    float64
 13  면적_70.0   423 non-null    float64
 14  면적_15.0   423 non-null    float64
 15  면적_20.0   423 non-null    float64
 16  면적_100.0  423 non-null    float64
 17  면적_60.0   423 non-null    float64
 18  면적_75.0   423 non-null    float64
 19  면적_80.0   423 non-null    float64
 20  면적_65.0   423 non-null    float6

In [387]:
# model = RandomForestRegressor(n_jobs=-1, random_state=42)

In [388]:
cat_features = ['지역']
target_col = '등록차량수'

In [389]:
from catboost import CatBoostRegressor
model = CatBoostRegressor(
#          cat_features=cat_features,
         loss_function='MAE',
         n_estimators=500, 
         learning_rate=0.05, 
         random_state=42
    )
    
# model.fit(x_train.drop(columns=[target_col]), x_train[target_col], verbose=100)

In [390]:
model.fit(x_train, y_train, verbose = 100)

0:	learn: 279.5345142	total: 9.25ms	remaining: 4.62s
100:	learn: 90.0433495	total: 121ms	remaining: 477ms
200:	learn: 65.7938182	total: 257ms	remaining: 382ms
300:	learn: 52.2116545	total: 360ms	remaining: 238ms
400:	learn: 43.7701215	total: 471ms	remaining: 116ms
499:	learn: 38.3124950	total: 595ms	remaining: 0us


<catboost.core.CatBoostRegressor at 0x7f87d0139e20>

In [391]:
train_pred = model.predict(x_train)

In [392]:
from sklearn.metrics import mean_absolute_error
print(mean_absolute_error(y_train, train_pred))

38.312495951381955


## 추론 및 제출

In [393]:
pred = model.predict(x_test)

In [394]:
submission['num'] = pred

In [395]:
submission.to_csv('./result/baseline_2.csv', index=False)

In [396]:
# 1
# baseline -> 115.9912
# train score -> 47.7943
# RandomForest
# n_jobs = -1, random_state = 42

# 2
# train score -> 47.84
# 임대료, 임대보증금 문자열 처리 -> fillna(0)
# 제출성능 그대로

# 3
# baseline_2
# train score -> 38.3124
# catboostregressor