## 패키지

In [1]:
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestRegressor
from tqdm import tqdm

## 데이터

In [3]:
train = pd.read_csv('./train.csv')
test = pd.read_csv('./test.csv')
submission = pd.read_csv('./sample_submission.csv')

In [4]:
train.shape, test.shape

((2952, 15), (1022, 14))

In [5]:
train.head()

Unnamed: 0,단지코드,총세대수,임대건물구분,지역,공급유형,전용면적,전용면적별세대수,공가수,자격유형,임대보증금,임대료,도보 10분거리 내 지하철역 수(환승노선 수 반영),도보 10분거리 내 버스정류장 수,단지내주차면수,등록차량수
0,C2483,900,아파트,경상북도,국민임대,39.72,134,38.0,A,15667000,103680,0.0,3.0,1425.0,1015.0
1,C2483,900,아파트,경상북도,국민임대,39.72,15,38.0,A,15667000,103680,0.0,3.0,1425.0,1015.0
2,C2483,900,아파트,경상북도,국민임대,51.93,385,38.0,A,27304000,184330,0.0,3.0,1425.0,1015.0
3,C2483,900,아파트,경상북도,국민임대,51.93,15,38.0,A,27304000,184330,0.0,3.0,1425.0,1015.0
4,C2483,900,아파트,경상북도,국민임대,51.93,41,38.0,A,27304000,184330,0.0,3.0,1425.0,1015.0


In [6]:
test.head()

Unnamed: 0,단지코드,총세대수,임대건물구분,지역,공급유형,전용면적,전용면적별세대수,공가수,자격유형,임대보증금,임대료,도보 10분거리 내 지하철역 수(환승노선 수 반영),도보 10분거리 내 버스정류장 수,단지내주차면수
0,C1072,754,아파트,경기도,국민임대,39.79,116,14.0,H,22830000,189840,0.0,2.0,683.0
1,C1072,754,아파트,경기도,국민임대,46.81,30,14.0,A,36048000,249930,0.0,2.0,683.0
2,C1072,754,아파트,경기도,국민임대,46.9,112,14.0,H,36048000,249930,0.0,2.0,683.0
3,C1072,754,아파트,경기도,국민임대,46.9,120,14.0,H,36048000,249930,0.0,2.0,683.0
4,C1072,754,아파트,경기도,국민임대,51.46,60,14.0,H,43497000,296780,0.0,2.0,683.0


## 결측치 확인

In [7]:
train.isna().sum()

단지코드                              0
총세대수                              0
임대건물구분                            0
지역                                0
공급유형                              0
전용면적                              0
전용면적별세대수                          0
공가수                               0
자격유형                              0
임대보증금                           569
임대료                             569
도보 10분거리 내 지하철역 수(환승노선 수 반영)    211
도보 10분거리 내 버스정류장 수                4
단지내주차면수                           0
등록차량수                             0
dtype: int64

In [8]:
test.isna().sum()

단지코드                              0
총세대수                              0
임대건물구분                            0
지역                                0
공급유형                              0
전용면적                              0
전용면적별세대수                          0
공가수                               0
자격유형                              2
임대보증금                           180
임대료                             180
도보 10분거리 내 지하철역 수(환승노선 수 반영)     42
도보 10분거리 내 버스정류장 수                0
단지내주차면수                           0
dtype: int64

## 컬럼명 변경

지하쳘역 수와 버스 정류장 수의 컬럼명을 지하철, 버스로 변경하였습니다.

In [9]:
train.columns

Index(['단지코드', '총세대수', '임대건물구분', '지역', '공급유형', '전용면적', '전용면적별세대수', '공가수',
       '자격유형', '임대보증금', '임대료', '도보 10분거리 내 지하철역 수(환승노선 수 반영)',
       '도보 10분거리 내 버스정류장 수', '단지내주차면수', '등록차량수'],
      dtype='object')

In [10]:
train.columns = [
    '단지코드', '총세대수', '임대건물구분', '지역', '공급유형', '전용면적', '전용면적별세대수', '공가수', '신분',
    '임대보증금', '임대료', '지하철', '버스',
    '단지내주차면수', '등록차량수'
]

test.columns = [
    '단지코드', '총세대수', '임대건물구분', '지역', '공급유형', '전용면적', '전용면적별세대수', '공가수', '신분',
    '임대보증금', '임대료', '지하철', '버스',
    '단지내주차면수'
]

## 지역명 숫자로 매핑

In [11]:
local_map = {}
for i, loc in enumerate(train['지역'].unique()):
    local_map[loc] = i

In [12]:
train['지역'] = train['지역'].map(local_map)
test['지역'] = test['지역'].map(local_map)

## 전용면적을 5의 배수로 변경

In [13]:
train['전용면적'] = train['전용면적']//5*5
test['전용면적'] = test['전용면적']//5*5

## 전용면적 상/하한 적용

상한100, 하한 15

In [14]:
idx = train[train['전용면적']>100].index
train.loc[idx, '전용면적'] = 100
idx = test[test['전용면적']>100].index
test.loc[idx, '전용면적'] = 100

idx = train[train['전용면적']<15].index
train.loc[idx, '전용면적'] = 15
idx = test[test['전용면적']<15].index
test.loc[idx, '전용면적'] = 15

In [15]:
test['전용면적'].unique()

array([ 35.,  45.,  50.,  30.,  55.,  25.,  75., 100.,  15.,  20.,  40.,
        60.,  80.,  70.])

## 단지별 데이터 1차원으로 취합

In [16]:
columns = ['단지코드', '총세대수', '공가수', '지역', '단지내주차면수', '지하철', '버스']
target = '등록차량수'
area_columns = []
for area in train['전용면적'].unique():
    area_columns.append(f'면적_{area}')

In [17]:
new_train = pd.DataFrame()
new_test = pd.DataFrame()

In [18]:
for i, code in tqdm(enumerate(train['단지코드'].unique())):
    temp = train[train['단지코드']==code]
    temp.index = range(temp.shape[0])
    for col in columns:
        new_train.loc[i, col] = temp.loc[0, col]
    
    for col in area_columns:
        area = float(col.split('_')[-1])
        new_train.loc[i, col] = temp[temp['전용면적']==area]['전용면적별세대수'].sum()
    
    new_train.loc[i, '등록차량수'] = temp.loc[0, '등록차량수']
    
for i, code in tqdm(enumerate(test['단지코드'].unique())):
    temp = test[test['단지코드']==code]
    temp.index = range(temp.shape[0])
    for col in columns:
        new_test.loc[i, col] = temp.loc[0, col]
    
    for col in area_columns:
        area = float(col.split('_')[-1])
        new_test.loc[i, col] = temp[temp['전용면적']==area]['전용면적별세대수'].sum()

423it [00:03, 114.13it/s]
150it [00:01, 118.47it/s]


In [27]:
for i, code in tqdm(enumerate(train['단지코드'].unique())):
    temp = train[train['단지코드']==code]
    temp.index = range(temp.shape[0])

423it [00:00, 2657.96it/s]


In [29]:
for i, code in enumerate(train['단지코드'].unique()):
    temp = train[train['단지코드']==code]
    print(temp)
#     temp.index = range(temp.shape[0])

    단지코드  총세대수 임대건물구분  지역  공급유형  전용면적  전용면적별세대수   공가수 신분     임대보증금     임대료  \
0  C2483   900    아파트   0  국민임대  35.0       134  38.0  A  15667000  103680   
1  C2483   900    아파트   0  국민임대  35.0        15  38.0  A  15667000  103680   
2  C2483   900    아파트   0  국민임대  50.0       385  38.0  A  27304000  184330   
3  C2483   900    아파트   0  국민임대  50.0        15  38.0  A  27304000  184330   
4  C2483   900    아파트   0  국민임대  50.0        41  38.0  A  27304000  184330   
5  C2483   900    아파트   0  국민임대  50.0        89  38.0  A  27304000  184330   
6  C2483   900    아파트   0  국민임대  50.0       135  38.0  A  27304000  184330   
7  C2483   900    아파트   0  국민임대  55.0        86  38.0  A  30357000  214270   

   지하철   버스  단지내주차면수   등록차량수  
0  0.0  3.0   1425.0  1015.0  
1  0.0  3.0   1425.0  1015.0  
2  0.0  3.0   1425.0  1015.0  
3  0.0  3.0   1425.0  1015.0  
4  0.0  3.0   1425.0  1015.0  
5  0.0  3.0   1425.0  1015.0  
6  0.0  3.0   1425.0  1015.0  
7  0.0  3.0   1425.0  1015.0  
     단지코드  총세대수 임대

      단지코드  총세대수 임대건물구분  지역  공급유형   전용면적  전용면적별세대수  공가수 신분    임대보증금    임대료  \
497  C2310  1988    아파트   8  영구임대   25.0      1074  1.0  C  5787000  79980   
498  C2310  1988    아파트   8  영구임대   25.0       596  1.0  C  5787000  79980   
499  C2310  1988    아파트   8  영구임대   30.0       298  1.0  C  6873000  94990   
500  C2310  1988     상가   8  임대상가   35.0         1  1.0  D      NaN    NaN   
501  C2310  1988     상가   8  임대상가   35.0         1  1.0  D      NaN    NaN   
502  C2310  1988     상가   8  임대상가   35.0         1  1.0  D      NaN    NaN   
503  C2310  1988     상가   8  임대상가   35.0         1  1.0  D      NaN    NaN   
504  C2310  1988     상가   8  임대상가   35.0         1  1.0  D      NaN    NaN   
505  C2310  1988     상가   8  임대상가   35.0         1  1.0  D      NaN    NaN   
506  C2310  1988     상가   8  임대상가   35.0         1  1.0  D      NaN    NaN   
507  C2310  1988     상가   8  임대상가   35.0         1  1.0  D      NaN    NaN   
508  C2310  1988     상가   8  임대상가   35.0         1  1.0  D      

937  0.0  3.0    928.0  579.0  
      단지코드  총세대수 임대건물구분  지역  공급유형  전용면적  전용면적별세대수   공가수 신분     임대보증금     임대료  \
938  C1620  1232    아파트   6  국민임대  35.0       684  22.0  A  15620000   90110   
939  C1620  1232    아파트   6  국민임대  35.0        25  22.0  A  15620000   90110   
940  C1620  1232    아파트   6  국민임대  45.0       262  22.0  A  25233000  141770   
941  C1620  1232    아파트   6  국민임대  45.0        87  22.0  A  25233000  141770   
942  C1620  1232    아파트   6  국민임대  45.0       174  22.0  A  25233000  141770   

     지하철   버스  단지내주차면수   등록차량수  
938  0.0  4.0   1181.0  1101.0  
939  0.0  4.0   1181.0  1101.0  
940  0.0  4.0   1181.0  1101.0  
941  0.0  4.0   1181.0  1101.0  
942  0.0  4.0   1181.0  1101.0  
      단지코드  총세대수 임대건물구분  지역  공급유형  전용면적  전용면적별세대수   공가수 신분     임대보증금     임대료  \
943  C1049   676    아파트   6  국민임대  35.0       369  18.0  A  15620000   90110   
944  C1049   676    아파트   6  국민임대  35.0        20  18.0  A  15620000   90110   
945  C1049   676    아파트   6  국민임대  50.0       152

1212  0.0  2.0    788.0  808.0  
       단지코드  총세대수 임대건물구분  지역  공급유형  전용면적  전용면적별세대수   공가수 신분     임대보증금     임대료  \
1213  C2518   341    아파트   5  국민임대  50.0       233  11.0  A  19472000  168750   
1214  C2518   341    아파트   5  국민임대  55.0       108  11.0  A  23367000  194720   

      지하철   버스  단지내주차면수  등록차량수  
1213  0.0  2.0    240.0  305.0  
1214  0.0  2.0    240.0  305.0  
       단지코드  총세대수 임대건물구분  지역  공급유형  전용면적  전용면적별세대수  공가수 신분     임대보증금     임대료  \
1215  C1962   416    아파트   5  국민임대  50.0        30  9.0  A  19064000  190640   
1216  C1962   416    아파트   5  국민임대  50.0       176  9.0  A  19064000  185540   
1217  C1962   416    아파트   5  국민임대  55.0        15  9.0  A  22876000  216060   
1218  C1962   416    아파트   5  국민임대  55.0       195  9.0  A  22876000  210960   

      지하철   버스  단지내주차면수  등록차량수  
1215  0.0  3.0    296.0  401.0  
1216  0.0  3.0    296.0  401.0  
1217  0.0  3.0    296.0  401.0  
1218  0.0  3.0    296.0  401.0  
       단지코드  총세대수 임대건물구분  지역  공급유형  전용면적  전용면적별세대수   공가수 신

1515  0.0  4.0    692.0  782.0  
       단지코드  총세대수 임대건물구분  지역  공급유형  전용면적  전용면적별세대수  공가수 신분     임대보증금     임대료  \
1516  C2527   383    아파트   3  국민임대  35.0       133  8.0  A  18476000  154790   
1517  C2527   383    아파트   3  국민임대  45.0        45  8.0  A  34082000  232200   
1518  C2527   383    아파트   3  국민임대  45.0        85  8.0  A  34082000  232200   
1519  C2527   383    아파트   3  국민임대  50.0       100  8.0  A  43819000  275900   
1520  C2527   383    아파트   3  국민임대  50.0        20  8.0  A  43819000  275900   

      지하철   버스  단지내주차면수  등록차량수  
1516  0.0  3.0    317.0  375.0  
1517  0.0  3.0    317.0  375.0  
1518  0.0  3.0    317.0  375.0  
1519  0.0  3.0    317.0  375.0  
1520  0.0  3.0    317.0  375.0  
       단지코드  총세대수 임대건물구분  지역  공급유형  전용면적  전용면적별세대수  공가수 신분     임대보증금     임대료  \
1521  C1502   407    아파트  10  국민임대  45.0       241  7.0  A  19895000  160400   
1522  C1502   407    아파트  10  국민임대  45.0       166  7.0  A  19895000  160400   

      지하철   버스  단지내주차면수  등록차량수  
1521  0.0  5.0

1763  0.0  1.0    384.0  594.0  
       단지코드  총세대수 임대건물구분  지역  공급유형  전용면적  전용면적별세대수  공가수 신분     임대보증금     임대료  \
1764  C2603   538    아파트  11  국민임대  45.0        30  9.0  A  16465000  118980   
1765  C2603   538    아파트  11  국민임대  45.0       244  9.0  A  16465000  118980   
1766  C2603   538    아파트  11  국민임대  45.0       115  9.0  A  16465000  118980   
1767  C2603   538    아파트  11  국민임대  45.0        30  9.0  A  16465000  118980   
1768  C2603   538    아파트  11  국민임대  55.0        30  9.0  A  25834000  164900   
1769  C2603   538    아파트  11  국민임대  55.0        89  9.0  A  25834000  164900   

      지하철   버스  단지내주차면수  등록차량수  
1764  0.0  2.0    393.0  509.0  
1765  0.0  2.0    393.0  509.0  
1766  0.0  2.0    393.0  509.0  
1767  0.0  2.0    393.0  509.0  
1768  0.0  2.0    393.0  509.0  
1769  0.0  2.0    393.0  509.0  
       단지코드  총세대수 임대건물구분  지역  공급유형  전용면적  전용면적별세대수   공가수 신분     임대보증금     임대료  \
1770  C1965   498    아파트  11  국민임대  35.0       174  13.0  A  11767000  104050   
1771  C1965  

2076  0.0  2.0    615.0  647.0  
       단지코드  총세대수 임대건물구분  지역  공급유형  전용면적  전용면적별세대수  공가수 신분     임대보증금     임대료  \
2077  C2352  1065    아파트  14  국민임대  35.0        25  7.0  A  21015000  262700   
2078  C2352  1065    아파트  14  국민임대  35.0       448  7.0  A  21015000  262700   
2079  C2352  1065    아파트  14  국민임대  35.0        84  7.0  A  21015000  262700   
2080  C2352  1065    아파트  14  국민임대  45.0       128  7.0  A  45003000  373500   
2081  C2352  1065    아파트  14  국민임대  45.0        52  7.0  A  45003000  373500   
2082  C2352  1065    아파트  14  국민임대  45.0        64  7.0  A  45003000  373500   
2083  C2352  1065    아파트  14  국민임대  45.0        72  7.0  A  45003000  373500   
2084  C2352  1065    아파트  14  영구임대  20.0        62  7.0  I   9515000   82150   
2085  C2352  1065    아파트  14  영구임대  25.0        94  7.0  I  12728000  110110   
2086  C2352  1065    아파트  14  영구임대  25.0        36  7.0  I  12728000  110110   

      지하철   버스  단지내주차면수  등록차량수  
2077  0.0  4.0    879.0  793.0  
2078  0.0  4.0    87

       단지코드  총세대수 임대건물구분  지역  공급유형  전용면적  전용면적별세대수  공가수 신분     임대보증금     임대료  \
2377  C1263   268    아파트  11  국민임대  25.0        48  4.0  A   5914000   98920   
2378  C1263   268    아파트  11  국민임대  25.0        12  4.0  A   5914000   98920   
2379  C1263   268    아파트  11  국민임대  35.0        28  4.0  A   7204000  124720   
2380  C1263   268    아파트  11  국민임대  35.0       120  4.0  A   7204000  124720   
2381  C1263   268    아파트  11  국민임대  45.0        60  4.0  A  15806000  178490   

      지하철   버스  단지내주차면수  등록차량수  
2377  0.0  5.0    214.0  217.0  
2378  0.0  5.0    214.0  217.0  
2379  0.0  5.0    214.0  217.0  
2380  0.0  5.0    214.0  217.0  
2381  0.0  5.0    214.0  217.0  
       단지코드  총세대수 임대건물구분  지역  공급유형  전용면적  전용면적별세대수   공가수 신분      임대보증금  \
2382  C1136   984    아파트   3  국민임대  25.0       296  31.0  A   13118000   
2383  C1136   984    아파트   3  국민임대  35.0       296  31.0  A   17849000   
2384  C1136   984    아파트   3  국민임대  45.0       228  31.0  E  124970000   
2385  C1136   984    아파트 

2679  390000  0.0  2.0   1306.0  1378.0  
       단지코드  총세대수 임대건물구분  지역  공급유형  전용면적  전용면적별세대수   공가수 신분     임대보증금     임대료  \
2680  C1786   480    아파트   5  행복주택  15.0       156  25.0  K         -       -   
2681  C1786   480    아파트   5  행복주택  25.0       136  25.0  K         -       -   
2682  C1786   480    아파트   5  행복주택  25.0        72  25.0  K         -       -   
2683  C1786   480    아파트   5  행복주택  25.0        24  25.0  K         -       -   
2684  C1786   480    아파트   5  행복주택  35.0        92  25.0  J  30560000  145160   

      지하철   버스  단지내주차면수  등록차량수  
2680  0.0  3.0    338.0  345.0  
2681  0.0  3.0    338.0  345.0  
2682  0.0  3.0    338.0  345.0  
2683  0.0  3.0    338.0  345.0  
2684  0.0  3.0    338.0  345.0  
       단지코드  총세대수 임대건물구분  지역       공급유형  전용면적  전용면적별세대수   공가수 신분     임대보증금  \
2685  C1357   908    아파트   8  공공임대(10년)  70.0        80  27.0  A  57000000   
2686  C1357   908    아파트   8  공공임대(10년)  70.0       656  27.0  A  57000000   
2687  C1357   908    아파트   8  공공임대(10년)

In [19]:
new_train

Unnamed: 0,단지코드,총세대수,공가수,지역,단지내주차면수,지하철,버스,면적_35.0,면적_50.0,면적_55.0,...,면적_25.0,면적_70.0,면적_15.0,면적_20.0,면적_100.0,면적_60.0,면적_75.0,면적_80.0,면적_65.0,등록차량수
0,C2483,900.0,38.0,0.0,1425.0,0.0,3.0,149.0,665.0,86.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1015.0
1,C2515,545.0,17.0,1.0,624.0,0.0,3.0,80.0,132.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,205.0
2,C1407,1216.0,13.0,2.0,1285.0,1.0,1.0,0.0,124.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1064.0
3,C1945,755.0,6.0,3.0,734.0,1.0,3.0,240.0,303.0,212.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,730.0
4,C1470,696.0,14.0,4.0,645.0,0.0,2.0,254.0,246.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,553.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
418,C2586,90.0,7.0,9.0,66.0,0.0,3.0,36.0,0.0,0.0,...,42.0,0.0,12.0,0.0,0.0,0.0,0.0,0.0,0.0,57.0
419,C2035,492.0,24.0,5.0,521.0,0.0,1.0,156.0,0.0,0.0,...,156.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,246.0
420,C2020,40.0,7.0,8.0,25.0,1.0,2.0,15.0,0.0,0.0,...,5.0,0.0,20.0,0.0,0.0,0.0,0.0,0.0,0.0,19.0
421,C2437,90.0,12.0,11.0,30.0,0.0,1.0,0.0,0.0,0.0,...,0.0,0.0,0.0,90.0,0.0,0.0,0.0,0.0,0.0,16.0


## 결측치 처리

In [20]:
new_train = new_train.fillna(-1)
new_test = new_test.fillna(-1)

## 학습

In [21]:
x_train = new_train.iloc[:, 1:-1]
y_train = new_train.iloc[:,-1]
x_test = new_test.iloc[:,1:]

In [22]:
model = RandomForestRegressor(n_jobs=-1, random_state=42)

In [23]:
model.fit(x_train, y_train)

RandomForestRegressor(n_jobs=-1, random_state=42)

## 추론 및 제출

In [24]:
pred = model.predict(x_test)

In [25]:
submission['num'] = pred

In [26]:
submission.to_csv('baseline.csv', index=False)