In [1]:
# 필요한 library 불러오기

import pandas as pd
import numpy as np
from sklearn.preprocessing import RobustScaler, MinMaxScaler, StandardScaler
from sklearn.linear_model import Ridge, Lasso, ElasticNet
from sklearn.model_selection import cross_val_score
import seaborn as sns
import matplotlib.pyplot as plt
from matplotlib import font_manager, rc
rc('font', family='AppleGothic')
plt.rcParams['axes.unicode_minus'] = False
import warnings
from sklearn.exceptions import ConvergenceWarning
warnings.simplefilter('ignore', ConvergenceWarning)
warnings.simplefilter(action='ignore', category=pd.errors.SettingWithCopyWarning)

In [2]:
train = pd.read_csv('train.csv')

In [3]:
test = pd.read_csv('test.csv')

In [4]:
sample_submission = pd.read_csv('sample_submission.csv')

In [5]:
age_gender_info = pd.read_csv('age_gender_info.csv')

In [6]:
train.shape

(2952, 15)

> 데이터의 수 자체가 적음, 전처리가 중요

In [7]:
train.isna().sum()

단지코드                              0
총세대수                              0
임대건물구분                            0
지역                                0
공급유형                              0
전용면적                              0
전용면적별세대수                          0
공가수                               0
자격유형                              0
임대보증금                           569
임대료                             569
도보 10분거리 내 지하철역 수(환승노선 수 반영)    211
도보 10분거리 내 버스정류장 수                4
단지내주차면수                           0
등록차량수                             0
dtype: int64

> 총 4개의 column에서 결측치 발생

In [8]:
test.isna().sum()

단지코드                              0
총세대수                              0
임대건물구분                            0
지역                                0
공급유형                              0
전용면적                              0
전용면적별세대수                          0
공가수                               0
자격유형                              2
임대보증금                           180
임대료                             180
도보 10분거리 내 지하철역 수(환승노선 수 반영)     42
도보 10분거리 내 버스정류장 수                0
단지내주차면수                           0
dtype: int64

> 총 4개의 column에서 결측치발생

> train에서는 결측치가 발생하지않은 column : `자격유형`

In [9]:
train_nunique = train.nunique()
train_nunique

단지코드                            423
총세대수                            351
임대건물구분                            2
지역                               16
공급유형                             10
전용면적                            679
전용면적별세대수                        403
공가수                              48
자격유형                             15
임대보증금                           957
임대료                             995
도보 10분거리 내 지하철역 수(환승노선 수 반영)      4
도보 10분거리 내 버스정류장 수               17
단지내주차면수                         355
등록차량수                           354
dtype: int64

In [10]:
#데이터 타입과 unique한 값의 갯수 보기
train_type_nunique = pd.DataFrame({
    'Data Type': train.dtypes,
    'Number of Unique Values': train.nunique()
})

train_type_nunique

Unnamed: 0,Data Type,Number of Unique Values
단지코드,object,423
총세대수,int64,351
임대건물구분,object,2
지역,object,16
공급유형,object,10
전용면적,float64,679
전용면적별세대수,int64,403
공가수,float64,48
자격유형,object,15
임대보증금,object,957


> object이면서 nunique가 많은 값 : `공급유형`, `자격유형`, `지역`

In [11]:
# 지역 data 합치기

train.loc[train.지역.isin(['경기도','서울특별시']), '지역'] = '수도권(서울/경기)'
train.loc[train.지역.isin(['경상남도','울산광역시','부산광역시','대구광역시','경상북도']), '지역'] = '경상도'
train.loc[train.지역.isin(['전라남도','광주광역시','전라북도']), '지역'] = '전라도'
train.loc[train.지역.isin(['충청남도','충청북도','대전광역시','세종특별자치시']), '지역'] = '충청도'

test.loc[test.지역.isin(['경기도','서울특별시']), '지역'] = '수도권(서울/경기)'
test.loc[test.지역.isin(['경상남도','울산광역시','부산광역시','대구광역시','경상북도']), '지역'] = '경상도'
test.loc[test.지역.isin(['전라남도','광주광역시','전라북도']), '지역'] = '전라도'
test.loc[test.지역.isin(['충청남도','충청북도','대전광역시','세종특별자치시']), '지역'] = '충청도'

In [12]:
train['공급유형'].unique()

array(['국민임대', '공공임대(50년)', '영구임대', '임대상가', '공공임대(10년)', '공공임대(분납)',
       '장기전세', '공공분양', '행복주택', '공공임대(5년)'], dtype=object)

In [13]:
# train, test column rename : column명이 긴 것을 간결화
train.rename(columns={'도보 10분거리 내 지하철역 수(환승노선 수 반영)': '지하철수',
                      '도보 10분거리 내 버스정류장 수': '버스수'}, inplace=True)
test.rename(columns={'도보 10분거리 내 지하철역 수(환승노선 수 반영)': '지하철수',
                     '도보 10분거리 내 버스정류장 수': '버스수'}, inplace=True)


# 결측치 통일 : '임대료','임대보증금' 컬럼에서 '-' 값을 NaN으로 변경

for col in ['임대료', '임대보증금']:
    train[col] = train[col].replace('-', np.nan).astype(float)
    test[col] = test[col].replace('-', np.nan).astype(float)

# 해당 컬럼을 float64 타입으로 변환
train['임대료'] = train['임대료'].astype(float)
train['임대보증금'] = train['임대보증금'].astype(float)

# 해당 컬럼을 float64 타입으로 변환
test['임대료'] = test['임대료'].astype(float)
test['임대보증금'] = test['임대보증금'].astype(float)

# train - 버스수는 10으로, 지하철수는 0으로 결측치를 채움
train[train['지하철수'].isna()]['지역'].unique() # 충남, 대전, 경남으로 이 중에서 대전에만 지하철 운행 - 충남, 경남 0으로 채우기로 결정

# 대전광역시 단지코드 확인
nan_subway = train[(train['지역'] == '대전광역시') & (train['지하철수'].isna())]
nan_subway_codes = nan_subway['단지코드'].unique()
print(nan_subway_codes)
# 전국 LH아파트 단지정보와 비교하여 도보 10분 내 지하철 역 없는 것 확인, 0으로 채움

#대전광역시 동구 우암로 133  (주공삼성타운아파트)
# 대전광역시 중구 목중로39번길 35-14(목동) 대전목동 행복주택
# 버스도 전국 LH아파트 단지정보와 비교하여 [경상남도 양산시 물금읍 새실로 54(양산신도시엘에이치아파트5단지)] 10개 정도 도보로 가능함을 확인

train['버스수'].fillna(10, inplace=True)
train['지하철수'].fillna(0, inplace=True)

# test - 지하철수 0으로 결측치를 채움
test[test['지하철수'].isna()]['지역'].unique() # 충남, 대전으로 이 중에서 대전에만 지하철 운행 - 충남 0으로 채우기로 결정

# 대전광역시 단지코드 확인
nan_subway = test[(test['지역'] == '대전광역시') & (train['지하철수'].isna())]
nan_subway_codes = nan_subway['단지코드'].unique()
print(nan_subway_codes)
# 전국 LH아파트 단지정보와 비교하여 도보 10분 내 지하철 역 없는 것 확인, 0으로 채움 [대전광역시 동구 우암로 133  (주공삼성타운아파트), 대전광역시 중구 목중로39번길 35-14(목동) 대전목동 행복주택]]

test['지하철수'].fillna(0, inplace=True)

#자격유형 결측치 확인
test[test['자격유형'].isna()]

#C2411 자격유형 → 'A'
test[test['단지코드']=='C2411'] #C2411 자격유형이 모두 A로, 단순 결측치인 것으로 판단
test[test['단지코드']=='C2411']['자격유형'].fillna('A')

#C2253 자격유형 → 'C'
test[test['단지코드']=='C2253'] #자격유형 C, D를 구분하는 컬럼이 '임대건물구분'이라고 판단, 결측치는 임대건물구분이 아파트이기 때문에 자격유형 C로 채워넣음
test[test['단지코드']=='C2253']['자격유형'].fillna('C')

train.head()

[]
[]


  nan_subway = test[(test['지역'] == '대전광역시') & (train['지하철수'].isna())]


Unnamed: 0,단지코드,총세대수,임대건물구분,지역,공급유형,전용면적,전용면적별세대수,공가수,자격유형,임대보증금,임대료,지하철수,버스수,단지내주차면수,등록차량수
0,C2483,900,아파트,경상도,국민임대,39.72,134,38.0,A,15667000.0,103680.0,0.0,3.0,1425.0,1015.0
1,C2483,900,아파트,경상도,국민임대,39.72,15,38.0,A,15667000.0,103680.0,0.0,3.0,1425.0,1015.0
2,C2483,900,아파트,경상도,국민임대,51.93,385,38.0,A,27304000.0,184330.0,0.0,3.0,1425.0,1015.0
3,C2483,900,아파트,경상도,국민임대,51.93,15,38.0,A,27304000.0,184330.0,0.0,3.0,1425.0,1015.0
4,C2483,900,아파트,경상도,국민임대,51.93,41,38.0,A,27304000.0,184330.0,0.0,3.0,1425.0,1015.0


In [14]:
train[train['지하철수'].isna()]['지역'].unique()

array([], dtype=object)

In [15]:
# 임대료 혹은 임대보증금이 NaN값인 행 필터링
missing_data = train[train['임대료'].isna() | train['임대보증금'].isna()]

# 모든 열에 대해 통계요약값과 누락 데이터 몇 행정도 표시
summary = missing_data.describe(include='all')
summary


Unnamed: 0,단지코드,총세대수,임대건물구분,지역,공급유형,전용면적,전용면적별세대수,공가수,자격유형,임대보증금,임대료,지하철수,버스수,단지내주차면수,등록차량수
count,590,590.0,590,590,590,590.0,590.0,590.0,590,9.0,0.0,590.0,590.0,590.0,590.0
unique,39,,2,5,5,,,,4,,,,,,
top,C1439,,상가,경상도,임대상가,,,,D,,,,,,
freq,45,,562,325,562,,,,569,,,,,,
mean,,1236.922034,,,,45.542356,7.984746,7.886441,,184243000.0,,0.288136,3.679661,313.910169,213.735593
std,,652.934635,,,,66.314353,45.403471,10.514231,,39623530.0,,0.453279,2.308343,293.986239,308.756185
min,,370.0,,,,12.62,1.0,0.0,,87444000.0,,0.0,1.0,65.0,31.0
25%,,657.0,,,,26.25,1.0,1.0,,174888000.0,,0.0,2.0,153.0,94.0
50%,,1005.0,,,,31.84,1.0,2.0,,194562000.0,,0.0,3.0,217.0,127.0
75%,,1755.0,,,,37.95,1.0,9.0,,213863000.0,,1.0,4.0,351.0,189.0


In [16]:
print("임대건물구분이 상가인 것의 임대료",train[train['임대건물구분'] == '상가']['임대료'].unique())
print("임대건물구분이 상가인 것의 임대보증금",train[train['임대건물구분'] == '상가']['임대보증금'].unique())
print("공급유형이 임대상가인 것의 임대료",train[train['공급유형']=='임대상가']['임대료'].unique())
print("공급유형이 임대상가인 것의 임대보증금",train[train['공급유형']=='임대상가']['임대보증금'].unique())
print("자격유형이 D인 것의 임대료",train[train['자격유형'] == 'D']['임대료'].unique())
print("자격유형이 D인 것의 임대보증금",train[train['자격유형'] == 'D']['임대보증금'].unique())

임대건물구분이 상가인 것의 임대료 [nan]
임대건물구분이 상가인 것의 임대보증금 [nan]
공급유형이 임대상가인 것의 임대료 [nan]
공급유형이 임대상가인 것의 임대보증금 [nan]
자격유형이 D인 것의 임대료 [nan]
자격유형이 D인 것의 임대보증금 [nan]


> 해당하는 조건을 해봤으나 모두 nan값이라 유의미한 결과를 도출할 수 없음

> 상가가 아닌 것의 데이터를 살펴보았습니다.

In [17]:
train[(train['임대료'].isna()) & (train['임대건물구분'] != '상가')]

Unnamed: 0,단지코드,총세대수,임대건물구분,지역,공급유형,전용면적,전용면적별세대수,공가수,자격유형,임대보증금,임대료,지하철수,버스수,단지내주차면수,등록차량수
2043,C1397,370,아파트,수도권(서울/경기),장기전세,23.32,51,9.0,A,87444000.0,,0.0,3.0,1590.0,1595.0
2044,C1397,370,아파트,수도권(서울/경기),장기전세,46.79,4,9.0,A,174888000.0,,0.0,3.0,1590.0,1595.0
2045,C1397,370,아파트,수도권(서울/경기),장기전세,46.91,69,9.0,A,174888000.0,,0.0,3.0,1590.0,1595.0
2046,C1397,370,아파트,수도권(서울/경기),장기전세,51.96,24,9.0,A,194562000.0,,0.0,3.0,1590.0,1595.0
2047,C1397,370,아파트,수도권(서울/경기),장기전세,51.99,80,9.0,A,194562000.0,,0.0,3.0,1590.0,1595.0
2048,C1397,370,아파트,수도권(서울/경기),장기전세,59.93,142,9.0,A,216423000.0,,0.0,3.0,1590.0,1595.0
2100,C1039,790,아파트,수도권(서울/경기),장기전세,51.32,126,13.0,A,187694000.0,,0.0,3.0,673.0,645.0
2101,C1039,790,아파트,수도권(서울/경기),장기전세,59.88,49,13.0,A,213863000.0,,0.0,3.0,673.0,645.0
2102,C1039,790,아파트,수도권(서울/경기),장기전세,59.94,75,13.0,A,213863000.0,,0.0,3.0,673.0,645.0
2331,C1350,1401,아파트,충청도,공공분양,74.94,317,2.0,D,,,0.0,6.0,1636.0,2315.0


In [18]:
test[(test['임대료'].isna()) & (test['임대건물구분'] != '상가')]

Unnamed: 0,단지코드,총세대수,임대건물구분,지역,공급유형,전용면적,전용면적별세대수,공가수,자격유형,임대보증금,임대료,지하철수,버스수,단지내주차면수
76,C1006,1505,아파트,충청도,영구임대,26.37,10,27.0,D,,,2.0,5.0,428.0
77,C1006,1505,아파트,충청도,영구임대,26.37,10,27.0,D,,,2.0,5.0,428.0
79,C1006,1505,아파트,충청도,영구임대,52.74,6,27.0,D,,,2.0,5.0,428.0
1005,C2152,120,아파트,강원도,영구임대,24.83,66,9.0,C,,,0.0,1.0,40.0
1006,C2152,120,아파트,강원도,영구임대,33.84,54,9.0,C,,,0.0,1.0,40.0
1014,C1267,675,아파트,경상도,행복주택,16.94,50,38.0,L,,,0.0,1.0,467.0
1015,C1267,675,아파트,경상도,행복주택,26.85,66,38.0,L,,,0.0,1.0,467.0
1016,C1267,675,아파트,경상도,행복주택,26.85,8,38.0,L,,,0.0,1.0,467.0
1017,C1267,675,아파트,경상도,행복주택,36.77,126,38.0,L,,,0.0,1.0,467.0


> 다른 행들은 임대보증금과 임대료가 모두 결측치이지만 장기전세는 임대료만 결측치인 것을 확인할 수 있습니다.

> 장기전세주택이란 월 임대료를 지불하지 않고 전세계약 방식으로 공급되는 공공임대주택을 말합니다. [출처](https://www.mylawstory.com/5606/)

>그러므로 장기전세의 임대료는 0으로 바꿔주는 것이 맞습니다


In [19]:
#### 장기전세는 월 임대료를 지불하지않으므로 임대료 = 0 적용
train.loc[train['공급유형'] == '장기전세', '임대료'] = 0
test.loc[test['공급유형'] == '장기전세', '임대료'] = 0

> 단지내 주차면수과 임대료, 임대보증금이 높은 상관관계를 가지므로

> 공급유형이 상가가 아닌것들 중에 임대료와 임대보증금이 결측치인경우 지역별로 나눈 후 단지내 주차면수에 따른 회귀모델을 통해 임대료와 임대보증금의 결측치를 채워줍니다.

> train에는 있는데 test에는 없는 값들이 존재함
---
- 장기전세, 공공임대(5년), 공공분양
- 자격유형 : B, F, O
- 단지코드

In [20]:
train['공급유형'].value_counts()

공급유형
국민임대         1758
임대상가          562
행복주택          213
공공임대(10년)     205
영구임대          152
공공임대(50년)      31
공공임대(분납)       12
장기전세            9
공공분양            7
공공임대(5년)        3
Name: count, dtype: int64

In [21]:
test['공급유형'].value_counts()

공급유형
국민임대         622
임대상가         177
행복주택         124
영구임대          45
공공임대(10년)     35
공공임대(50년)     13
공공임대(분납)       6
Name: count, dtype: int64

 - 장기전세, 공공임대(5년), 공공분양이 train에서만 존재함
 -- '공공'으로 시작하는 거끼리 묶고, 장기전세는 장기적으로 주택을 임대, 국민 임대 역시 장기 임대한다는 점에서 둘을 묶기로 결정

In [22]:

train.loc[train.공급유형.isin(['공공임대(5년)', '공공분양', '공공임대(10년)', '공공임대(분납)','공공임대(50년)']), '공급유형'] = '공공임대(5년/10년/분납/분양)'
test.loc[test.공급유형.isin(['공공임대(5년)', '공공분양', '공공임대(10년)', '공공임대(분납)','공공임대(50년)']), '공급유형'] = '공공임대(5년/10년/분납/분양)'

train.loc[train.공급유형.isin(['장기전세', '국민임대']), '공급유형'] = '국민임대/장기전세'
test.loc[test.공급유형.isin(['장기전세', '국민임대']), '공급유형'] = '국민임대/장기전세'


In [23]:

print(train['공급유형'].value_counts())
print('-----'*10)
print(test['공급유형'].value_counts())
#column값 차이 없는 것 확인


공급유형
국민임대/장기전세             1767
임대상가                   562
공공임대(5년/10년/분납/분양)     258
행복주택                   213
영구임대                   152
Name: count, dtype: int64
--------------------------------------------------
공급유형
국민임대/장기전세             622
임대상가                  177
행복주택                  124
공공임대(5년/10년/분납/분양)     54
영구임대                   45
Name: count, dtype: int64


In [24]:
train['자격유형'].value_counts()
# B- 21
# F -3
# O -1
# 데이터가 적어서 바로 앞의 자격 유형과 묶어도 무방할 것 같음

자격유형
A    1801
D     569
H     155
J     114
C      95
I      49
E      37
K      33
L      33
N      30
B      21
G       9
F       3
M       2
O       1
Name: count, dtype: int64

In [25]:
test['자격유형'].value_counts()

자격유형
A    572
D    180
H     92
J     84
C     34
K     16
L     12
E     10
N     10
I      7
M      2
G      1
Name: count, dtype: int64

In [26]:
# B,F,O 각 자격유형의 바로 앞 자격유형과 통합함
train['자격유형'] = train['자격유형'].apply(lambda x: 'A-B' if x in ['A', 'B'] else x)
test['자격유형'] = test['자격유형'].apply(lambda x: 'A-B' if x in ['A', 'B'] else x)

train['자격유형'] = train['자격유형'].apply(lambda x: 'E-F' if x in ['E', 'F'] else x)
test['자격유형'] = test['자격유형'].apply(lambda x: 'E-F' if x in ['E', 'F'] else x)

train['자격유형'] = train['자격유형'].apply(lambda x: 'N-O' if x in ['N', 'O'] else x)
test['자격유형'] = test['자격유형'].apply(lambda x: 'N-O' if x in ['N', 'O'] else x)

train['자격유형'].value_counts()

자격유형
A-B    1822
D       569
H       155
J       114
C        95
I        49
E-F      40
K        33
L        33
N-O      31
G         9
M         2
Name: count, dtype: int64

In [27]:
train.shape, train.drop_duplicates().shape #중복존재

((2952, 15), (2632, 15))

In [28]:
test.shape, test.drop_duplicates().shape #중복존재

((1022, 14), (949, 14))

In [29]:
train = train.drop_duplicates()
test=test.drop_duplicates()

> data type이 object인 것을 모두 인코딩(원-핫 인코딩 사용)

In [30]:
# '단지코드'를 제외하고 object인 열을 모두 원-핫 인코딩 진행

# 인코딩할 object 열을 식별
object_columns = train.select_dtypes(include=['object']).columns.tolist()
object_columns.remove('단지코드')  # '단지코드' 열은 제외하여 인코딩하지 않음

# train, test에 대해 원-핫 인코딩 진행
train_encoded = pd.get_dummies(train, columns=object_columns)
test_encoded = pd.get_dummies(test, columns=object_columns)

# 인코딩이 진행된 train 데이터의 열 확인
train_encoded.head()
train_encoded.columns

Index(['단지코드', '총세대수', '전용면적', '전용면적별세대수', '공가수', '임대보증금', '임대료', '지하철수',
       '버스수', '단지내주차면수', '등록차량수', '임대건물구분_상가', '임대건물구분_아파트', '지역_강원도',
       '지역_경상도', '지역_수도권(서울/경기)', '지역_전라도', '지역_제주특별자치도', '지역_충청도',
       '공급유형_공공임대(5년/10년/분납/분양)', '공급유형_국민임대/장기전세', '공급유형_영구임대', '공급유형_임대상가',
       '공급유형_행복주택', '자격유형_A-B', '자격유형_C', '자격유형_D', '자격유형_E-F', '자격유형_G',
       '자격유형_H', '자격유형_I', '자격유형_J', '자격유형_K', '자격유형_L', '자격유형_M', '자격유형_N-O'],
      dtype='object')

In [31]:
# '임대건물구분'이 '상가'인 경우 '임대료', '임대보증금' 값을 drop
# '임대건물구분'이 '상가'가 아닌 경우는 drop없이 그대로 진행

train_store_data = train_encoded[train_encoded['임대건물구분_상가'] == 1].drop(columns=['임대료', '임대보증금'])
train_non_store_data = train_encoded[train_encoded['임대건물구분_상가'] != 1]

test_store_data = test_encoded[test_encoded['임대건물구분_상가'] == 1].drop(columns=['임대료', '임대보증금'])
test_non_store_data = test_encoded[test_encoded['임대건물구분_상가'] != 1]

### `임대건물구분`이 상가인 것을 학습데이터로 나누고, 정규화를 두가지 방법(minMax Scaler, Stndardization Scaler)로 진행한 후,
### Ridge, Lasso, ElasticNet 회귀 모델을 사용하여 MAE값이 가장 낮은것을 출력

In [32]:
from sklearn.model_selection import train_test_split

#'임대건물구분'이 '상가'와 '상가가 아닌 것'으로 데이터를 분리
features_store = ['총세대수', '전용면적', '전용면적별세대수', '공가수', '단지내주차면수']
features_nonstore = ['총세대수', '전용면적', '전용면적별세대수', '공가수', '단지내주차면수']
target = '등록차량수'

X_store =train_store_data[features_store]
y_store=train_store_data[target]

X_non_store =train_non_store_data[features_nonstore]
y_non_store=train_non_store_data[target]

# 훈련 데이터와 검증 데이터로 분리
X_train_store, X_val_store, y_train_store, y_val_store = train_test_split(X_store, y_store, test_size=0.2, random_state=42)
X_train_non_store, X_val_non_store, y_train_non_store, y_val_non_store = train_test_split(X_non_store, y_non_store, test_size=0.2, random_state=42)

# Initialize scalers again
Robust_scaler = RobustScaler()
minmax_scaler = MinMaxScaler()
standard_scaler = StandardScaler()

# Apply Robust Scaling

X_train_store_robust = Robust_scaler.fit_transform(X_train_store)
X_val_store_robust = Robust_scaler.transform(X_val_store)

X_train_non_store_robust = Robust_scaler.fit_transform(X_train_non_store)
X_val_non_store_robust = Robust_scaler.transform(X_val_non_store)

# Apply MinMax Scaling

X_train_store_minmax = minmax_scaler.fit_transform(X_train_store)
X_val_store_minmax = minmax_scaler.transform(X_val_store)

X_train_non_store_minmax = minmax_scaler.fit_transform(X_train_non_store)
X_val_non_store_minmax = minmax_scaler.transform(X_val_non_store)

# Apply Standard Scaling
X_train_store_std = standard_scaler.fit_transform(X_train_store)
X_val_store_std = standard_scaler.transform(X_val_store)

X_train_non_store_std = standard_scaler.fit_transform(X_train_non_store)
X_val_non_store_std = standard_scaler.transform(X_val_non_store)

In [33]:
import numpy as np
from sklearn.linear_model import Lasso, Ridge, ElasticNet
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import mean_absolute_error
from xgboost import XGBRegressor
from sklearn.ensemble import RandomForestRegressor

Robust_scaler = RobustScaler()
minmax_scaler = MinMaxScaler()
standard_scaler = StandardScaler()

# 모델 및 파라미터 그리드 설정
models = {
    'Lasso': Lasso(),
    'Ridge': Ridge(),
    'ElasticNet': ElasticNet(),
    'XGBoost' : XGBRegressor(objective='reg:squarederror', random_state=42),
    'RandomForest' : RandomForestRegressor(random_state=42)
}

params = {
    'Lasso': {
        'alpha': [0.001, 0.01, 0.1, 1, 10, 100],
        'max_iter': [500, 1000,5000,10000],
        'tol': [0.00001,0.0001, 0.001]
    },
    'Ridge': {
        'alpha': [0.001, 0.01, 0.1, 1, 10, 100],
        'max_iter': [500, 1000,5000,10000],
        'tol': [0.00001,0.0001, 0.001]
    },
    'ElasticNet': {
        'alpha': [0.001, 0.01, 0.1, 1, 10, 100],
        'l1_ratio': [.1, .5, .7, .9, .95, .99, 1],
        'max_iter': [500, 1000],
        'tol': [0.00001,0.0001, 0.001]
    },
    'XGBoost' : {
                 'max_depth' : np.arange(5,9,1) ,
                  "n_estimators": [500],
                  'min_child_weight' : np.arange(1, 5, 1), 
                  'gamma' : [0,1,2,3],
                  "learning_rate": [0.05, 0.075, 0.1],
                  'subsample' :np.arange(0.8, 1.0, 0.1)
    },
    'RandomForest' : {
        'n_estimators' : [10, 50, 100],
        'max_features' :  ['auto', 'sqrt', 'log2'],
        'max_depth' : [10, 20, 30, 40, 50],
        'min_samples_split' :  [2, 5, 10],
        'bootstrap' :  [True, False]
    }
}

# 스케일링 방법
scaling_methods = {
    'Robust Scaling': (X_train_store_robust, X_val_store_robust),
    'MinMax Scaling': (X_train_store_minmax, X_val_store_minmax),
    'Standard Scaling': (X_train_store_std, X_val_store_std)
}

# 그리드 서치 및 MAE 계산
best_mae = float('inf')
best_model = None
best_params = None
best_scaling = None

for name, model in models.items():
    for method, (X_train_store_scaled, X_val_store_scaled) in scaling_methods.items():
        grid = GridSearchCV(model, params[name], cv=5, n_jobs=-1, scoring='neg_mean_absolute_error')
        grid.fit(X_train_store_scaled, y_train_store)
        y_pred_store = grid.predict(X_val_store_scaled)
        mae = mean_absolute_error(y_val_store, y_pred_store)

        if mae < best_mae:
            best_mae_store = mae
            best_model_store = name
            best_params_store = grid.best_params_
            best_scaling_store = method

print(f"Best Model: {best_model_store}")
print(f"Best Scaling Method: {best_scaling_store}")
print(f"Best Parameters: {best_params_store}")
print(f"Best MAE: {best_mae_store}")


450 fits failed out of a total of 1350.
The score on these train-test partitions for these parameters will be set to nan.
If these failures are not expected, you can try to debug them by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
307 fits failed with the following error:
Traceback (most recent call last):
  File "/Users/seungwoo/miniconda3/envs/tf25/lib/python3.8/site-packages/sklearn/model_selection/_validation.py", line 732, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "/Users/seungwoo/miniconda3/envs/tf25/lib/python3.8/site-packages/sklearn/base.py", line 1144, in wrapper
    estimator._validate_params()
  File "/Users/seungwoo/miniconda3/envs/tf25/lib/python3.8/site-packages/sklearn/base.py", line 637, in _validate_params
    validate_parameter_constraints(
  File "/Users/seungwoo/miniconda3/envs/tf25/lib/python3.8/site-packages/sklearn/utils/

Best Model: RandomForest
Best Scaling Method: Standard Scaling
Best Parameters: {'bootstrap': False, 'max_depth': 10, 'max_features': 'sqrt', 'min_samples_split': 2, 'n_estimators': 100}
Best MAE: 8.18701978430926


450 fits failed out of a total of 1350.
The score on these train-test partitions for these parameters will be set to nan.
If these failures are not expected, you can try to debug them by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
400 fits failed with the following error:
Traceback (most recent call last):
  File "/Users/seungwoo/miniconda3/envs/tf25/lib/python3.8/site-packages/sklearn/model_selection/_validation.py", line 732, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "/Users/seungwoo/miniconda3/envs/tf25/lib/python3.8/site-packages/sklearn/base.py", line 1144, in wrapper
    estimator._validate_params()
  File "/Users/seungwoo/miniconda3/envs/tf25/lib/python3.8/site-packages/sklearn/base.py", line 637, in _validate_params
    validate_parameter_constraints(
  File "/Users/seungwoo/miniconda3/envs/tf25/lib/python3.8/site-packages/sklearn/utils/

In [34]:
import numpy as np
from sklearn.linear_model import Lasso, Ridge, ElasticNet
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import mean_absolute_error

Robust_scaler = RobustScaler()
minmax_scaler = MinMaxScaler()
standard_scaler = StandardScaler()

# 데이터 및 스케일러가 주어진 것으로 가정
# X_train, X_val, y_train, y_val = ...
# minmax_scaler = ...
# standard_scaler = ...

# 모델 및 파라미터 그리드 설정
models = {
    'Lasso': Lasso(),
    'Ridge': Ridge(),
    'ElasticNet': ElasticNet(),
    'XGBoost' : XGBRegressor(objective='reg:squarederror', random_state=42),
    'RandomForest' : RandomForestRegressor(random_state=42)
}

params = {
    'Lasso': {
        'alpha': [0.001, 0.01, 0.1, 1, 10, 100],
        'max_iter': [500,1000,5000,10000],
        'tol': [0.00001,0.0001, 0.001]
    },
    'Ridge': {
        'alpha': [0.001, 0.01, 0.1, 1, 10, 100],
        'max_iter': [500,1000,5000,10000],
        'tol': [0.00001,0.0001, 0.001]
    },
    'ElasticNet': {
        'alpha': [0.001, 0.01, 0.1, 1, 10, 100],
        'l1_ratio': [.1, .5, .7, .9, .95, .99, 1],
        'max_iter': [500,1000,5000,10000],
        'tol': [0.00001,0.0001, 0.001]
    },
    'XGBoost' : {
                 'max_depth' : np.arange(5,9,1) ,
                  "n_estimators": [100, 500],
                  'min_child_weight' : np.arange(1, 5, 1), 
                  'gamma' : [0,1,2,3],
                  "learning_rate": [0.05, 0.075, 0.1],
                  'subsample' :np.arange(0.8, 1.0, 0.1)
    },
    'RandomForest' : {
        'n_estimators' : [10, 50, 100],
        'max_features' :  ['auto', 'sqrt', 'log2'],
        'max_depth' : [10, 20, 30, 40, 50],
        'min_samples_split' :  [2, 5, 10],
        'bootstrap' :  [True, False]
    }
}

# 스케일링 방법
scaling_methods = {
    'Robust Scaling': (X_train_non_store_robust, X_val_non_store_robust),
    'MinMax Scaling': (X_train_non_store_minmax, X_val_non_store_minmax),
    'Standard Scaling': (X_train_non_store_std, X_val_non_store_std)
}

# 그리드 서치 및 MAE 계산
best_mae = float('inf')
best_model = None
best_params = None
best_scaling = None

for name, model in models.items():
    for method, (X_train_non_store_scaled, X_val_non_store_scaled) in scaling_methods.items():
        grid = GridSearchCV(model, params[name], cv=5, n_jobs=-1, scoring='neg_mean_absolute_error')
        grid.fit(X_train_non_store_scaled, y_train_non_store)
        y_pred_non_store = grid.predict(X_val_non_store_scaled)
        mae = mean_absolute_error(y_val_non_store, y_pred_non_store)

        if mae < best_mae:
            best_mae_non_store = mae
            best_model_non_store = name
            best_params_non_store  = grid.best_params_
            best_scaling_non_store  = method

print(f"Best Model: {best_model_non_store}")
print(f"Best Scaling Method: {best_scaling_non_store}")
print(f"Best Parameters: {best_params_non_store}")
print(f"Best MAE: {best_mae_non_store}")

best_mae_store, best_mae_non_store

450 fits failed out of a total of 1350.
The score on these train-test partitions for these parameters will be set to nan.
If these failures are not expected, you can try to debug them by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
302 fits failed with the following error:
Traceback (most recent call last):
  File "/Users/seungwoo/miniconda3/envs/tf25/lib/python3.8/site-packages/sklearn/model_selection/_validation.py", line 732, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "/Users/seungwoo/miniconda3/envs/tf25/lib/python3.8/site-packages/sklearn/base.py", line 1144, in wrapper
    estimator._validate_params()
  File "/Users/seungwoo/miniconda3/envs/tf25/lib/python3.8/site-packages/sklearn/base.py", line 637, in _validate_params
    validate_parameter_constraints(
  File "/Users/seungwoo/miniconda3/envs/tf25/lib/python3.8/site-packages/sklearn/utils/

Best Model: RandomForest
Best Scaling Method: Standard Scaling
Best Parameters: {'bootstrap': False, 'max_depth': 30, 'max_features': 'sqrt', 'min_samples_split': 2, 'n_estimators': 50}
Best MAE: 28.79931914893617


450 fits failed out of a total of 1350.
The score on these train-test partitions for these parameters will be set to nan.
If these failures are not expected, you can try to debug them by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
369 fits failed with the following error:
Traceback (most recent call last):
  File "/Users/seungwoo/miniconda3/envs/tf25/lib/python3.8/site-packages/sklearn/model_selection/_validation.py", line 732, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "/Users/seungwoo/miniconda3/envs/tf25/lib/python3.8/site-packages/sklearn/base.py", line 1144, in wrapper
    estimator._validate_params()
  File "/Users/seungwoo/miniconda3/envs/tf25/lib/python3.8/site-packages/sklearn/base.py", line 637, in _validate_params
    validate_parameter_constraints(
  File "/Users/seungwoo/miniconda3/envs/tf25/lib/python3.8/site-packages/sklearn/utils/

(8.18701978430926, 28.79931914893617)

In [35]:
X_test_store = test_store_data[features_store]
X_test_non_store = test_non_store_data[features_nonstore]

In [36]:
# 선택한 모델로 스케일링된 테스트 데이터에 대한 예측 수행 (상가)
X_test_store_scaled = None

Robust_scaler = RobustScaler()
minmax_scaler = MinMaxScaler()
standard_scaler = StandardScaler()

if best_scaling_store == 'MinMax Scaling':
    minmax_scaler.fit(X_test_store)
    X_test_store_scaled = minmax_scaler.transform(X_test_store)
elif best_scaling_store == 'Standard Scaling':
    standard_scaler.fit(X_test_store)
    X_test_store_scaled = standard_scaler.transform(X_test_store)
elif best_scaling_store == 'Robust Scaling':
    Robust_scaler.fit(X_test_store)
    X_test_store_scaled = Robust_scaler.transform(X_test_store)

y_pred_test_store = None

if best_model_store == 'Lasso':
    model_store = Lasso(**best_params_store)
elif best_model_store == 'Ridge':
    model_store = Ridge(**best_params_store)
elif best_model_store == 'ElasticNet':
    model_store = ElasticNet(**best_params_store)
elif best_model_store == 'XGBoost':
    model_store = XGBRegressor(**best_params_store)
elif best_model_store == 'RandomForest':
    model_store = RandomForestRegressor(**best_params_store)        

model_store.fit(X_train_store_scaled, y_train_store)
y_pred_test_store = model_store.predict(X_test_store_scaled)


In [37]:
# 선택한 모델로 스케일링된 테스트 데이터에 대한 예측 수행 (상가가 아닌 것)
# 학습 데이터에 대해 스케일러를 학습(fit)시킴
X_test_non_store_scaled = None

Robust_scaler = RobustScaler()
minmax_scaler = MinMaxScaler()
standard_scaler = StandardScaler()

if best_scaling_non_store == 'MinMax Scaling':
    minmax_scaler.fit(X_test_non_store)
    X_test_non_store_scaled = minmax_scaler.transform(X_test_non_store)
elif best_scaling_non_store == 'Standard Scaling':
    standard_scaler.fit(X_test_non_store)
    X_test_non_store_scaled = standard_scaler.transform(X_test_non_store)
else :
    Robust_scaler.fit(X_test_non_store)
    X_test_store_scaled = Robust_scaler.transform(X_test_non_store)

y_pred_test_non_store = None

if best_model_non_store == 'Lasso':
    model_non_store = Lasso(**best_params_non_store)
elif best_model_non_store == 'Ridge':
    model_non_store = Ridge(**best_params_non_store)
elif best_model_non_store == 'ElasticNet':
    model_non_store = ElasticNet(**best_params_non_store)
elif best_model_store == 'XGBoost':
    model_non_store = XGBRegressor(**best_params_non_store)
elif best_model_store == 'RandomForest':
    model_non_store = RandomForestRegressor(**best_params_non_store)

model_non_store.fit(X_train_non_store_scaled, y_train_non_store)
y_pred_test_non_store = model_non_store.predict(X_test_non_store_scaled)

# y_pred_test_store[y_pred_test_store < 0] = 0
# y_pred_test_non_store[y_pred_test_non_store < 0] = 0

# # 로그 변환
# y_pred_test_store = np.log1p(y_pred_test_store)
# y_pred_test_non_store = np.log1p(y_pred_test_non_store)

# # 역 로그 변환
# y_pred_test_store = np.expm1(y_pred_test_store)
# y_pred_test_non_store = np.expm1(y_pred_test_non_store)

# 예측 결과를 원래 데이터 프레임에 추가
test_store_data['예측등록차량수'] = y_pred_test_store
test_non_store_data['예측등록차량수'] = y_pred_test_non_store

# 예측 결과 병합
test_encoded_combined = pd.concat([test_store_data, test_non_store_data])

# 각 단지코드의 예측된 등록차량수의 평균을 계산
submission = test_encoded_combined.groupby('단지코드')['예측등록차량수'].mean().reset_index()
submission.columns=['code','num']

# sample submission 양식에 맞게 결과 조정
final_submission = sample_submission.merge(submission, on='code', how='left')
final_submission = final_submission[['code', 'num_y']]
final_submission.columns = ['code', 'num']

final_submission.head()
# 예측 결과를 csv 파일로 저장
final_submission.to_csv('featureloss.csv', index=False)