In [2]:
%matplotlib inline
import warnings
warnings.filterwarnings("ignore")

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.pipeline import Pipeline, make_pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import FunctionTransformer
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import PowerTransformer 
from sklearn.preprocessing import OrdinalEncoder, OneHotEncoder
from sklearn.feature_selection import SelectPercentile, SelectKBest
from sklearn.model_selection import train_test_split, KFold, cross_validate, ShuffleSplit
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import PCA, TruncatedSVD
from sklearn.metrics import mean_squared_error
from sklearn import set_config
from catboost import CatBoostRegressor
import re
import statsmodels.api as sm
import matplotlib.pyplot as plt
from matplotlib import font_manager, rc

In [3]:
CATBOOST_VERSION = 3.0
NFOLDS = 10
SEED = 42
NCOMP = 100
P = 0.04

In [4]:
X_train = pd.read_csv('X_train.csv', encoding='cp949').drop(columns='ID')
y_train = pd.read_csv('y_train.csv', encoding='cp949').Salary

X_test = pd.read_csv('X_test.csv', encoding='cp949')
test_id = X_test.ID
X_test = X_test.drop(columns='ID')

In [5]:
## 어학시험 결측치 처리
X_train['어학시험'] = X_train['어학시험'].fillna('없음')
X_train = X_train.replace({'어학시험' :' '},'없음') 

X_test['어학시험'] = X_test['어학시험'].fillna('없음')
X_test = X_test.replace({'어학시험' :' '},'없음') 

In [6]:
df=pd.concat([X_train, X_test])

In [7]:
for i , j in  zip(df['대학전공'].str.contains('서양'), df['대학전공']) :
    if i ==True:
        df['대학전공'].replace(j,'서양화',inplace=True)
        
for i , j in  zip(df['대학전공'].str.contains('컴퓨터정보'), df['대학전공']) :
    if i ==True:
        df['대학전공'].replace(j,'컴퓨터정보공학',inplace=True)
        
for i , j in  zip(df['대학전공'].str.contains('섬유예술'), df['대학전공']) :
    if i ==True:
        df['대학전공'].replace(j,'섬유예술학',inplace=True)
        
for i , j in  zip(df['대학전공'].str.contains('영어교육'), df['대학전공']) :
    if i ==True:
        df['대학전공'].replace(j,'영어교육학',inplace=True)
        
for i , j in  zip(df['대학전공'].str.contains('보험'), df['대학전공']) :
    if i ==True:
        df['대학전공'].replace(j,'금융보험학',inplace=True)

for i , j in  zip(df['대학전공'].str.contains('세무'), df['대학전공']) :
    if i ==True:
        df['대학전공'].replace(j,'세무회계학',inplace=True)
        
for i , j in  zip(df['대학전공'].str.contains('천연섬유'), df['대학전공']) :
    if i ==True:
        df['대학전공'].replace(j,'천연섬유학',inplace=True)

for i , j in  zip(df['대학전공'].str.contains('섬유디자인'), df['대학전공']) :
    if i ==True:
        df['대학전공'].replace(j,'섬유디자인학',inplace=True)
        
for i , j in  zip(df['대학전공'].str.contains('간호'), df['대학전공']) :
    if i ==True:
        df['대학전공'].replace(j,'간호학',inplace=True)
        
for i , j in  zip(df['대학전공'].str.contains('전기전자제어'), df['대학전공']) :
    if i ==True:
        df['대학전공'].replace(j,'전기전자제어학',inplace=True)

for i , j in  zip(df['대학전공'].str.contains('전기전자정보'), df['대학전공']) :
    if i ==True:
        df['대학전공'].replace(j,'전기전자정보',inplace=True)
        
for i , j in  zip(df['대학전공'].str.contains('전자통신'), df['대학전공']) :
    if i ==True:
        df['대학전공'].replace(j,'전자통신학',inplace=True)

for i , j in  zip(df['대학전공'].str.contains('전자정보통신'), df['대학전공']) :
    if i ==True:
        df['대학전공'].replace(j,'전자통신학',inplace=True)        

In [8]:
df['대학전공']=df['대학전공'].replace(
{
    '경영':'경영학',
    '경영학':'경영학',
    '경영학 전공':'경영학',
    '경영학과':'경영학',
    '경영학과 (주간)':'경영학',
    '경영학과(주간)':'경영학',
    '경영학부':'경영학',
    '경영학부 경영학':'경영학',
    '경영학부 경영학 전공':'경영학',
    '경영학사':'경영학',
    '경영정보':'경영정보학',
    '경영정보학과':'경영정보학',
    'MIS(경영정보시스템)':'경영정보학',
    '인터넷경영정보':'경영정보학',
    '경영정보(MIS)':'경영정보학',
    '경영정보과':'경영정보학',
    '경영정보시스템':'경영정보학',
    '경영정보과학부':'경영정보학',
    'MIS':'경영정보학',
    '경영(MIS)':'경영정보학',
    '정보처리(MIS)':'경영정보학',
    '경제학과':'경제학',
    '경제':'경제학',
    '경제학부':'경제학',
    '경제과':'경제학',
    '경제학사':'경제학',
    '컴퓨터공학과':'컴퓨터공학',
    '컴퓨터':'컴퓨터공학',
    '컴퓨터학과':'컴퓨터공학',
    '컴퓨터과학':'컴퓨터공학',
    '컴퓨터학':'컴퓨터공학',
    '컴퓨터과학과':'컴퓨터공학',
    '컴퓨터 공학':'컴퓨터공학',
    '컴퓨터공':'컴퓨터공학',
    '컴퓨터 공학과':'컴퓨터공학',
    '컴퓨터 과학과':'컴퓨터공학',
    '컴퓨터과':'컴퓨터공학',
    '컴퓨터공학전공':'컴퓨터공학',
    '통신컴퓨터공학부 컴퓨터전공':'컴퓨터공학',
    '컴퓨터 학부':'컴퓨터공학',
    '통신`컴퓨터공학분 컴퓨터전공':'컴퓨터공학',
    '전자공학과':'전자공학',
    '전자공학부':'전자공학',
    '기계전자공학부 전자 전공':'전자공학',
    '전기전자공학과':'전기전자공학',
    '전기전자공학부':'전기전자공학',
    '공대 전기전자공학과':'전기전자공학',
    '전기전자':'전기전자공학',
    '전자전기':'전기전자공학',
    '전기전자공':'전기전자공학',
    '전자전기공':'전기전자공학',
    '전자전기공':'전기전자공학',
    '전기전자 공학부':'전기전자공학',
    '전기,전자':'전기전자공학',
    '전자전기공학':'전기전자공학',
    '전기공학과':'전기공학',
    '전기':'전기공학',
    '전기공':'전기공학',
    '전기과':'전기공학',
    '전기 공학과':'전기공학',
    '전기공학부':'전기공학',
    '전기공학전공':'전기공학',
    '전기 공학':'전기공학',
    '전기학과':'전기공학',
    '전기공항':'전기공학',
    '전기공화과':'전기공학',
    '전기(전자)':'전기공학',
    '정보통신':'정보통신학',
    '정보통신공학과':'정보통신학',
    '정보통신공':'정보통신학',
    '정보통신학과':'정보통신학',
    '정보통신공학부':'정보통신학',
    '정보통신학':'정보통신학',
    '정보통신과':'정보통신학',
    '정보통신 공학과':'정보통신학',
    '정보통신학과(구 전자공학과)':'정보통신학',
    '정보통신전공':'정보통신학',
    '전기전자공학부 정보통신전공':'정보통신학',
    '정보통신 공학':'정보통신학',
    '정보통신공학사':'정보통신학',
    '컴퓨터정보공학부 정보통신공학전공':'정보통신학',
    '정보통신공학전공':'정보통신학',
    '영어영문':'영어영문학',
    '영어영문학과':'영어영문학',
    '영어학과':'영어영문학',
    '영어학':'영어영문학',
    '영어과':'영어영문학',
    '영어영문과':'영어영문학',
    '영어 영문학':'영어영문학',
    '영어 영문학과':'영어영문학',
    '영어 영문':'영어영문학',
    '영어영문학부':'영어영문학',
    '영어 영문과':'영어영문학',
    '영어영문학(야)':'영어영문학',
    '영어영문학사':'영어영문학',
    '영문영어':'영어영문학',
    '영어 전공':'영어영문학',
    '기계공학과':'기계공학',
    '기계공학부':'기계공학',
    '기계':'기계공학',
    '기계공':'기계공학',
    '기계과':'기계공학',
    '기계 공학과':'기계공학',
    '기계공악':'기계공학',
    '기계 공학':'기계공학',
    '기계공학 전공':'기계공학',
    '기계고학부':'기계공학',
    '기계공확과':'기계공학',
    '산업공학과':'산업공학',
    '산업공학전공':'산업공학',
    '회계학과':'회계학',
    '회계':'회계학',
    '회계헉':'회계학',
    '회계학과(야)':'회계학',
    '상경학부(회계전공)':'회계학',
    '경영학부(회계학)':'회계학',
    '회계확과':'회계학',
    '회계학과졸업':'회계학',
    '회계학':'회계학',
    '경영경제':'경영경제학',
    '경영경제 (주)':'경영경제학',
    '경영경제 전공':'경영경제학',
    '경영경제학과':'경영경제학',
    '행정학과':'행정학',
    '행정':'행정학',
    '행정학부':'행정학',
    '행정과':'행정학',
    '행정학전공':'행정학',
    '행정학과 졸업':'행정학',
    '법정대 행정학':'행정학',
    '법과대학 행정학':'행정학',
    '법학과':'법학',
    '법':'법학',
    '법학전공':'법학',
    '법(야)':'법학',
    '법정학부':'법학',
    '법과대학':'법학',
    '법학학사':'법학',
    '무역학과':'무역학',
    '무역':'무역학',
    '국제무역학과':'무역학',
    '무역학전공':'무역학',
    '경영학부 무역학':'무역학',
    '국제무역':'무역학',
    '무역과':'무역학',
    '경상학부 무역학':'무역학',
    '경상 무역학과':'무역학',
    '경상학부 무역학과':'무역학',
    '무역학과 졸업':'무역학',
    '무역전공':'무역학',
    '무역학부':'무역학',
    '화학과':'화학',
    '화학학과':'화학',
    '화학 전공':'화학',
    '공과대학 화학공학과':'화학공학',
    '화학 공학':'화학공학',
    '화학 공학과':'화학공학',
    '화학공':'화학공학',
    '화학공학과':'화학공학',
    '화학공항과':'화학공학',
    '화학공확과':'화학공학',
    '디자인학부 산업디자인과':'산업디자인학',
    '디자인학구 산업지자인전공':'산업디자인학',
    '산업 디자인':'산업디자인학',
    '산업디자인':'산업디자인학',
    '산업디자인 학과':'산업디자인학',
    '산업디자인과':'산업디자인학',
    '산업디자인부':'산업디자인학',
    '산업디자인하과':'산업디자인학',
    '산업디자인학과':'산업디자인학',
    '산업디자인학부':'산업디자인학',
    '의류학과':'의류학',
    '의류':'의류학',
    '의류헉과':'의류학',
    '디자인학 시각디자인전공':'시각디자인학',
    '비주얼 디자인':'시각디자인학',
    '비쥬얼디자인(시각)':'시각디자인학',
    '비쥬얼디자인(시각디자인)':'시각디자인학',
    '산업디자인 시각미디어전공':'시각디자인학',
    '산업디자인(시각)':'시각디자인학',
    '산업디자인(시각디자인 전공)':'시각디자인학',
    '산업디자인(시각디자인)':'시각디자인학',
    '산업디자인과 시각디자인전공':'시각디자인학',
    '산업디자인과시각디자인전공':'시각디자인학',
    '산업디자인학과 시각디자인전공':'시각디자인학',
    '산업디자인학과(시각디자인전공)':'시각디자인학',
    '산업미술학과 시각디자인':'시각디자인학',
    '시각 디자인':'시각디자인학',
    '시각디자인':'시각디자인학',
    '시각디자인 전공':'시각디자인학',
    '시각디자인과':'시각디자인학',
    '시각디자인학과':'시각디자인학',
    '중어중문':'중어중문학',
    '중어중문학과':'중어중문학',
    '중어중국학과':'중어중문학',
    '중어중문과':'중어중문학',
    '중어학과':'중어중문학',
    '중어중국':'중어중문학',
    '중어중국학':'중어중문학',
    '중어.중문학과':'중어중문학',
    '중어 중국학과':'중어중문학',
    '중국어학과':'중어중문학',
    '중국어과':'중어중문학',
    '중국어학':'중어중문학',
    '중국어중국학':'중어중문학',
    '중국어중국문학':'중어중문학',
    '중국어전공':'중어중문학',
    '중국어':'중어중문학',
    '중국어 학과':'중어중문학',
    '전자계산학과':'전자계산학',
    '전자계산':'전자계산학',
    '전자계산과':'전자계산학',
    '전자계산공학':'전자계산학',
    '전자계산학과(야)':'전자계산학',
    '전자계산공학과':'전자계산학',
    '컴퓨터공학(전자계산학)':'전자계산학',
    '일어일문':'일어일문학',
    '일어일문학과':'일어일문학',
    '일어일본과':'일어일문학',
    '일어일본학과':'일어일문학',
    '일어일문과':'일어일문학',
    '일어일본':'일어일문학',
    '일어':'일어일문학',
    '일어 일본학과':'일어일문학',
    '일어일문학전공':'일어일문학',
    '일어과':'일어일문학',
    '일어일문확과':'일어일문학',
    '일어일분학과':'일어일문학',
    '일어일본어':'일어일문학',
    '일어 일문학':'일어일문학',
    '관광 경영':'관광경영학',
    '관광경여':'관광경영학',
    '관광경영':'관광경영학',
    '관광경영학':'관광경영학',
    '관광경영학과':'관광경영학',
    '관광경영학과 경영학사':'관광경영학',
    '관광경영학전공':'관광경영학',
    '건축공학과':'건축공학',
    '건축공':'건축공학',
    '건축 공학과':'건축공학',
    '건축공학부':'건축공학',
    '패션디자인':'패션디자인학',
    '패션디자인학과':'패션디자인학',
    '패션디자인과':'패션디자인학',
    '패션디자인전공':'패션디자인학',
    '패션 디자인과':'패션디자인학',
    '의상섬유학부 패션디자인 전공':'패션디자인학',
    '패션디자인학부':'패션디자인학',
    '패션디자인 전공':'패션디자인학',
    '미술대학 패션디자인과':'패션디자인학',
    '패션디자인전공':'패션디자인학',
    '패션 디자인학과':'패션디자인학',
    '디자인학부 패션디자인과':'패션디자인학',
    '디자인대학 패션디자인학과':'패션디자인학',
    '미술대학 패션디자인학부':'패션디자인학',
    '패션지자인':'패션디자인학',
    '의상섬유학부 패션디자인':'패션디자인학',
    '패션디자인 2000.03~2008.02':'패션디자인학',
    '수학과':'수학',
    '수학학과':'수학',
    '수학전공':'수학',
    '전산통계':'전산통계학',
    '전산통계학과':'전산통계학',
    '전산통계학':'전산통계학',
    '전산 통계학':'전산통계학',
    '전산통게':'전산통계학',
    '전산통계학교':'전산통계학',
    '데이터정보(구 전산통계)':'전산통계학',
    '국어국문':'국어국문학',
    '국어국문학과':'국어국문학',
    '한국어문학':'국어국문학',
    '국어국문과':'국어국문학',
    '국어국문학가':'국어국문학',
    '인문학부 국어국문학과':'국어국문학',
    '국어국문학교':'국어국문학',
    '기계설계':'기계설계공학',
    '기계설계학과':'기계설계공학',
    '기계설계공학과':'기계설계공학',
    '기계설계학':'기계설계공학',
    '기게설계과':'기계설계공학',
    '기계공학부(기계설계)':'기계설계공학',
    '기계공학(기계설계)':'기계설계공학',
    '기계 설계':'기계설계공학',
    '기계설계 공학':'기계설계공학',
    '기계/설계':'기계설계공학',
    '기계설게공학과':'기계설계공학',
    '기계설계 공 학과':'기계설계공학',
    '신문방송':'신문방송학',
    '신문방송학과':'신문방송학',
    '신문방속학':'신문방송학',
    '언론정보학과(신문방송학과)':'신문방송학',
    '언론정보학과前신문방송학과':'신문방송학',
    '응용통계':'응용통계학',
    '응용통계학과':'응용통계학',
    '응용통계(경제학사)':'응용통계학',
    '상경 응용통계':'응용통계학',
    '상경대학 응용통계':'응용통계학',
    '응용통계학과(야간)':'응용통계학',
    '응용통계(상경)':'응용통계학',
    '경상대 응용통계':'응용통계학',
    '의상디자인':'의상디자인학',
    '의상디자인학과':'의상디자인학',
    '의상디자인과':'의상디자인학',
    '의생활학부 의상디자인':'의상디자인학',
    '의상 디자인':'의상디자인학',
    '의상 디자인과':'의상디자인학',
    '의상디자인전공':'의상디자인학',
    '의상 디자인학과':'의상디자인학',
    '공연예술학과 의상디자인':'의상디자인학',
    '의상디자인전공(대졸4)':'의상디자인학',
    '의상디자인학과졸':'의상디자인학',
    '사회학과':'사회학',
    '사회':'사회학',
    '토목공학과':'토목공학',
    '토목':'토목공학',
    '토목공':'토목공학',
    '토목공학부':'토목공학',
    '토목과':'토목공학',
    '토목학과':'토목공학',
    '토목공하과':'토목공학',
    '토목 공학과':'토목공학',
    '불어불문':'불어불문학',
    '불어불문학과':'불어불문학',
    '불어불문과':'불어불문학',
    '사학과':'사학',
    '역사학과':'사학',
    '역사학':'사학',
    '역사학전공':'사학',
    '인문학부 역사학과':'사학',
    '철학과':'철학',
    '철학전공':'철학',
    '의상학과':'의상학',
    '의상':'의상학',
    '의상학부':'의상학',
    '의상전공':'의상학',
    '물리학과':'물리학',
    '물리':'물리학',
    '물리&#54673':'물리학',
    '물리과':'물리학',
    '과학기술학부 물리학과':'물리학',
    '물리락과':'물리학',
    '일본어':'일어일문학',
    '일본어학과':'일어일문학',
    '일본어과':'일어일문학',
    '일본어학':'일어일문학',
    '일본어 학과':'일어일문학',
    '일본어 문학':'일어일문학',
    '일본어 전공':'일어일문학',
    '환경공학과':'환경공학',
    '환경학':'환경공학',
    '환경과학':'환경공학',
    '환경':'환경공학',
    '환경공':'환경공학',
    '환경학과':'환경공학',
    '환경과':'환경공학',
    '정치외교':'정치외교학',
    '정치외교학과':'정치외교학',
    '정치 외교 학과':'정치외교학',
    '정치 외교학과':'정치외교학',
    '독어독문':'독어독문학',
    '독어독문학과':'독어독문학',
    '독어학':'독어독문학',
    '독어 독문':'독어독문학',
    '독어독문 학과':'독어독문학',
    '독어독문과':'독어독문학',
    '생물학과':'생물학',
    '생물':'생물학',
    '생물과':'생물학',
    '사회복지':'사회복지학',
    '사회복지학과':'사회복지학',
    '사회복지과':'사회복지학',
    '시회복지학과':'사회복지학',
    '사회복지학부':'사회복지학',
    '금속공학과':'금속공학',
    '금속공':'금속공학',
    '금속':'금속공학',
    '금속공학교':'금속공학',
    '금속 공학과':'금속공학',
    '응용소재공학(구 금속공학)':'금속공학',
    '광고홍보':'광고홍보학',
    '광고홍보학과':'광고홍보학',
    '광고학과':'광고홍보학',
    '언론정보 광고홍보':'광고홍보학',
    '광고/홍보':'광고홍보학',
    '광고&PR':'광고홍보학',
    '광고홍':'광고홍보학',
    '광고,홍보':'광고홍보학',
    '경영학부 광고홍보':'광고홍보학',
    '광고학':'광고홍보학',
    '언론정보학부 광고홍보학 전공':'광고홍보학',
    '경영학부 광고.홍보학과':'광고홍보학',
    '광고':'광고홍보학',
    '체육학과':'체육학',
    '체육':'체육학',
    '체육과':'체육학',
    '체육대학':'체육학',
    '체육하과':'체육학',
    '체육학사':'체육학',
    '체육학전공 4학년':'체육학',
    '건강보건대학/체육학과':'체육학',
    '문헌정보':'문헌정보학',
    '문헌정보학과':'문헌정보학',
    '교육':'교육학',
    '전산':'전산학',
    '전산학과':'전산학',
    '전산과':'전산학',
    '전산학부':'전산학',
    '의류직물':'의류직물학',
    '의류직물학과':'의류직물학',
    '의류 직물학과':'의류직물학',
    '의류직물학전공':'의류직물학',
    '의류 직물':'의류직물학',
    '호텔관광경영':'호텔관광경영학',
    '호텔관광경영학과':'호텔관광경영학',
    '호텔관광 경영학과':'호텔관광경영학',
    '호텔관광경영하과':'호텔관광경영학',
    '호텔 관광 경영학과':'호텔관광경영학',
    '호텔.관광경영학':'호텔관광경영학',
    '호텔관광경영과':'호텔관광경영학',
    '호텔관관경영학과':'호텔관광경영학',
    '호텔관광':'호텔관광경영학',
    '호텔 관광경영학과':'호텔관광경영학',
    '호텔.관광 경영학과':'호텔관광경영학',
    '호텔관광경영대학':'호텔관광경영학',
    '식품영양':'식품영양학',
    '식품영양학과':'식품영양학',
    '심리학과':'심리학',
    '심리':'심리학',
    '식품공학과':'식품공학',
    '식품공':'식품공학',
    '식품':'식품공학',
    '재료공학과':'재료공학',
    '재료공':'재료공학',
    '재료':'재료공학',
    '재료 공학':'재료공학',
    '재료공합':'재료공학',
    '영어':'영어영문학',
    '영문학':'영어영문학',
    '영문학과':'영어영문학',
    '영문':'영어영문학',
    '영문과':'영어영문학',
    '영문학 전공':'영어영문학',
    '영여영문':'영어영문학',
    '영여영문학과':'영어영문학',
    '영여영문학':'영어영문학',
    '경영회계':'경영회계학',
    '경영회계학과':'경영회계학',
    '경영회계학부':'경영회계학',
    '경영/회계':'경영회계학',
    '경영.회계':'경영회계학',
    '경영.회계학과':'경영회계학',
    '경영,회계학':'경영회계학',
    '경영/회계학과':'경영회계학',
    '경영,회계학과':'경영회계학',
    '경영 회계':'경영회계학',
    '국제통상':'국제통상학',
    '국제통상학과':'국제통상학',
    '국제 통상':'국제통상학',
    '국제통상 학과':'국제통상학',
    '전자공':'전자공학',
    '통계학과':'통계학',
    '통계':'통계학',
    '경제학부 통계학':'통계학',
    '경제학부 통계학 전공':'통계학',
    '경제학부 통계학과':'통계학',
    '경제학부 통계학 전공':'통계학',
    '생명과학과':'생명과학',
    '생명과학부':'생명과학',
    '생명과학 전공':'생명과학',
    '생명과학학과':'생명과학',
    '생명과학전공':'생명과학',
    '도시공학과':'도시공학',
    '도시공':'도시공학',
    '도시공학전공':'도시공학',
    '제어계측':'제어계측학',
    '제어계측공학과':'제어계측학',
    '제어계측공':'제어계측학',
    '제어 계측':'제어계측학',
    '제어계측공학전공':'제어계측학',
    '제어계측공학 전공':'제어계측학',
    '사회체육':'사회체육학',
    '사회체육학과':'사회체육학',
    '사회체육과':'사회체육학',
    '사회체육 학과':'사회체육학',
    '호텔경영':'호텔경영학',
    '호텔경영학과':'호텔경영학',
    '호텔경영학':'호텔경영학',
    '호텔관광경영학부 호텔경영전공':'호텔경영학',
    '호텔경영전공':'호텔경영학',
    '경제무역':'경제무역학',
    '경제무역학과':'경제무역학',
    '경제/무역학':'경제무역학',
    '경제,무역':'경제무역학',
    '경제무역과':'경제무역학',
    '경제. 무역':'경제무역학',
    '경제.무역':'경제무역학',
    '가정관리':'가정관리학',
    '가정관리학과':'가정관리학',
    '가족환경(가정관리)':'가정관리학',
    '가정관리(현재아동가족학과로변경됨)':'가정관리학',
    '중국학과':'중국학',
    '중국':'중국학',
    '국제학부(중국학)':'중국학',
    '전자재료공학과':'전자재료공학',
    '전자재료':'전자재료공학',
    '전자재료공':'전자재료공학',
    '전자재료(전기전자공학부)':'전자재료공학',
    '전자재료 공학':'전자재료공학',
    '신학과':'신학',
    '신학부':'신학',
    '섬유공학과':'섬유공학',
    '의상섬유학부 섬유공학과':'섬유공학',
    '섬유 공학과':'섬유공학',
    '산업공':'산업공학',
    '유전공학과':'유전공학',
    '유전공':'유전공학',
    '생명과학 유전공':'유전공학',
    '멀티미디어':'멀티미디어학',
    '멀티미디어학과':'멀티미디어학',
    '멀티미디어학부':'멀티미디어학',
    '멀티미디어과':'멀티미디어학',
    '전산정보':'전산정보학',
    '정보전산':'전산정보학',
    '전산정보학과':'전산정보학',
    '정보전산학부':'전산정보학',
    '정보전산학':'전산정보학',
    '패션산업학과':'패션산업학',
    '의류패션산업':'패션산업학',
    '패션산업':'패션산업학',
    '패션산업학부':'패션산업학',
    '의류패션산업전공':'패션산업학',
    '의류패션산업학과':'패션산업학',
    '패션산업학':'패션산업학',
    '생활과학부 패션산업전공':'패션산업학',
    '패션산업전공':'패션산업학',
    '정보시스템':'정보시스템공학',
    '정보시스템학':'정보시스템공학',
    '정보시스템공학과':'정보시스템공학',
    '정보시스템 공학':'정보시스템공학',
    '건축':'건축학',
    '건축학과':'건축학',
    '건축과':'건축학',
    '신소재공학과':'신소재공학',
    '신소재':'신소재공학',
    '신소재학과':'신소재공학',
    '신소재공학':'신소재공학',
    '신소재 공학':'신소재공학',
    '신소재 공학과':'신소재공학',
    '신소재(고분재)공학과':'신소재공학',
    '신소재공학과(재료)':'신소재공학',
    '금속재료공학부 신소재공학':'신소재공학',
    '고분자공(신소재공학)':'신소재공학',
    '신소재공학부':'신소재공학',
    '신소재(고분자)공학':'신소재공학',
    '신소재과':'신소재공학',
    '자원공학과':'자원공학',
    '자원공':'자원공학',
    '공예학과':'공예학',
    '공예과':'공예학',
    '공예':'공예학',
    '가정학과':'가정학',
    '가정':'가정학',
    '가정학(인테리어)':'가정학',
    '가정학부':'가정학',
    '산업 경영학과':'산업경영공학',
    '산업경영':'산업경영공학',
    '산업경영공학과':'산업경영공학',
    '산업경영공학부':'산업경영공학',
    '산업경영학과':'산업경영공학',
    '전자전기공학부':'전기전자공학',
    '전자공학전공':'전자공학',
    '전자 공학':'전자공학',
    '전자공하과':'전자공학',
    '전자':'전자공학',
    '전자과':'전자공학',
    '전자전공':'전자공학',
    '전자 공학과':'전자공학'
})

In [9]:
df['근무형태'] = df['근무형태'].fillna('신입')

df['근무형태']=df['근무형태'].replace(
{
'정규직, 계약직, ':'정규직, 계약직',
'정규직, ':'정규직',
'정규직, 계약직, 해외취업, ':'정규직, 계약직, 해외취업',
'정규직, 계약직, 파견직, ':'정규직, 계약직, 파견직',
'정규직, 계약직, 해외취업, 파견직, ':'정규직, 계약직, 해외취업, 파견직',
'계약직, ':'계약직',
'정규직, 계약직, 해외취업, 인턴, ':'정규직, 계약직, 해외취업, 인턴',
'정규직, 해외취업, ':'정규직, 해외취업',
'정규직, 계약직, 인턴, 파견직, ':'정규직, 계약직, 인턴, 파견직',
'정규직, 계약직, 인턴, ':'정규직, 계약직, 인턴',
'정규직, 파견직, ':'정규직, 파견직',
'인턴, ':'인턴',
'정규직, 계약직, 해외취업, 인턴, 파견직, ':'정규직, 계약직, 해외취업, 인턴, 파견직',
'정규직, 해외취업, 파견직, ':'정규직, 해외취업, 파견직',
'계약직, 파견직, ':'계약직, 파견직',
'계약직, 인턴, ':'계약직, 인턴',
'정규직, 인턴, ':'정규직, 인턴',
'계약직, 해외취업, 파견직, ':'계약직, 해외취업, 파견직',
'정규직, 해외취업, 인턴, ':'정규직, 해외취업, 인턴',
'정규직, 계약직, 해외취업, 병역특례, 인턴, 파견직, ':'정규직, 계약직, 해외취업, 병역특례, 인턴, 파견직',
})

###### df['근무형태'] = df['근무형태'].fillna('신입')

df['근무형태']=df['근무형태'].replace(
{                               
'정규직, 계약직, 파견직':'정규직, 계약직',                 
'정규직, 계약직, 인턴':'정규직, 계약직',                   
'정규직, 인턴':'정규직',                           
'정규직, 계약직, 해외취업, 파견직':'정규직, 계약직, 해외취업',       
'정규직, 파견직':'정규직',                         
'정규직, 계약직, 인턴, 파견직':'정규직, 계약직',           
'정규직, 해외취업, 파견직':'정규직, 해외취업',               
'정규직, 계약직, 해외취업, 인턴':'정규직, 계약직, 해외취업',         
'정규직, 계약직, 해외취업, 인턴, 파견직':'정규직, 계약직, 해외취업', 
'해외취업':'기타',                              
'정규직, 병역특례':'정규직',                      
'정규직, 해외취업, 인턴':'정규직, 해외취업',                
'인턴':'기타',                              
'파견직':'기타',                                
'계약직, 파견직':'계약직',                                            
'계약직, 인턴':'계약직',                        
'계약직, 해외취업, 파견직':'계약직, 해외취업',    
'병역특례':'기타',                              
'정규직, 해외취업, 인턴, 파견직':'정규직, 해외취업',        
'정규직, 해외취업, 병역특례':'정규직, 해외취업',            
'정규직, 계약직, 해외취업, 병역특례, 인턴, 파견직':'정규직, 계약직, 해외취업',    
'계약직, 해외취업, 인턴':'계약직, 해외취업',                        
'정규직, 병역특례, 인턴':'정규직',                        
'정규직, 병역특례, 파견직':'정규직'
})

In [10]:
df.근무형태.value_counts()

신입                               16606
정규직                               9408
정규직, 계약직                           661
정규직, 해외취업                          328
정규직, 계약직, 해외취업                     111
계약직                                 87
정규직, 계약직, 파견직                       75
정규직, 계약직, 인턴                        75
정규직, 인턴                             73
정규직, 계약직, 해외취업, 파견직                 39
정규직, 파견직                            20
정규직, 계약직, 인턴, 파견직                   20
정규직, 해외취업, 파견직                      19
정규직, 계약직, 해외취업, 인턴                  17
정규직, 계약직, 해외취업, 인턴, 파견직             14
해외취업                                10
정규직, 병역특례                            9
정규직, 해외취업, 인턴                        8
인턴                                   7
파견직                                  7
계약직, 파견직                             5
계약직, 해외취업                            4
계약직, 인턴                              3
계약직, 해외취업, 파견직                       2
병역특례                                 2
정규직, 해외취업, 인턴, 파견직       

In [11]:
df['근무경력'].str.split(" ").str[0]
df['근무경력'].str.split(" ").str[-1]

df['연']=df['근무경력'].str.split(" ").str[0]
df['개월']=df['근무경력'].str.split(" ").str[-1]
df1=pd.concat([df.연,df.개월],axis=1)

df1['연'].loc[df1['연'] == '0개월'] = '0년'
df1['연'].loc[df1['연'] == '1개월'] = '0년'
df1['연'].loc[df1['연'] == '2개월'] = '0년'
df1['연'].loc[df1['연'] == '3개월'] = '0년'
df1['연'].loc[df1['연'] == '4개월'] = '0년'
df1['연'].loc[df1['연'] == '5개월'] = '0년'
df1['연'].loc[df1['연'] == '6개월'] = '0년'
df1['연'].loc[df1['연'] == '7개월'] = '0년'
df1['연'].loc[df1['연'] == '8개월'] = '0년'
df1['연'].loc[df1['연'] == '9개월'] = '0년'
df1['연'].loc[df1['연'] == '10개월'] = '0년'
df1['연'].loc[df1['연'] == '11개월'] = '0년'

df1['A'] = df1['연'].str.rstrip("년")
df1['B'] = df1['개월'].str.rstrip("개월")
df1['A'].unique()

df1['연차를 개월로 환산'] = df1['A'].astype(dtype='int64')*12
df1['B'] = df1['B'].astype(dtype='int64')*1
df1['개월수'] = df1['연차를 개월로 환산']+df1['B']
df['근무경력'] = df1['개월수']
df['근무경력'].value_counts()

df=df.drop(['연'],axis=1)
df=df.drop(['개월'],axis=1)

In [12]:
df['대학성적'] = df['대학성적'].fillna(df['대학성적'].mean())

In [13]:
df.어학시험.value_counts()

없음                21471
TOEIC              4664
JLPT                472
HSK                 305
JPT                 178
TOEFL               128
기타                   73
OPIc                 68
TEPS                 42
TOEIC Speaking       42
IELTS                33
G-TELP               27
TOEFL-CBT            27
기타시험                 17
JTRA                 14
TOEFL-IBT            14
新HSK                 13
TOEFL-PBT             8
SEPT                  7
G-ETAT                3
DELF                  3
G-TELP(GLT)           2
TOEIC S&W             2
GRE                   1
DALF                  1
OPI                   1
DELE                  1
TORFL                 1
Name: 어학시험, dtype: int64

In [14]:
df['어학시험']=df['어학시험'].replace(
{                               
    'TOEIC':'영어',
    'TOEFL':'영어',
    'OPIc':'영어',
    'OPI':'영어',
    'TEPs':'영어',
    'TEPS':'영어',
    'TOEIC Speaking':'영어',
    'IELTS':'영어',
    'G-TELP':'영어',
    'G-TELP(GLT)':'영어',
    'TOEFL-CBT':'영어',
    'TOEFL-IBT':'영어',
    'TOEFL-PBT':'영어',
    'SEPT':'영어',
    'TOEIC S&W':'영어',
    'GRE':'영어',
    'G-ETAT':'영어',
    'JLPT':'일본어',
    'JPT':'일본어',
    'JTRA':'일본어',
    'HSK':'중국어',
    '新HSK':'중국어', 
    '기타시험':'기타',
    'DELF':'기타',
    'DALF':'기타',
    'DELE':'기타',
    'TORFL':'기타'
})

In [15]:
df

Unnamed: 0,직종,세부직종,직무태그,근무경력,근무형태,근무지역,출신대학,대학전공,어학시험,자격증,대학성적
0,문화·예술·신문·방송,영상·음향·사진·카메라,"취재기자, 편집 기사, 유아 사이트 기획, 시나리오 작성",0,신입,"서울,경기,서울",성균관대학교,국문,없음,無,70.000000
1,경영·기획·회계·사무,사무·총무·법무,,35,정규직,"부산,서울,일본",신라대학교,관광경영학,일본어,無,71.704069
2,IT·게임,하드웨어설계·개발·관리,"하드웨어 , 무선통신 , MICOM , ASM , RF , CDMA , Firm W...",0,신입,"서울,경기,",수원대학교,정보통신학,없음,有,60.000000
3,영업·판매·TM,기술영업,반도체,12,정규직,"경기,서울,충북",수원대학교,정보통신학,없음,有,70.000000
4,기술·과학·산업,기타 기술·과학·산업,기술직,0,신입,"전국,전국,전국",한밭대학교,화학공학,없음,無,70.000000
...,...,...,...,...,...,...,...,...,...,...,...
11043,디자인,제품·산업디자인,"제품,산업,팬시",0,신입,"서울,부산,",호원대학교,섬유디자인학,없음,無,70.000000
11044,경영·기획·회계·사무,물류·유통관리,"물류,유통",0,신입,"경기,인천,서울",협성대학교,유통경영,없음,無,70.000000
11045,재료·화학·섬유·의복,섬유·의복,,0,계약직,"서울,경기,",한성대학교,의류직물학,없음,無,71.704069
11046,영업·판매·TM,판매·매장관리·캐셔·프런트,판매,0,신입,"부산,부산,부산",동서대학교,식품공학,영어,無,71.704069


In [16]:
X_train = df[:16570]
X_test = df[16570:]

In [17]:
X_train

Unnamed: 0,직종,세부직종,직무태그,근무경력,근무형태,근무지역,출신대학,대학전공,어학시험,자격증,대학성적
0,문화·예술·신문·방송,영상·음향·사진·카메라,"취재기자, 편집 기사, 유아 사이트 기획, 시나리오 작성",0,신입,"서울,경기,서울",성균관대학교,국문,없음,無,70.000000
1,경영·기획·회계·사무,사무·총무·법무,,35,정규직,"부산,서울,일본",신라대학교,관광경영학,일본어,無,71.704069
2,IT·게임,하드웨어설계·개발·관리,"하드웨어 , 무선통신 , MICOM , ASM , RF , CDMA , Firm W...",0,신입,"서울,경기,",수원대학교,정보통신학,없음,有,60.000000
3,영업·판매·TM,기술영업,반도체,12,정규직,"경기,서울,충북",수원대학교,정보통신학,없음,有,70.000000
4,기술·과학·산업,기타 기술·과학·산업,기술직,0,신입,"전국,전국,전국",한밭대학교,화학공학,없음,無,70.000000
...,...,...,...,...,...,...,...,...,...,...,...
16565,전문·교육·자격,금융·증권·투자,"고객지원,증권,생명,금융",0,신입,"전북,서울,경기",전주대학교,컴퓨터공학,없음,有,80.000000
16566,경영·기획·회계·사무,경리·회계,"회계,세무,자금, 결산,급여자산관리,",0,신입,"서울,경기,",성균관대학교,회계학,없음,有,70.000000
16567,경영·기획·회계·사무,사무·총무·법무,"사무,회계,인사,관리,무역",0,신입,"서울,경기,인천",수원대학교,무역학,영어,有,70.000000
16568,통신·모바일,기타 통신·모바일,"리서치 , 통계 , 조사분석 , EXCEL , SAS , SPSS",0,신입,"서울,서울,서울",성신여자대학교,통계학,없음,無,70.000000


In [18]:
numeric_features = ['근무경력','대학성적']
categorical_features = ['직종','세부직종','출신대학','대학전공','어학시험','자격증']
binary_features = ['직무태그','근무지역','근무형태']

X_train = X_train[numeric_features+categorical_features+binary_features]  # 순서 주의!!!
X_test = X_test[numeric_features+categorical_features+binary_features]

# CatBoost의 cat_features 파라미터에 지정할 범주형 피처 위치
cat_index = [list(X_train.columns).index(c) for c in categorical_features]

In [19]:
# 상하한값 제한을 통한 결측값 처리 함수: FunctionTransformer를 통해 호출
def remove_outlier(X, q=0.02):  
    df = pd.DataFrame(X)
    return df.apply(lambda x: x.clip(x.quantile(q), x.quantile(1-q)), axis=0).values

# 회귀분석의 계수검정을 이용한 피처선택 전처리기 클래스
class MyFeatureSelector(TransformerMixin, BaseEstimator):
    # 전처리기 생성 즉, MyFeatureSelector() 호출시 실행
    def __init__(self, p=0.01):
        self.p = p

    # 전처리기의 fit() 호출시 실행
    def fit(self, X, y=None):
        X = sm.add_constant(X)
        results = sm.OLS(y, X).fit()
        self.cols = list(results.pvalues[1:] <= self.p)
        return self
    
    # 전처리기의 transform() 호출시 실행
    def transform(self, X):
        return X[:,self.cols].astype(np.int64)        
    
numeric_transformer = Pipeline(
    steps=[
        ("imputer", SimpleImputer(strategy="mean")),
        ("outlier", FunctionTransformer(remove_outlier, kw_args={'q':0.02})),
    ]
)

categorical_transformer = Pipeline(
    steps=[
        ("imputer", SimpleImputer(strategy="most_frequent")), 
        ("encoder", OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1, dtype=np.object)),
    ]
)

binary_transformer = Pipeline(
    steps=[
        ("impuer", FunctionTransformer(lambda x: x.fillna('없음'))),      
        ("corpus", FunctionTransformer(lambda x: x.str.replace('·',',').str.replace(' ,',',').str.replace('/',',').str.replace(' , ',',').str.replace(', ',',').str.split(',').str.join(" "))),
        ("BoW", CountVectorizer()),
        ("dense", FunctionTransformer(lambda x: x.toarray().astype(int), accept_sparse=True)),
    ]
)

column_transformer = ColumnTransformer(
    transformers=[
        ("num", numeric_transformer, numeric_features),
        ("cat", categorical_transformer, categorical_features),
        ("bin1", make_pipeline(binary_transformer, TruncatedSVD(n_components=NCOMP,random_state=42)), binary_features[0]),
        ("bin2", make_pipeline(binary_transformer, MyFeatureSelector(p=P)), binary_features[1]),
        ("bin3", make_pipeline(binary_transformer, MyFeatureSelector(p=P)), binary_features[2]),
    ]
)

preprocessor = Pipeline(
    steps=[
        ("column", column_transformer), 
    ]
)

set_config(display="diagram")
preprocessor

In [20]:
X_train = preprocessor.fit_transform(X_train, y_train)
X_test = preprocessor.transform(X_test)

In [21]:
dfdf = pd.DataFrame(X_train)
dfdf

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,268,269,270,271,272,273,274,275,276,277
0,0.0,70.0,6,67,18,240,1,1,0.260976,0.0,...,0,0,0,0,0,0,1,0,0,0
1,35.0,71.704069,2,49,24,189,3,1,-0.0,1.0,...,0,0,0,0,0,0,0,0,1,0
2,0.0,60.0,0,105,23,1201,1,0,0.00439,-0.0,...,0,0,0,0,0,0,1,0,0,0
3,12.0,70.0,7,19,23,1201,1,0,0.012541,-0.0,...,0,0,0,0,1,0,0,0,1,0
4,0.0,70.0,3,24,34,1462,1,1,0.000848,0.0,...,0,3,0,0,0,0,1,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
16565,0.0,80.0,9,17,29,1327,1,0,0.064682,0.0,...,0,0,1,0,0,0,1,0,0,0
16566,0.0,70.0,2,7,18,1495,1,0,0.56412,0.0,...,0,0,0,0,0,0,1,0,0,0
16567,0.0,70.0,2,49,23,491,2,0,0.940649,-0.0,...,1,0,0,0,0,0,1,0,0,0
16568,0.0,70.0,10,29,19,1375,1,1,0.014589,-0.0,...,0,0,0,0,0,0,1,0,0,0


In [22]:
%%time

# 최적화된 하이퍼파라미터로 OOF를 수행하여 최종 CatBoost 모형 생성:
# No tuning => tuning한 모델에 비해 성능이 떨어지지 않음

#sscv = ShuffleSplit(test_size=.3334, n_splits=5, random_state=0)
model = CatBoostRegressor(cat_features=cat_index, verbose=False, random_state=SEED)
models = cross_validate(model,
                        X_train, y_train, 
                        cv=5, 
                        scoring='neg_mean_squared_error', 
                        return_estimator=True)
oof_pred = np.array([m.predict(X_test) for m in models['estimator']]).mean(axis=0)

scores = models['test_score']
print("\nCatBoost CV scores: ", np.sqrt(-1*scores))
print("CatBoost CV mean = %.2f" % np.sqrt(-1*scores.mean()), "with std = %.2f" % np.sqrt(scores.std()))


CatBoost CV scores:  [750.7518087  746.7575437  830.57762357 883.77003583 961.09903836]
CatBoost CV mean = 838.56 with std = 371.79
Wall time: 3min 3s


# submission 화일 생성
filename = f'catboost_{CATBOOST_VERSION}_{np.sqrt(-1*scores.mean()):.2f}.csv'
pd.DataFrame({'ID':test_id, 'Salary':oof_pred}).to_csv(filename, index=False)