In [1]:
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

## 0. 데이터 불러오기
- D1_노인실태조사
- D2_고령화연구패널

In [2]:
df1 = pd.read_csv('./D1_노인실태조사.csv')
df2 = pd.read_csv('./D2_고령화연구패널.csv')

## 1. 데이터 전처리

- D1_노인실태조사

In [3]:
df1 = df1[['RES_AGE', 'RES_MAR', 'S5_1', 'RES_EDU1', 'H16_2', 'H16_7', 'E5_1']]
df1.columns = ['연령', '혼인상태', '동거인수', '교육수준', '경제상태 만족도', '삶 만족도', '희망 노인일자리']

# 혼인상태 - 1미혼 2기혼 3사별 4이혼 5별거 6기타
# 교육수준 - 0미취학 1무학(글자 모름) 2무학(글자 해독) 3초등학교 4중학교 5고등학교 6대학교 7대학교이상 9비해당
# 경제상태 만족도/삶 만족도 - 1매우만족함 2만족함 3그저그렇다 4만족하지않음 5전혀만족하지않음 9비해당

### 희망 노인일자리(y값) ### 1공익형 2시장형 3취업형 4재능나눔형 5사회서비스형 9비해당

df1

Unnamed: 0,연령,혼인상태,동거인수,교육수준,경제상태 만족도,삶 만족도,희망 노인일자리
0,67,1,1,4,3,3,1
1,68,3,1,2,3,2,1
2,66,2,2,5,3,3,1
3,66,2,2,5,3,3,9
4,68,3,1,3,4,3,3
...,...,...,...,...,...,...,...
10092,66,3,2,3,4,4,9
10093,68,3,2,3,3,3,9
10094,67,3,2,3,2,2,9
10095,66,2,2,5,1,2,9


In [4]:
# 결측치 처리 - 혼인상태6, 교육수준9, 경제상태 만족도9, 삶 만족도9, 희망 노인일자리9 제거
df1 = df1[(df1['혼인상태'] != 6) & (df1['교육수준'] != 9) &
          (df1['경제상태 만족도'] != 9) & (df1['삶 만족도'] != 9) &
          (df1['희망 노인일자리'] != 9)]

In [5]:
df1.groupby('희망 노인일자리').count()

Unnamed: 0_level_0,연령,혼인상태,동거인수,교육수준,경제상태 만족도,삶 만족도
희망 노인일자리,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,1294,1294,1294,1294,1294,1294
2,199,199,199,199,199,199
3,268,268,268,268,268,268
4,123,123,123,123,123,123
5,209,209,209,209,209,209


- D2_고령화연구패널

In [6]:
df2 = df2[['w08A002_age', 'w08marital', 'w08hhsize', 'w08edu', 'w08G027', 'w08G030']]
df2.columns = ['연령', '혼인상태', '동거인수', '교육수준', '경제상태 만족도', '삶 만족도']

# 혼인상태 - 1혼인중 2별거 3이혼 4사별또는실종 5결혼한적없음
# 교육수준 - 1초졸이하 2중졸 3고졸 4대졸이상
# 경제상태 만족도/삶 만족도 - 0 10 20 ... 90 100 -9비해당

df2

Unnamed: 0,연령,혼인상태,동거인수,교육수준,경제상태 만족도,삶 만족도
0,87,4,1,2,60,70
1,65,1,4,4,40,30
2,66,1,4,4,50,60
3,84,1,2,1,60,60
4,85,1,2,3,60,60
...,...,...,...,...,...,...
5712,88,4,1,1,30,50
5713,82,4,1,1,30,50
5714,83,4,1,1,50,50
5715,93,4,1,1,50,80


In [7]:
# 결측치 처리 - 경제상태 만족도-9, 삶 만족도-9 제거
df2 = df2[(df2['경제상태 만족도'] != -9) & (df2['삶 만족도'] != -9)]

- D1, D2 데이터값 맞추기

In [8]:
# D1
# 혼인상태 - 1미혼 3사별 4이혼 5별거 -> 0 / 2기혼 -> 1로 변경
df1['혼인상태'] = df1['혼인상태'].replace([1, 3, 4, 5], 0)
df1['혼인상태'] = df1['혼인상태'].replace(2, 1)

# 교육수준 - 0미취학 1무학(글자 모름) 2무학(글자 해독) 3초등학교 -> 1 / 4중학교 -> 2 / 5고등학교 -> 3 / 6대학교 7대학교이상 -> 4로 변경
df1['교육수준'] = df1['교육수준'].replace([0, 1, 2, 3], 1)
df1['교육수준'] = df1['교육수준'].replace(4, 2)
df1['교육수준'] = df1['교육수준'].replace(5, 3)
df1['교육수준'] = df1['교육수준'].replace([6, 7], 4)

In [9]:
# D2
# 혼인상태 - 2별거 3이혼 4사별또는실종 5결혼한적없음 -> 0으로 변경
df2['혼인상태'] = df2['혼인상태'].replace([2, 3, 4, 5], 0)

# 경제상태 만족도 - 0 10 -> 5 / 20 30 -> 4 / 40 50 -> 3 / 60 70 80 -> 2 / 90 100 ->1로 변경
df2['경제상태 만족도'] = df2['경제상태 만족도'].replace([0, 10], 5)
df2['경제상태 만족도'] = df2['경제상태 만족도'].replace([20, 30], 4)
df2['경제상태 만족도'] = df2['경제상태 만족도'].replace([40, 50], 3)
df2['경제상태 만족도'] = df2['경제상태 만족도'].replace([60, 70, 80], 2)
df2['경제상태 만족도'] = df2['경제상태 만족도'].replace([90, 100], 1)

# 삶 만족도 - 0 10 -> 5 / 20 30 -> 4 / 40 50 -> 3 / 60 70 80 -> 2 / 90 100 ->1로 변경
df2['삶 만족도'] = df2['삶 만족도'].replace([0, 10], 5)
df2['삶 만족도'] = df2['삶 만족도'].replace([20, 30], 4)
df2['삶 만족도'] = df2['삶 만족도'].replace([40, 50], 3)
df2['삶 만족도'] = df2['삶 만족도'].replace([60, 70, 80], 2)
df2['삶 만족도'] = df2['삶 만족도'].replace([90, 100], 1)

## 2. D1_노인실태조사 데이터로 모델 생성

### (1) 데이터 분리(Train/Test)

In [10]:
X = df1.iloc[:, :-1].values
y = df1.iloc[:, -1].values
X.shape, y.shape

((2093, 6), (2093,))

In [11]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify = y, test_size = 0.2)
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((1674, 6), (419, 6), (1674,), (419,))

### (2) 앙상블 학습
- LogisticRegression
- RandomForest
- SVM

In [12]:
# 개별 분류기 생성

from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC

lrc = LogisticRegression()
rf = RandomForestClassifier()
svc = SVC()

In [13]:
# 개별 분류기 성능 확인
lrc.fit(X_train, y_train)
rf.fit(X_train, y_train)
svc.fit(X_train, y_train)
lrc.score(X_test, y_test), rf.score(X_test, y_test), svc.score(X_test, y_test)

(0.6205250596658711, 0.5322195704057279, 0.6181384248210023)

In [14]:
# Hard Voting을 위한 앙상블 분류기 생성
from sklearn.ensemble import VotingClassifier
voc = VotingClassifier([('LRC', lrc), ('RF', rf), ('SVC', svc)], voting='hard')

In [15]:
# 앙상블 분류기 성능 확인
voc.fit(X_train, y_train)
voc.score(X_test, y_test)

0.6205250596658711

### (3) GridSearchCV

In [39]:
params = {'LRC__C': [0.1, 1, 10],
          'RF__min_samples_split': [2, 4, 6, 8],
          'SVC__C': [0.1, 1, 10]}

In [40]:
from sklearn.model_selection import GridSearchCV
grid_voc = GridSearchCV(voc, params, scoring='accuracy', cv=5)

In [41]:
%time grid_voc.fit(X_train, y_train)

CPU times: user 25 s, sys: 209 ms, total: 25.2 s
Wall time: 25.2 s


GridSearchCV(cv=5,
             estimator=VotingClassifier(estimators=[('LRC',
                                                     LogisticRegression()),
                                                    ('RF',
                                                     RandomForestClassifier()),
                                                    ('SVC', SVC())]),
             param_grid={'LRC__C': [0.1, 1, 10],
                         'RF__min_samples_split': [2, 4, 6, 8],
                         'SVC__C': [0.1, 1, 10]},
             scoring='accuracy')

In [42]:
grid_voc.best_params_

{'LRC__C': 0.1, 'RF__min_samples_split': 2, 'SVC__C': 0.1}

In [43]:
params = {'LRC__C': [0.01, 0.05, 0.1, 0.2],
          'RF__min_samples_split': [2, 3, 4],
          'SVC__C': [0.01, 0.05, 0.1, 0.2]}

In [44]:
grid_voc.best_params_

{'LRC__C': 0.1, 'RF__min_samples_split': 2, 'SVC__C': 0.1}

In [45]:
best_voc = grid_voc.best_estimator_
best_voc.score(X_test, y_test)

0.6205250596658711

## 3. D2_고령화패널 데이터를 모델에 적용

In [46]:
X_train_2 = df2.values
X_train_2.shape

(5716, 6)

In [47]:
df2['희망 노인일자리 예측'] = best_voc.predict(X_train_2)
df2

Unnamed: 0,연령,혼인상태,동거인수,교육수준,경제상태 만족도,삶 만족도,희망 노인일자리 예측
0,87,0,1,2,2,2,1
1,65,1,4,4,3,4,1
2,66,1,4,4,3,2,1
3,84,1,2,1,2,2,1
4,85,1,2,3,2,2,1
...,...,...,...,...,...,...,...
5712,88,0,1,1,4,3,1
5713,82,0,1,1,4,3,1
5714,83,0,1,1,3,3,1
5715,93,0,1,1,3,2,1


In [48]:
df2.groupby('희망 노인일자리 예측').count()

Unnamed: 0_level_0,연령,혼인상태,동거인수,교육수준,경제상태 만족도,삶 만족도
희망 노인일자리 예측,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,5685,5685,5685,5685,5685,5685
4,29,29,29,29,29,29
5,2,2,2,2,2,2
