In [1]:
# 필요한 라이브러리들
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns 
import warnings
warnings.filterwarnings('ignore')

# 모델 불러오기
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import VotingClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import GradientBoostingClassifier
from xgboost import XGBClassifier
from lightgbm import LGBMClassifier

# 나머지
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import StandardScaler

In [2]:
df_train = pd.read_csv('data/kaggle/train.csv')
df_test = pd.read_csv('data/kaggle/test.csv')
result = pd.read_csv('./data/kaggle/sample_submission.csv')

In [3]:
# total_cap 컬럼 추가
df_train['total_cap'] = df_train['capital-gain'] - df_train['capital-loss']
df_test['total_cap'] = df_test['capital-gain'] - df_test['capital-loss']

In [4]:
# 필요없는 컬럼 drop
df_train = df_train.drop(['no','fnlwgt','occupation','capital-gain','capital-loss','native-country','education'],axis=1)
df_test = df_test.drop(['no','fnlwgt','occupation','capital-gain','capital-loss','native-country','education'],axis=1)

In [5]:
# 나이 표준화
df_train['age'] = (df_train['age'] - df_train['age'].mean()) / df_train['age'].std()
df_test['age'] = (df_test['age'] - df_test['age'].mean()) / df_test['age'].std()
# 주당 노동시간 표준화
df_train['hours-per-week'] = (df_train['hours-per-week'] - df_train['hours-per-week'].mean()) / df_train['hours-per-week'].std()
df_test['hours-per-week'] = (df_test['hours-per-week'] - df_test['hours-per-week'].mean()) / df_test['hours-per-week'].std()
# total_cap 이상치 min-max 스케일링
df_train['total_cap'] = (df_train['total_cap']-df_train['total_cap'].min())/(df_train['total_cap'].max()-df_train['total_cap'].min())
df_test['total_cap'] = (df_test['total_cap']-df_test['total_cap'].min())/(df_test['total_cap'].max()-df_test['total_cap'].min())

In [6]:
X_train = pd.get_dummies(df_train)
X_test = pd.get_dummies(df_test)

In [7]:
df_train

Unnamed: 0,age,workclass,education-num,marital-status,relationship,race,sex,hours-per-week,income,total_cap
0,-0.993840,Private,7,Divorced,Not-in-family,White,Male,-0.035685,0,0.041742
1,0.024799,Private,10,Divorced,Not-in-family,White,Female,1.180580,0,0.025250
2,-0.266241,Private,13,Never-married,Not-in-family,Asian-Pac-Islander,Female,0.775158,0,0.041742
3,1.843797,Private,11,Divorced,Not-in-family,White,Female,-0.035685,0,0.041742
4,-1.066600,Private,10,Married-civ-spouse,Husband,White,Male,2.396845,1,0.041742
...,...,...,...,...,...,...,...,...,...,...
29300,-1.357640,Private,9,Never-married,Own-child,Other,Male,-0.035685,0,0.041742
29301,-1.284880,Private,9,Never-married,Own-child,Black,Male,-0.035685,0,0.041742
29302,-1.503160,Self-emp-not-inc,6,Never-married,Own-child,White,Male,-0.035685,0,0.041742
29303,-0.411761,Private,7,Never-married,Not-in-family,White,Male,1.991423,0,0.041742


In [8]:
X_train

Unnamed: 0,age,education-num,hours-per-week,income,total_cap,workclass_ ?,workclass_ Federal-gov,workclass_ Local-gov,workclass_ Never-worked,workclass_ Private,...,relationship_ Own-child,relationship_ Unmarried,relationship_ Wife,race_ Amer-Indian-Eskimo,race_ Asian-Pac-Islander,race_ Black,race_ Other,race_ White,sex_ Female,sex_ Male
0,-0.993840,7,-0.035685,0,0.041742,0,0,0,0,1,...,0,0,0,0,0,0,0,1,0,1
1,0.024799,10,1.180580,0,0.025250,0,0,0,0,1,...,0,0,0,0,0,0,0,1,1,0
2,-0.266241,13,0.775158,0,0.041742,0,0,0,0,1,...,0,0,0,0,1,0,0,0,1,0
3,1.843797,11,-0.035685,0,0.041742,0,0,0,0,1,...,0,0,0,0,0,0,0,1,1,0
4,-1.066600,10,2.396845,1,0.041742,0,0,0,0,1,...,0,0,0,0,0,0,0,1,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
29300,-1.357640,9,-0.035685,0,0.041742,0,0,0,0,1,...,1,0,0,0,0,0,1,0,0,1
29301,-1.284880,9,-0.035685,0,0.041742,0,0,0,0,1,...,1,0,0,0,0,1,0,0,0,1
29302,-1.503160,6,-0.035685,0,0.041742,0,0,0,0,0,...,1,0,0,0,0,0,0,1,0,1
29303,-0.411761,7,1.991423,0,0.041742,0,0,0,0,1,...,0,0,0,0,0,0,0,1,0,1


In [9]:
# 정답 데이터 분리
y_train = X_train['income']
X_train.drop('income',axis=1,inplace=True)

In [10]:
# lightgbm 모델
lgbm = LGBMClassifier(random_state=200, n_jobs=-1, reg_alpha=0.9, reg_lambda=0.2, n_estimators=101)
lgbm.fit(X_train,y_train)
lgbm_pre = lgbm.predict(X_test)
# 0.867087527725644

In [11]:
X_train_2 = pd.concat([X_train,X_test])

In [12]:
y_1=y_train.to_numpy()
y_t = np.concatenate([y_1, lgbm_pre])
y_t = list(y_t)
y_train_change=pd.Series(y_t)

In [13]:
### 모델 훈련
lgbm.fit(X_train_2,y_train_change)

LGBMClassifier(n_estimators=200, random_state=101, reg_alpha=0.9,
               reg_lambda=0.2)

In [14]:
# lgb 모델로 예측한 결과
pre1 = lgbm.predict(X_test)
# kaggle 양식 불러오기
rs =  pd.read_csv('./data/kaggle/sample_submission.csv')
rs['income'] = pre1 # 내 모델의 예측 결과를 양식에 넣기
rs.to_csv('RRRRReal1.csv', index = False)

In [15]:
# 위 과정 반복 -> 모델 예측한 결과중 더 좋은 결과를 다시 테스트 데이터의 정답으로 활용 + 트레인 데이터와 다시 합치고 다시 모델 학습
y_t = np.concatenate([y_1, pre1])
y_t = list(y_t)
y_train_change=pd.Series(y_t)

lgbm.fit(X_train_2,y_train_change)

pre2 = lgbm.predict(X_test)
# kaggle 양식 불러오기
rs =  pd.read_csv('./data/kaggle/sample_submission.csv')
rs['income'] = pre2 # 내 모델의 예측 결과를 양식에 넣기
rs.to_csv('RRRRReal2.csv', index = False)

scores = cross_val_score(lgbm, X_train_2, y_train_change, cv=5, scoring='accuracy')

# 교차 검증 결과 출력
print("교차 검증 정확도:", scores)
print("평균 정확도:", scores.mean())

교차 검증 정확도: [0.87685536 0.88064285 0.90059378 0.9206593  0.94256757]
평균 정확도: 0.9042637694879481


In [16]:
# 위 과정 반복 -> 모델 예측한 결과중 더 좋은 결과를 다시 테스트 데이터의 정답으로 활용 + 트레인 데이터와 다시 합치고 다시 모델 학습
y_t = np.concatenate([y_1, pre2])
y_t = list(y_t)
y_train_change=pd.Series(y_t)

lgbm.fit(X_train_2,y_train_change)

pre3 = lgbm.predict(X_test)
# kaggle 양식 불러오기
rs =  pd.read_csv('./data/kaggle/sample_submission.csv')
rs['income'] = pre3 # 내 모델의 예측 결과를 양식에 넣기
rs.to_csv('RRRRReal3.csv', index = False)

scores = cross_val_score(lgbm, X_train_2, y_train_change, cv=5, scoring='accuracy')

# 교차 검증 결과 출력
print("교차 검증 정확도:", scores)
print("평균 정확도:", scores.mean())

교차 검증 정확도: [0.8781861  0.88033576 0.90161753 0.92219492 0.94266994]
평균 정확도: 0.9050008492658712


In [17]:
# 위 과정 반복 -> 모델 예측한 결과중 더 좋은 결과를 다시 테스트 데이터의 정답으로 활용 + 트레인 데이터와 다시 합치고 다시 모델 학습
y_t = np.concatenate([y_1, pre3])
y_t = list(y_t)
y_train_change=pd.Series(y_t)

lgbm.fit(X_train_2,y_train_change)

pre4 = lgbm.predict(X_test)
# kaggle 양식 불러오기
rs =  pd.read_csv('./data/kaggle/sample_submission.csv')
rs['income'] = pre4 # 내 모델의 예측 결과를 양식에 넣기
rs.to_csv('RRRRReal4.csv', index = False)

scores = cross_val_score(lgbm, X_train_2, y_train_change, cv=5, scoring='accuracy')

# 교차 검증 결과 출력
print("교차 검증 정확도:", scores)
print("평균 정확도:", scores.mean())

교차 검증 정확도: [0.87675299 0.88084758 0.89987715 0.92260442 0.94400082]
평균 정확도: 0.9048165929448558


In [18]:
# 위 과정 반복 -> 모델 예측한 결과중 더 좋은 결과를 다시 테스트 데이터의 정답으로 활용 + 트레인 데이터와 다시 합치고 다시 모델 학습
y_t = np.concatenate([y_1, pre4])
y_t = list(y_t)
y_train_change=pd.Series(y_t)

lgbm.fit(X_train_2,y_train_change)

pre5 = lgbm.predict(X_test)
# kaggle 양식 불러오기
rs =  pd.read_csv('./data/kaggle/sample_submission.csv')
rs['income'] = pre5 # 내 모델의 예측 결과를 양식에 넣기
rs.to_csv('RRRRReal4.csv', index = False)

scores = cross_val_score(lgbm, X_train_2, y_train_change, cv=5, scoring='accuracy')

# 교차 검증 결과 출력
print("교차 검증 정확도:", scores)
print("평균 정확도:", scores.mean())

교차 검증 정확도: [0.87675299 0.87951684 0.90079853 0.92239967 0.94256757]
평균 정확도: 0.904407119782286


In [19]:
# 위 과정 반복 -> 모델 예측한 결과중 더 좋은 결과를 다시 테스트 데이터의 정답으로 활용 + 트레인 데이터와 다시 합치고 다시 모델 학습
y_t = np.concatenate([y_1, pre5])
y_t = list(y_t)
y_train_change=pd.Series(y_t)

lgbm.fit(X_train_2,y_train_change)

pre6 = lgbm.predict(X_test)
# kaggle 양식 불러오기
rs =  pd.read_csv('./data/kaggle/sample_submission.csv')
rs['income'] = pre6 # 내 모델의 예측 결과를 양식에 넣기
rs.to_csv('RRRRReal6.csv', index = False)

scores = cross_val_score(lgbm, X_train_2, y_train_change, cv=5, scoring='accuracy')

# 교차 검증 결과 출력
print("교차 검증 정확도:", scores)
print("평균 정확도:", scores.mean())

교차 검증 정확도: [0.87726482 0.88176886 0.90151515 0.9222973  0.94287469]
평균 정확도: 0.9051441639296076


In [20]:
# 위 과정 반복 -> 모델 예측한 결과중 더 좋은 결과를 다시 테스트 데이터의 정답으로 활용 + 트레인 데이터와 다시 합치고 다시 모델 학습
y_t = np.concatenate([y_1, pre6])
y_t = list(y_t)
y_train_change=pd.Series(y_t)

lgbm.fit(X_train_2,y_train_change)

pre7 = lgbm.predict(X_test)
# kaggle 양식 불러오기
rs =  pd.read_csv('./data/kaggle/sample_submission.csv')
rs['income'] = pre7 # 내 모델의 예측 결과를 양식에 넣기
rs.to_csv('RRRRReal7.csv', index = False)

scores = cross_val_score(lgbm, X_train_2, y_train_change, cv=5, scoring='accuracy')

# 교차 검증 결과 출력
print("교차 검증 정확도:", scores)
print("평균 정확도:", scores.mean())

교차 검증 정확도: [0.87634354 0.88033576 0.90161753 0.92199017 0.94348894]
평균 정확도: 0.9047551867466905


In [21]:
# 위 과정 반복 -> 모델 예측한 결과중 더 좋은 결과를 다시 테스트 데이터의 정답으로 활용 + 트레인 데이터와 다시 합치고 다시 모델 학습
y_t = np.concatenate([y_1, pre7])
y_t = list(y_t)
y_train_change=pd.Series(y_t)

lgbm.fit(X_train_2,y_train_change)

pre8 = lgbm.predict(X_test)
# kaggle 양식 불러오기
rs =  pd.read_csv('./data/kaggle/sample_submission.csv')
rs['income'] = pre8 # 내 모델의 예측 결과를 양식에 넣기
rs.to_csv('RRRRReal8.csv', index = False)

scores = cross_val_score(lgbm, X_train_2, y_train_change, cv=5, scoring='accuracy')

# 교차 검증 결과 출력
print("교차 검증 정확도:", scores)
print("평균 정확도:", scores.mean())

교차 검증 정확도: [0.87675299 0.87941447 0.90038903 0.9210688  0.94420557]
평균 정확도: 0.9043661718372539


In [22]:
# 위 과정 반복 -> 모델 예측한 결과중 더 좋은 결과를 다시 테스트 데이터의 정답으로 활용 + 트레인 데이터와 다시 합치고 다시 모델 학습
y_t = np.concatenate([y_1, pre8])
y_t = list(y_t)
y_train_change=pd.Series(y_t)

lgbm.fit(X_train_2,y_train_change)

pre9 = lgbm.predict(X_test)
# kaggle 양식 불러오기
rs =  pd.read_csv('./data/kaggle/sample_submission.csv')
rs['income'] = pre9 # 내 모델의 예측 결과를 양식에 넣기
rs.to_csv('RRRRReal9.csv', index = False)

scores = cross_val_score(lgbm, X_train_2, y_train_change, cv=5, scoring='accuracy')

# 교차 검증 결과 출력
print("교차 검증 정확도:", scores)
print("평균 정확도:", scores.mean())

교차 검증 정확도: [0.87716245 0.88094994 0.90069615 0.92076167 0.94369369]
평균 정확도: 0.904652782301467


In [23]:
# 위 과정 반복 -> 모델 예측한 결과중 더 좋은 결과를 다시 테스트 데이터의 정답으로 활용 + 트레인 데이터와 다시 합치고 다시 모델 학습
y_t = np.concatenate([y_1, pre9])
y_t = list(y_t)
y_train_change=pd.Series(y_t)

lgbm.fit(X_train_2,y_train_change)

pre10 = lgbm.predict(X_test)
# kaggle 양식 불러오기
rs =  pd.read_csv('./data/kaggle/sample_submission.csv')
rs['income'] = pre10 # 내 모델의 예측 결과를 양식에 넣기
rs.to_csv('RRRRReal10.csv', index = False)

scores = cross_val_score(lgbm, X_train_2, y_train_change, cv=5, scoring='accuracy')

# 교차 검증 결과 출력
print("교차 검증 정확도:", scores)
print("평균 정확도:", scores.mean())

교차 검증 정확도: [0.87716245 0.88115467 0.89936527 0.9218878  0.94963145]
평균 정확도: 0.9058403292971826


In [24]:
# 위 과정 반복 -> 모델 예측한 결과중 더 좋은 결과를 다시 테스트 데이터의 정답으로 활용 + 트레인 데이터와 다시 합치고 다시 모델 학습
y_t = np.concatenate([y_1, pre10])
y_t = list(y_t)
y_train_change=pd.Series(y_t)

lgbm.fit(X_train_2,y_train_change)

pre11 = lgbm.predict(X_test)
# kaggle 양식 불러오기
rs =  pd.read_csv('./data/kaggle/sample_submission.csv')
rs['income'] = pre11 # 내 모델의 예측 결과를 양식에 넣기
rs.to_csv('RRRRReal11.csv', index = False)

scores = cross_val_score(lgbm, X_train_2, y_train_change, cv=5, scoring='accuracy')

# 교차 검증 결과 출력
print("교차 검증 정확도:", scores)
print("평균 정확도:", scores.mean())

교차 검증 정확도: [0.87716245 0.88115467 0.89936527 0.9218878  0.94963145]
평균 정확도: 0.9058403292971826


In [25]:
# 위 과정 반복 -> 모델 예측한 결과중 더 좋은 결과를 다시 테스트 데이터의 정답으로 활용 + 트레인 데이터와 다시 합치고 다시 모델 학습
y_t = np.concatenate([y_1, pre11])
y_t = list(y_t)
y_train_change=pd.Series(y_t)

lgbm.fit(X_train_2,y_train_change)

pre12 = lgbm.predict(X_test)
# kaggle 양식 불러오기
rs =  pd.read_csv('./data/kaggle/sample_submission.csv')
rs['income'] = pre12 # 내 모델의 예측 결과를 양식에 넣기
rs.to_csv('RRRRReal12.csv', index = False)

scores = cross_val_score(lgbm, X_train_2, y_train_change, cv=5, scoring='accuracy')

# 교차 검증 결과 출력
print("교차 검증 정확도:", scores)
print("평균 정확도:", scores.mean())

교차 검증 정확도: [0.87716245 0.88115467 0.89936527 0.9218878  0.94963145]
평균 정확도: 0.9058403292971826


In [26]:
# 위 과정 반복 -> 모델 예측한 결과중 더 좋은 결과를 다시 테스트 데이터의 정답으로 활용 + 트레인 데이터와 다시 합치고 다시 모델 학습
y_t = np.concatenate([y_1, pre12])
y_t = list(y_t)
y_train_change=pd.Series(y_t)

lgbm.fit(X_train_2,y_train_change)

pre13 = lgbm.predict(X_test)
# kaggle 양식 불러오기
rs =  pd.read_csv('./data/kaggle/sample_submission.csv')
rs['income'] = pre13 # 내 모델의 예측 결과를 양식에 넣기
rs.to_csv('RRRRReal13.csv', index = False)

scores = cross_val_score(lgbm, X_train_2, y_train_change, cv=5, scoring='accuracy')

# 교차 검증 결과 출력
print("교차 검증 정확도:", scores)
print("평균 정확도:", scores.mean())

교차 검증 정확도: [0.87716245 0.88115467 0.89936527 0.9218878  0.94963145]
평균 정확도: 0.9058403292971826


In [None]:
param = {'learning_rate' : np.arange(0.01,0.1,0.01) , 'max_depth' : range(3,11), 'colsample_bytree' : [0.8],'subsample': [0.3],'n_estimators' : [101]}
grid = GridSearchCV(LGBMClassifier(), param, cv=5)
grid.fit(X_train,y_train)
print(grid.best_params_)
print(grid.best_score_)