### 파일 불러오기

In [None]:
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline


adult_df_og = pd.read_csv('adult.csv',header = None , index_col=False,
    names=['age', 'workclass', 'fnlwgt', 'education',  'education-num',
           'marital-status', 'occupation', 'relationship', 'race', 'gender',
           'capital-gain', 'capital-loss', 'hours-per-week', 'native-country',
           'income'])


adult_df = adult_df_og.copy()
adult_df.head(20)

### 파일의 기본 정보 확인

##### age : 나이
##### workclass : 고용 형태
##### fnlwgt : 사람 대표성을 나타내는 가중치 (final weight의 약자)
##### education : 교육 수준
##### education_num : 교육 수준 수치
##### marital_status: 결혼 상태
##### occupation : 업종
##### relationship : 가족 관계
##### race : 인종
##### sex : 성별
##### capital_gain : 양도 소득
##### capital_loss : 양도 손실
##### hours_per_week : 주당 근무 시간
##### native_country : 국적
##### income : 수익 (예측해야 하는 값)

In [None]:
print(adult_df.columns)   

#### dataframe의 정보확인
#### null값 확인
#### 'object'는 숫자형이 아닌 자료형 데이터이므로 전처리과정 필요

In [None]:
adult_df.info()

### 라벨 인코딩 ( >50K = 1,  <=50K = 0 )

In [None]:
#income의 문자열데이터를 0,1로 바꾸기 (object -> (adult_df['income'] == ' >50K')은 bool형) -> int)
adult_df['income'] = (adult_df['income'] == ' >50K').astype(int)
adult_df['income']


### feature에 어떤 값들이 있는지 확인 

### feature 값 중 '?' 가 있다는 것을 확인함. 그리고 대략적인 값의 분포를 확인

In [None]:
#피처값이 몇개씩 있는지 확인
adult_df['workclass'].value_counts()

In [None]:
adult_df.describe()

#### feature 값의 분포 시각화 

In [None]:
# 나이 및 성별에 따른 소득분포
def get_category(age):
    cat = ''
    if age < 40: cat = "30's"
    elif age < 50: cat = "40's"
    elif age < 60: cat = "50's"
    elif age < 70: cat = "60's"
    elif age < 80: cat = "70's"
    else: cat = "80's"
    
    return cat

plt.figure(figsize=(10,6))
group_names = ["30's", "40's", "50's", "60's", "70's", "80's"]

adult_df['age_cat'] = adult_df['age'].apply(lambda x : get_category(x))
sns.barplot(x = 'age_cat', y = 'income', hue = 'gender', data = adult_df, order = group_names)
adult_df.drop('age_cat', axis = 1, inplace = True)

In [None]:
fig,ax= plt.subplots(1,1,figsize=(12,5))#plot의 크기 지정 
sns.countplot(data=adult_df,x='workclass',ax=ax)#피처값 시각화
plt.show()

In [None]:
fig,ax= plt.subplots(1,1,figsize=(12,5))#plot의 크기 지정 
sns.countplot(data=adult_df,x='race',ax=ax,hue='gender')
#피처값 시각화,#hue='',''값에 따라 다른 색상막대로 나누어 확인 가능 
plt.show()

In [None]:
fig,ax= plt.subplots(1,1,figsize=(12,5))#plot의 크기 지정 
ax.hist(adult_df['age'],width=4)#히스토그램 #width라인 간격 조정 가능 
ax.set_title('Age distribution',fontweight='bold')
plt.show()

In [None]:
sns.countplot('income', data=adult_df)

### 데이터 전처리
### 1. feature와 label(income)과의 관계 확인  

#### education education-num

In [None]:
adult_df.groupby(['education','education-num'])[['income']].mean()

In [None]:
adult_df['education'].value_counts()

In [None]:
adult_df['education-num'].value_counts()

#### 2 .'?'(결측치) 채우기

In [None]:
missing_columns = ['workclass', 'occupation', 'native-country']  #찾아보니 3개의 feature안에 '?' 있음
adult_df[missing_columns] == ' ?'

In [None]:
(adult_df[missing_columns] == ' ?').sum()

In [None]:
for column in missing_columns:
    adult_df.loc[adult_df_og[column] == ' ?', column] = adult_df_og[column].mode()[0]  #최빈값으로 바꿔줌. 
    

In [None]:
adult_df.head(20)

In [None]:
adult_df.info()

### 3. 'capital-gain', 	'capital-loss' 값 조정 

In [None]:
adult_df['capital-gain'].value_counts()

In [None]:
adult_df['capital-gain'].plot.hist()

In [None]:
adult_df['capital-loss'].value_counts()

In [None]:
adult_df['capital-loss'].plot.hist()

#### 너무 값이 한쪽으로 치우쳐있다. 로그함수를 사용하여 'capital-gain'과 'capital-loss' 각각의 값의차이를 줄여보자 (x축 한 눈금을 보면 차이를 알 수 있음.)

In [None]:
adult_df['capital-gain'] = adult_df_og['capital-gain'].map(lambda x : np.log(x) if x != 0 else 0)
adult_df['capital-loss'] = adult_df_og['capital-loss'].map(lambda x : np.log(x) if x != 0 else 0)

In [None]:
adult_df['capital-gain'].plot.hist()

In [None]:
adult_df['capital-loss'].plot.hist()

In [None]:
adult_df

In [None]:
from sklearn.preprocessing import LabelEncoder



# 머신러닝 알고리즘에 불필요한 속성 제거
def drop_features(df):
    df.drop(['education','marital-status'],axis=1,inplace=True)
    return df

# 레이블 인코딩 수행. 
def format_features(df):
    
    features = ['workclass','fnlwgt','occupation','relationship','race','gender','native-country']
    for feature in features:
        le = LabelEncoder()
        le = le.fit(df[feature])
        df[feature] = le.transform(df[feature])
    return df

# 앞에서 설정한 Data Preprocessing 함수 호출
def transform_features(df):
    df = drop_features(df)
    df = format_features(df)
    return df


In [None]:
# 원본 데이터를 재로딩 하고, feature데이터 셋과 Label 데이터 셋 추출. 
adult_df_og = pd.read_csv('adult.csv',header = None , index_col=False,
    names=['age', 'workclass', 'fnlwgt', 'education',  'education-num',
           'marital-status', 'occupation', 'relationship', 'race', 'gender',
           'capital-gain', 'capital-loss', 'hours-per-week', 'native-country',
           'income'])

adult_df = transform_features(adult_df)

y_adult_df = adult_df['income']
X_adult_df= adult_df.drop('income',axis=1)


adult_df

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn.model_selection import train_test_split
##데이터분할
from sklearn.metrics import accuracy_score, precision_score, recall_score, roc_auc_score
##데이터
from sklearn.metrics import f1_score, confusion_matrix, precision_recall_curve, roc_curve
from sklearn.preprocessing import StandardScaler
## 이상 항상 불러오는 모듈? 파라미터들
from sklearn.linear_model import LogisticRegression

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test=train_test_split(X_adult_df, y_adult_df, \
                                                  test_size=0.2, random_state=11)


In [None]:
def get_clf_eval(y_test, pred=None, pred_proba=None):
    confusion = confusion_matrix( y_test, pred)
    accuracy = accuracy_score(y_test , pred)
    precision = precision_score(y_test , pred)
    recall = recall_score(y_test , pred)
    f1 = f1_score(y_test,pred)
    # ROC-AUC 추가 
    roc_auc = roc_auc_score(y_test, pred_proba)
    print('오차 행렬')
    print(confusion)
    # ROC-AUC print 추가
    print('정확도: {0:.4f}, 정밀도: {1:.4f}, 재현율: {2:.4f},\
    F1: {3:.4f}, AUC:{4:.4f}'.format(accuracy, precision, recall, f1, roc_auc))

In [None]:
X = X_adult_df.iloc[:, :-1]
y = X_adult_df.iloc[:, -1]

#X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 11, stratify=y)

# DecisionTreeClassifier 학습/예측/평가
dt_clf = DecisionTreeClassifier(random_state=11)
dt_clf.fit(X_train , y_train)
pred = dt_clf.predict(X_test)
pred_proba = dt_clf.predict_proba(X_test)[:, 1]

print('\nDecisionTreeClassifier')
get_clf_eval(y_test , pred, pred_proba)

# RandomForestClassifier 학습/예측/평가
rf_clf = DecisionTreeClassifier(random_state=11)
rf_clf.fit(X_train , y_train)
pred = rf_clf.predict(X_test)
pred_proba = rf_clf.predict_proba(X_test)[:, 1]

print('\nRandomForestClassifier')
get_clf_eval(y_test , pred, pred_proba)

# 로지스틱 회귀로 학습,예측 및 평가 수행. 
lr_clf = LogisticRegression()
lr_clf.fit(X_train , y_train)
pred = lr_clf.predict(X_test)
pred_proba = lr_clf.predict_proba(X_test)[:, 1]

print('\nLogisticRegression :')
get_clf_eval(y_test , pred, pred_proba)

In [None]:
from sklearn.model_selection import KFold

def exec_kfold(clf, folds=5):
    # 폴드 세트를 5개인 KFold객체를 생성, 폴드 수만큼 예측결과 저장을 위한  리스트 객체 생성.
    kfold = KFold(n_splits=folds)
    scores = []
    
    # KFold 교차 검증 수행. 
    for iter_count , (train_index, test_index) in enumerate(kfold.split(X_adult_df)):
        # X_titanic_df 데이터에서 교차 검증별로 학습과 검증 데이터를 가리키는 index 생성
        X_train, X_test = X_adult_df.values[train_index], X_adult_df.values[test_index]
        y_train, y_test = y_adult_df.values[train_index], y_adult_df.values[test_index]
        
        # Classifier 학습, 예측, 정확도 계산 
        clf.fit(X_train, y_train) 
        predictions = clf.predict(X_test)
        accuracy = accuracy_score(y_test, predictions)
        scores.append(accuracy)
        print("교차 검증 {0} 정확도: {1:.4f}".format(iter_count, accuracy))     
    
    # 5개 fold에서의 평균 정확도 계산. 
    mean_score = np.mean(scores)
    print("평균 정확도: {0:.4f}".format(mean_score)) 
# exec_kfold 호출
exec_kfold(dt_clf , folds=5) 

In [None]:
from sklearn.model_selection import cross_val_score

scores = cross_val_score(dt_clf, X_adult_df , y_adult_df , cv=5)
for iter_count,accuracy in enumerate(scores):
    print("교차 검증 {0} 정확도: {1:.4f}".format(iter_count, accuracy))

print("평균 정확도: {0:.4f}".format(np.mean(scores)))

In [None]:
from sklearn.model_selection import GridSearchCV

parameters = {'max_depth':[2,3,5,10],
             'min_samples_split':[2,3,5], 'min_samples_leaf':[1,5,8]}

grid_dclf = GridSearchCV(dt_clf , param_grid=parameters , scoring='accuracy' , cv=5)
grid_dclf.fit(X_train , y_train)

print('GridSearchCV 최적 하이퍼 파라미터 :',grid_dclf.best_params_)
print('GridSearchCV 최고 정확도: {0:.4f}'.format(grid_dclf.best_score_))
best_dclf = grid_dclf.best_estimator_

# GridSearchCV의 최적 하이퍼 파라미터로 학습된 Estimator로 예측 및 평가 수행. 
dpredictions = best_dclf.predict(X_test)
accuracy = accuracy_score(y_test , dpredictions)
print('테스트 세트에서의 DecisionTreeClassifier 정확도 : {0:.4f}'.format(accuracy))

In [None]:
from sklearn.metrics import confusion_matrix

confusion_matrix(y_test, rf_pred)

In [None]:
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker
%matplotlib inline

def precision_recall_curve_plot(y_test=None, pred_proba_c1=None):
    # threshold ndarray와 이 threshold에 따른 정밀도, 재현율 ndarray 추출. 
    precisions, recalls, thresholds = precision_recall_curve( y_test, pred_proba_c1)
    
    # X축을 threshold값으로, Y축은 정밀도, 재현율 값으로 각각 Plot 수행. 정밀도는 점선으로 표시
    plt.figure(figsize=(8,6))
    threshold_boundary = thresholds.shape[0]
    plt.plot(thresholds, precisions[0:threshold_boundary], linestyle='--', label='precision')
    plt.plot(thresholds, recalls[0:threshold_boundary],label='recall')
    
    # threshold 값 X 축의 Scale을 0.1 단위로 변경
    start, end = plt.xlim()
    plt.xticks(np.round(np.arange(start, end, 0.1),2))
    
    # x축, y축 label과 legend, 그리고 grid 설정
    plt.xlabel('Threshold value'); plt.ylabel('Precision and Recall value')
    plt.legend(); plt.grid()
    plt.show()
    
    ## 평가지표 그림 그리기

In [None]:
pred_proba_c1 = lr_clf.predict_proba(X_test)[:, 1]
precision_recall_curve_plot(y_test, pred_proba_c1)

In [None]:
# from sklearn.tree import DecisionTreeClassifier
# from sklearn.ensemble import RandomForestClassifier
# from sklearn.linear_model import LogisticRegression
# from sklearn.metrics import accuracy_score

# # 결정트리, Random Forest, 로지스틱 회귀를 위한 사이킷런 Classifier 클래스 생성
# dt_clf = DecisionTreeClassifier(random_state=11)
# rf_clf = RandomForestClassifier(random_state=11)
# lr_clf = LogisticRegression()

# # DecisionTreeClassifier 학습/예측/평가
# dt_clf.fit(X_train , y_train)
# dt_pred = dt_clf.predict(X_test)
# print('DecisionTreeClassifier 정확도: {0:.4f}'.format(accuracy_score(y_test, dt_pred)))
# print('DecisionTreeClassifier 정밀도: {0: 4f}'.format(precision_score(y_test,dt_pred)))
# print('DecisionTreeClassifier 재현율: {0: 4f}\n'.format(recall_score(y_test,dt_pred)))

# # RandomForestClassifier 학습/예측/평가
# rf_clf.fit(X_train , y_train)
# rf_pred = rf_clf.predict(X_test)
# print('RandomForestClassifier 정확도:{0:.4f}'.format(accuracy_score(y_test, rf_pred)))
# print('RandomForestClassifier 정밀도: {0: 4f}'.format(precision_score(y_test,rf_pred)))
# print('RandomForestClassifier 재현율: {0: 4f}\n'.format(recall_score(y_test,rf_pred)))

# # LogisticRegression 학습/예측/평가
# lr_clf.fit(X_train , y_train)
# lr_pred = lr_clf.predict(X_test)
# print('LogisticRegression 정확도: {0:.4f}'.format(accuracy_score(y_test, lr_pred)))
# print('LogisticRegression 정밀도: {0: 4f}'.format(precision_score(y_test,lr_pred)))
# print('LogisticRegression 재현율: {0: 4f}'.format(recall_score(y_test,lr_pred)))

# - 끝 -

In [None]:
submit = pd.read_csv("adult.csv")
submit.head()