In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import LabelEncoder # for encoding
from sklearn.preprocessing import MinMaxScaler, StandardScaler #for standardization

In [None]:
smoking = pd.read_csv('../data/smoking.csv')

In [None]:
smoking.info()
# 범주형 데이터 : 'gender', 'smoking', 'tartar', 'hearing(right)', 'hearing(left)', 'dental caries'

In [None]:
smoking.head()

In [None]:
smoking.isnull().sum()

In [None]:
df = smoking.drop("ID", axis = 1)
df

1. 범주형 변수 변환
2. 피쳐 스케일링
    - StandatdScaler : 서포트 벡터 머신, 로지스틱 회귀, 선형회귀는 가우시안 분포를 가정하고 구현됨, 정규화가 필요
        - df['Urine protein'].value_counts() 보류(# ulfosalicylic acid precipitation method -> 소변의 탁도와 단백질 함유량 검사 , 6단계로 구분함.)
    - MinMaxScaler : 데이터 분포가 가우시안 분포가 아닐 경우
3. 이상치 검출 및 삭제 - 논의 후 결정

In [None]:
df = df.drop('oral',axis=1) # Oral(=구강검사 여부) 특성값은 모두 Y 값이므로 삭제.
df

In [None]:
labels = LabelEncoder()
labels.fit_transform(df["gender"])
df["gender"] = labels.fit_transform(df["gender"])

In [None]:
labels = LabelEncoder()
labels.fit_transform(df["tartar"])
df["tartar"] = labels.fit_transform(df["tartar"])

In [None]:
df

In [None]:
df.hist(figsize = (20, 20), bins = 12, legend = False)

In [None]:
df.columns

In [None]:
cate_features = df[['gender', 'smoking', 'tartar', 'hearing(right)', 'hearing(left)', 'dental caries']] # 레이블 인코딩 완료

In [None]:
def feature_engineering_scaling(scaler, X_train, X_test):
    # scaler파라미터는 아래 4개중 하나를 넣는다
    # preprocessing.MinMaxScaler()
    # preprocessing.StandardScaler()
    # preprocessing.RobustScaler()
    # preprocessing.Normalizer()
    scaler = scaler
    scaler_fit = scaler.fit(X_train)
    X_train_scaling = pd.DataFrame(scaler_fit.transform(X_train), 
                               index=X_train.index, columns=X_train.columns)
    X_test_scaling = pd.DataFrame(scaler_fit.transform(X_test), 
                               index=X_test.index, columns=X_test.columns)
    return X_train_scaling, X_test_scaling

In [None]:
scaled_features = df.drop(cate_features.columns, axis=1)
scaled_features

In [None]:
# sulfosalicylic acid precipitation method -> 소변의 탁도와 단백질 함유량 검사, 6단계로 구분함.
df['Urine protein'].value_counts()

In [None]:
scaled_features.hist(figsize = (20, 20), bins = 12, legend = False)

각 피쳐들의 작용 특성에 따라 5가지로 분류
- 기초 신체 사항
- 심혈관 및 호흡계
- 신장계
- 간 수치 계열
- 구강 상태

In [None]:
# 기초 신체 사항과 흡연의 상관관계
cat1 = df.loc[:,'gender':'hearing(right)']
cat1['smoking'] = df['smoking']
cat1.corr()['smoking']

In [None]:
# 심혈관 및 호흡계 특성과의 상관관계
cat2 = df.loc[:,'systolic':'hemoglobin']
cat2['smoking'] = df['smoking']
cat2.corr()['smoking']

In [None]:
# 신장계 특성과 흡연의 상관관계
cat3 = df.loc[:,'Urine protein':'serum creatinine']
cat3['smoking'] = df['smoking']
cat3.corr()['smoking']

In [None]:
# 간 수치 특성과 흡연의 상관관계
cat4 = df.loc[:,'AST':'Gtp']
cat4['smoking'] = df['smoking']
cat4.corr()['smoking']

In [None]:
# 구강 상태 특성과 흡연의 상관관계
cat5 = df.loc[:,'dental caries':]
cat5.corr()['smoking']

In [None]:
def heatmap(cat):
    plt.figure(figsize = [20, 10], clear = True, facecolor = "white")
    sns.heatmap(cat1.corr(), annot = True, square = False, linewidths = 3,
                linecolor = "white", cmap = "Set2");
    plt.style.use('seaborn')

In [None]:
heatmap(cat1)

In [None]:
heatmap(cat2)

In [None]:
heatmap(cat3)

In [None]:
heatmap(cat4)

In [None]:
heatmap(cat5)