[개념정리]
==============
데이터 전처리

데이터 인코딩 - 레이블 인코딩 / 원-핫 인코딩
- 레이블 인코딩 : 카테고리 피처를 코드형 숫자 값으로 변환하는 것
  - 숫자 값의 경우 크고 작음에 대한 특성이 작용하기 때문에, 일괄적인 숫자값으로 변환되면서 예측 성능이 떨어지는 경우가 발생할 수 있음 -> 선형회귀와 같은 ML 알고리즘에는 적용 x
  - LabelEncoder 객체의 classes_ 속성값 : 문자열 값이 어떤 숫자 값으로 인코딩됐는지 파악 가능
  - inverse_transform() : 인코딩 값 다시 디코딩
- 원-핫 인코딩
  - 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시하는 방식
  - 행 형태로 되어있는 피처의 고유 값을 열 형태로 차원을 변환한 뒤, 고유값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0 표시
  - get_dummies() : 판다스에서 원-핫 인코딩 쉽게 하는 법 (숫자로 변환 안해도 됨)

  주의할 점
  1. OneHotEncoder로 변환하기 전에 모든 문자열 값이 숫자형 값으로 반환되어야 함
  2. 입력 값으로 2차원 데이터가 필요함

피처 스케일링 : 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업
- 표준화, 정규화 -> 피처 스케일링
- 표준화 : 데이터의 피처 각각이 평균이 0이고, 분산이 1인 가우시안 정규 분포를 가진 값으로 변환하는 것
  - xi_new = ( xi - mean(x) ) / stdev(x)
- 정규화 : 서로 다른 피처의 크기를 통일하기 위해 크기를 변환해주는 개념
  - xi_new = ( xi - min(x) ) / ( max(x) - min(x) )
- 사이킷런의 Normarlizer 모듈 : 개별 벡터의 크기를 맞추기 위해 변환하는 것 (개별 벡터를 모든 피처 벡터의 크기로 나눠줌) -> 벡터 정규화
  - xi_new = xi / sqrt(xi^2 + yi^2 + zi^2)

StandardScalar : 표준화를 쉽게 지원하기 위한 클래스
- 개별 피처를 평균이 0이고, 분산이 1인 값으로 변환해줌
- RBF 커널을 이용하는 서포트 벡터 머신, 선형회귀, 로지스틱 회귀는 데이터가 가우시안 분포를 가지고 있다고 가정함 -> 표준화를 적용하면 예측 성능이 향상됨

MinMaxScaler : 데이터값을 0과 1사이의 범위 값으로 변환 (음수값이 있으면 -1~ 1로 변환)

학습 데이터와 테스트 데이터의 스케일링 변환 시 유의점
- fit_transform() : fit, transform 한번에 적용
- Scaler 객체를 이용해 학습 데이터 세트로 fit()과 transform()을 적용하면 테스트 데이터 세트로는 다시 fit()을 수행하지 않고 학습 데이터 세트로 fit()을 수행한 결과를 이용해 transform() 변환을 적용해야 함
- 전체 데이터 세트에 스케일링을 적용한 뒤, 학습과 테스트 데이터 세트로 분리하기 (안되면 위 방법 수행)




In [None]:
# pg.119 : 레이블 인코딩
from sklearn.preprocessing import LabelEncoder

items=['TV', '냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']

# LabelEncoder를 객체로 생성한 후, fit()과 transform으로 레이블 인코딩 수행 
encoder = LabelEncoder()
encoder.fit(items)
labels=encoder.transform(items)
print('인코딩 변환값:', labels)

In [None]:
print('인코딩 클래스:', encoder.classes_)   # LabelEncoder 객체의 classes_ 속성값

In [None]:
print('디코딩 원본값:', encoder.inverse_transform ([4,5,2,0,1,1,3,3]))    # inverse_transform() : 인코딩 값 다시 디코딩

In [None]:
# pg.120 : 원-핫 인코딩
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items=['TV', '냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']

# 먼저 숫자 값으로 변환을 위해 LabelEncoder로 변환합니다
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)

# 2차원 데이터로 변환합니다.
labels=labels.reshape(-1,1)

# 원-핫 인코딩을 적용합니다. 
oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)
print('원-핫 인코딩 데이터')
print(oh_labels.toarray())
print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape)    # 8개의 레코드와 1개의 칼럼을 가진 원본데이터가 8개~, 6개의~ 데이터로 변환됨

In [None]:
import pandas as pd

df=pd.DataFrame({'items':['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']})

pd.get_dummies(df)    # get_dummies() : 판다스에서 원-핫 인코딩 쉽게 하는 법 (숫자로 변환 안해도 됨)

In [None]:
# pg.125 : StandardScaler
from sklearn.datasets import load_iris
import pandas as pd

# 붓꽃 데이터 세트를 로딩하고 DataFrame으로 변환한다. 
iris = load_iris()
iris_data=iris.data
iris_df=pd.DataFrame(data=iris_data, columns=iris.feature_names)

print('feature들의 평균 값')
print(iris_df.mean())
print('\n feature들의 분산 값')
print(iris_df.var())

In [None]:
# StandardScaler를 이용해 각 피처를 한번에 표준화해서 변환

from sklearn.preprocessing import StandardScaler

# StandardScaler 객체 생성 
scaler = StandardScaler()
# StandardScaler로 데이터 세트 변환, fit()과 transform() 호출
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

# transform()시 스케일 변환된 데이터 세트가 Numpy ndarray로 반환돼 이를 DataFrame으로 변환 
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
print('feature들의 평균 값')
print(iris_df_scaled.mean())
print('\nfeature들의 분산 값')
print(iris_df_scaled.var())   # 평균 : 0에 가까움 / 분산 : 1에 가까움

In [None]:
# pg.127 : MinMaxScaler
from sklearn.preprocessing import MinMaxScaler

# MinMaxScaler 객체 생성
scaler = MinMaxScaler()
# MinMaxScaler로 데이터 세트 변환. fit()과 transform() 호출.
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

# transform() 시 스케일 변환된 데이터 세트가 NumPy ndarray로 반환돼 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
print('feature들의 최솟값')
print(iris_df_scaled.min())
print('feature들의 최댓값')
print(iris_df_scaled.max())

In [None]:
# pg.128 : 학습 데이터와 테스트 데이터의 스케일링 변환 시 유의점
# 테스트 데이터에 fit()을 적용할 때 생기는 문제

from sklearn.preprocessing import MinMaxScaler
import numpy as np

# 학습 데이터는 0부터 10까지, 테스트 데이터는 0부터 5까지 값을 가지는 데이터 세트로 생성
# Scaler 클래스의 fit(), transform()은 2차원 이상 데이터만 가능하므로 reshape(-1,1)로 차원 변경
train_array = np.arange(0, 11).reshape(-1, 1)
test_array = np.arange(0, 6).reshape(-1, 1)

# MinMaxScaler 객체의 별도의 feature_range 파라미트 값을 지정하지 않으면 0~1 값으로 변환
scaler = MinMaxScaler()

# fit()하게 되면 train_array 데이터의 최솟값이 0, 최댓값이 10으로 설정
scaler.fit(train_array)

# 1/10 scale로 train_array 데이터 변환함. 원본 10 -> 1 로 변환됨
train_scaled = scaler.transform(train_array)

print('원본 train_array 데이터:', np.round(train_array.reshape(-1), 2))
print('Scale된 train_array 데이터:', np.round(train_scaled.reshape(-1), 2))
     

In [None]:
# 테스트 데이터 세트를 변환하는데, fit()을 호출해서 스케일링 기준 정보를 다시 적용한 뒤 transform() 수행

# MinMaxScaler에 test_array를 fit()하게 되면 원본 데이터의 최솟값이 0, 최댓값이 5로 설정됨
scaler.fit(test_array)

# 1/5 Scale로 test_array 데이터를 변환함. 원본 5 -> 1 로 변환
test_scaled = scaler.transform(test_array)

# test_array의 scale 변환 출력
print('원본 test_array 데이터:', np.round(test_array.reshape(-1), 2))
print('Scale된 test_array 데이터:', np.round(test_scaled.reshape(-1), 2))

-> 위 둘을 통해, 학습 데이터와 테스트 데이터의 스케일링이 맞지 않음을 볼 수 있음

In [None]:
# 테스트 데이터에 fit()호출 x / 학습 데이터로 fit() 수행한 MinMaxScaler 객체의 transform() 이용해서 데이터 변환

scaler = MinMaxScaler()
scaler.fit(train_array)
train_scaled = scaler.transform(train_array)
print('원본 train_array 데이터:', np.round(train_array.reshape(-1), 2))
print('Scale된 train_array 데이터:', np.round(train_scaled.reshape(-1), 2))

# test_array에 Scale 변환을 할 때는 반드시 fit()을 호출하지 않고 transform()만으로 변환해야 함
test_scaled = scaler.transform(test_array)
print('\n원본 test_array 데이터:', np.round(test_array.reshape(-1), 2))
print('Scale된 test_array 데이터:', np.round(test_scaled.reshape(-1), 2))

-> 학습 데이터와 테스트 데이터가 모두 동일하게 변환되었음

In [None]:
# pg.131 : 사이킷런으로 타이타닉
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline
titanic_df=pd.read_csv('/content/drive/MyDrive/Colab Notebooks/titanic_train.csv')
titanic_df.head(3)

In [None]:
# 데이터 칼럼 타입 확인
print('\n ###학습 데이터 정보###\n')
print(titanic_df.info())    # 결과에서 RangeIndex : 데이터프레임 인덱스의 범위를 나타냄 / 전체 로우 수 파악가능

In [None]:
# Null값 처리 위한 값 유무 확인
titanic_df['Age'].fillna(titanic_df['Age'].mean(),inplace=True) # 평균 나이로 변경
titanic_df['Cabin'].fillna('N',inplace=True) # 'N'으로 변경
titanic_df['Embarked'].fillna('N',inplace=True)
print('데이터 세트 Null 값 개수',titanic_df.isnull().sum().sum)

In [None]:
# 남아있는 문자열 피처 분류 살펴보기
print('sex 값 분포:\n',titanic_df['Sex'].value_counts())
print('\n Cabin 값 분포:\n',titanic_df['Cabin'].value_counts())
print('\n Embarked 값 분포:\n',titanic_df['Embarked'].value_counts())

- Cabin의 경우 N이 가장 많음 + 속성값이 제대로 정리되지 않음

In [None]:
# Cabin 속성에서 앞 문자만 추출
titanic_df['Cabin']=titanic_df['Cabin'].str[:1]
print(titanic_df['Cabin'].head(3))

In [None]:
# 성별에 따른 생존자 수
titanic_df.groupby(['Sex','Survived'])['Survived'].count()

In [None]:
# 성별에 따른 생존자 수 -> 시각화
sns.barplot(x='Sex',y='Survived',data=titanic_df)

In [None]:
# 객실 등급별 성별에 따른 생존 확률 -> 시각화
sns.barplot(x='Pclass',y='Survived',hue='Sex',data=titanic_df)

In [None]:
# 입력 age에 따라 구분 값을 반환하는 함수 설정, DataFrame의 apply lambda 식에 사용.
def get_category(age):
  cat=''
  if age<=-1:cat='Unknown'
  elif age<=5:cat='Baby'
  elif age <=12:cat='Child'
  elif age<=18:cat='Teenager'
  elif age<=25:cat='Student'
  elif age<=35:cat='Young Adult'
  elif age<=60:cat='Adult'
  else: cat='Elderly'

  return cat

In [None]:
#막대그래프의 크기 figure 를 더 크게 설정
plt.figure(figsize=(10,6))

#X축의 값을 순차적으로 표시하기 위한 설정
group_names=['Unknown,','Baby','Child','Teenager','Student','Young Adult','Adult','Elderly']

#lambda 식에 위에서 생성한 get_category() 함수를 반환값으로 지정
#get_category(X)는 입력갑으로 'Age'칼럼 값을 받아서 해당하는 cat 반환
titanic_df['Age_cat']=titanic_df['Age'].apply(lambda x:get_category(x))
sns.barplot(x='Age_cat',y='Survived',hue='Sex',data=titanic_df,order=group_names)
titanic_df.drop('Age_cat',axis=1,inplace=True)

In [None]:
# 남아있는 문자열 카테고리 피처를 숫자형 카테고리 피처로 변환
from sklearn import preprocessing 

def encode_features(dataDF):    # 여러 칼럼을 한 번에 변환해주는 역할의 함수 생성
  features=['Cabin','Sex','Embarked']
  for feature in features:
    le=preprocessing.LabelEncoder()   # 사이킷런의 LabelEncoder 클래스 이용해서 레이블 인코딩 적용용
    le=le.fit(dataDF[feature])
    dataDF[feature]=le.transform(dataDF[feature])
  return dataDF

titanic_df=encode_features(titanic_df)
titanic_df.head()

In [None]:
# 피처를 가공한 내역을 정리하고 이를 함수로 만들어 쉽게 재사용할 수 있도록 하기

# Null 처리 함수
def fillna(df):
  df['Age'].fillna(df['Age'].mean(),inplace=True)
  df['Cabin'].fillna('N',inplace=True)
  df['Embarked'].fillna('N',inplace=True)
  df['Fare'].fillna(0,inplace=True)

  return df

# 머신러닝 알고리즘에 불필요한 속성제거
def drop_features(df):
  df.drop(['PassengerId','Name','Ticket'],axis=1,inplace=True)
  return df

# 레이블 인코딩 수행
def format_features(df):
  df['Cabin']=df['Cabin'].str[:1]
  features=['Cabin','Sex','Embarked']
  for feature in features:
    le=LabelEncoder()
    le=le.fit(df[feature])
    df[feature]=le.transform(df[feature])

  return df

#앞에서 설정한 데이터 전처리 함수 호출
def transform_features(df):   # transform_features() : 데이터의 전처리를 전체적으로 호출하는 기능의 함수
  df=fillna(df)
  df=drop_features(df)
  df=format_features(df)
  return df

In [None]:
# 원본 데이터를 재로딩하고, 피처 데이터 세트와 레이블 데이터 세트 추출
titanic_df=pd.read_csv('/content/drive/MyDrive/Colab Notebooks/titanic_train.csv')
y_titanic_df=titanic_df['Survived']   # Survived 속성만 별도 분리해서 클래스 결정값 데이터 세트로 만듦
X_titanic_df=titanic_df.drop('Survived',axis=1)   # Survived 속성을 드롭해 피처 데이터 세트를 만듦

X_titanic_df=transform_features(X_titanic_df)   # 데이터 가공

In [None]:
# train_test_split() 이용해서 별도의 테스트 데이터 세트 추출
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X_titanic_df,y_titanic_df,test_size=0.2,random_state=11)

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# 결정트리, 랜덤포레스트, 로지스틱 회귀를 위한 사이킷런 Classifier 클래스 생성
dt_clf=DecisionTreeClassifier(random_state=11)
rf_clf=RandomForestClassifier(random_state=11)
lr_clf=LogisticRegression()


# DecisionTreeClassifier 학습/예측/평가
dt_clf.fit(X_train,y_train)
dt_pred=dt_clf.predict(X_test)
print('DecisionTreecClassifier 정확도:{0:.4f}'.format(accuracy_score(y_test,dt_pred)))


# RandomForestClassifier 학습/예측/평가
rf_clf.fit(X_train,y_train)
rf_pred=rf_clf.predict(X_test)
print('RandomForestClassifier 정확도{0:.4f}'.format(accuracy_score(y_test,rf_pred)))

# LogisticRegression 학습/예측/평가
lr_clf.fit(X_train,y_train)
lr_pred=lr_clf.predict(X_test)
print('LogisticRegression 정확도{0:.4f}'.format(accuracy_score(y_test,lr_pred)))

In [None]:
# 교차 검증으로 결정 트리 모델 좀 더 평가해보기 (KFold)
from sklearn.model_selection import KFold

def exec_kfold(clf, folds=5):
  # 폴드 세트를 5개인 KFold객체를 생성, 폴드 수만큼 예측결과 저장을 위한 리스트 객체 생성
  kfold = KFold(n_splits=folds)
  scores=[]

  # KFold 교차 검증 수행.
  for iter_count, (train_index, test_index) in enumerate(kfold.split(X_titanic_df)):

    # X_titanic_df 데이터에서 교차 검증별로 학습과 검증 데이터를 가리키는 index 생성
    X_train, X_test = X_titanic_df.values[train_index], X_titanic_df.values[test_index]
    y_train, y_test = y_titanic_df.values[train_index], y_titanic_df.values[test_index]

    # Classifier 학습, 예측, 정확도 계산
    clf.fit(X_train, y_train)
    predictions = clf.predict(X_test)
    accuracy = accuracy_score(y_test, predictions)
    scores.append(accuracy)
    print("교차 검증 {0} 정확도: {1:.4f}".format(iter_count, accuracy))

  # 5개 fold에서의 평균 정확도 계산
  mean_score = np.mean(scores)
  print("평균 정확도: {0:.4f}".format(mean_score))

# exec_kfold 호출
exec_kfold(dt_clf, folds=5)

In [None]:
# 교차 검증을 cross_val_score() 이용해서 수행하기
# cross_val_score() : StratifiedKFold 이용해서 폴드 세트를 분할함

from sklearn.model_selection import cross_val_score

scores = cross_val_score(dt_clf, X_titanic_df, y_titanic_df, cv=5)
for iter_count, accuracy in enumerate(scores):
  print("교차 검증 {0} 정확도: {1:.4f}".format(iter_count, accuracy))

print("평균 정확도: {0:.4f}".format(np.mean(scores)))

In [None]:
# GridSearchCV 이용해서 DecisionTreeClassifier의 최적 하이퍼 파라미터 찾고 예측 성능 측정

from sklearn.model_selection import GridSearchCV

parameters = {'max_depth':[2,3,5,10], 'min_samples_split':[2,3,5], 'min_samples_leaf':[1,5,8]}

grid_dclf = GridSearchCV(dt_clf, param_grid=parameters, scoring='accuracy', cv=5)
grid_dclf.fit(X_train, y_train)

print('GridSearchCV 최적 하이퍼 파라미터 :', grid_dclf.best_params_)
print('GirdSearchCV 최고 정확도: {0:.4f}'.format(grid_dclf.best_score_))
best_dclf = grid_dclf.best_estimator_

# GridSearchCV의 최적 하이퍼 파라미터로 학습된 Estimator로 예측 및 평가 수행
dpredictions = best_dclf.predict(X_test)
accuracy = accuracy_score(y_test, dpredictions)
print('테스트 세트에서의 DecisionTreeClassifier 정확도 : {0:.4f}'.format(accuracy))