In [None]:
# 라이브러리 설치 
!pip install scikit-learn

In [None]:
!pip install imbalanced-learn

### 범주형 데이터 처리 
- 일반적인 데이터 모델링은 수학적 연산형 모델링이 대부분
- 범주형 데이터가 사용이 불가능
- 범수형 데이터를 더미 변수를 이용하여 수학적 데이터로 변환
- 더미변수 -> 범주형 데이터들을 각각 컬럼의 이름으로 생성 -> 해당 범주에 속하는가? False(0), True(1)로 표현 

In [None]:
import pandas as pd
from sklearn.datasets import load_wine

In [None]:
wine = pd.DataFrame(
    load_wine()['data'], 
    columns = load_wine()['feature_names']
)
wine.head()

In [None]:
wine['class'] = load_wine()['target']
wine.head()

In [None]:
# 범주형 데이터로 변환
wine['class'] = wine['class'].map(
    {
        0 : 'class_0', 
        1 : 'class_1', 
        2 : 'class_2'
    }
)

In [None]:
wine['class'].value_counts()

In [None]:
# class 컬럼의 데이터들을 더미변수 생성
# pandas 안에 있는 get_dummies() 함수를 이용
wine_dummy = pd.get_dummies(
    wine, 
    columns = ['class']
)

In [None]:
wine_dummy.head()

### 데이터의 분할 
- 분석 모델을 학습시키고 성과를 확인하기 위해 기존의 데이터 셋을 나눠주는 작업 
- 데이터를 학습 데이터(train), 시험 데이터(test)로 나눠주고 데이터들을 일정 비율로 나눠주는 작업 
- 일반적인 비율
    - Train : Test -> 7 : 3
- sklearn에 내장된 train_test_split() 함수를 이용
    - train_test_split(X, Y, test_size = None, random_state = None, shuffle = bool, stratify = None)
        - X : 독립 변수 
        - Y : 종속 변수
        - test_size : 테스트 데이터의 비율 (0부터 1 사이의 값)
        - random_state : 임의의 번호를 지정, 같은 숫자를 이용한다면 같은 값들을 출력 
        - shuffle : True로 지정하면 추출하기 전에 데이터를 섞는다. 
        - stratify : None이 아닌 경우에는 지정된 변수를 기준으로 계층화를 하여 해당 변수의 비율이 유지 되도록 추출

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

In [None]:
# 독립 변수들의 데이터 (2차원 배열)
load_iris()['data']

In [None]:
# 독립 변수들의 컬럼의 이름 (1차원 배열)
load_iris()['feature_names']

In [None]:
# 종속 변수의 데이터 (1차원 배열)
load_iris()['target']

In [None]:
iris = pd.DataFrame(
    load_iris()['data'], 
    columns = load_iris()['feature_names']
)
iris['class'] = load_iris()['target']
iris['class'] = iris['class'].map(
    {
        0 : 'setosa', 
        1 : 'versicolour', 
        2 : 'virginaca'
    }
)
iris.head()

In [None]:
# 데이터 분할 
X_train, X_test, Y_train, Y_test = train_test_split(
    iris.drop('class', axis=1), 
    iris['class'], 
    test_size = 0.3, 
    random_state = 100
)

In [None]:
# train, test의 개수를 확인 
print('x_train 개수 : ', X_train.shape, 'x_test 개수 :', X_test.shape)
print('y_train 개수 :', Y_train.shape, 'y_test 개수 :', Y_test.shape)

In [None]:
iris['class'].value_counts()

In [None]:
# 종속 변수의 데이터 분할이 랜덤하게 이루져있다. 
Y_train.value_counts()

In [None]:
# iris 데이터프레임에서 class 값을 기준으로 데이터를 7:3으로 나눠준다.
X_train2, X_test2, Y_train2, Y_test2 = train_test_split(
    iris.drop('class', axis=1), 
    iris['class'], 
    test_size = 0.3, 
    random_state = 100, 
    stratify = iris['class']
)

In [None]:
Y_train2.value_counts()

### 데이터 스케일링 
- 알고리즘 분석의 대부분은 컬럼 간의 데이터의 범위가 크게 차이가 나면 성능이 떨어지는 부분이 존재 
- 값의 범위가 작은 컬럼에 비해서 값의 범위가 큰 컬럼이 타켓 변수를 예측하는데 큰 영향 
- 스케일링은 모든 컬럼의 값의 범위를 같게 만들어주는 작업 
- 스케일링 순서
    - 주의할 점 : 데이터 스케일링은 train데이터와 test 데이터를 같은 scaler를 사용
    1. Scaler 선택 및 로드 
    2. Scaler 객체를 생성(Class 생성)
    3. train 데이터의 분포를 저장 
    4. teain 데이터를 스케일링
    5. test 데이터를 스케일링
    6. 원래의 스케일로 변환

### standard Scaler
- 표준화 방식으로 기본 스케일링 방식
- 컬럼들의 데이터의 평균을 0, 분산이 1인 정규 분포로 스케일링
- 회귀분석보다는 분류분석에서 유용

In [None]:
import warnings
warnings.filterwarnings('ignore')

In [None]:
# Scaler 로드 
from sklearn.preprocessing import StandardScaler

In [None]:
# Scaler 객체 생성 (Class 생성)
StdScaler = StandardScaler()

In [None]:
# train 데이터의 분포 저장 
StdScaler.fit(X_train2)

In [None]:
# X_train 데이터를 스케일링
X_train_sc = StdScaler.transform(X_train2)

In [None]:
X_train_sc

In [None]:
# test 데이터 스케일링
X_test_sc = StdScaler.transform(X_test2)

In [None]:
print(round(X_train_sc.min(), 2))
print(round(X_train_sc.max(), 2))
print(round(X_train_sc.mean(), 2))
print(round(X_train_sc.std(), 2))

In [None]:
print(round(X_test_sc.mean(), 2))

### Min-Max Scaler
- 정규화 방식으로 컬럼들을 0과 1사이의 값으로 스케일링 하는 방식
- 최소값 : 0, 최대값 : 1
- 이상치에 굉장히 민감함으로 이상치를 미리 확인하고 제거 
- 분류 분석보다는 회귀 분석에서 주로 사용

In [None]:
# Sclaer 로드 
from sklearn.preprocessing import MinMaxScaler
# Scaler 객체 생성
MmScaler = MinMaxScaler()

In [None]:
# train data의 범위를 저장 
MmScaler.fit(X_train2)

In [None]:
# train data를 스케일링
X_train_sc2 = MmScaler.transform(X_train2)
# test data를 스케일링
X_test_sc2 = MmScaler.transform(X_test2)

In [None]:
print(round(X_train_sc2.min(), 2))
print(round(X_train_sc2.max(), 2))
print(round(X_train_sc2.mean(), 2))
print(round(X_train_sc2.std(), 2))

### Max Abs Scaler
- 최대절대값과 0을 기준으로 1과 0이 되도록 모든 값이 -1에서 1까지로 표현
- 스케일링 데이터가 모두 양수인 경우에는 MinMaxScaler와 동일 
- 이상치에 대해 굉장히 민감함으로 이상치를 제거후 스케일링
- 분류 분석보다는 회귀 분석에서 유용

In [None]:
from sklearn.preprocessing import MaxAbsScaler

MaScaler = MaxAbsScaler()
MaScaler.fit(X_train2)
X_train_sc3 = MaScaler.transform(X_train2)
X_test_sc3 = MaScaler.transform(X_test2)

In [None]:
print(round(X_train_sc3.min(), 2))
print(round(X_train_sc3.max(), 2))
print(round(X_train_sc3.mean(), 2))
print(round(X_train_sc3.std(), 2))

### Robust Scaler 
- 중앙값과 사분위 값을 활용하여 스케일링 방식
- 중앙값을 0으로 설정하고 IQR을 사용하여 이상치의 영향을 최소화하는 스케일링 방식
- quantile_range 매개변수(기본값이 [0.25, 0.75])를 조정하여 더 넓거나 좁은 범위로 이상치를 설정하여 정제가 가능

In [None]:
from sklearn.preprocessing import RobustScaler

RuScaler = RobustScaler()

RuScaler.fit(X_train2)

X_train_sc4 = RuScaler.transform(X_train2)
X_test_sc4 = RuScaler.transform(X_test2)

In [None]:
# 중앙값을 확인 
import numpy as np

In [None]:
np.percentile(X_train_sc4, 50)

### 원본 데이터로 변환

In [None]:
# 스케일링 데이터
pd.DataFrame(X_train_sc4).head()

In [None]:
# 원본 데이터로 변환
X_origin = RuScaler.inverse_transform(X_train_sc4)

In [None]:
pd.DataFrame(X_origin).head()

#### 데이터의 불균형 문제 처리 
- 정상을 정확하게 분류하는 것과 이상을 겅확하게 분류하는 것 중 일반적으로 이상을 정확하게 분류하는것이 중요
- 일반적으로 이상 데이터가 target 값이 되는 경우가 많다. 
- 데이터가 불균형할 때는 분류의 성능과 target 데이터를 정확히 분류해내는 목표가 일치하지 않게 되는 현상이 발생 (성능이 떨어진다.)
- 분석 결과 , 머신러닝 등 모델링에서 문제가 발생 
- 소수의 데이터인 target의 중요도를 낮게 판단함으로 궁극적으로 분석 가능한 모델이 생성되지 않는다. 
- 소수의 비정상 데이터를 늘리는 오버샘플링, 상대적으로 많은 데이터에서 일부만 사용하는 언더샘플링이 존재

#### 언더샘플링 
- 다수의 라벨을 가진 데이터를 샘플링하여 소수의 데이터셋이 가진 라벨의 수 수준으로 감소시키는 방법 
- 데이터의 불균형 문제를 해결은 가능하지만, 데이터의 개수가 줄어듬으로 학습에 대한 성능이 떨어질수 있다. 

In [None]:
from sklearn.datasets import make_classification
from collections import Counter
from imblearn.under_sampling import RandomUnderSampler

In [None]:
## 분포가 불균형한 데이터를 생성 ( 95: 1 )

x, y = make_classification(n_samples=5000, n_features=5, 
                           weights=[0.95])
print(Counter(y))

- 랜덤언더샘플링은 다수를 차지하는 라벨에서 무작위로 데이터를 제거하는 방법
- sampling_stratery 매개변수에 값을 majority로 지정하면 다수의 라벨의 데이터를 샘플링해서 소수의 라벨 데이터의 수와 같게 만든다. 
- 0과 1 사이의 값으로 지정하면 소수 라벨의 데이터 수와 다수 라벨의 데이터 수가 해당하는 비율에 맞게 조정

In [None]:
undersample = RandomUnderSampler(sampling_strategy='majority')
x_under, y_under = undersample.fit_resample(x, y)
print(Counter(y_under))

In [None]:
undersample2 = RandomUnderSampler(sampling_strategy=0.5)
x_under2, y_under2 = undersample2.fit_resample(x, y)
print(Counter(y_under2))

#### 오버샘플링 
- 소수의 라벨을 지닌 데이터셋을 다수 라벨을 지닌 데이터셋의 수만큼 증식시켜서 학습에 사용하기 위한 충분한 양과 데이터를 확보하는 방법
- 데이터의 손실이 없어서 일반적으로 언더샘플링보다는 성능이 유리하여 주로 사용

#### 랜덤오버샘플링 
- 소수의 라벨을 지닌 데이터셋을 단순 복제하여 다수의 라벨과 비율을 맞추는 방법
- 데이터를 단순하게 복제하기 때문에 분포는 변하지 않지만 그 수가 증가함으로 같은 비율로 가중치를 받을수 있다. 
- 오버피팅의 위험성이 다분하지만 불균형 문제를 처리하지 않는것보다는 유효

In [None]:
from imblearn.over_sampling import RandomOverSampler

oversample = RandomOverSampler(sampling_strategy=0.5)

x_over, y_over = oversample.fit_resample(x, y)

print(Counter(y_over))

In [None]:
oversample2 = RandomOverSampler(sampling_strategy='minority')
x_over2, y_over2 = oversample2.fit_resample(x, y)

print(Counter(y_over2))

#### SMOTE
- 소수 라벨을 지닌 데이터셋의 관측 값에 대한 K개의 최근접 이웃을 찾고 관측 값과 이웃으로 선택된 값 사이에 임의의 데이터를 생성하는 방법

In [None]:
from imblearn.over_sampling import SMOTE
smote_sample = SMOTE(sampling_strategy='minority')
x_sm , y_sm = smote_sample.fit_resample(x, y)
print(Counter(y_sm))

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
fig, axes = plt.subplots(nrows = 2, ncols=2, figsize = (20, 20))

sns.scatterplot(x = x[:, 1], y = x[:, 2], hue=y, ax=axes[0][0], alpha=0.5)
sns.scatterplot(x = x_under[:, 1], y = x_under[:, 2], hue=y_under, ax=axes[0][1], alpha=0.5)
sns.scatterplot(x = x_over2[:, 1], y = x_over2[:, 2], hue=y_over2, ax=axes[1][0], alpha=0.5)
sns.scatterplot(x = x_sm[:, 1], y = x_sm[:, 2], hue=y_sm, ax=axes[1][1], alpha=0.5)

axes[0][0].set_title('Original Data')
axes[0][1].set_title('Random Under Sample')
axes[1][0].set_title('Random Over Sample')
axes[1][1].set_title('SMOTE')

plt.show()