## 범주형 변수 처리
- 범주형 변수는 값이 수학적 연산으로 모델을 생성하는 대부분의 분석 도구에서 직접 사용할 수가 없기 때문에 특별한 처리
- 방법 중하나로 더미변수화를 사용
- 더미변수는 범주형 변수에 있는 범주 각각을 컬럼으로 변경 --> 해당 범주에 속하는지를  0과 1로 채운 변수

In [32]:
import pandas as pd
import numpy as np
from sklearn.datasets import load_wine

In [6]:
wine_load=load_wine()
wine = pd.DataFrame(wine_load.data, columns=wine_load.feature_names)
wine['Class']= wine_load.target
wine['Class']=wine['Class'].map(
    {
        0 : 'class_0',
        1 : "class_1",
        2 : 'class_2'
    }
)
wine.head()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,Class
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0,class_0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0,class_0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0,class_0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0,class_0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0,class_0


In [10]:
## 더미변수 생성
## pd.get_dummies(데이터프레임, columns=['콜럼 이름']) / True=1,False=0
wine_dummy = pd.get_dummies(wine, columns=['Class'])
wine_dummy.head()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,Class_class_0,Class_class_1,Class_class_2
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0,True,False,False
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0,True,False,False
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0,True,False,False
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0,True,False,False
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0,True,False,False


In [11]:
wine_dummy['Class_class_0'].value_counts()

Class_class_0
False    119
True      59
Name: count, dtype: int64

In [12]:
wine_dummy['Class_class_1'].value_counts()

Class_class_1
False    107
True      71
Name: count, dtype: int64

In [13]:
wine_dummy['Class_class_2'].value_counts()

Class_class_2
False    130
True      48
Name: count, dtype: int64

## 데이터의 분할
- 분석 모델을 학습하고 성과를 확인하기 위해여 데이터를 train과 test 세트로 나누고 독립변수와 종속변수로 분리하는 작업
- 분석 방법에 따라서 trian과 validation, test 세트로 분리하기도 함
-  데이터를 분리하는 적절한 비율
    - Train : Test = 7:3
    - Train : Validation : Test = 6 : 2 : 2 
- sklearn의 train_test_split() 함수를 이용
    - train_test_split(X,Y, test_size = None, random_state = None, Shuffle = True, stratify = None)
        - X : 독립 변수 테이블
        - Y : 종속 변수 테이블
        - test_size : 테스트 사이즈 비율(0~1)
        - random_state : 임의의 번호를 지정. 같은 숫자를 사용하면 같은 출력이 나온다
        - Shuffle :  True인 경우 추출 전에 데이터를 섞음
        - stratify : None이 아닌 경우 데이터는 지정한 변수를 기준으로 계층화 되어 해당 변수의 비율을 유지하도록 추출

In [14]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

In [18]:
iris_load=load_iris()
iris =pd.DataFrame(iris_load.data, columns=iris_load.feature_names)
iris['Class']= iris_load.target
iris['Class']=iris['Class'].map(
    {
        0: 'Setosa',
        1: 'Versicolour',
        2: 'Virginaca'
    }
)
iris.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),Class
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


In [45]:
X_train,X_test,y_train,y_test= train_test_split(
    iris.drop('Class',axis=1),
    iris['Class'],
    test_size=0.3
)

In [38]:
print("X_train:",X_train.shape,'X_test:',X_test.shape)
print("y_train:",y_train.shape,'y_test:',y_test.shape)

X_train: (105, 4) X_test: (45, 4)
y_train: (105,) y_test: (45,)


- stratify의 속성을 지정하지 않은 경우에는 임의 추출로 인하여 Class 컬럼의 범주의 개수의 비율이 원본 데이터와 차이가 존재
-  무작위로 임의 추출의 결과가 원본을 충분히 반영하지 못하는 경우에는 분석 성능에 악영향을 미칠 수 있다.
- 분류 문제에서는 stratify를 이용하자

In [39]:
iris['Class'].value_counts()

Class
Setosa         50
Versicolour    50
Virginaca      50
Name: count, dtype: int64

In [40]:
y_train.value_counts()

Class
Versicolour    36
Setosa         35
Virginaca      34
Name: count, dtype: int64

In [41]:
X_train,X_test,y_train,y_test=train_test_split(
    iris.drop('Class',axis=1),
    iris['Class'],
    test_size=0.3,
    stratify=iris['Class']
)

In [42]:
print("X_train:",X_train.shape,'X_test:',X_test.shape)
print("y_train:",y_train.shape,'y_test:',y_test.shape)

X_train: (105, 4) X_test: (45, 4)
y_train: (105,) y_test: (45,)


In [43]:
y_train.value_counts()

Class
Virginaca      35
Versicolour    35
Setosa         35
Name: count, dtype: int64

## 데이터 스케일링
- 데부분의 분석 알고리즘은 컬럼 간 데이터의 범위가 크게 차이나는 경우에는 잘 동작하지 않는다.
- 값의 밤위가 작은 컬럼에 비해서 값의 범위가 큰 컬럼이 타겟 변수를 예측하는데 큰 영향을 준다고 판단
- 스케일링 작업은 모든 컬럼의 값의 범위를 같게 만들어주는 작업
- 데이터 스케일링 순서
    - 데이터 스케일링의 주의할 점은 train데이터와 test데이터를 같은 scaler 객체로 스케일링 해야한다.
    1. Scler 선택 및 import
    2. Scaler 객체 생성
    3. train 데이터 분포 저장
    4. train 데이터 스케일링
    5. test 데이터 스케일링
    6. 원래 스케일로 변환

### Standard Scaler
- 표준화 방식으로 기본 스케일링 방식으로 컬럼들은 평균이 0, 분산이 1인 정규분포로 스케일링
- 최솟값과 최댓값의 크기를 제한하지 않아 이상치에 민감하기 때문에, 이상치에 대한 확인 및 정제를 한 후에 사용
- 회귀보다는 분류분석에서 유용

In [46]:
## Scaler 선택 및 import
from sklearn.preprocessing import StandardScaler

## Scaler 객체 선택 
StdScaler = StandardScaler()

## train 데이터 분포 저장
StdScaler.fit(X_train)

## train 데이터 스케일링
X_train_sc = StdScaler.transform(X_train)

## test 데이터 스케일링
X_test_sc = StdScaler.transform(X_test)

print("\t\t(min,max) (mean,std)")
print("Train_scaled (%.2f,%.2f) (%.2f,%.2f)" %(X_train_sc.min(),X_train_sc.max(),X_train_sc.mean(),X_train_sc.std()))
print("Test_scaled (%.2f,%.2f) (%.2f,%.2f)" %(X_test_sc.min(),X_test_sc.max(),X_test_sc.mean(),X_test_sc.std()))


		(min,max) (mean,std)
Train_scaled (-2.52,3.13) (-0.00,1.00)
Test_scaled (-1.88,2.66) (-0.14,1.07)


### Min-Max scaler
- 정규화 방식으로 컬럼들을 0과 1사이의 값으로 스케일링 하는 방식
- 최솟값은 0, 최댓값은 1
- 이상치에 매우 민감하므로 이상치를 미리 확인 및 정제
- 분류보다는 회귀에서 유용

In [47]:
from sklearn.preprocessing import MinMaxScaler

MmScaler=MinMaxScaler()

MmScaler.fit(X_train)
X_train_sc =MmScaler.transform(X_train)
X_test_sc=MmScaler.transform(X_test)

print("\t\t(min,max) (mean,std)")
print("Train_scaled (%.2f,%.2f) (%.2f,%.2f)" %(X_train_sc.min(),X_train_sc.max(),X_train_sc.mean(),X_train_sc.std()))
print("Test_scaled (%.2f,%.2f) (%.2f,%.2f)" %(X_test_sc.min(),X_test_sc.max(),X_test_sc.mean(),X_test_sc.std()))


		(min,max) (mean,std)
Train_scaled (0.00,1.00) (0.47,0.26)
Test_scaled (0.00,1.05) (0.43,0.28)


### Max Abs scaler
- 최대 절댓값과 0이 각각 1,0이 되도록 스케일링 하는 정규화 방식으로 모든 값은 -1과 1 사이로 표현
- 스케일링의 데이터가 양수라면 Min-Max scaler와 동일
- 이상치에 대해 매우 민감 정제 작업 필요
- 분류보다는 회귀에서 유용

In [48]:
from sklearn.preprocessing import MaxAbsScaler

MaScaler=MaxAbsScaler()

MaScaler.fit(X_train)

X_train_sc=MaScaler.transform(X_train)
X_test_sc=MaScaler.transform(X_test)

print("\t\t(min,max) (mean,std)")
print("Train_scaled (%.2f,%.2f) (%.2f,%.2f)" %(X_train_sc.min(),X_train_sc.max(),X_train_sc.mean(),X_train_sc.std()))
print("Test_scaled (%.2f,%.2f) (%.2f,%.2f)" %(X_test_sc.min(),X_test_sc.max(),X_test_sc.mean(),X_test_sc.std()))

		(min,max) (mean,std)
Train_scaled (0.04,1.00) (0.63,0.23)
Test_scaled (0.04,1.05) (0.60,0.25)


## Robust Scaler
- 평균과 분산 대신 중앙값과 사분위 값을 활용하는 방식
- 중앙값은 0으로 설정하고 IQR을 사용하여 이상치의 영향을 최소화
- quantile_range 파라미터(기본값 [0.25,0.75])를 조정하여 더 넓거나 좁은 범위의 값을 이상치로 설정하여 정제할 수 있다.

In [50]:
from sklearn.preprocessing import RobustScaler

RuSclaer= RobustScaler()

RuSclaer.fit(X_train)

X_train_sc = RuSclaer.transform(X_train)
X_test_sc =RuSclaer.transform(X_test)

print("\t\t(min,max) (mean,std)")
print("Train_scaled (%.2f,%.2f) (%.2f,%.2f)" %(X_train_sc.min(),X_train_sc.max(),X_train_sc.mean(),X_train_sc.std()))
print("Test_scaled (%.2f,%.2f) (%.2f,%.2f)" %(X_test_sc.min(),X_test_sc.max(),X_test_sc.mean(),X_test_sc.std()))

		(min,max) (mean,std)
Train_scaled (-1.67,2.33) (-0.05,0.60)
Test_scaled (-1.17,2.00) (-0.13,0.64)


## 원본 스케일로 변경
- 스케일링한 데이터를 원본 스케일로 변경

In [51]:
pd.DataFrame(X_test_sc).head()

Unnamed: 0,0,1,2,3
0,-0.307692,0.833333,-0.914286,-0.8
1,-0.461538,1.166667,-0.857143,-0.8
2,-0.307692,-1.0,-0.2,-0.2
3,-0.307692,-1.0,-0.228571,-0.266667
4,-0.692308,0.833333,-0.828571,-0.533333


In [53]:
X_original =RuSclaer.inverse_transform(X_train_sc)
pd.DataFrame(X_original).head()

Unnamed: 0,0,1,2,3
0,5.1,3.4,1.5,0.2
1,6.5,3.2,5.1,2.0
2,6.7,3.1,4.7,1.5
3,6.7,3.3,5.7,2.5
4,6.2,2.8,4.8,1.8
