## 범주형 데이터 처리 
- 범주형 데이터는 일반적인 모델링 수학적 연산형 모델링 다수가 존재한다. 이런 경우 범주형 데이터가 사용이 불가능하기때문에 특별하게 처리 
- 더미변수를 생성 
- 더미변수 -> 범주형 데이터들을 각각 컬럼으로 생성 -> 해당 범주에 속하는지를 False(0)과 True(1)표현 

In [None]:
import pandas as pd
from sklearn.datasets import load_wine

In [None]:
wine_load = load_wine()

In [None]:
wine = pd.DataFrame(wine_load['data'], 
                    columns=wine_load['feature_names'])
wine.head()

In [None]:
wine['Class'] = wine_load['target']
wine['Class']

In [None]:
# Class 컬럼의 데이터들을 변경 
wine['Class'] = wine['Class'].map(
    {
        0 : 'class_0', 
        1 : 'class_1', 
        2 : 'class_2'
    }
)
wine['Class'].value_counts()

In [None]:
## Class 컬럼의 데이터들을 더미변수로 생성 
## get + dummies -> get_dummies()
wine_dummy = pd.get_dummies(wine, columns=['Class'])

In [None]:
wine_dummy.head()

In [None]:
wine_dummy['Class_class_1'].value_counts()

### 데이터의 분할
- 분석 모델을 학습하고 성과를 확인하기 위해 데이터를 train, test 세트로 나누고 독립변수와 종속변수로 분리하는 작업 
- 분석 방법에 따라 train, validation, test 세트로 나누기도 한다. 
- 적절한 비율 
    - Train : Test -> 7 : 3
    - Train : Validation : Test -> 6 : 2 : 2
- sklearn에 내장된 train_test_split() 함수를 이용하여 분할
    - train_test_split(X, Y, test_size = None, random_state = None, shuffle = bool, stratify = None)
        - X : 독립 변수 데이터
        - Y : 종속 변수 데이터
        - test_size : 테스트 데이터의 비율 (0부터 1사이의 값)
        - random_state : 임의의 번호를 지정, 같은 숫자를 이용한다면 같은 값들이 출력 
        - shuffle : True면 추출 전에 데이터들을 섞는다. 
        - stratify : None이 아닌 경우에는 지정된 변수를 기준으로 계층화를 하여 해당 변수의 비율이 유지되도록 추출

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

In [None]:
iris = pd.DataFrame(
    load_iris()['data'], 
    columns = load_iris()['feature_names']
)
iris['Class'] = load_iris()['target']
iris['Class'] = iris['Class'].map(
    {
        0 : 'Setosa', 
        1 : 'Versicolour', 
        2 : 'Virginaca'
    }
)
iris.head()

In [None]:
## 데이터를 분할
X_train, X_test, Y_train, Y_test = train_test_split(
    iris.drop('Class', axis=1), 
    iris['Class'], 
    test_size= 0.3, 
    random_state= 100
)

In [None]:
# train, test 개수를 확인 
print('X_train의 개수 : ', X_train.shape, "X_test의 개수 : ", X_test.shape)
print('Y_train의 개수 : ', Y_train.shape, "Y_test의 개수 : ", Y_test.shape)

In [None]:
iris['Class'].value_counts()

In [None]:
Y_train.value_counts()

In [None]:
X_train2, X_test2, Y_train2, Y_test2 = train_test_split(
    iris.drop('Class', axis=1), 
    iris['Class'], 
    test_size= 0.3, 
    random_state=100, 
    stratify= iris['Class']
)

In [None]:
Y_train2.value_counts()