## 범주형 데이터 처리 
- 범주형 데이터는 일반적인 모델링 수학적 연산형 모델링 다수가 존재한다. 이런 경우 범주형 데이터가 사용이 불가능하기때문에 특별하게 처리 
- 더미변수를 생성 
- 더미변수 -> 범주형 데이터들을 각각 컬럼으로 생성 -> 해당 범주에 속하는지를 False(0)과 True(1)표현 

In [1]:
import pandas as pd
from sklearn.datasets import load_wine

In [2]:
wine_load = load_wine()

In [3]:
wine = pd.DataFrame(wine_load['data'], 
                    columns=wine_load['feature_names'])
wine.head()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0


In [4]:
wine['Class'] = wine_load['target']
wine['Class']

0      0
1      0
2      0
3      0
4      0
      ..
173    2
174    2
175    2
176    2
177    2
Name: Class, Length: 178, dtype: int32

In [5]:
# Class 컬럼의 데이터들을 변경 
wine['Class'] = wine['Class'].map(
    {
        0 : 'class_0', 
        1 : 'class_1', 
        2 : 'class_2'
    }
)
wine['Class'].value_counts()

Class
class_1    71
class_0    59
class_2    48
Name: count, dtype: int64

In [6]:
## Class 컬럼의 데이터들을 더미변수로 생성 
## get + dummies -> get_dummies()
wine_dummy = pd.get_dummies(wine, columns=['Class'])

In [7]:
wine_dummy.head()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,Class_class_0,Class_class_1,Class_class_2
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0,True,False,False
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0,True,False,False
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0,True,False,False
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0,True,False,False
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0,True,False,False


In [8]:
wine_dummy['Class_class_1'].value_counts()

Class_class_1
False    107
True      71
Name: count, dtype: int64

### 데이터의 분할
- 분석 모델을 학습하고 성과를 확인하기 위해 데이터를 train, test 세트로 나누고 독립변수와 종속변수로 분리하는 작업 
- 분석 방법에 따라 train, validation, test 세트로 나누기도 한다. 
- 적절한 비율 
    - Train : Test -> 7 : 3
    - Train : Validation : Test -> 6 : 2 : 2
- sklearn에 내장된 train_test_split() 함수를 이용하여 분할
    - train_test_split(X, Y, test_size = None, random_state = None, shuffle = bool, stratify = None)
        - X : 독립 변수 데이터
        - Y : 종속 변수 데이터
        - test_size : 테스트 데이터의 비율 (0부터 1사이의 값)
        - random_state : 임의의 번호를 지정, 같은 숫자를 이용한다면 같은 값들이 출력 
        - shuffle : True면 추출 전에 데이터들을 섞는다. 
        - stratify : None이 아닌 경우에는 지정된 변수를 기준으로 계층화를 하여 해당 변수의 비율이 유지되도록 추출

In [9]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

In [10]:
iris = pd.DataFrame(
    load_iris()['data'], 
    columns = load_iris()['feature_names']
)
iris['Class'] = load_iris()['target']
iris['Class'] = iris['Class'].map(
    {
        0 : 'Setosa', 
        1 : 'Versicolour', 
        2 : 'Virginaca'
    }
)
iris.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),Class
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


In [11]:
## 데이터를 분할
X_train, X_test, Y_train, Y_test = train_test_split(
    iris.drop('Class', axis=1), 
    iris['Class'], 
    test_size= 0.3, 
    random_state= 100
)

In [12]:
# train, test 개수를 확인 
print('X_train의 개수 : ', X_train.shape, "X_test의 개수 : ", X_test.shape)
print('Y_train의 개수 : ', Y_train.shape, "Y_test의 개수 : ", Y_test.shape)

X_train의 개수 :  (105, 4) X_test의 개수 :  (45, 4)
Y_train의 개수 :  (105,) Y_test의 개수 :  (45,)


In [13]:
iris['Class'].value_counts()

Class
Setosa         50
Versicolour    50
Virginaca      50
Name: count, dtype: int64

In [14]:
Y_train.value_counts()

Class
Versicolour    39
Setosa         34
Virginaca      32
Name: count, dtype: int64

In [15]:
X_train2, X_test2, Y_train2, Y_test2 = train_test_split(
    iris.drop('Class', axis=1), 
    iris['Class'], 
    test_size= 0.3, 
    random_state=100, 
    stratify= iris['Class']
)

In [16]:
Y_train2.value_counts()

Class
Versicolour    35
Setosa         35
Virginaca      35
Name: count, dtype: int64