In [None]:
# 라이브러리 설치 
!pip install scikit-learn

In [None]:
!pip install imbalanced-learn

### 범주형 데이터 처리 
- 일반적인 데이터 모델링은 수학적 연산형 모델링이 대부분
- 범주형 데이터가 사용이 불가능
- 범수형 데이터를 더미 변수를 이용하여 수학적 데이터로 변환
- 더미변수 -> 범주형 데이터들을 각각 컬럼의 이름으로 생성 -> 해당 범주에 속하는가? False(0), True(1)로 표현 

In [None]:
import pandas as pd
from sklearn.datasets import load_wine

In [None]:
wine = pd.DataFrame(
    load_wine()['data'], 
    columns = load_wine()['feature_names']
)
wine.head()

In [None]:
wine['class'] = load_wine()['target']
wine.head()

In [None]:
# 범주형 데이터로 변환
wine['class'] = wine['class'].map(
    {
        0 : 'class_0', 
        1 : 'class_1', 
        2 : 'class_2'
    }
)

In [None]:
wine['class'].value_counts()

In [None]:
# class 컬럼의 데이터들을 더미변수 생성
# pandas 안에 있는 get_dummies() 함수를 이용
wine_dummy = pd.get_dummies(
    wine, 
    columns = ['class']
)

In [None]:
wine_dummy.head()

### 데이터의 분할 
- 분석 모델을 학습시키고 성과를 확인하기 위해 기존의 데이터 셋을 나눠주는 작업 
- 데이터를 학습 데이터(train), 시험 데이터(test)로 나눠주고 데이터들을 일정 비율로 나눠주는 작업 
- 일반적인 비율
    - Train : Test -> 7 : 3
- sklearn에 내장된 train_test_split() 함수를 이용
    - train_test_split(X, Y, test_size = None, random_state = None, shuffle = bool, stratify = None)
        - X : 독립 변수 
        - Y : 종속 변수
        - test_size : 테스트 데이터의 비율 (0부터 1 사이의 값)
        - random_state : 임의의 번호를 지정, 같은 숫자를 이용한다면 같은 값들을 출력 
        - shuffle : True로 지정하면 추출하기 전에 데이터를 섞는다. 
        - stratify : None이 아닌 경우에는 지정된 변수를 기준으로 계층화를 하여 해당 변수의 비율이 유지 되도록 추출

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

In [None]:
# 독립 변수들의 데이터 (2차원 배열)
load_iris()['data']

In [None]:
# 독립 변수들의 컬럼의 이름 (1차원 배열)
load_iris()['feature_names']

In [None]:
# 종속 변수의 데이터 (1차원 배열)
load_iris()['target']

In [None]:
iris = pd.DataFrame(
    load_iris()['data'], 
    columns = load_iris()['feature_names']
)
iris['class'] = load_iris()['target']
iris['class'] = iris['class'].map(
    {
        0 : 'setosa', 
        1 : 'versicolour', 
        2 : 'virginaca'
    }
)
iris.head()

In [17]:
# 데이터 분할 
X_train, X_test, Y_train, Y_test = train_test_split(
    iris.drop('class', axis=1), 
    iris['class'], 
    test_size = 0.3, 
    random_state = 100
)

In [18]:
# train, test의 개수를 확인 
print('x_train 개수 : ', X_train.shape, 'x_test 개수 :', X_test.shape)
print('y_train 개수 :', Y_train.shape, 'y_test 개수 :', Y_test.shape)

x_train 개수 :  (105, 4) x_test 개수 : (45, 4)
y_train 개수 : (105,) y_test 개수 : (45,)


In [19]:
iris['class'].value_counts()

class
setosa         50
versicolour    50
virginaca      50
Name: count, dtype: int64

In [None]:
# 종속 변수의 데이터 분할이 랜덤하게 이루져있다. 
Y_train.value_counts()

In [22]:
X_train2, X_test2, Y_train2, Y_test2 = train_test_split(
    iris.drop('class', axis=1), 
    iris['class'], 
    test_size = 0.3, 
    random_state = 100, 
    stratify = iris['class']
)

In [24]:
Y_train2.value_counts()

class
versicolour    35
setosa         35
virginaca      35
Name: count, dtype: int64