# 데이터의 분할
- 분석 모델을 학습하고 성과를 확인하기 위하여 데이터를 train과 test 세트로 나누고 독립변수와 종속변수로 분리하는 작업 
- 분석 방법이나 데이터의 양에 따라서 train, validation, test 세트로 분리를 하는 경우도 발생
- 데이터를 분할하는 일반적인 비율 
    - Train : Test = 7 : 3 // 8 : 2
        - 가장 일반적으로 데이터를 분할하는 방법 
        - 파라미터 수정시에는 Kfold 방식을 이용하여 최적의 파라미터 구성
    - Train : Validation : Test = 6 : 2 : 2
        - 데이터 양이 굉장히 많은경우 검증 세트를 생성하여 파라미터 수정
- sklearn의 train_test_split() 함수를 이용하여 데이터를 분할
    - train_test_split(X, Y, test_size = None, random_state = None, shuffle = True, stratify = None)
        - X : 독립 변수 데이터 
        - Y : 종속 변수 데이터 
        - test_size : 테스트 데이터의 비율 ( 0부터 1사이 값 )
        - random_state : 임의의 데이터를 추출하는 과정에서 seed 값을 지정하면 임의의 데이터를 선택하는 과정이 동일 ( seed에 따라 랜덤 값에 규칙이 생성 )
        - shuffle : True인 경우 데이터를 섞는다. (시계열이 기준이 데이터에서는 False)
        - stratify : None이 아닌 경우 데이터는 지정한 변수를 기준으로 하여 계층화 되어 해당 변수의 비율을 유지하도록 데이터 분할 


In [2]:
import pandas as pd 
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

In [3]:
# 샘플 데이터셋을 로드 
iris_data = load_iris()

In [4]:
iris_data

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

In [5]:
iris = pd.DataFrame(iris_data['data'], columns=iris_data['feature_names'])
iris.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [6]:
iris['class'] = iris_data['target']
iris.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),class
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [7]:
iris_data['target_names']

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [8]:
iris['class'].map(
    {
        0 : 'setosa', 
        1 : 'versicolor', 
        2 : 'virginica'
    }
)

0         setosa
1         setosa
2         setosa
3         setosa
4         setosa
         ...    
145    virginica
146    virginica
147    virginica
148    virginica
149    virginica
Name: class, Length: 150, dtype: object

In [9]:
iris['class'] = iris['class'].map(
    lambda x : iris_data['target_names'][x] 
)

In [10]:
iris.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),class
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [11]:
# iris.drop('class', axis=1)
iris.iloc[: , :-1]

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [12]:
X_train, X_test, Y_train, Y_test = train_test_split(
    # 독립변수 : class 컬럼의 데이터를 제외한 부분 
    iris.drop('class', axis=1), 
    # 종속변수 : class 컬럼
    iris['class'], 
    # 테스트 데이터의 비율
    test_size = 0.3,
    # random_seed 설정 
    random_state= 100
)

In [13]:
# 데이터의 개수를 확인 
print(f"X_train : {X_train.shape}, X_test : {X_test.shape}")
print(f"Y_train : {Y_train.shape}, Y_test : {Y_test.shape}")

X_train : (105, 4), X_test : (45, 4)
Y_train : (105,), Y_test : (45,)


In [14]:
iris['class'].value_counts()

class
setosa        50
versicolor    50
virginica     50
Name: count, dtype: int64

In [15]:
Y_train.value_counts()

class
versicolor    39
setosa        34
virginica     32
Name: count, dtype: int64

In [16]:
X_train, X_test, Y_train, Y_test = train_test_split(
    iris.drop('class', axis=1), 
    iris['class'], 
    test_size= 0.3, 
    random_state= 100, 
    stratify= iris['class']
)

In [17]:
Y_train.value_counts()

class
versicolor    35
setosa        35
virginica     35
Name: count, dtype: int64

# 데이터 스케일링 
- 대부분 분석 알고리즘은 컬럼 간 데이터의 범위가 크게 차이나는 경우에는 정상적으로 작동을 하지 않는다. ( 성능이 떨어진다. )
- 값은 범위가 작은 컬럼에 비해서 범위가 큰 컬럼이 종속변수를 예측하는데 큰 영향을 준다고 판단 
- 스케일링 작업은 모든 컬럼의 값의 범위를 같게 만들어주는 작업 
- 스케일링 작업 전에 일반적으로 이상치 데이터를 대체하거나 삭제

- 스케일링 순서 
    - 데이터 스케일링 하는 경우 
        - train, test 나눠져있는 경우 train에서 사용한 scaler를 test에서 사용(일반적인 사용법)
    1. Scaler 선택 -> 해당 Scaler를 import 
    2. Scaler 객체(class) 생성 
    3. train데이터의 분포를 저장 
    4. train 데이터 스케일링
    5. test 데이터 스케일링 
    6. 원본 데이터로 변환  

### Standard Scaler
- 표준화 방식으로 가장 기본적인 스케일러
- 평균이 0, 분산이 1인 정규분포로 스케일링
- 최솟값과 최대값의 크기를 따로 제한하지 않아 이상치에 민감하기 때문에 이상치에 대한 확인 및 정제를 한 뒤 사용 
- 일반적으로 회귀보다는 분류분석에서 사용 

In [18]:
# 스케일러를 선택하고 import 
from sklearn.preprocessing import StandardScaler

In [19]:
# Scaler class 생성
StdScaler = StandardScaler()

In [20]:
# train 데이터의 분포를 저장 
StdScaler.fit(X_train)

0,1,2
,copy,True
,with_mean,True
,with_std,True


In [21]:
# train 데이터를 스케일링 
X_train_sc = StdScaler.transform(X_train)

In [22]:
# test 데이터를 스케일링 
X_test_sc = StdScaler.transform(X_test)

In [23]:
def scaler_print(train, test):
    print(
        f"""Train Scaled :  
                            {round(train.min(), 2)}
                            {round(train.max(), 2)}
                            {round(train.mean(), 2)}
                            {round(train.std(), 2)}
        """
    )
    print(
        f"""Test Scaled :  
                            {round(test.min(), 2)}
                            {round(test.max(), 2)}
                            {round(test.mean(), 2)}
                            {round(test.std(), 2)}
        """
    )

In [24]:
scaler_print(X_train_sc, X_test_sc)

Train Scaled :  
                            -2.14
                            2.75
                            -0.0
                            1.0
        
Test Scaled :  
                            -2.63
                            3.23
                            -0.08
                            1.03
        


### Min-Max Scaler
- 정규화 방식으로 컬럼의 데이터들을 0과 1사이의 값으로 스케일링하는 방식 
- 최솟값 0 최댓값 1
- 이상치에 매우 민감함으로 이상치에 대한 확인 정제 필수 
- 일반적으로 분류보다 회귀에서 사용

In [25]:
from sklearn.preprocessing import MinMaxScaler

MmScaler = MinMaxScaler()

MmScaler.fit(X_train)

X_train_sc = MmScaler.transform(X_train)
X_test_sc = MmScaler.transform(X_test)

scaler_print(X_train_sc, X_test_sc)

Train Scaled :  
                            0.0
                            1.0
                            0.45
                            0.27
        
Test Scaled :  
                            -0.1
                            1.1
                            0.43
                            0.27
        


### Max Abs Scaler
- 최대절댓값과 0이 각각 1, 0이 되도록 스케일링을 하는 정규화 방식으로 모든 값은 -1부터 1 사이로 표현 
- 스케일링 대상의 데이터가 모두 양수인 경우라면 MinMaxScaler와 동일
- 이상치에 매우 민감 정제 작업 필요
- 일반적으로 분류보다는 회귀 사용

In [26]:
from sklearn.preprocessing import MaxAbsScaler

In [27]:
MaScaler = MaxAbsScaler()

In [28]:
X_train_sc = MaScaler.fit_transform(X_train)
X_test_sc = MaScaler.transform(X_test)

scaler_print(X_train_sc, X_test_sc)

Train Scaled :  
                            0.04
                            1.0
                            0.63
                            0.24
        
Test Scaled :  
                            0.08
                            1.05
                            0.61
                            0.24
        


### Robust Scaler 
- 평균과 분산을 사용하는 Standard 대신에 중앙값과 사분위수를 활용하는 방식
- 중앙값을 0으로 설정 IQR을 사용하여 이상치의 영향을 최소화 
- quantile_range 매개변수(기본값이 [0.25, 0.75])의 값을 조정하여 더 넓거나 좁은 범위의 값을 이상치로 판단하게 정제 할수 있다. 

In [29]:
from sklearn.preprocessing import RobustScaler

# RuScaler = RobustScaler(quantile_range=(0.2, 0.8))
RuScaler = RobustScaler()

In [30]:
RuScaler.fit(X_train)

0,1,2
,with_centering,True
,with_scaling,True
,quantile_range,"(25.0, ...)"
,copy,True
,unit_variance,False


In [31]:
X_train_sc = RuScaler.transform(X_train)
X_test_sc = RuScaler.transform(X_test)

In [32]:
scaler_print(X_train_sc, X_test_sc)

Train Scaled :  
                            -1.33
                            2.0
                            -0.03
                            0.6
        
Test Scaled :  
                            -1.67
                            2.33
                            -0.08
                            0.62
        


In [33]:
pd.DataFrame(X_train_sc).head()

Unnamed: 0,0,1,2,3
0,0.230769,-0.333333,-0.111111,-0.066667
1,-0.230769,-0.666667,0.0,-0.133333
2,-0.615385,1.0,-0.833333,-0.8
3,-0.538462,0.833333,-0.833333,-0.733333
4,-0.076923,1.333333,-0.75,-0.733333


In [34]:
# 스케일링 데이터를 원본의 데이터로 변환 
X_origin = RuScaler.inverse_transform(X_train_sc)
pd.DataFrame(X_origin).head()

Unnamed: 0,0,1,2,3
0,6.1,2.8,4.0,1.3
1,5.5,2.6,4.4,1.2
2,5.0,3.6,1.4,0.2
3,5.1,3.5,1.4,0.3
4,5.7,3.8,1.7,0.3
