**데이터 전처리**

1. 문자열 데이터
  - 결측 데이터 처리
  - 라벨 인코딩 
  - 원핫 인코딩
2. 수치형 데이터
  - 결측 데이터 처리
  - 이상치 제거(대치)
  - 스케일 처리

**결측 데이터 처리**
- 문자열 데이터와 수치형 데이터 모두 해당 
- **SimpleImputer(missing_values=nan, strategy='mean'...)**
  - ```python
    from sklearn.impute import SimpleImputer
    imputer = SimpleImputer()
    X = imputer.fit_transform(X)
    ```
  - 결측 데이터를 strategy에 따른 대표값으로 채움
  - strategy
    - mean - 평균
    - median - 중앙값
    - most_frequent - 최빈값
    - constant - 지정값 (fill_value에 값 지정 필요)

**라벨 인코딩**
- 문자열 데이터에 해당
- **LabelEncoder()**
  - ```python
    from sklearn.preprocessing import LabelEncoder
    encoder = LabelEncoder()
    y = encoder.fit_transform(y)
    ```
  - n개의 범주를 갖는 범주형 데이터를 0부터 n-1까지의 연속적인 수치형 데이터로 변환
  - 정답 데이터를 위해 사용되는 기법으로 y만 입력 가능
  - X는 입력 불가능하며, 각 컬럼에 대한 입력은 가능 

**원핫 인코딩**
- 문자열 데이터에 해당
- **OneHotEncoder(...)**
  - ```python
    from sklearn.preprocessing import OneHotEncoder
    encoder = OneHotEncoder()
    X = encoder.fit_transform(X)
    ```
  - n개의 범주를 갖는 범주형 데이터를 이진 형태의 수치형 데이터로 변환
  - 데이터에 해당하는 범주는 1로 표현하고, 나머지는 0으로 표현함

**스케일 처리**
- 수치형 데이터에 해당
- **StandardScaler(...)**
  - ```python
    from sklearn.preprocesing import StandardScaler
    scaler = StandardScaler()
    X = scaler.fit_transform(X)
    ```
  - 모든 데이터를 평균과 분산이 0과 1인 정규 분포로 표준화
  - 이상치가 존재하는 경우 평균과 분산에 영향을 미치므로, 데이터 분포가 좁아질 수 있음  
- **MinMaxScaler(feature_range=(0,1)...)**
  - ```python
    from sklearn.preprocessing import MinMaxScaler
    scaler = MinMaxScaler()
    X = scaler.fit_transform(X)
    ```
  - 모든 데이터를 feature_range 내 값으로 정규화
  - feature_range는 기본적으로 0부터 1까지이며, 
    음수 값을 갖는 경우 -1부터 -1까지임
  - 이상치가 존재하는 경우, 범위가 매우 좁게 압축될 수 있음 
- **RobustScaler(...)**
  - ```python
    from sklearn.preprocessing import RobustScaler
    scaler = RobustScaler()
    X = scaler.fit_transform(X)
    ```
  - 이상치의 영향을 최소화한 기법으로, 중앙값과 IQR을 활용함으로써 데이터 분포를 넓힘 

**그 외**
- **ColumnTransformer(transformers...)**
  - ```python
    from sklearn.compose import ColumnTransformer
    transformer = ColumnTransformer([('scaler', scaler, columns)])
    X = ct.fit_transform(X)
    ```
  - 칼럼마다 서로 다른 변환을 적용하도록 도움 
  - 인자로 tansformer 리스트를 넘겨주며, transformer 리스트는 (이름, 변환기, 변환 적용 컬럼 리스트) 형태의 요소를 가짐
- **Pipeline(steps...)**
  - ```python
    from sklearn.pipeline import Pipeline
    pipe = Pieline(steps=steps)
    X = pipe.fit_transform(X)
    ```
  - 데이터 전처리, 학습 등의 모든 단계를 한데 묶어 실행하도록 도움 
  - 스케일러 -> 모델 순으로 처리 
  - 데이터 손실을 피할 수 있고, 재현성이 증가하고, 교차 검증 및 기타 모델 선택을 쉽게 함 

**교차 검증**
- 일반적으로 학습 데이터로 모델을 학습하고 테스트 데이터로 모델을 검증하는데, 고정된 테스트 데이터를 이용하여 반복적인 검증을 거치는 경우 과적합이 일어날 가능성이 크다. 이를 해결하기 위해 학습 데이터를 학습 데이터와 검증 데이터로 나누고, 검증 데이터를 이용해 검증을 수행하는 **교차 검증**이 필요하다. 
- 과적합을 방지하고 일반화된 모델을 만들 수 있다는 장점이 있는 반면, 반복 횟수가 많아 시간이 오래 걸린다는 단점이 있다.
- **cross_val_score(model, X, y, cv=None, scoring=None...)**
  - ```python
    from sklearn.model_selection import cross_val_score
    cv_score = cross_val_score(model, X, y, cv=cv)
    ```
  - cv개의 model을 생성하고, 교차 검증을 수행하여 각 model의 평가 점수를 반환함
  - model
    - 회귀 모델
      - 데이터 셔플 과정을 선행
      - R2 Score를 반환
    - 분류 모델
      - 데이터 셔플 과정을 생략
      - 정확도를 반환
  - cv - model 개수 
  - scoring - 평가 방법 
- **KFold(n_splits=5, shuffle=False...)**
  - ```python
    from sklearn.model_selection import KFold)
    cv = KFold(n_splits=3)

    from sklearn.model_selection import cross_val_score
    cv_score = cross_val_score(model, X, y, cv=cv)
    ```
  - 1. 학습 데이터를 n_splits개의 폴드로 분할
    2. 첫 번째 폴드를 검증 데이터로 사용하고 나머지 폴드를 학습 데이터로 사용하여 학습 및 평가
    3. 다음 폴드를 검증 데이터로 사용하고 나머지 폴드를 학습 데이터로 사용하여 학습 및 평가
    4. 반복...
    5. 총 n_splits개의 평가 점수가 나오며, 평균 평가 점수가 해당 모델의 성능이 됨
  - kFold 객체를 cross_val_score 함수의 인자 cv로 전달 가능
  - shuffle
    - True - 정답 데이터의 비율을 균등하게 분할
    - False - 셔플 생략 & 순차적으로 분할 => 라벨이 정렬된 데이터의 경우 잘못된 결과가 나올 수 있음 


## Lecture 01 - 데이터 전처리 with breast cancer dataset 

In [27]:
# import pandas
import pandas as pd

pd.options.display.max_columns = 5
pd.options.display.max_rows = 10

In [48]:
# load dataset
from sklearn.datasets import load_breast_cancer

data = load_breast_cancer()

# set X, y
X = pd.DataFrame(data.data, columns = data.feature_names)
y = pd.Series(data.target)

print(X)

     mean radius  mean texture  ...  worst symmetry  worst fractal dimension
0          17.99         10.38  ...          0.4601                  0.11890
1          20.57         17.77  ...          0.2750                  0.08902
2          19.69         21.25  ...          0.3613                  0.08758
3          11.42         20.38  ...          0.6638                  0.17300
4          20.29         14.34  ...          0.2364                  0.07678
..           ...           ...  ...             ...                      ...
564        21.56         22.39  ...          0.2060                  0.07115
565        20.13         28.25  ...          0.2572                  0.06637
566        16.60         28.08  ...          0.2218                  0.07820
567        20.60         29.33  ...          0.4087                  0.12400
568         7.76         24.54  ...          0.2871                  0.07039

[569 rows x 30 columns]


In [30]:
# preprocess data

# define MinMaxScaler
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()

# columns for preprocessing
columns = X.columns

# define ColumnTransformer
from sklearn.compose import ColumnTransformer
ct = ColumnTransformer([('scaler', scaler, columns)])

# fit and transform
X = ct.fit_transform(X)

# 0~1
print(X[:5])

[[0.52103744 0.0226581  0.54598853 0.36373277 0.59375282 0.7920373
  0.70313964 0.73111332 0.68636364 0.60551811 0.35614702 0.12046941
  0.3690336  0.27381126 0.15929565 0.35139844 0.13568182 0.30062512
  0.31164518 0.18304244 0.62077552 0.14152452 0.66831017 0.45069799
  0.60113584 0.61929156 0.56861022 0.91202749 0.59846245 0.41886396]
 [0.64314449 0.27257355 0.61578329 0.50159067 0.28987993 0.18176799
  0.20360825 0.34875746 0.37979798 0.14132266 0.15643672 0.08258929
  0.12444047 0.12565979 0.11938675 0.08132304 0.0469697  0.25383595
  0.08453875 0.0911101  0.60690146 0.30357143 0.53981772 0.43521431
  0.34755332 0.15456336 0.19297125 0.63917526 0.23358959 0.22287813]
 [0.60149557 0.3902604  0.59574321 0.44941676 0.51430893 0.4310165
  0.46251172 0.63568588 0.50959596 0.21124684 0.22962158 0.09430251
  0.18037035 0.16292179 0.15083115 0.2839547  0.09676768 0.38984656
  0.20569032 0.12700551 0.55638563 0.36007463 0.50844166 0.37450845
  0.48358978 0.38537513 0.35974441 0.83505155 0.

## Lecture 02 - 데이터 전처리 with user-defined dataset 

In [31]:
# set X
X = pd.DataFrame()
X['gender'] = ['F', 'M', 'F', 'F', 'M']
X['age'] = [15, 35, 25, 37, 55]

print(X)

  gender  age
0      F   15
1      M   35
2      F   25
3      F   37
4      M   55


In [32]:
# preprocess data

# define OneHotEncoder for string data
from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder(sparse=False, handle_unknown='ignore')

# columns - string data
obj_columns = ['gender']

# define MinMaxScaler for number data
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()

# columns - number data
num_columns = ['age']


# define ColumnTransformer
from sklearn.compose import ColumnTransformer
ct = ColumnTransformer([('encoder', encoder, obj_columns),
                        ('scaler', scaler, num_columns)])

# fit and transform
X = ct.fit_transform(X)

print(X)

[[1.   0.   0.  ]
 [0.   1.   0.5 ]
 [1.   0.   0.25]
 [1.   0.   0.55]
 [0.   1.   1.  ]]


## Lecture 03 - 데이터 전처리 with 결측 데이터 

In [33]:
# set X
X = pd.DataFrame()
X['gender'] = ['F', 'M', 'F', 'F', None] # => 결측 데이터 존재
X['age'] = [15, 35, 25, 37, 55]

print(X)

  gender  age
0      F   15
1      M   35
2      F   25
3      F   37
4   None   55


In [34]:
# preprocess data

# define OneHotEncoder for string data
from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder(sparse=False, handle_unknown='ignore')

# columns - string data
obj_columns = ['gender']

# define MinMaxScaler for number data
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()

# columns - number data
num_columns = ['age']

# define SimpleImputer for missing value
from sklearn.impute import SimpleImputer
obj_imputer = SimpleImputer(missing_values=None, strategy='most_frequent')
num_imputer = SimpleImputer(strategy='mean')

# define Pipeline
from sklearn.pipeline import Pipeline
obj_pipe = Pipeline(steps=([('obj_imputer', obj_imputer),
                            ('encoder', encoder)]))
num_pipe = Pipeline(steps=([('num_imputer', num_imputer),
                            ('scaler', scaler)]))

# define ColumnTransformer
from sklearn.compose import ColumnTransformer
transformer = ColumnTransformer([('obj_pipe', obj_pipe, obj_columns),
                                 ('num_pipe', num_pipe, num_columns)])

X = transformer.fit_transform(X)

print(X)

[[1.   0.   0.  ]
 [0.   1.   0.5 ]
 [1.   0.   0.25]
 [1.   0.   0.55]
 [1.   0.   1.  ]]


## Lecture 04 - 응용 (데이터 전처리)


In [39]:
# load dataset
from sklearn.datasets import load_breast_cancer
X, y = load_breast_cancer(return_X_y=True)

# split data
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size=0.3,
                                                    stratify=y,
                                                    random_state=1)

# preprocess data
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

# define model
from sklearn.linear_model import LogisticRegression
model = LogisticRegression(C=1.0,
                           n_jobs=-1,
                           random_state=1)

# fit model
model.fit(X_train, y_train)

# evaluate model
score = model.score(X_train, y_train)
print(f'(MODEL) TRAIN SCORE: {score}')
score = model.score(X_test, y_test)
print(f'(MODEL)  TEST SCORE: {score}')

(MODEL) TRAIN SCORE: 0.992462311557789
(MODEL)  TEST SCORE: 0.9590643274853801


## Lecture 05 - 교차 검증 with cross_val_score

In [40]:
# load dataset
from sklearn.datasets import load_breast_cancer
X, y = load_breast_cancer(return_X_y=True)

# split data
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size=0.3,
                                                    stratify=y,
                                                    random_state=1)

# preprocess data
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

# define model
from sklearn.linear_model import LogisticRegression
model = LogisticRegression(C=1.0,
                           n_jobs=-1,
                           random_state=1)

# cross validation
from sklearn.model_selection import cross_val_score
cv_score = cross_val_score(model,
                           X_train,
                           y_train,
                           cv=5,
                           n_jobs=-1)

print(f'(CV) SCORE: {cv_score}')
print(f'(CV) SCORE\'s MEAN: {cv_score.mean()}')

# fit model
model.fit(X_train, y_train)

# evaluate model
score = model.score(X_train, y_train)
print(f'(MODEL) TRAIN SCORE: {score}')
score = model.score(X_test, y_test)
print(f'(MODEL)  TEST SCORE: {score}')

(CV) SCORE: [0.975      1.         0.9625     0.97468354 1.        ]
(CV) SCORE's MEAN: 0.9824367088607595
(MODEL) TRAIN SCORE: 0.992462311557789
(MODEL)  TEST SCORE: 0.9590643274853801


## Lecture 06 - 교차 검증 with cross_val_score and kfold

In [47]:
# load dataset
from sklearn.datasets import load_breast_cancer
X, y = load_breast_cancer(return_X_y=True)

# split data
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size=0.3,
                                                    stratify=y,
                                                    random_state=1)

# preprocess data
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

# define model
from sklearn.linear_model import LogisticRegression
model = LogisticRegression(C=1.0,
                           n_jobs=-1,
                           random_state=1)

# cross validation
from sklearn.model_selection import KFold, cross_val_score

# define KFold without shuffle
cv = KFold(n_splits=3)
cv_score = cross_val_score(model, X_train, y_train, cv=cv)

print(f'(CV-Shuffle)   SCORE: {cv_score}')
print(f'(CV-Shuffle)   SCORE\'s MEAN: {cv_score.mean()}')

# define KFold with shuffle
cv = KFold(n_splits=3, shuffle=True)
cv_score = cross_val_score(model, X_train, y_train, cv=cv)

print(f'(CV-Shuffle x) SCORE: {cv_score}')
print(f'(CV-Shuffle x) SCORE\'s MEAN: {cv_score.mean()}')

# fit model
model.fit(X_train, y_train)

# evaluate model
score = model.score(X_train, y_train)
print(f'(MODEL) TRAIN SCORE: {score}')
score = model.score(X_test, y_test)
print(f'(MODEL)  TEST SCORE: {score}')

(CV-Shuffle)   SCORE: [0.98496241 0.97744361 0.99242424]
(CV-Shuffle)   SCORE's MEAN: 0.9849434191539453
(CV-Shuffle x) SCORE: [0.9924812  0.96240602 0.97727273]
(CV-Shuffle x) SCORE's MEAN: 0.97738664843928
(MODEL) TRAIN SCORE: 0.992462311557789
(MODEL)  TEST SCORE: 0.9590643274853801
