# 데이터 전처리 1

---

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import mglearn

plt.rc('figure', figsize=(10, 6))

from matplotlib import rcParams
rcParams['font.family'] = 'New Gulim'
rcParams['font.size'] = 10
rcParams['axes.unicode_minus'] = False

# 1 Data Scaling
- Feature(X값): 수치형 데이터
- [scikit-learn preprocessing](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.preprocessing)

1. Standard Scaling
2. MinMax Scaling
3. Robust Scaling
4. Normalization Scaling
5. Log Scaling
6. Exponential Scaling

In [None]:
mglearn.plots.plot_scaling()

#### 데이터 로딩

In [None]:
from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()

#### 데이터 분할: 학습 데이터 + 테스트 데이터

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, random_state=123)
print(X_train.shape)
print(X_test.shape)

### 1.1 Standard Scaling

#### 1.1.1 스케일러 생성

In [None]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

#### 1.1.2 스케일러 학습 - 규칙 설정

In [None]:
scaler.fit(X_train)

#### 1.1.3 학습 데이터 변환

In [None]:
X_train_scaled = scaler.transform(X_train)

In [None]:
print('변환된 후 크기:', X_train_scaled.shape)
print('스케일 조정 전 특성별 최소값:\n', X_train.min(axis=0))
print('스케일 조정 전 특성별 최대값:\n', X_train.max(axis=0))
print('스케일 조정 후 특성별 최소값:\n', X_train_scaled.min(axis=0))
print('스케일 조정 후 특성별 최대값:\n', X_train_scaled.max(axis=0))

#### 1.1.4 테스트 데이터 변환

In [None]:
X_test_scaled = scaler.transform(X_test)

In [None]:
print('스케일 조정 후 특성별 최소값:\n', X_test_scaled.min(axis=0))
print('스케일 조정 후 특성별 최대값:\n', X_test_scaled.max(axis=0))

### 1.2 MinMaxScaler

#### 1.2.1 스케일러 생성

In [None]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()

#### 1.2.2 스케일러 학습 - 규칙 설정

In [None]:
scaler.fit(X_train)

#### 1.2.3 학습 데이터 변환

In [None]:
X_train_scaled = scaler.transform(X_train)

In [None]:
print('변환된 후 크기:', X_train_scaled.shape)
print('스케일 조정 전 특성별 최소값:\n', X_train.min(axis=0))
print('스케일 조정 전 특성별 최대값:\n', X_train.max(axis=0))
print('스케일 조정 후 특성별 최소값:\n', X_train_scaled.min(axis=0))
print('스케일 조정 후 특성별 최대값:\n', X_train_scaled.max(axis=0))

#### 1.2.4 테스트 데이터 변환

In [None]:
X_test_scaled = scaler.transform(X_test)

In [None]:
print('스케일 조정 후 특성별 최소값:\n', X_test_scaled.min(axis=0))
print('스케일 조정 후 특성별 최대값:\n', X_test_scaled.max(axis=0))

### 1.3 RobustScaler

#### 1.3.1 스케일러 생성

In [None]:
from sklearn.preprocessing import RobustScaler
scaler = RobustScaler()

#### 1.3.2 스케일러 학습 - 규칙 설정

In [None]:
scaler.fit(X_train)

#### 1.3.3 학습 데이터 변환

In [None]:
X_train_scaled = scaler.transform(X_train)

In [None]:
print('변환된 후 크기:', X_train_scaled.shape)
print('스케일 조정 전 특성별 최소값:\n', X_train.min(axis=0))
print('스케일 조정 전 특성별 최대값:\n', X_train.max(axis=0))
print('스케일 조정 후 특성별 최소값:\n', X_train_scaled.min(axis=0))
print('스케일 조정 후 특성별 최대값:\n', X_train_scaled.max(axis=0))

#### 1.3.4 테스트 데이터 변환

In [None]:
X_test_scaled = scaler.transform(X_test)

In [None]:
print('스케일 조정 후 특성별 최소값:\n', X_test_scaled.min(axis=0))
print('스케일 조정 후 특성별 최대값:\n', X_test_scaled.max(axis=0))

### 1.4 Normalizer

#### 1.4.1 스케일러 생성

In [None]:
from sklearn.preprocessing import Normalizer
scaler = Normalizer()

#### 1.4.2 스케일러 학습 - 규칙 설정

In [None]:
scaler.fit(X_train)

#### 1.4.3 학습 데이터 변환

In [None]:
X_train_scaled = scaler.transform(X_train)

In [None]:
print('변환된 후 크기:', X_train_scaled.shape)
print('스케일 조정 전 특성별 최소값:\n', X_train.min(axis=0))
print('스케일 조정 전 특성별 최대값:\n', X_train.max(axis=0))
print('스케일 조정 후 특성별 최소값:\n', X_train_scaled.min(axis=0))
print('스케일 조정 후 특성별 최대값:\n', X_train_scaled.max(axis=0))

#### 1.4.4 테스트 데이터 변환

In [None]:
X_test_scaled = scaler.transform(X_test)

In [None]:
print('스케일 조정 후 특성별 최소값:\n', X_test_scaled.min(axis=0))
print('스케일 조정 후 특성별 최대값:\n', X_test_scaled.max(axis=0))

### 1.5 Log  Scaling

#### 1.5.1 스케일러 생성

In [None]:
from sklearn.preprocessing import FunctionTransformer
scaler = FunctionTransformer(np.log1p)

#### 1.5.2 스케일러 학습 - 규칙 설정

In [None]:
scaler.fit(X_train)

#### 1.5.3 학습 데이터 변환

In [None]:
X_train_scaled = scaler.transform(X_train)

In [None]:
print('변환된 후 크기:', X_train_scaled.shape)
print('스케일 조정 전 특성별 최소값:\n', X_train.min(axis=0))
print('스케일 조정 전 특성별 최대값:\n', X_train.max(axis=0))
print('스케일 조정 후 특성별 최소값:\n', X_train_scaled.min(axis=0))
print('스케일 조정 후 특성별 최대값:\n', X_train_scaled.max(axis=0))

#### 1.5.4 테스트 데이터 변환

In [None]:
X_test_scaled = scaler.transform(X_test)

In [None]:
print('스케일 조정 후 특성별 최소값:\n', X_test_scaled.min(axis=0))
print('스케일 조정 후 특성별 최대값:\n', X_test_scaled.max(axis=0))

### 1.6 Exponential Scaling

#### 1.6.1 스케일러 생성

In [None]:
from sklearn.preprocessing import FunctionTransformer
scaler = FunctionTransformer(np.expm1)

#### 1.6.2 스케일러 학습 - 규칙 설정

In [None]:
scaler.fit(X_train)

#### 1.6.3 학습 데이터 변환

In [None]:
X_train_scaled = scaler.transform(X_train)

In [None]:
print('변환된 후 크기:', X_train_scaled.shape)
print('스케일 조정 전 특성별 최소값:\n', X_train.min(axis=0))
print('스케일 조정 전 특성별 최대값:\n', X_train.max(axis=0))
print('스케일 조정 후 특성별 최소값:\n', X_train_scaled.min(axis=0))
print('스케일 조정 후 특성별 최대값:\n', X_train_scaled.max(axis=0))

#### 1.6.4 테스트 데이터 변환

In [None]:
X_test_scaled = scaler.transform(X_test)

In [None]:
print('스케일 조정 후 특성별 최소값:\n', X_test_scaled.min(axis=0))
print('스케일 조정 후 특성별 최대값:\n', X_test_scaled.max(axis=0))

### 1.7 학습 데이터와 테스트 데이터의 스케일 조정 - 주의

In [None]:
# 데이터셋 생성
from sklearn.datasets import make_blobs
X, _ = make_blobs(n_samples=50, centers=5, random_state=4, cluster_std=2)

# 데이터 분할
X_train, X_test = train_test_split(X, random_state=123, test_size=0.1)

# plot 1: 원본 데이터
fig, axes = plt.subplots(1, 3, figsize=(13, 4))

axes[0].scatter(X_train[:, 0], X_train[:, 1], c=mglearn.cm2.colors[0], label='학습 세트', s=60)
axes[0].scatter(X_test[:, 0], X_test[:, 1], marker='^', c=mglearn.cm2.colors[1], label='테스트 세트', s=60)
axes[0].legend(loc='upper left')
axes[0].set_title('원본 데이터')

#
# plot 2: 스케일 조정된 데이터
#

# MinMaxScaler를 사용해 스케일을 조정합니다
scaler = MinMaxScaler()
scaler.fit(X_train)
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

axes[1].scatter(X_train_scaled[:, 0], X_train_scaled[:, 1], c=mglearn.cm2.colors[0], label='학습 세트', s=60)
axes[1].scatter(X_test_scaled[:, 0], X_test_scaled[:, 1], marker='^', c=mglearn.cm2.colors[1], label='테스트 세트', s=60)
axes[1].set_title('스케일 조정된 데이터')

#
# plot 3: 잘못 조정된 데이터
#
# 잘못된 스케일 조정: 테스트 세트의 스케일을 따로 조정합니다
test_scaler = MinMaxScaler()
test_scaler.fit(X_test)

X_test_scaled_badly = test_scaler.transform(X_test)

axes[2].scatter(X_train_scaled[:, 0], X_train_scaled[:, 1], c=mglearn.cm2.colors[0], label='학습 세트', s=60)
axes[2].scatter(X_test_scaled_badly[:, 0], X_test_scaled_badly[:, 1], marker='^', c=mglearn.cm2.colors[1], label='테스트 세트', s=60)
axes[2].set_title('잘못 조정된 데이터')

for ax in axes:
    ax.set_xlabel("특성 0")
    ax.set_ylabel("특성 1")
fig.tight_layout()

plt.show()

### 1.8 스케일링 적용 - 지도학습

#### 1.8.1 데이터 분할

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, random_state=123)

#### 1.8.2 Supprt Vector Machine

In [None]:
from sklearn.svm import SVC

svm = SVC(gamma='auto')

svm.fit(X_train, y_train)

print('테스트 세트 정확도: {:.2f}'.format(svm.score(X_test, y_test)))

#### 1.8.3 Supprt Vector Machine - StandardScaler 적용

In [None]:
# StandardScaler: 평균 0, 분산 1을 갖도록 스케일 조정
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 조정된 데이터로 SVM 학습
svm.fit(X_train_scaled, y_train)

# 스케일 조정된 테스트 세트의 정확도
print('스케일 조정된 테스트 세트의 정확도(StandardScaler): {:.2f}'.format(svm.score(X_test_scaled, y_test)))

#### 1.8.4 Supprt Vector Machine - MinMaxScaler 적용

In [None]:
# MinMaxScaler: 0~1 사이로 스케일 조정
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit(X_train)
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 조정된 데이터로 SVM 학습
svm.fit(X_train_scaled, y_train)

# 스케일 조정된 테스트 세트의 정확도
print('스케일 조정된 테스트 세트의 정확도(MinMaxScaler): {:.2f}'.format(svm.score(X_test_scaled, y_test)))

### 1.9 로그 스케일링 적용

#### 1.9.1 데이터 생성

In [None]:
rnd = np.random.RandomState(123)
X_org = rnd.normal(size=(1000, 3))
w = rnd.normal(size=3)

X = rnd.poisson(10 * np.exp(X_org))
y = np.dot(X_org, w)
X

#### 1.9.2 데이터 분포 - 히스토그램

In [None]:
plt.hist(X[:, 0], bins=25)
plt.ylabel("출현 횟수")
plt.xlabel("값")
plt.show()

#### 1.9.3 Ridge 알고리즘 학습 및 평가

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=123)

from sklearn.linear_model import Ridge
score = Ridge().fit(X_train, y_train).score(X_test, y_test)
score

#### 1.9.4 로그 스케일링 적용

In [None]:
X_train_log = np.log1p(X_train)
X_test_log = np.log1p(X_test)

#### 1.9.5 로그 스케일링 적용된 데이터 분포 - 히스토그램

In [None]:
plt.hist(X_train_log[:, 0], bins=25)
plt.ylabel("출현 횟수")
plt.xlabel("값")
plt.show()

#### 1.9.6 Ridge 알고리즘 학습 및 평가 - 로그 스케일링 적용

In [None]:
score = Ridge().fit(X_train_log, y_train).score(X_test_log, y_test)
score

# 2 Data Encoding
- Feature(X값): 범주형 데이터
- [scikit-learn preprocessing](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.preprocessing)

1. Label Encoding
2. Ordinal Encoding
3. One-hot Encoding
4. [Mean Encoding](https://dailyheumsi.tistory.com/120)

#### 데이터 로딩

In [None]:
df = pd.DataFrame({'col1': [70000, 64000, 72000, 59000, 57000, 67000, 62000 , 69000],
                   'col2': ['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']})
df

### 2.1 Label Encoding

#### 2.1.1 판다스 이용

In [None]:
cat = pd.Categorical(df['col2'])

print('Categories:', list(cat.categories))
print('Codes:     ', cat.codes)

In [None]:
df1 = df.copy()
df1['col2_label'] = cat.codes
df1

#### 2.1.2 인코더 생성 - scikit-learn 이용

In [None]:
from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()

#### 2.1.3 인코더 학습 - 규칙 설정

In [None]:
encoder.fit(df['col2'])

#### 2.1.4 데이터 변환

In [None]:
encoded = encoder.transform(df['col2'])

In [None]:
print('Categories:', encoder.classes_)
print('Codes:     ', encoded)
print('Inverse:   ', encoder.inverse_transform(encoded))

#### 2.1.5 판다스(DataFrame)로 표현

In [None]:
df_t = pd.DataFrame(encoded, columns=['col2_label'])
pd.concat([df,df_t], axis=1)

### 2.2 Ordinal Encoding

#### 2.2.1 인코더 생성 - scikit-learn 이용

In [None]:
from sklearn.preprocessing import OrdinalEncoder
encoder = OrdinalEncoder()

#### 2.2.2 인코더 학습 - 규칙 설정

In [None]:
encoder.fit(df[['col2']])

#### 2.2.3 데이터 변환

In [None]:
encoded = encoder.transform(df[['col2']])

In [None]:
print('Categories:', encoder.categories_)
print('Codes:     ', encoded.ravel())
print('Inverse:   ', encoder.inverse_transform(encoded).ravel())

#### 2.2.4 판다스(DataFrame)로 표현

In [None]:
df_t = pd.DataFrame(encoded, columns=['col2_ordinal'])
pd.concat([df,df_t], axis=1)

### 2.3 One-hot Encoding

#### 2.3.1 판다스 이용

In [None]:
pd.get_dummies(df, columns=['col2'])

#### 2.3.2 인코더 생성 - scikit-learn 이용

In [None]:
from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder(sparse=False)

#### 2.3.3 인코더 학습 - 규칙 설정

In [None]:
encoder.fit(df[['col2']])

#### 2.3.4 데이터 변환

In [None]:
encoded = encoder.transform(df[['col2']])

In [None]:
print('Categories:', encoder.categories_)
print('Codes:     ', encoded)
print('Inverse:   ', encoder.inverse_transform(encoded).ravel())

In [None]:
# 컬럼 이름
print(encoder.get_feature_names_out(['col2']))

#### 2.3.5 판다스(DataFrame)로 표현

In [None]:
df_t = pd.DataFrame(encoded, columns=encoder.get_feature_names_out(['col2']))
pd.concat([df,df_t], axis=1)

### 2.4 Mean Encoding

[category_encoders](https://contrib.scikit-learn.org/category_encoders/)

In [None]:
#!pip install category_encoders

#### 2.4.1 인코더 생성 - scikit-learn 이용

In [None]:
from category_encoders.target_encoder import TargetEncoder
encoder = TargetEncoder(return_df=False)

#### 2.4.2 인코더 학습 - 규칙 설정

In [None]:
encoder.fit(df['col2'], df['col1'])

#### 2.4.3 데이터 변환

In [None]:
encoded = encoder.transform(df['col2'])

In [None]:
print(encoded)

#### 2.4.4 판다스(DataFrame)로 표현

In [None]:
df_t = pd.DataFrame(encoded, columns=['col2_mean'])
pd.concat([df,df_t], axis=1)

### 2.5 인코딩 적용 - 지도학습

#### 2.5.1 데이터 로딩

In [None]:
df_ad = pd.read_csv('data/adult.csv')
df_ad = df_ad[['age', 'workclass', 'education', 'gender', 'hours-per-week', 'occupation', 'income']]
df_ad

#### 2.5.2 데이터 변환: One-hot Encoding

In [None]:
df_ohe = pd.get_dummies(df_ad)
df_ohe

#### 2.5.3 데이터 분할

In [None]:
from sklearn.model_selection import train_test_split

X = df_ohe.drop(['income_ <=50K','income_ >50K'], axis=1)
y = df_ohe['income_ >50K']

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=123)

#### 2.5.4 LogisticRegression - One-hot Encoding 적용

In [None]:
from sklearn.linear_model import LogisticRegression

# 모델 생성
model = LogisticRegression(max_iter=5000)

# 모델 학습
model.fit(X_train, y_train)

# 모델 평가
model.score(X_test, y_test)

# 3 ColumnTransformer
- 컬럼별 스케일링, 인코딩 적용

### 3.1 컬럼별 스케일링, 인코딩 적용 - 지도학습

#### 3.1.1 컬럼 변환기 생성

In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import OneHotEncoder

ct = ColumnTransformer(
    [('scaling', StandardScaler(), ['age', 'hours-per-week']),
     ('onehot',  OneHotEncoder(sparse=False), ['workclass', 'education', 'gender', 'occupation'])])

#### 3.1.2 데이터 분할

In [None]:
from sklearn.model_selection import train_test_split

X = df_ad.drop('income', axis=1)
y = df_ad['income']

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=123)

#### 3.1.3 컬럼 변환(스케일링, 인코딩)

In [None]:
# 컬럼 변환 학습(스케일링, 인코딩)
ct.fit(X_train)

# 데이터 변환
X_train_trans = ct.transform(X_train)
X_test_trans  = ct.transform(X_test)

print(X_train_trans.shape)
print(X_test_trans.shape)

#### 3.1.4 LogisticRegression - 컬럼 변환 적용(스케일링, 인코딩)

In [None]:
from sklearn.linear_model import LogisticRegression

# 모델 생성
model = LogisticRegression(max_iter=1000)

# 모델 학습
model.fit(X_train_trans, y_train)

# 모델 평가
model.score(X_test_trans, y_test)

#### 3.1.5 make_column_transformer 사용 (ColumnTransformer 생성)

In [None]:
from sklearn.compose import make_column_transformer

ct = make_column_transformer(
    (StandardScaler(), ['age', 'hours-per-week']),
    (OneHotEncoder(sparse=False), ['workclass', 'education', 'gender', 'occupation']))

---

In [None]:
# End of file