<a href="https://colab.research.google.com/github/Eungyum/scikit-learn_study/blob/main/4_4_%EC%8A%A4%EC%BC%80%EC%9D%BC%EB%A7%81.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 사이킷런 preprocessing



*   StandardScaler : 평균을 0, 분산을 1로 스케일링
*   MinMaxScaler : 0에서 1사이로 스케일링
*   MaxAbsScaler : -1에서 1사이로 스케일링
*   RobustScaler : 이상치의 영향을 최소화하는 스케일링
*   QuantileTransformer
*   Normalizer : 샘플별 정규화



## 스탠다드

In [None]:
from sklearn.preprocessing import StandardScaler

data = np.array([[0, 1], [2, 3], [4, 5]])
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)
print(scaled_data)

## Min-Max

In [None]:
from sklearn.preprocessing import MinMaxScaler

data = np.array([[0, 1], [2, 3], [4, 5]])
scaler = MinMaxScaler()
scaled_data = scaler.fit_transform(data)
print(scaled_data)

## MaxAbs

In [None]:
from sklearn.preprocessing import MaxAbsScaler
import numpy as np

# 무작위로 데이터 생성 (5개의 특성과 10개의 샘플)
data = np.array([
    [1.0, 2.0, 3.0, 4.0, 5.0],
    [2.0, 3.0, 4.0, 5.0, 6.0],
    [3.0, 4.0, 5.0, 6.0, 7.0],
    [4.0, 5.0, 6.0, 7.0, 8.0],
    [5.0, 6.0, 7.0, 8.0, 9.0],
    [6.0, 7.0, 8.0, 9.0, 10.0],
    [7.0, 8.0, 9.0, 10.0, 11.0],
    [8.0, 9.0, 10.0, 11.0, 12.0],
    [9.0, 10.0, 11.0, 12.0, 13.0],
    [10.0, 11.0, 12.0, 13.0, 14.0]
])

# MaxAbsScaler 객체 생성
scaler = MaxAbsScaler()

# 스케일링 파라미터 학습 및 변환
scaled_data = scaler.fit_transform(data)

# 스케일링 결과 출력
print("원본 데이터:\n", data)
print("스케일링된 데이터:\n", scaled_data)

원본 데이터:
 [[ 1.  2.  3.  4.  5.]
 [ 2.  3.  4.  5.  6.]
 [ 3.  4.  5.  6.  7.]
 [ 4.  5.  6.  7.  8.]
 [ 5.  6.  7.  8.  9.]
 [ 6.  7.  8.  9. 10.]
 [ 7.  8.  9. 10. 11.]
 [ 8.  9. 10. 11. 12.]
 [ 9. 10. 11. 12. 13.]
 [10. 11. 12. 13. 14.]]
스케일링된 데이터:
 [[0.1        0.18181818 0.25       0.30769231 0.35714286]
 [0.2        0.27272727 0.33333333 0.38461538 0.42857143]
 [0.3        0.36363636 0.41666667 0.46153846 0.5       ]
 [0.4        0.45454545 0.5        0.53846154 0.57142857]
 [0.5        0.54545455 0.58333333 0.61538462 0.64285714]
 [0.6        0.63636364 0.66666667 0.69230769 0.71428571]
 [0.7        0.72727273 0.75       0.76923077 0.78571429]
 [0.8        0.81818182 0.83333333 0.84615385 0.85714286]
 [0.9        0.90909091 0.91666667 0.92307692 0.92857143]
 [1.         1.         1.         1.         1.        ]]


## RobustScaler
- x^ = (x-q2(x))/(q3(x)-q1(x))

In [None]:
from sklearn.preprocessing import RobustScaler

data = np.array([[0, 1], [2, 3], [4, 5]])
scaler = RobustScaler()
scaled_data = scaler.fit_transform(data)
print(scaled_data)

[[-1. -1.]
 [ 0.  0.]
 [ 1.  1.]]


## QuantileTransformer

In [None]:
from sklearn.preprocessing import QuantileTransformer

data = np.array([[0, 1], [2, 3], [4, 5]])
scaler = QuantileTransformer()
scaled_data = scaler.fit_transform(data)
print(scaled_data)

[[0.  0. ]
 [0.5 0.5]
 [1.  1. ]]




## 샘플별 정규화
- Normalizer : 샘플의 유클리디안 거리가 1이 되도록 정규화
- 각 샘플에 대해 독립적으로 수행
- 텍스트 데이터나 클러스터링같은 분야에서 유용하게 사용

In [None]:
from sklearn.preprocessing import Normalizer
import pandas as pd

# 샘플 데이터셋 생성
data = {
    'feature1': [1, 20, 300],
    'feature2': [2, 30, 400],
    'feature3': [3, 40, 500]
}

df = pd.DataFrame(data)

# Normalizer 인스턴스 생성
normalizer = Normalizer(norm='l2')  # 기본 노름은 'l2'

# 데이터 정규화
normalized_data = normalizer.transform(df)

# 정규화된 데이터를 DataFrame으로 변환 및 출력
normalized_df = pd.DataFrame(normalized_data, columns=df.columns)
print(normalized_df)

   feature1  feature2  feature3
0  0.267261  0.534522  0.801784
1  0.371391  0.557086  0.742781
2  0.424264  0.565685  0.707107


