# 구간화 정규화

## 구간화

- 지정 길이 기반 구간 정의: 사용자 기준으로 범위 간격 구분
- 분포 기반 구간 정의: 동일한 개수로 구분

In [None]:
import numpy as np
import pandas as pd

In [None]:
# 지정 길이 기반 구간화
bins = [0, 100, 500, np.max(df['col'])]
names = ['low', 'medium', 'high']

df['pref'] = pd.cut(df['col'], bins, labels=names)
df['pref'].value_counts()

In [None]:
# 분포 기반 구간화
# 분포가 치우쳐져 있으면 오류가 생길 확률 높아짐

n = 3
df['pref_qcut'] = pd.qcut(df['col'], n, labels=names)
df['pref_qcut'].value_counts()

## 정규화

min-max scaling 최대-최소 정규화
- 데이터 구간을 0에서 1사이로 변환
- 특정 데이터의 위치 파악 용이

Z-Score 정규화
- 0을 중심으로 양쪽으로 데이터 분포
- 평균과 얼마나 떨어져 있는지 파악 용이

In [None]:
# 최대-최소 정규화
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()

df['minmax_values'] = scaler.fit_transform(df[['col']])
df.describe()

In [None]:
from sklearn.preprocessing import StandardScaler
std_scaler = StandardScaler()

df['std_values'] = std_scaler.fit_transform(df[['col']])
df.describe()

### 쓰이는 상황
- 연속형 데이터를 기계학습할 시 변수 간의 상대적 크기 차이를 제거해야함
- K-means
- distance를 연산하여 유사한 집단으로 묶는 알고리즘