# 바인딩

- 바인딩(binding)
  - 연속형 데이터를 범주형 데이터로 변환


In [1]:
import pandas as pd
import numpy as np

raw_data = {
    "regiment": [
        "Nighthawks",
        "Nighthawks",
        "Nighthawks",
        "Nighthawks",
        "Dragoons",
        "Dragoons",
        "Dragoons",
        "Dragoons",
        "Scouts",
        "Scouts",
        "Scouts",
        "Scouts",
    ],
    "company": [
        "1st",
        "1st",
        "2nd",
        "2nd",
        "1st",
        "1st",
        "2nd",
        "2nd",
        "1st",
        "1st",
        "2nd",
        "2nd",
    ],
    "name": [
        "Miller",
        "Jacobson",
        "Ali",
        "Milner",
        "Cooze",
        "Jacon",
        "Ryaner",
        "Sone",
        "Sloan",
        "Piger",
        "Riani",
        "Ali",
    ],
    "preTestScore": [4, 24, 31, 2, 3, 4, 24, 31, 2, 3, 2, 3],
    "postTestScore": [25, 94, 57, 62, 70, 25, 94, 57, 62, 70, 62, 70],
}

df = pd.DataFrame(
    raw_data, columns=["regiment", "company", "name", "preTestScore", "postTestScore"]
)
df

Unnamed: 0,regiment,company,name,preTestScore,postTestScore
0,Nighthawks,1st,Miller,4,25
1,Nighthawks,1st,Jacobson,24,94
2,Nighthawks,2nd,Ali,31,57
3,Nighthawks,2nd,Milner,2,62
4,Dragoons,1st,Cooze,3,70
5,Dragoons,1st,Jacon,4,25
6,Dragoons,2nd,Ryaner,24,94
7,Dragoons,2nd,Sone,31,57
8,Scouts,1st,Sloan,2,62
9,Scouts,1st,Piger,3,70


- postTestScore에 대한 등급을 측정하는 코드를 작성
- 데이터 범위를 구분: 0~25, 25~50, 50~75, 75~100으로 구분
- 함수 cut 사용
  - bins 리스트에 구간의 시작 값 끝 값을 넣고 구간의 이름을 리스트로 나열
  - bins의 원소는 5개이고 group_names는 4개
  - cut 함수로 나눌 시리즈 객체와 구간, 구간의 이름을 넣어주면 해당 값을 바인딩하여 표시해줌


In [2]:
bins = [0, 25, 50, 75, 100]
group_names = ["Low", "Okay", "Good", "Great"]
categories = pd.cut(df["postTestScore"], bins, labels=group_names)
categories

0       Low
1     Great
2      Good
3      Good
4      Good
5       Low
6     Great
7      Good
8      Good
9      Good
10     Good
11     Good
Name: postTestScore, dtype: category
Categories (4, object): ['Low' < 'Okay' < 'Good' < 'Great']

# 피쳐 스케일링

- 스케일링(scaling)
  - 몸무게와 키를 하나의 모델에 넣으면 데이터의 범위가 훨씬 넓어져 키가 몸무게에 비해 모델에 과다하게 영향을 줌
- 머신러닝(machine learning)
- x1과 x2의 변수 범위가 다를 때 하나의 변수 범위로 통일시켜 처리


# 최솟값-최대값 정규화

- 최솟값-최댓값 정규화(min-max normalization)
  - 최솟값과 최댓값을 기준으로 0에서 1, 또는 0에서 지정 값까지로 값의 크기를 변화시킴
    $$ Zi=\frac{Xi-min(X)}{max(X)-min(X)}=(new*{max}-new*{min})+new\_{min} $$
  - x는 처리하고자 하는 열, x_i는 이 열의 하나의 값, max(x)는 해당 열의 최댓값, min(x)는 해당 열의 최솟값
  - new{max}와 new{min}은 새롭게 지정되는 값의 최댓값 또는 최솟값


# z-스코어 정규화

- z-스코어 정규화(z-score normalization)
  - 기존 값을 표준 정규분포값으로 변환하여 처리
    $$ Z = \frac{X\_{i}-\mu}{\sigma} $$
  - $$ {\mu} 는 x 열의 평균값이고 \sigma 는 표준편차 $$
  - 통계학 시간에 배우는 수식과 동일


In [3]:
df = pd.DataFrame(
    {
        "A": [14.00, 90.20, 90.95, 96.27, 91.21],
        "B": [103.02, 107.26, 110.35, 114.23, 114.68],
        "C": ["big", "small", "big", "small", "small"],
    }
)
df

Unnamed: 0,A,B,C
0,14.0,103.02,big
1,90.2,107.26,small
2,90.95,110.35,big
3,96.27,114.23,small
4,91.21,114.68,small


- 스케일링할 때는 브로드캐스팅 개념으로 스칼라 값(평균값, 최댓값, 최솟값)과 벡터(열) 값 간 연산


In [4]:
df["A"] - df["A"].min()

0     0.00
1    76.20
2    76.95
3    82.27
4    77.21
Name: A, dtype: float64

- 최댓값과 최솟값을 따로 구하지 않고 코드로 수식을 나타낼 수 있음
  $$ Zi=\frac{Xi-min(X)}{max(X)-min(X)} $$


In [5]:
(df["A"] - df["A"].min()) / (df["A"].max() - df["A"].min())

0    0.000000
1    0.926219
2    0.935335
3    1.000000
4    0.938495
Name: A, dtype: float64

- Z-스코어 정규화(z-score normalization)
  - z-스코어 정규화 수식 역시 코드로 나타낼 수 있음


In [6]:
(df["B"] - df["B"].mean()) / (df["B"].std())

0   -1.405250
1   -0.540230
2    0.090174
3    0.881749
4    0.973556
Name: B, dtype: float64