## 정규화와 표준화

- 스케일링 : 숫자형 데이터는 단위와 범주 맞추는 과정 필요(데이터 규모 맞춰주는 것)
    - 단위 맞추기 : 수동으로 맞추기
    - 범위 맞추기 : `정규화` `표준화` 사용

    1. `정규화` : 데이터를 0과 1사이의 값으로 바꾸는 것
        - Min-Max Normalization/Scaling : (값 - 최소값) / (최대값 - 최소값)
            - 최대값 1, 최소값 0 으로 변경됨

    2. `표준화`
        - standard scaling
        - Z-score : (값-평균) / 표준편차
            - 평균 0, 분산 1로 변환
            - 데이터가 평균으로부터 얼마나 떨어져 있는지
            - 평균과의 거리를 표준편차 기준으로 표시
            - Z분포(표준정규분포)로 대응

- 정규화 VS 표준화, 무엇을 쓰는게 나을까?
    - 정규화 : **데이터 범위 0~1로 확실히 통일**시킬 때 사용
    - 표준화 : **평균에서 얼마나 떨어져 있는지** 비교시 사용
    - 보통 표준화 많이 씀

### 정규화

In [None]:
import pandas as pd

patient_df = pd.read_csv("./data/patient.csv")
patient_df.head(3)

Unnamed: 0,age,sex,glucose,cholesterol,height,weight,hip,waist,diabetes
0,50,Male,385,140,1.75,78.0,41,37,Y
1,37,Female,67,214,1.63,65.8,42,34,N
2,43,Female,100,160,1.63,63.5,40,37,N


In [None]:
# 최소, 최대값 구하기
min_height = patient_df['height'].min()
max_height = patient_df['height'].max()

# 정규화, 값을 0~1 사이로 변환
patient_df['height_norm']= (patient_df['height'] - min_height) / (max_height - min_height)

# 정규화된 데이터 프레임 확인
patient_df['height_norm']

0      0.704918
1      0.508197
2      0.508197
3      0.459016
4      0.836066
         ...   
343    0.868852
344    0.672131
345    0.590164
346    0.672131
347    0.540984
Name: height_norm, Length: 348, dtype: float64

In [None]:
# (참고)sklearn 라이브러리로 정규화하기
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
norm_height = scaler.fit_transform(patient_df[['height']])
norm_height

array([[0.70491803],
       [0.50819672],
       [0.50819672],
       [0.45901639],
       [0.83606557],
       [0.50819672],
       [0.78688525],
       [0.40983607],
       [0.83606557],
       [0.45901639],
       [0.62295082],
       [0.29508197],
       [0.59016393],
       [0.45901639],
       [0.37704918],
       [0.78688525],
       [0.70491803],
       [0.50819672],
       [0.54098361],
       [0.62295082],
       [0.62295082],
       [0.75409836],
       [0.67213115],
       [0.45901639],
       [0.50819672],
       [0.67213115],
       [0.50819672],
       [0.70491803],
       [0.50819672],
       [0.40983607],
       [0.50819672],
       [0.45901639],
       [0.54098361],
       [0.45901639],
       [0.29508197],
       [0.59016393],
       [0.70491803],
       [0.50819672],
       [0.40983607],
       [0.62295082],
       [0.70491803],
       [0.70491803],
       [0.83606557],
       [0.54098361],
       [0.78688525],
       [0.50819672],
       [0.59016393],
       [0.672

In [None]:
patient_df['height_norm'].describe()

count    348.000000
mean       0.590588
std        0.163932
min        0.000000
25%        0.459016
50%        0.590164
75%        0.704918
max        1.000000
Name: height_norm, dtype: float64

### 표준화

In [None]:
import pandas as pd

patient_df = pd.read_csv("./data/patient.csv")
patient_df.head(3)

Unnamed: 0,age,sex,glucose,cholesterol,height,weight,hip,waist,diabetes
0,50,Male,385,140,1.75,78.0,41,37,Y
1,37,Female,67,214,1.63,65.8,42,34,N
2,43,Female,100,160,1.63,63.5,40,37,N


In [None]:
# 직접 계산
patient_df['height_scaled'] = \
    (patient_df['height'] - patient_df['height'].mean()) / \
    patient_df['height'].std()
patient_df['height_scaled']

0      0.697426
1     -0.502595
2     -0.502595
3     -0.802600
4      1.497440
         ...   
343    1.697444
344    0.497423
345   -0.002586
346    0.497423
347   -0.302592
Name: height_scaled, Length: 348, dtype: float64

In [None]:
# sklearn의 모듈 이용
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaled_height = scaler.fit_transform(patient_df[['height']])
scaled_height


array([[ 6.98430396e-01],
       [-5.03318814e-01],
       [-5.03318814e-01],
       [-8.03756117e-01],
       [ 1.49959654e+00],
       [-5.03318814e-01],
       [ 1.19915923e+00],
       [-1.10419342e+00],
       [ 1.49959654e+00],
       [-8.03756117e-01],
       [ 1.97701558e-01],
       [-1.80521379e+00],
       [-2.58997674e-03],
       [-8.03756117e-01],
       [-1.30448495e+00],
       [ 1.19915923e+00],
       [ 6.98430396e-01],
       [-5.03318814e-01],
       [-3.03027279e-01],
       [ 1.97701558e-01],
       [ 1.97701558e-01],
       [ 9.98867698e-01],
       [ 4.98138861e-01],
       [-8.03756117e-01],
       [-5.03318814e-01],
       [ 4.98138861e-01],
       [-5.03318814e-01],
       [ 6.98430396e-01],
       [-5.03318814e-01],
       [-1.10419342e+00],
       [-5.03318814e-01],
       [-8.03756117e-01],
       [-3.03027279e-01],
       [-8.03756117e-01],
       [-1.80521379e+00],
       [-2.58997674e-03],
       [ 6.98430396e-01],
       [-5.03318814e-01],
       [-1.1

In [None]:
patient_df[['height_scaled']].describe()

Unnamed: 0,height_scaled
count,348.0
mean,-9.239097e-16
std,1.0
min,-3.60265
25%,-0.8026005
50%,-0.002586253
75%,0.6974262
max,2.497458


---

## 데이터 구간화하기

### 개념
데이터 구간화(bining)
- bin 옵션 : 막대 차틑의 바 개수 설정하는 파라미터

### 1. 나이 구간 분류(연속형 > 범주형)

In [None]:
import pandas as pd

# 환자 데이터 불러오기
patient_df = pd.read_csv('./data/patient.csv')

# age 컬럼의 최소값, 최대값 확인
patient_df['age'].describe()

count    348.000000
mean      43.505747
std       13.473101
min       20.000000
25%       33.000000
50%       42.000000
75%       55.000000
max       69.000000
Name: age, dtype: float64

In [None]:
# bins 옵션
patient_df['ageGroup'] =pd.cut(patient_df['age'], bins=[20,30,40,50,60,70], right=False)
patient_df['ageGroup']



0      [50, 60)
1      [30, 40)
2      [40, 50)
3      [30, 40)
4      [20, 30)
         ...   
343    [40, 50)
344    [60, 70)
345    [30, 40)
346    [40, 50)
347    [40, 50)
Name: ageGroup, Length: 348, dtype: category
Categories (5, interval[int64, left]): [[20, 30) < [30, 40) < [40, 50) < [50, 60) < [60, 70)]

In [None]:
# cut함수 사용시 첫 번째 구간의 시작값 포함시키기
patient_df['ageGroup'] =pd.cut(patient_df['age'], 
                               bins=[20,30,40,50,60,70],
                               right=False,
                               include_lowest = True)
patient_df['ageGroup']

0      [50, 60)
1      [30, 40)
2      [40, 50)
3      [30, 40)
4      [20, 30)
         ...   
343    [40, 50)
344    [60, 70)
345    [30, 40)
346    [40, 50)
347    [40, 50)
Name: ageGroup, Length: 348, dtype: category
Categories (5, interval[int64, left]): [[20, 30) < [30, 40) < [40, 50) < [50, 60) < [60, 70)]

In [None]:
# labels 옵션으로 각 구간에 이름 부여
patient_df['ageGroup'] =pd.cut(patient_df['age'], 
                               bins=[20,30,40,50,60,70],
                               right=False,
                               include_lowest = True,
                               labels=['20s', '30s', '40s', '50s', '60s'])
patient_df['ageGroup']

0      50s
1      30s
2      40s
3      30s
4      20s
      ... 
343    40s
344    60s
345    30s
346    40s
347    40s
Name: ageGroup, Length: 348, dtype: category
Categories (5, object): ['20s' < '30s' < '40s' < '50s' < '60s']

---

## 만능함수 apply()

### 개념
- `apply() 함수`는 DataFrame이나 `Series에 있는 값 하나하나에 다른 함수를 적용`하는 함수
- 원하는 기능을 구현한 함수를 데이터에 적용할 때 매우 유용합니다.

In [None]:
import pandas as pd

# 환자 데이터 불러오기
patient_df = pd.read_csv('./data/patient.csv')

# 나이를 연령대로 구분하는 함수 정의
def group_age(x):
    if x >= 10 and x < 20:
        return '10s'
    elif x >= 20 and x < 30:
        return '20s'
    elif x >= 30 and x < 40:
        return '30s'
    elif x >= 40 and x < 50:
        return '40s'
    elif x >= 50 and x < 60:
        return '50s'
    else:
        return '60s'

# apply()를 사용해 age 컬럼에 group_age 함수를 적용하고 새로운 컬럼에 저장
patient_df['age_group'] = patient_df['age'].apply(group_age)

# 결과 확인
patient_df

Unnamed: 0,age,sex,glucose,cholesterol,height,weight,hip,waist,diabetes,age_group
0,50,Male,385,140,1.75,78.0,41,37,Y,50s
1,37,Female,67,214,1.63,65.8,42,34,N,30s
2,43,Female,100,160,1.63,63.5,40,37,N,40s
3,32,Female,90,176,1.60,114.3,58,45,N,30s
4,20,Male,71,164,1.83,65.8,36,29,N,20s
...,...,...,...,...,...,...,...,...,...,...
343,40,Male,87,218,1.85,90.7,41,38,N,40s
344,66,Male,174,188,1.73,95.3,48,45,N,60s
345,31,Female,69,183,1.68,86.2,47,41,N,30s
346,44,Male,84,202,1.73,71.2,37,33,N,40s


apply()와 람다 함수 사용하기

- 람다 함수란?
	- def란 키워드를 이용해 함수를 따로 정의할 필요X
	- 따로 함수 이름이 없이, `일회성으로 저장할 필요X` 사용
	- 그래서 익명 함수라는 별칭이 붙음.
	- `lambda x: x*2`와 같이 사용.

In [None]:
# height 컬럼을 미터에서 인치로 변환하는 람다 함수
patient_df['height_in_inches'] = patient_df['height'].apply(lambda x: 39.370079 * x)

# BMI가 30 이상일 때 'Y', 그렇지 않으면 'N'을 반환하는 람다 함수
patient_df['bmi'] = round(patient_df['weight']/patient_df['height']**2, 1)
patient_df['is_obese'] = patient_df['bmi'].apply(lambda x: 'Y' if x >= 30 else 'N')

# 결과 확인
patient_df

Unnamed: 0,age,sex,glucose,cholesterol,height,weight,hip,waist,diabetes,age_group,height_in_inches,bmi,is_obese
0,50,Male,385,140,1.75,78.0,41,37,Y,50s,68.897638,25.5,N
1,37,Female,67,214,1.63,65.8,42,34,N,30s,64.173229,24.8,N
2,43,Female,100,160,1.63,63.5,40,37,N,40s,64.173229,23.9,N
3,32,Female,90,176,1.60,114.3,58,45,N,30s,62.992126,44.6,Y
4,20,Male,71,164,1.83,65.8,36,29,N,20s,72.047245,19.6,N
...,...,...,...,...,...,...,...,...,...,...,...,...,...
343,40,Male,87,218,1.85,90.7,41,38,N,40s,72.834646,26.5,N
344,66,Male,174,188,1.73,95.3,48,45,N,60s,68.110237,31.8,Y
345,31,Female,69,183,1.68,86.2,47,41,N,30s,66.141733,30.5,Y
346,44,Male,84,202,1.73,71.2,37,33,N,40s,68.110237,23.8,N
