# Data Transformation

## 데이터 변환(Data Transformation)
- 분석에 적합한 형태로 데이터를 바꾸는 과정
    - 숫자가 너무 크거나 작아서 모델이 학습하기 어려울 때
    - 문자를 숫자로 바꿔야 할 때
    - 필요없는 값을 제거하고 새 값을 만들어야 할 때

### 인코딩(Encoding)
- 문자로 되어있는 범주형 데이터를 숫자로 변환

In [3]:
# Label Encoding

import pandas as pd
from sklearn.preprocessing import LabelEncoder

df = pd.DataFrame({'성별': ['남자', '여자', '여자', '남자', '여자']})

le = LabelEncoder()
df['성별_인코딩'] = LabelEncoder().fit_transform(df['성별'])

print(df)

## Label Encoding은 순서가 없는데도 숫자 순서처럼 보이게 되므로,
## 범주 간 우열이 없을 때는 One-Hot Encoding을 사용해야 함

   성별  성별_인코딩
0  남자       0
1  여자       1
2  여자       1
3  남자       0
4  여자       1


In [None]:
# One-Hot Encoding

import pandas as pd

df = pd.DataFrame({'성별': ['남자', '여자', '여자', '남자', '여자']})

df_encoded = pd.get_dummies(df, columns=['성별'])
print(df_encoded)

## 범주마다 별도의 열(column)을 만들어 True 또는 False로 표시
## 서로 다른 범주를 완전히 독립적인 변수로 취급

   성별_남자  성별_여자
0   True  False
1  False   True
2  False   True
3   True  False
4  False   True


In [5]:
# Ordinal Encoding (순서형 인코딩)

import pandas as pd

df = pd.DataFrame({'학력': ['고졸', '대졸', '석사', '고졸', '박사']})

# 순서 지정
edu_order = {'고졸': 0, '대졸': 1, '석사': 2, '박사': 3}
df['학력_인코딩'] = df['학력'].map(edu_order)
print(df)

## 순서형 데이터에만 사용함
## 순서가 없는 범주형 데이터에는 절대 사용 불가

   학력  학력_인코딩
0  고졸       0
1  대졸       1
2  석사       2
3  고졸       0
4  박사       3


### 정규화/표준화

- 숫자형 데이터의 '스케일(단위나 범위)'을 조정하는 방법
- KNN, SVM, 군집(KMeans) 등은 스케일에 민감한 모델

#### 정규화 (Normalization)

- 모든 데이터를 0가 1 사이의 값으로 바꿔주는 것
- 최소값 0, 최대값 1로 맞춰주는 방식

In [6]:
# MinMaxScaler

import pandas as pd
from sklearn.preprocessing import MinMaxScaler

df = pd.DataFrame({'점수': [10, 20, 30, 40, 50]})
scaler = MinMaxScaler()
df['정규화_점수'] = scaler.fit_transform(df[['점수']])
print(df)

   점수  정규화_점수
0  10    0.00
1  20    0.25
2  30    0.50
3  40    0.75
4  50    1.00


#### 표준화 (Standardization)

- 평균은 0, 표준편차는 1로 조정하는 방식
- 정규분포처럼 중심이 0이고, 퍼짐이 1이 되게 맞추는 것

In [11]:
# StandardScaler

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
df['표준화_점수'] = scaler.fit_transform(df[['점수']])
print(df)

   점수  정규화_점수    표준화_점수
0  10    0.00 -1.414214
1  20    0.25 -0.707107
2  30    0.50  0.000000
3  40    0.75  0.707107
4  50    1.00  1.414214


#### 역변환

- 정규화나 표준화된 값을 다시 원래 값으로 되돌릴 때 사용

In [18]:
# .inverse_transform

import pandas as pd
from sklearn.preprocessing import MinMaxScaler, StandardScaler

df = pd.DataFrame({'점수': [10, 20, 30, 40, 50]})

# 정규화
MMscaler = MinMaxScaler()
df['점수_정규화'] = MMscaler.fit_transform(df[['점수']])

# 표준화
STscaler = StandardScaler()
df['점수_표준화'] = STscaler.fit_transform(df[['점수']])

# 역변환
df['복원값1'] = MMscaler.inverse_transform(df[['점수_정규화']])
df['복원값2'] = STscaler.inverse_transform(df[['점수_표준화']])

df

Unnamed: 0,점수,점수_정규화,점수_표준화,복원값1,복원값2
0,10,0.0,-1.414214,10.0,10.0
1,20,0.25,-0.707107,20.0,20.0
2,30,0.5,0.0,30.0,30.0
3,40,0.75,0.707107,40.0,40.0
4,50,1.0,1.414214,50.0,50.0


### 이산화 (Binning)

- 연속형 데이터를 구간을 나눠서 범주형처럼 만드는 작업

In [None]:
# cut
## 경계값 미지정

import pandas as pd

ages = [22, 25, 47, 35, 46, 52, 23, 44, 33, 38]
df = pd.DataFrame({'나이': ages})

df['연령대'] = pd.cut(df['나이'], bins=3, labels=['청년', '중년', '노년'])
df

Unnamed: 0,나이,연령대
0,22,청년
1,25,청년
2,47,노년
3,35,중년
4,46,노년
5,52,노년
6,23,청년
7,44,노년
8,33,중년
9,38,중년


In [23]:
# cut
## 경계값 지정

import pandas as pd

bins = [0, 29, 49, 100]  # 0~29: 청년, 30~49: 중년, 50~100: 노년
labels = ['청년', '중년', '노년']

df['연령대'] = pd.cut(df['나이'], bins=bins, labels=labels)
df

Unnamed: 0,나이,연령대
0,22,청년
1,25,청년
2,47,중년
3,35,중년
4,46,중년
5,52,노년
6,23,청년
7,44,중년
8,33,중년
9,38,중년


In [25]:
# qcut
## 같은 개수씩 구간을 나눌때

import pandas as pd

ages = [22, 25, 47, 35, 46, 52, 23, 44, 33, 38]
df = pd.DataFrame({'나이': ages})

df['연령대'] = pd.qcut(df['나이'], q=4, labels=['1분위', '2분위', '3분위', '4분위'])

df

Unnamed: 0,나이,연령대
0,22,1분위
1,25,1분위
2,47,4분위
3,35,2분위
4,46,4분위
5,52,4분위
6,23,1분위
7,44,3분위
8,33,2분위
9,38,3분위


### 로그변환

- 데이터를 로그(logarithm) 함수로 변형하는 작업
- 데이터 분포가 비대칭(skewed)하거나 이상치가 너무 큰 경우, 안정적으로 만들어주기 위해 사용

In [26]:
# log(x)

import pandas as pd
import numpy as np

df = pd.DataFrame({'매출': [2000, 2200, 2500, 8000, 50000]})

df['매출_로그'] = np.log(df['매출'])
df

Unnamed: 0,매출,매출_로그
0,2000,7.600902
1,2200,7.696213
2,2500,7.824046
3,8000,8.987197
4,50000,10.819778


In [31]:
# log(x+1)
## 0이나 음수는 로그 계산이 안 되기 때문
## 0이랑 가까울수록 정밀도가 떨어질 수 있어서

import pandas as pd
import numpy as np

df = pd.DataFrame({'조회수': [0, 1, 10, 100, 1000]})

df['log'] = np.log(df['조회수'])      # → 0에서 오류 발생
df['log1p'] = np.log1p(df['조회수'])

df

  result = getattr(ufunc, method)(*inputs, **kwargs)


Unnamed: 0,조회수,log,log1p
0,0,-inf,0.0
1,1,0.0,0.693147
2,10,2.302585,2.397895
3,100,4.60517,4.615121
4,1000,6.907755,6.908755


### 파생변수

- 기존의 변수들을 이용해서 새로운 변수(열)를 만들어내는 과정
- 데이터에 숨겨진 정보를 꺼내어 새로운 변수로 추가

In [33]:
import pandas as pd

df = pd.DataFrame({
    '구매일': ['2023-01-01', '2023-02-14', '2023-06-16']
})

# 문자열 → datetime 타입으로 변환
df['구매일'] = pd.to_datetime(df['구매일'])

# 파생변수 생성
df['연도'] = df['구매일'].dt.year
df['월'] = df['구매일'].dt.month
df['요일'] = df['구매일'].dt.day_name()

df

Unnamed: 0,구매일,연도,월,요일
0,2023-01-01,2023,1,Sunday
1,2023-02-14,2023,2,Tuesday
2,2023-06-16,2023,6,Friday
