# **🪄 데이터 변환(Data transformation)**

- 정의
    - 데이터를 분석에 적합한 형태로 변환

## **1. 모듈&데이터 불러오기**

### **1-1 모듈 불러오기**

In [None]:
import pandas as pd
import numpy as np

### **1-2 데이터 불러오기**
- Titanic dataset

In [None]:
data= pd.read_csv("./data/titanic.csv")

In [None]:
# 데이터프레임 확인하기
data.head(10)


***

## **2. 결측치 확인 및 전처리**

### **2-1 결측치 확인 및 처리**

- 결측 데이터 확인

In [None]:
data.isnull().sum()

- 연속형 데이터의 결측치를 중앙값으로 처리

In [None]:
# [Age]의 중앙값 선언
median = data["Age"].median()

# 결측치를 중앙값으로 처리
data['Age']=data['Age'].fillna(median)


- 범주형 데이터의 결측치를 최빈값으로 처리

In [None]:
# 범주형 변수 결측치 처리를 위한 함수 선언
def impute_nan_cate(dataframe, column):
    # 열에서 가장 빈번하게 등장한 범주를 설정
    most_freq_category = dataframe[column].mode()[0]
    # 빈번하게 등장한 값을 결측치 위치에 대체
    dataframe[column] = dataframe[column]
    dataframe[column] = dataframe[column].fillna(most_freq_category)

In [None]:
# for 반복문을 활용하여 각 열의 결측치를 최빈값으로 대체
for col in ["Embarked", "Cabin_Serial", "Cabin"]:
    impute_nan_cate(data, col)

In [None]:
# 결측치 처리 확인
data.isnull().sum()

## **3. 범주형 데이터의 변환**

In [None]:
# 데이터의 각 열의 자료형에 대해 확인
data.dtypes

### **3-1 One-Hot Encoding/Dummy 데이터 변환**
- 범주형 데이터에 대해서 모델이 처리할 수 있도록 변환하기 위한 과정
- get_dummies(): 범주형 변수를 더미 변수로 변환하는 함수, 각 범주에 대해 0과 1로 이뤄진 새로운 열을 생성, 해당 범주에 속할 경우 1, 그렇지 않으면 0을 부여


In [None]:
# 새로운 데이터 프레임 복사
df_1 = data.copy()

In [None]:
# 범주형 데이터에 대한 변환
dummies = pd.get_dummies(df_1)

In [None]:
# 원본 데이터와 더미 데이터의 차원 비교
print("data: ", df_1.shape)
print("dummy data: ", dummies.shape)

In [None]:
# 더미 데이터 내부 확인
dummies

### **3-2 Ordinal Number Encoding** 

- 순서가 있는 범주형 데이터를 순서를 유지한 채 숫자형 데이터로 변환
- 좌석 등급[Pclass]과 같이 순서가 정해져 있는 범주형 데이터에 적용

In [None]:
# 새로운 데이터 프레임 복사
df_2 = data.copy()

In [None]:
# 범주와 그에 상응하는 값을 포함하는 dictionary를 생성
PclassDict = {"First":1, "Second":2, "Third": 3,}

# [Ordinal_Pclass] 라는 새로운 열에 기존의 Pclass의 데이터를 PclassDict로 매핑
df_2['Ordinal_Pclass'] = df_2["Pclass"].map(PclassDict)

In [None]:
# 결과 확인
df_2[['PassengerId', 'Pclass', 'Ordinal_Pclass']].head(10)

In [None]:
# 기존의 범주형 데이터 [Pclass] 제거
# axis=1: 파라미터를 열 방향으로 삭제
df_2 = df_2.drop('Pclass', axis=1)

In [None]:
# 결과 확인
df_2.head(10)

### **3-3 Count/Frequency Encoding**
- 범주형 데이터에서 나타나는 빈도나 비율을 기준으로 숫자형 데이터로 변환하는 기법

In [None]:
# 새로운 데이터 프레임 복사
df_3 = data.copy()

In [None]:
# 데이터프레임 상의 모든 범주형 데이터의 column 명을 이용하여 리스트 생성
cols =  df_3.select_dtypes(include=["category", "object"]).columns.tolist()

In [None]:
cols

In [None]:
# 모든 범주형 데이터의 열에서 범주의 빈도수를 계산, 변수에 저장
Pclass_dict = df_3['Pclass'].value_counts()
Salutation_dict = df_3['Salutation'].value_counts()
Name_dict = df_3['Name'].value_counts()
Sex_dict = df_3['Sex'].value_counts()


- [📝실습] [Ticket], [Embarked], [Cabin], [Cabin_Serial] 에 대해 빈도수를 계산해 저장하는 코드를 작성하세요.

In [None]:
# [Ticket], [Embarked], [Cabin], [Cabin_Serial] 에 대해 빈도수를 계산해 각각 'Ticekt_dict', 'Embarked_dict', 'Cabin_dict', 'Cabin_Serial_dict'에 저장하세요


In [None]:
# 결과 확인
Salutation_dict

- [📝실습] 'Cabin_Serial_dict'의 결과를 확인해보세요.

In [None]:
# Cabin_Serial_dict의 결과 확인


In [None]:
# 높은 빈도 수를 보이는 범주의 데이터에 대해 가중치를 부여하는 방식으로 dictionary에 매핑
df_3['Encoded_Pclass'] = df_3['Pclass'].map(Pclass_dict)
df_3['Encoded_Salutation'] = df_3['Salutation'].map(Salutation_dict)
df_3['Encoded_Sex'] = df_3['Sex'].map(Sex_dict)


- [📝실습] [Embarked], [Cabin], [Cabin_Serial] 에 대한 코드를 작성하세요.

In [None]:
# [Embarked], [Cabin], [Cabin_Serial] 에 대해 가중치를 적용한 매핑한 데이터를 각각 ['Encoded_Embarked'], ['Encoded_Cabin'], ['Encoded_Cabin_Serial']로 추가해보세요.


In [None]:
# 결과 확인


In [None]:
# 기존의 범주형 데이터 [Pclass] 제거
# axis=1: 파라미터를 열 방향으로 삭제


In [None]:
# 결과 확인


### **3-4 Target/Guided Encoding**

- 목표 변수(target)의 정보를 활용하여 범주형 데이터의 값을 숫자형 데이터로 변환
- 각 범주가 target와의 관계를 반영하여 인코딩

In [None]:
# 새로운 데이터 프레임 복사
df_4 = data.copy()

- [Survived] 를 target 변수로 설정
- [Cabin]과 target 변수간의 관계를 활용한 인코딩

In [None]:
# [Cabin] 데이터의 범주 및 생김새 확인
df_4['Cabin'].head(10)

In [None]:
# [Cabin]의 앞글자 알파벳으로 저장
df_4['Cabin'] = df_4['Cabin'].astype(str).str[0]

In [None]:
# 데이터 확인
df_4['Cabin'].head(10)

In [None]:
# target 변수에 대한 각 범주의 확률값을 계산
# groupby(): 하나의 열을 기준으로 그룹화
# groupby(['Cabin'])['Survived']: 그룹화된 데이터에서 특정 열의 데이터를 참조
# mean(): 각 그룹의 [Survived] 열의 평균값을 계산
df_4.groupby(['Cabin'])['Survived'].mean()

In [None]:
# target 변수에 대한 확률값을 기준으로 범주형 데이터를 레이블링
Encoded_labels = df_4.groupby(['Cabin'])['Survived'].mean().sort_values().index

In [None]:
# 결과 확인
Encoded_labels

In [None]:
# 각 레이블의 확률값에 오름차순으로 숫자값을 매핑
# Encoded labels의 순서에 따라 0부터 1씩 증가하며 매핑
Encoded_labels_rank = {k: i for i, k in enumerate(Encoded_labels, 0)}

In [None]:
# 결과 확인
Encoded_labels_rank

In [None]:
# 새롭게 매핑된 값을 활용하여 데이터프레임에 추가
df_4['Encoded_Cabin'] = df_4["Cabin"].map(Encoded_labels_rank)

In [None]:
df_4[['Cabin', 'Encoded_Cabin']].head(10)

In [None]:
# 기존의 범주형 데이터 [Cabin] 제거
# axis=1: 파라미터를 열 방향으로 삭제
df_4 = df_4.drop('Cabin', axis=1)

In [None]:
# 결과 확인
df_4

- [📝실습] [Embarked] 열의 데이터를 숫자형 데이터로 변환하는 코드를 작성하세요.

In [None]:
# target 변수에 대한 범주별 확률값 계산


# target 변수에 대한 확률값을 기준으로 범주형 데이터를 레이블링


# 확률값에 대해 오름차순으로 숫자값을 매핑


# 새롭게 매핑된 값을 데이터프레임에 추가

In [None]:
# 기존 범주형 데이터 [Embarked] 제거


# 결과 확인

### **3-5 Mean Encoding**

- 범주형 데이터의 각 범주를 목표 변수(target)의 평균값으로 변환

In [None]:
# 새로운 데이터 프레임 복사
df_5 = data.copy()

In [None]:
# 각 카테고리에서 target에 해당하는 값들에 대한 평균을 계산
# to_dict(): 범주형 값과 평균값에 대해서 dictionary를 생성
Encoded_Mean_dict = df_5.groupby(['Cabin'])['Survived'].mean().to_dict()

In [None]:
# 데이터프레임의 새로운 열에 앞서 생성한 dictionary에 따라 매핑
df_5['Encoded_mean_Cabin'] = df_5['Cabin'].map(Encoded_Mean_dict)

In [None]:
df_5[['Cabin', 'Encoded_mean_Cabin']].head(10)

In [None]:
# 기존의 범주형 데이터 [Cabin] 제거
# axis=1: 파라미터를 열 방향으로 삭제
df_5 = df_5.drop('Cabin', axis=1)

In [None]:
# 결과 확인
df_5

- [📝실습] [Cabin_Serial] 열의 데이터를 Mean encoding을 통해 변환하는 코드를 작성하세요.

In [None]:
# 각 범주에서 target에 해당하는 값에 대한 평균값을 연산


# 기존 데이터의 값에 대해 매핑



In [None]:
# 기존 범주형 데이터 [Cabin_Serial] 제거


# 결과 확인

### **3-6 Probability ratio Encoding**

- 범주형 데이터의 각 범주를 목표 변수(target)의 확률 비율로 변환하는 기법
- 목표 변수의 특정 조건에 대한 비율을 계산하여 범주형 데이터를 숫자형 데이터로 변환

In [None]:
# 새로운 데이터 프레임 복사
df_6 = data.copy()

In [None]:
# 기존 [Cabin] 열의 앞글자만 저장하도록 수정
df_6['Cabin'] = df_6['Cabin'].astype(str).str[0]

In [None]:
# 특정 범주에 속한 사람들이 살아남은 비율을 계산, 데이터프레임에 저장
prob_survived = df_6.groupby(['Cabin'])['Survived'].mean()
prob_survived = pd.DataFrame(prob_survived)

In [None]:
# 결과 확인
prob_survived

In [None]:
# 살아남은 사람들의 비율을 이용하여 각 범주에서 사망한 확률에 대해 연산
prob_survived['Died'] = 1-prob_survived['Survived']

In [None]:
# 결과 확인
prob_survived

In [None]:
# 새로운 열을 생성하여 생존 확률과 사망 확률의 비율을 추가
prob_survived['prob_ratio'] = prob_survived['Survived']/prob_survived['Died']

In [None]:
# 비율에 대한 정보를 매핑하여 dictionary 형태로 저장
Encoded_Prob_Ratio= prob_survived['prob_ratio'].to_dict()

In [None]:
# 결과 확인
Encoded_Prob_Ratio

In [None]:
# 데이터프레임에 새로운 열을 추가하고 dictionary의 매핑에 따라 새롭게 할당된 값을 저장
df_6['Encoded_Prob_Ratio'] = df_6['Cabin'].map(Encoded_Prob_Ratio)

In [None]:
# 결과 확인
df_6[['Cabin', 'Encoded_Prob_Ratio']].head(10)

In [None]:
# 기존의 범주형 데이터 [Pclass] 제거
# axis=1: 파라미터를 열 방향으로 삭제
df_6 = df_6.drop('Cabin', axis=1)

In [None]:
# 결과 확인
df_6

- [📝실습] [Cabin_Serial] 열의 데이터를 Probability ratio encoding을 통해 변환하는 코드를 작성하세요.

In [None]:
# 각 범주에 속한 사람들의 생존 비율 연산


# 데이터프레임에 저장


# 생존 비율을 활용하여 사망 비율 연산


# 새로운 열을 생성하여 생존/사망 확률의 비율을 추가


# 비율에 대한 정보를 매핑하여 dictionary 형태로 저장



In [None]:
# 데이터프레임의 새로운 열을 추가하고 dictionary 매핑으로 새롭게 할당된 값을 저장


# 기존 범주형 데이터 [Cabin_Serial] 제거


# 결과 확인