# 안녕하세요, 여러분 ^^ 

# 디지코 디그리 AI 모델링 과정 
# 🎈"도전 머신러닝" 시간에 오신 여러분을 환영합니다!

## 오늘은 <font color="#01918a">'타이타닉 생존자 예측'</font> 문제를 해결해 보겠습니다.

<img src = "https://images.unsplash.com/photo-1654170816607-f355d5cd5619?ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D&auto=format&fit=crop&w=2664&q=80" width=100% align="center"/>

<div align="right">사진: <a href="https://unsplash.com/ko/%EC%82%AC%EC%A7%84/TQAWPDbuwrc?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>의<a href="https://unsplash.com/@ep_petrus?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Edwin Petrus</a></div>

---

## 1. 데이터 수집 및 분석
### 1) 데이터 불러오기

In [1]:
# 기본 라이브러리 불러오기
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

In [2]:
# 데이터 불러오기
df = pd.read_csv("./data/train_preprocessing_1.csv")

In [3]:
df.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked,Title
0,0,3,male,22,1,0,7.25,S,Mr
1,1,1,female,38,1,0,71.2833,C,Mrs
2,1,3,female,26,0,0,7.925,S,Miss
3,1,1,female,35,1,0,53.1,S,Mrs
4,0,3,male,35,0,0,8.05,S,Mr


In [4]:
# 데이터 백업해두기
df_copy = df.copy()

---

## 2. 데이터 전처리 (1)
불필요한 컬럼을 삭제하거나 기존 데이터로 부터 새로운 컬럼을 생성합니다.
데이터의 결측치를 확인하고 처리합니다
- 데이터 가공하기
- 결측치 제거하기
- 불필요한 컬럼 삭제하기

---

## 3. 데이터 전처리 (2)
범주형 변수를 수치형 데이터로 변환하고, 다양한 특성들의 스케일을 조정하여 데이터를 모델링에 적합한 형태로 전처리하는 과정입니다.

- 범주형 데이터 인코딩
- 특성 스케일링/정규화

### 1) 범주형 데이터 인코딩
기계 학습의 주요 문제 중 하나는 많은 알고리즘이 범주형 데이터를 입력값으로 수용하지 않는다는 점인데,<br> 이를 해결하기 위해 범주형 변수를 숫자로 변환하기 위한 인코딩을 수행합니다. <br>
일반적으로 레이블 인코딩, 원-핫 인코딩 등의 방법을 사용합니다.

#### ① 범주형 변수의 각 범주를 수치형으로 대체하기
<img src="https://miro.medium.com/max/640/1*QQe-4476Oy3_dI1vhb3dDg.png" width="400" ><br>

- **성별(Sex) 컬럼의 값 'female', 'male'을 0과 1로 변형해 보세요.**<br>
> 1. **pandas의 replace 함수를 사용하여 직접 변경하는 방법**
> 2. **sklearn의 LableEncoding을 사용해서 변경하는 방법**

1. **pandas의 replace 함수를 사용하여 직접 변경하는 방법**

In [5]:
df['Sex'].replace('female', 0, inplace=True)
df['Sex'].replace('male', 1, inplace=True)

df.head(3)

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked,Title
0,0,3,1,22,1,0,7.25,S,Mr
1,1,1,0,38,1,0,71.2833,C,Mrs
2,1,3,0,26,0,0,7.925,S,Miss


In [6]:
# 백업 데이터 불러오기
df = df_copy.copy()

2. **sklearn의 LableEncoding을 사용해서 변경하는 방법**

In [7]:
# 라이브러리 불러오기
from sklearn.preprocessing import LabelEncoder

# 인코더 생성하기
le = LabelEncoder()
df['Sex'] = le.fit_transform(df['Sex'])

df.head(3)

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked,Title
0,0,3,1,22,1,0,7.25,S,Mr
1,1,1,0,38,1,0,71.2833,C,Mrs
2,1,3,0,26,0,0,7.925,S,Miss


In [None]:
# 백업 데이터 불러오기
df = df_copy.copy()

#### 🚨<font color="red"> 레이블 인코딩 시 주의사항</font>
>**여러 개의 카테고리 값을 가질 경우 일괄적으로 숫자 값으로 변환이 되면서 몇몇 머신러닝 알고리즘에는 이를 적용할 경우 예측 성능이 떨어지는 경우가 발생할 수 있습니다. <br>
><u>숫자로 되어 있어 잘못하면 해당 값이 가중치로 인식하여 값에 왜곡이 생기게 되는 것입니다.</u><br>
>이러한 특성 때문에 레이블 인코딩은 선형 회귀에는 적용하지 않습니다.**

#### ② 범주형 데이터를 가변수화 하기
<img src="https://miro.medium.com/max/720/1*80tflY8LxDFRmkD16u25RQ.png" width="600" ><br>
원-핫 인코딩은 간단히 말해 한 개의 요소는 True, 나머지 요소는 False로 만들어 주는 기법입니다.<br>  
행 형태로 돼 있는 피처의 고유 값을 열 형태로 차원을 변환한 뒤, <br>
고유 값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시합니다.<br> 
Pandas의 get_dummies()를 사용하면 간단하게 원-핫 인코딩을 진행할 수 있습니다.

- **pandas 라이브러리 'get_dummies' 활용하여 범주형 컬럼 가변수화하기**

In [8]:
# pandas에서는 get_dummies함수를 사용하면 쉽게 One-Hot Encording이 가능

# 범주형 컬럼 리스트
dummy_vars = ['Title', 'Pclass', 'Sex', 'Embarked']

df = pd.get_dummies(df, columns=dummy_vars)

In [9]:
df.head(3)

Unnamed: 0,Survived,Age,SibSp,Parch,Fare,Title_Miss,Title_Mr,Title_Mrs,Title_Others,Pclass_1,Pclass_2,Pclass_3,Sex_0,Sex_1,Embarked_C,Embarked_Q,Embarked_S
0,0,22,1,0,7.25,0,1,0,0,0,0,1,0,1,0,0,1
1,1,38,1,0,71.2833,0,0,1,0,1,0,0,1,0,1,0,0
2,1,26,0,0,7.925,1,0,0,0,0,0,1,1,0,0,0,1


#### 🚨<font color="red"> 'get_dummies' 가변수화 시 주의사항</font>
>**가변수화 시 첫번째 열을 삭제하는 옵션(drop_first)을 주어, 범주 정보의 중복성을 피할 수 있습니다.  <br>
><u>이러한 중복성을 제거함으로써, 데이터프레임의 차원을 줄일 수 있고, 연산 비용을 절약할 수 있습니다. </u><br>
>또한, 모델 학습 시에도 중복된 정보가 포함된 열을 제거함으로써, 다중공선성 문제를 방지할 수 있습니다.**

In [10]:
# 백업 데이터 불러오기
df = df_copy.copy()

In [12]:
# drop_first 옵션을 사용하여 범주를 가변수화 열의 중복 데이터를 제거합니다.
df = pd.get_dummies(df, columns=dummy_vars, drop_first=True)

In [13]:
# 데이터 타입 변경 내용 확인하기
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Survived      891 non-null    int64  
 1   Age           891 non-null    int64  
 2   SibSp         891 non-null    int64  
 3   Parch         891 non-null    int64  
 4   Fare          891 non-null    float64
 5   Title_Mr      891 non-null    uint8  
 6   Title_Mrs     891 non-null    uint8  
 7   Title_Others  891 non-null    uint8  
 8   Pclass_2      891 non-null    uint8  
 9   Pclass_3      891 non-null    uint8  
 10  Sex_male      891 non-null    uint8  
 11  Embarked_Q    891 non-null    uint8  
 12  Embarked_S    891 non-null    uint8  
dtypes: float64(1), int64(4), uint8(8)
memory usage: 41.9 KB


In [14]:
# 가변수화 완료한 데이터로 백업 데이터 업데이트하기
df_copy = df.copy()

### 2) 특성 스케일링/정규화
입력 변수(Feature)들의 값을 일정한 수준으로 맞춰 주는 것은 Feature Scalining 이라 합니다.<br> 
데이터 스케일링의 목적은 컬럼 별 차이를 왜곡하지 않고 공통 척도로 변경하기 위함입니다. <br>
가령 나이의 범위는 (0 ~ 100) 이고 , 소득의 범위는 (0 ~ 10,000,000) 이라고 하면 소득은 나이의 약 100,000배이며 범위의 Range도 넓습니다.<br> 
이 데이터를 그대로 사용하면 소득을 본질적으로 더 큰 값이기 때문에 나이 피쳐보다 더 큰 영향을 미치게 됩니다.

#### ① Min-Max Scaler (정규화)
 Min-Max Scaling은 모든 피처가 정확하게 [0,1] 사이에 위치하도록 데이터를 변경한다.
<img src="https://ashutoshtripathicom.files.wordpress.com/2021/06/image-3.png" width=600>
<div align="right">이미지 출처 <a href="https://ashutoshtripathi.com/2021/06/12/what-is-feature-scaling-in-machine-learning-normalization-vs-standardization/">"WHAT IS FEATURE SCALING IN MACHINE LEARNING"</a> on <a href="https://ashutoshtripathi.com/" >Data Science Duniya</a></div>

- **MinMaxScaler를 사용하여 데이터들을 스케일링하세요.**<br>

In [15]:
df.iloc[:,1:]

Unnamed: 0,Age,SibSp,Parch,Fare,Title_Mr,Title_Mrs,Title_Others,Pclass_2,Pclass_3,Sex_male,Embarked_Q,Embarked_S
0,22,1,0,7.2500,1,0,0,0,1,1,0,1
1,38,1,0,71.2833,0,1,0,0,0,0,0,0
2,26,0,0,7.9250,0,0,0,0,1,0,0,1
3,35,1,0,53.1000,0,1,0,0,0,0,0,1
4,35,0,0,8.0500,1,0,0,0,1,1,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...
886,27,0,0,13.0000,0,0,1,1,0,1,0,1
887,19,0,0,30.0000,0,0,0,0,0,0,0,1
888,29,1,2,23.4500,0,0,0,0,1,0,0,1
889,26,0,0,30.0000,1,0,0,0,0,1,0,0


In [16]:
from sklearn.preprocessing import MinMaxScaler

# 데이터 컬럼명 저장
columns_name = df.columns

# 스케일러 생성하기
scaler = MinMaxScaler()

# 데이터 스케일링하기
# 스케일링 작업 시 Target('Survived')는 제외하고 Feature만 작업해야 합니다.
df_feature = df.drop(columns=['Survived'])
df_feature = scaler.fit_transform(df_feature)

#데이터 프레임
df.iloc[:,1:]=df_feature

In [17]:
df.head(3)

Unnamed: 0,Survived,Age,SibSp,Parch,Fare,Title_Mr,Title_Mrs,Title_Others,Pclass_2,Pclass_3,Sex_male,Embarked_Q,Embarked_S
0,0,0.275,0.125,0.0,0.014151,1.0,0.0,0.0,0.0,1.0,1.0,0.0,1.0
1,1,0.475,0.125,0.0,0.139136,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
2,1,0.325,0.0,0.0,0.015469,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0


####  📏학습용 데이터를 스케일링한 스케일러는 저장해두어 새로운 테스트 데이터 입력 시 사용할 수 있도록 합니다.

In [18]:
# 라이브러리 임포트
import joblib

# 학습한 스케일러 저장
joblib.dump(scaler, './scaler.pkl')

['./scaler.pkl']

---

### 📥<font color="red"> 다음 실습을 위해 가공이 완료된 데이터 'df'를 파일로 저장합니다.</font>

- pandas의 to_csv 메소드를 사용하면 파일 저장할 수 있습니다. 
- [참고] 컬럼명에 한글이 있을 경우 저장 시 encoding 옵션을 'utf-8-sig'로 지정하여야 한글 깨짐을 방지할 수 있습니다.

In [19]:
df.to_csv("./data/train_preprocessing_2.csv", encoding='utf-8', index=False)

---