# 안녕하세요, 여러분 ^^ 

# 디지코 디그리 AI 모델링 과정 
# 🎈"도전 머신러닝" 시간에 오신 여러분을 환영합니다!

## 오늘은 <font color="#01918a">'타이타닉 생존자 예측'</font> 문제를 해결해 보겠습니다.

<img src = "https://images.unsplash.com/photo-1654170816607-f355d5cd5619?ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D&auto=format&fit=crop&w=2664&q=80" width=100% align="center"/>

<div align="right">사진: <a href="https://unsplash.com/ko/%EC%82%AC%EC%A7%84/TQAWPDbuwrc?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>의<a href="https://unsplash.com/@ep_petrus?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Edwin Petrus</a></div>

---

## 1. 데이터 수집 및 분석
### 1) 데이터 불러오기

In [1]:
# 기본 라이브러리 불러오기
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

In [2]:
# 데이터 불러오기
df = pd.read_csv("./data/train.csv")

In [3]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


---

## 2. 데이터 전처리 (1)
불필요한 컬럼을 삭제하거나 기존 데이터로 부터 새로운 컬럼을 생성합니다. <br>
데이터의 결측치를 확인하고 처리합니다. <br>

### 1) 데이터 가공하기
#### ① 기존 데이터에서 유용한 정보 추출하여 새로운 컬럼 만들기


- **'Name' 컬럼에서 호칭('Mr, 'Mrs', 'Miss' 등)을 따로 분리해서 'Title' 컬럼을 새로 만들어 보세요.**<br>

In [None]:
df['Name'].head(30)

- **pandas의 'str.extract' 메서드를 사용하여 정규표현식 패턴을 추출할 수 있습니다.**
> **정규 표현식이란?** <br>
> 특정한 조건의 문자를 '검색'하거나 '치환'하는 과정을 매우 간편하게 처리하기 위한 방법<br>
> [0-9] 또는 [a-zA-Z] 등은 무척 자주 사용하는 정규 표현식입니다.<br>
> [참고] 정규 표현식 (https://wikidocs.net/4308)

***"뛰어쓰기로 시작되며, 모든 알파벳을 포함한 문자가 반복되다가 dot(.)으로 마무리 되는 문자열을 찾아보세요."***

In [4]:
df['Name'].str.extract(' ([a-zA-Z]+)\.')

df['Title'] = df['Name'].str.extract(' ([a-zA-Z]+)\.')

In [5]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Title
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,Mr
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,Mrs
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,Miss
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,Mrs
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,Mr


- **새로 생성한 호칭(Title) 컬럼의 데이터 분포를 확인하고 고유값 중 개수가 전체의 10% 미만일 경우 그 값을 'Others'로 변경해 주세요.**
> value_counts() 함수를 사용하면 고유값의 개수를 확인할 수 있습니다. <br>또한, normalize 옵션을 True로 하면 전체합이 1인 상태에서 모든 값을 비중으로 나누어서 반환하게 됩니다.

In [6]:
df['Title'].value_counts()

Title
Mr          517
Miss        182
Mrs         125
Master       40
Dr            7
Rev           6
Mlle          2
Major         2
Col           2
Countess      1
Capt          1
Ms            1
Sir           1
Lady          1
Mme           1
Don           1
Jonkheer      1
Name: count, dtype: int64

In [7]:
# normalize 옵션을 주면 컬럼 값의 비율을 알 수 있다.
df['Title'].value_counts(normalize=True)

Title
Mr          0.580247
Miss        0.204265
Mrs         0.140292
Master      0.044893
Dr          0.007856
Rev         0.006734
Mlle        0.002245
Major       0.002245
Col         0.002245
Countess    0.001122
Capt        0.001122
Ms          0.001122
Sir         0.001122
Lady        0.001122
Mme         0.001122
Don         0.001122
Jonkheer    0.001122
Name: proportion, dtype: float64

In [8]:
# 대표 호칭 이외는 Others로 변경
df.loc[df['Title'].isin(['Mr', 'Miss', 'Mrs'])==False, ['Title']] = 'Others'

In [None]:
df.head()

### 2) 결측치 처리하기
결측치 처리는 데이터셋에서 누락된 값이나 비어 있는 값인 결측치를 다루는 과정을 말합니다. 결측치는 데이터 수집 과정에서 발생할 수 있는 실수, 누락된 정보, 기록 오류 등으로 인해 발생할 수 있습니다. 결측치 처리는 데이터 분석이나 기계 학습 모델 학습에 필수적인 단계로 간주됩니다.

결측치 처리 방법은 데이터의 특성과 분석 목적에 따라 선택되어야 합니다. 주어진 상황과 데이터에 맞는 적절한 결측치 처리 방법을 선택하여 데이터의 유효성을 유지하고 정확한 분석 결과를 얻을 수 있도록 해야 합니다.

#### 🚨<font color="red"> 결측치 처리 시 주의사항</font>
>**데이터 결측치 처리 시 반드시 원본 데이터를 복사해서 사용하여 원본 데이터의 손실을 예방합니다.<br>
><u>파이썬에서 Copy 메소드를 사용하지 않으면 주소값을 복사해서 사용기 때문에 원본 값을 변경 시키게 됩니다.</u><br>
>따라서, 원본 항목을 보전하면서 데이터를 보정하려면 copy() 메소드를 사용하여 백업해두는 것이 필요합니다.**


In [9]:
# 원본 데이터프레임 'df' 를 copy한 데이터프레임 'df_copy'
df_copy = df.copy()
df_copy.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Title
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,Mr
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,Mrs
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,Miss


In [10]:
# 원본 데이터프레임 'df' 를 copy하지 않고 새로운 변수에 할당 'df_nocopy'
# 이렇게 하면 같은 메모리 주소 값을 참조 한다.
df_nocopy=df
df_nocopy.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Title
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,Mr
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,Mrs
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,Miss


In [11]:
# df_nocopy 변수의 승객ID(PassengerId)를 모두 0으로 변경
df_nocopy['PassengerId']=0
df_nocopy.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Title
0,0,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,Mr
1,0,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,Mrs
2,0,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,Miss


In [12]:
# 원본 데이터 프레임 df가 함께 변경된 것을 확인할 수 있습니다.
df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Title
0,0,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,Mr
1,0,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,Mrs
2,0,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,Miss


In [13]:
id(df), id(df_nocopy), id(df_copy)

(5716220944, 5716220944, 5718100240)

In [14]:
df_copy.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Title
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,Mr
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,Mrs
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,Miss


In [15]:
df = df_copy.copy()

#### ① 결측치 확인하기
- **결측치 행 확인하기**

In [16]:
df.isnull()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Title
0,False,False,False,False,False,False,False,False,False,False,True,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,True,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,False,False,False,False,False,False,False,False,False,False,True,False,False
887,False,False,False,False,False,False,False,False,False,False,False,False,False
888,False,False,False,False,False,True,False,False,False,False,True,False,False
889,False,False,False,False,False,False,False,False,False,False,False,False,False


- **결측치 개수 확인하기**

In [17]:
df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
Title            0
dtype: int64

데이터셋에서 누락된 값(결측치)을 다른 값으로 대체하는 과정을 말합니다. <br>
결측치를 채우는 방법은 데이터의 특성과 분석 목적에 따라 다양하게 선택될 수 있습니다. 일반적으로 사용되는 결측치 대체 방법은 다음과 같습니다. <br>

1. 평균, 중앙값, 최빈값 등의 대표적인 통계량 사용
2. 결측치 Imputer 활용하여 결측치를 대체하는 방법
3. 도메인 지식 또는 전문가 지식 활용

각각의 방법은 데이터의 특성과 분석 목적에 따라 선택됩니다. 데이터셋과 분석 환경을 고려하여 가장 적합한 방법을 선택하여 결측치를 처리할 수 있습니다.

1. **통계량을 사용하여 결측치 채우기**
    
- **나이(Age) 컬럼을 호칭(Title) 컬럼을 기준으로 하여 그룹 별 나이의 중앙값으로 채워 주세요.**
> 간단한 집계를 넘어서 조건부로 집계하고 싶은 경우, pandas의 ***groupby*** 함수를 활용할 수 있습니다.<br>
> ***groupby*** 함수를 이용하면 키 값을 기준으로 그룹으로 묶을 수 있고, <br>묶은 그룹별로 ***연산(평균, 중간값 등)***이 가능합니다.<br> 
> 또, ***transform***을 사용하면 그룹별로 연산을 수행한 결과를 원본 데이터 프레임에 적용할 수 도 있습니다. 

In [26]:
# Age 컬럼의 Title 별 중앙값 확인하기
df.groupby('Title')[['Age', 'Fare']].median()

Unnamed: 0_level_0,Age,Fare
Title,Unnamed: 1_level_1,Unnamed: 2_level_1
Miss,21.0,15.62085
Mr,30.0,9.35
Mrs,35.0,26.0
Others,9.0,29.125


In [27]:
# Age 결측치를 Title 별 중앙값으로 채우기
df_simple = df.copy()

df_simple['Age'] = df['Age'].fillna(df.groupby('Title')['Age'].transform('median'))

In [28]:
df_simple.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
Title            0
dtype: int64

**2. 결측치 Imputer 활용하여 결측치를 대체하는 방법**<br>
sklearn.impute 모듈에서 다양한 결측치 imputer 클래스를 제공합니다. 이러한 imputer 클래스들은 결측치 대체를 위한 여러 가지 전략을 지원합니다. 

> - **'SimpleImputer'**: 결측치를 특정한 값(평균, 중앙값, 최빈값 등)으로 대체합니다. 주로 수치형 데이터에 사용됩니다.<br
> - **'IterativeImputer'**: 다중 회귀(Multiple Regression)를 사용하여 결측치를 예측하여 대체합니다. 반복적으로 결측치를 예측하고 모델을 업데이트하여 대체합니다.<br>
> - **'KNNImputer'**: K-최근접 이웃(K-Nearest Neighbors) 알고리즘을 사용하여 결측치를 예측하여 대체합니다. 주변 샘플들의 값을 기반으로 결측치를 추정합니다.<br>
<img src="https://miro.medium.com/v2/resize:fit:720/format:webp/1*X87BpgaCcr4IYZqP8lxH0Q.png" width=400>
<div align="right">Image by <a href="https://towardsdatascience.com/implementation-and-limitations-of-imputation-methods-b6576bf31a6c">Implementation and Limitations of Imputation Methods</a></div>

- **나이(Age) 컬럼의 결측치를 KNNImputer를 활용하여 대체해 주세요.**

In [29]:
df_imputer = df_copy.copy()

In [30]:
# Imputer 라이브러리 불러오기
from sklearn.impute import KNNImputer

# KNNImputer를 사용하여 결측치를 예측하여 대체
imputer = KNNImputer(n_neighbors=3)
df_imputer['Age'] = imputer.fit_transform(df[['Age']])

# KNNImputer로 대체한 값의 결과가 소수점이 있을 수 있으니 정수로 변환
df_imputer['Age'] = df_imputer['Age'].astype(int)

- **원본 데이터와 각각의 결측치 처리한 결과를 비교해보세요.**

In [31]:
# 결측치를 처리한 결과 비교를 위해 데이터프레임에서 나이(Age)만 추출하여 데이터프레임을 합칩니다.
df_age = pd.concat([df['Age'], df_simple['Age']], axis=1)
df_age = pd.concat([df_age, df_imputer['Age']], axis=1)
df_age.columns=['Orgin', 'Median', 'KNN']

In [32]:
# describe 함수를 활용하여 수학적 통계 비교
df_age.describe()

Unnamed: 0,Orgin,Median,KNN
count,714.0,891.0,891.0
mean,29.699118,29.372806,29.544332
std,14.526497,13.227346,13.013778
min,0.42,0.42,0.0
25%,20.125,21.0,22.0
50%,28.0,30.0,29.0
75%,38.0,35.0,35.0
max,80.0,80.0,80.0


- **결측치 처리한 결과를 데이터프레임에 저장하고, df_copy(백업 데이터)도 업데이트 해주세요.**

In [44]:
df_copy = df_imputer.copy()

---

### <font color="red"> [실습 문제]</font> 

**<font color=red>[Q]</font> 'df' 데이터프레임에서 결측치를 확인해 보세요.**

In [45]:
# 여기에 입력하세요.

df.isnull()


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Title
0,False,False,False,False,False,False,False,False,False,False,True,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,True,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,False,False,False,False,False,False,False,False,False,False,True,False,False
887,False,False,False,False,False,False,False,False,False,False,False,False,False
888,False,False,False,False,False,False,False,False,False,False,True,False,False
889,False,False,False,False,False,False,False,False,False,False,False,False,False


In [46]:
df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
Title            0
dtype: int64

**<font color=red>[Q]</font> 컬럼 탑승항구(Embarked)의 결측치를 최빈값으로 채운 후 'df' 데이터프레임을 변경하세요.**

    📌 Hint.
> - 최빈값은 mode() 함수를 사용하거나, value_counts()를 활용하면 확인 가능합니다.
> - pandas의 fillna()를 사용하거나 sklearn의 SimpleImputer를 사용할 수 있습니다.
> - SimpleImputer 사용 시 최빈값은 strategy 옵션을 'most_frequent'로 지정할 수 있습니다.

In [47]:
df = df_copy.copy()
df['Embarked'].mode()

0    S
Name: Embarked, dtype: object

In [67]:
# 여기에 입력하세요.
from sklearn.impute import SimpleImputer
df = pd.read_csv("./data/train.csv")

# df = df_copy.copy()


# df['Embarked'] = df['Embarked'].fillna(df['Embarked'].mode().var)
simple_imputer = SimpleImputer(strategy='most_frequent')

df['Embarked'] = simple_imputer.fit_transform(df[['Embarked']])[:,0]

In [64]:
df['Embarked'].isnull().sum()

0

**<font color=red>[Q]</font> 결측치가 남아있는 컬럼 중 해당 컬럼의 결측치 값이 전체 데이터(891개)의 50% 이상(445개보다 많은 경우)인 경우 해당 열을 삭제 후 'df' 데이터프레임을 변경하세요.**

    📌 Hint.
> - 결측치 제거는 pandas의 dropna()를 사용할 수 있습니다.
> - thresh 옵션을 사용하면 임계값을 설정할 수 있습니다.

In [68]:
df = df_copy.copy()

df.dropna(thresh=445, axis=1, inplace=True)

In [None]:
missing_ratio = df.isnull().sum() / len(df)

missing_ratio

In [None]:
cols_to_drop = missing_ratio[missing_ratio > 0.5].index

cols_to_drop

In [None]:
# 여기에 입력하세요.
# 결측치 비율 계산
missing_ratio = df.isnull().sum() / len(df)

# 결측치 비율이 50% 이상인 컬럼 선택
cols_to_drop = missing_ratio[missing_ratio > 0.5].index

# 해당 컬럼 삭제
df = df.drop(cols_to_drop, axis=1)


In [None]:
df.isnull().sum()

**<font color=red>[Q]</font> 승객의 Id, 이름, 티켓 번호와 같이 고유한 값들의 가진 불필요한 컬럼을 삭제해 주세요.**

#### 🚨<font color="red"> 고유한 값들의 컬럼을 삭제하는 이유</font>
>**고유한 값들은 개별적인 식별자 정보로 머신러닝 모델에게 유용한 예측 패턴을 제공하지 않으며, <br>
>오히려 과적합을 유발할 수 있으므로 삭제하여 모델의 일반화 성능을 향상시키고,<br>
>불필요한 복잡성을 줄이기 위해 제거합니다.**

    📌 Hint.
> - 컬럼 제거는 pandas의 drop()을 사용할 수 있습니다.
> - axis 옵션을 꼭 1로 하여 컬럼을 삭제하셔야 합니다.

In [None]:
# 여기에 입력하세요.
df = df.drop(['PassengerId', 'Name', 'Ticket'], axis=1)

df

---

### 📥<font color="red"> 다음 실습을 위해 가공이 완료된 데이터 'df'를 파일로 저장합니다.</font>

- pandas의 to_csv 메소드를 사용하면 파일 저장할 수 있습니다. 
- [참고] 컬럼명에 한글이 있을 경우 저장 시 encoding 옵션을 'utf-8-sig'로 지정하여야 한글 깨짐을 방지할 수 있습니다.

In [None]:
df.to_csv("./data/train_preprocessing_1.csv", encoding='utf-8', index=False)

---

---