데이터 사이언스, 머신러닝 또는 캐글에서 어떤 것을 해야할지 잘 모르는 Newbie라면 타이타닉 예제를 통해 공부해 보면 된다.
타이타닉 사건은 1500명의 희생자가 생긴 대규모 해난사고인데, 당시 탑승객들의 신상 정보를 분석해 생존여부를 예측하여 모델링 해보는 시간이다.
이 때 여러 시각화 도구(matplotlib, seaborn, plotly) 및 데이터 분석 도구(pandas, numpy), 머신 러닝 도구(sklearn)를 사용할 것이다.
본 튜토리얼은 파이썬 문법이 어느 정소 익숙해져야 수월하고, 여기서 사용하는 라이브러리들을 써본 경험이 없더라도 한 줄씩 천천히 필사하면서 공부해 보고자 한다.

# 1. 데이터셋 확인

### 1.1 라이브러리 들여오기

먼저 우리는 캐글을 통해 코드를 입력할 수 있는 노트북에 들어온다. 그 다음 우리가 자료를 분석하고 시각화를 하기 위한 라이브러리를 들여와야 한다. 이 때 import 구문을 활용한다.

import 구문 : 해당 라이브러리를 현재 노트북에 들여오기 위해 작성하는 구문.
as 뒤에 라이브러리의 줄임말을 표기하여 앞으로 as 뒤에 표시된 줄임말로 사용하여 코드 작성의 편의성 제공

numpy, pandas, matplotlib, seaborn이라는 라이브러리를 사용할 것인데, 이것에 대한 설명은 주석 처리된 내용을 참고하면 된다.
그 외에 데이터 시각화 자료의 스타일이나 기타 요소들에 대한 코딩 역시 적어둔다. 이 역시 주석에 설명이 달려있으니 참고 바란다.

In [None]:

import numpy as np                  # numpy : Numerical Python의 줄임말로, 과학 계산용 컴퓨팅과 데이터 분석에 필요한 파이썬 패키지!! 행렬 계산을 할 때 유용하다.
import pandas as pd                 # pandas : 데이터 분석을 위해 널리 사용되는 파이썬 라이브러리 패키지. 1차원 자료구조인 Series, 2차원 자료구조인 DataFrame, 3차원 자료구조인 Panel을 지원한다.
import matplotlib.pyplot as plt     # matplotlib : 데이터를 활용하여 그래프를 그릴 때 사용하는 라이브러리
import seaborn as sns               # seaborn : Phython의 시각화에 가장 많이 사용되는 라이브러리

plt.style.use('seaborn')            # 데이터 시각화 자료의 스타일을 결정(seaborn 스타일로)
sns.set(font_scale=2.5)             # 모든 폰트의 사이즈를 2.5로

import missingno as msno            # missingno : 결측치 데이터(데이터셋에 채워지지 않은 null DATA)들을 파악하는 데 도움을 주는 패키지

# ignore warnings                   # 잘못 작성하다 보면 warning이 자주 나오는데 이를 무시할 수 있는 기능을 가짐.
import warnings
warnings.filterwarnings('ignore')


### 1.2 데이터 불러오기

파이썬에서 테이블화된 데이터를 다루는 데 가장 최적화되어 있으며, 이 때 pandas를 자주 사용한다. 우리는 pandas(줄임말 pd로 작성)를 사용하여 데이터셋의 간단한 통계적 분석부터 복잡한 처리들을 간단한 메소드를 사용하여 할 수 있다.

캐글에서 데이터셋은 보통 train, test set으로 나뉘어져 있으며 df_train, df_test 등으로 표시하게 된다. 참고로 df는 dataframe의 약자이다. pd.read_csv라는 코드를 이용하여 csv 형태의 파일을 불러올 수가 있다. 이 때 파일의 경로를 잘 확인해 주어야 한다.

구글 Colab에서 노트 작성하는 경우, 파일을 가져올 때 사용할 수 있는 방법은 다음과 같으니 참고하자.

https://growthj.link/python-%EA%B5%AC%EA%B8%80-colab%EC%9C%BC%EB%A1%9C-pd-read-csv-%ED%99%9C%EC%9A%A9%ED%95%98%EB%8A%94-%EB%B0%A9%EB%B2%95/

구글 드라이브와 코랩 연동방법 : https://opac.tistory.com/3


In [None]:
# df_train = pd.read_csv('../input/train.csv')          # 이렇게 쳤더니 FileNotFoundError가 뜸. 파일 경로가 잘못됨.[No such file or directory: '../input/train.csv']
# df_test = pd.read_csv('../input/test.csv')            

In [None]:
df_train = pd.read_csv("../input/titanic/train.csv")   # 이렇게 파일 경로를 고쳤더니 잘 나옴.
df_test = pd.read_csv("../input/titanic/test.csv")

In [None]:
df_train.head(10)    # 데이터셋의 맨 처음 5개의 행을 보여줌.
                     # 괄호 안에 숫자를 넣어서 숫자에 적힌 행까지 보여줄 수 있음.

In [None]:
df_train.describe()       # Passenger ID 숫자와 다른 null data가 존재하는 열이 있는지 확인

### 1.3 Null Data 확인. 
셀에 채워지지 않은 데이터를 Null Data라고 하며, 이를 어떻게 표시하는지 공부해 보는 시간이다.

In [None]:
# df_train 자료 내 컬럼에 해당하는 부분들의 NaN, 즉 Null Data가 전체 데이터 대비 몇 %인지를 나타내 주는지에 대한 코드이다.

for col in df_train.columns:
    msg = 'column: {:>10}\t Percent of NaN value: {:.2f}%'.format(col, 100 * (df_train[col].isnull().sum() / df_train[col].shape[0]))
    print(msg)

{:>10} : format문에서 오른쪽으로 정렬함을 의미.
{:.2f}% : 소숫점 2째자리까지 표현.

In [None]:
# df_test 자료 내 컬럼에 해당하는 부분들의 NaN, 즉 Null Data가 전체 데이터 대비 몇 %인지를 나타내 주는지에 대한 코드이다.

for col in df_test.columns:
    msg = 'column: {:>10}\t Percent of NaN Value: {:.2f}%'.format(col, 100 * (df_test[col].isnull().sum() / df_test[col].shape[0]))
    print(msg)

In [None]:
# null data 분포도를 확인시켜주는 코드
# 그림에서 age, cabin 사이에 흰색 줄들이 전부 null data를 나타낸 것이라고 이해하면 된다.

msno.matrix(df=df_train.iloc[:, :], figsize=(8,8), color=(0.8, 0.5, 0.2))  

In [None]:
# df_train 내 null data의 존재여부를 bar 형태로 나타낸 모습. 891개의 데이터가 있어야 하는데,
# age와 cabin, Embarked에 대한 데이터는 각각 714개, 204, 889개밖에 없다는 것을 단적으로 보여줌.

msno.bar(df=df_train.iloc[:, :], figsize=(8, 8), color=(0.8, 0.5, 0.2))

In [None]:
# df_test 자료 내 null data의 존재여부를 bar 형태로 나타낸 모습. 891개의 데이터가 있어야 하는데,
# age와 cabin, Embarked에 대한 데이터는 각각 714개, 204, 889개밖에 없다는 것을 단적으로 보여줌.

msno.bar(df=df_test.iloc[:, :], figsize=(8, 8), color=(0.8, 0.5, 0.2))


### 1.4 Target Label 확인

타이타닉 호 침몰 사건으로 인해 사망 혹은 생존한 인원들에 관한 자료를 확인하는 절차이다.

In [None]:
f, ax = plt.subplots(1, 2, figsize=(18,8))                # 도화지 준비 과정. 1행 2열의 그래프 2군데 자리 생성. figsize는 그래프의 크기 나타냄.

df_train['Survived'].value_counts().plot.pie(explode=[0, 0.1], autopct='%1.1f%%', ax=ax[0], shadow=True)  # ax[0]에는 파이 형태의 그래프 1행 1열 자리에 생성. % 숫자 소수 첫째 자리까지 표시, 그림자 O
ax[0].set_title('Pie plot - Survived')                    # et_title에는 그래프 제목
ax[0].set_ylabel('')
sns.countplot('Survived', data=df_train, ax=ax[1])        # df_train 자료의 1인덱스, 즉 Survived에 관한 항목에 관해 도시화하라.
ax[1].set_title('Count plot - Survived')                  # ax[1]에는 막대 그래프 생성. set_title에는 그래프 제목

plt.show()

안타깝게도 죽은 사람이 더 많으며, 38.4% 만이 살아남았다. 
Target label의 분포가 제법 균일하다. 불균일할 경우, 예를 들어 100중 1일 99, 0이 1개인 경우에는 만약 모델이 모든 것을 1이라 해도 정확도가 99%가 나오게 된다. 0을 찾는 문제라면 이 모델은 원하는 결과를 줄 수 없게 된다. 지금 문제에서는 그렇지 않으니 계속 진행한다.

# 2. 데이터 분석

이제 본격적으로 데이터 분석을 해보고자 한다. 데이터는 매우 많고, 이 많은 데이터 안에 숨겨진 사실을 찾기 위해서 시각화를 시키는 작업을 계속하게 될 것이다.

시각화 라이브러리는 matplotlib, seaborn, plotly 등이 있다. 특정 목적에 맞는 소스코드를 정리해둬 필요할 때마다 참고하면 무척 편리하다.

### 2.1. Pclass(좌석 등급)

첫 번째로 분석해 볼 내용은 Pclass와 생존여부의 상관관계에 대한 내용이다. Pclass는 좌석 등급을 나타내며 ordinal, 즉 서수형 데이터이다. 카테고리이면서 순서가 있는 데이터 타입인 셈이다.

먼저 Pclass에 따른 생존률의 차이를 살펴보고자 한다. 엑셀의 피벗 차트와 유사한 작업을 하게 되는데, pandas dataframe에서는 groupby를 사용하면 쉽게 할 수 있다.

'Pclass', 'Survived'를 가져온 후, pclass로 묶는다. 그러고 나면 각 pclass마다 0, 1이 count가 되는데, 이를 평균내면 각 pclass별 생존률이 나오게 된다.

아래와 같이 count()를 하게 되면, 각 class에 몇명이 있는지 확인할 수 있으며, sum()을 하게 되면 216명 중 생존한(survived=1) 사람의 총합을 주게 됩니다.

In [None]:
df_train[['Pclass', 'Survived']].groupby(['Pclass'], as_index=True).count()   

# Pclass와 survived 간 

In [None]:
df_train[['Pclass', 'Survived']].groupby(['Pclass'], as_index=True).sum()   # 생존자에 관한 Pclass에 따른 분류

Pandas 의 crosstab을 사용하여 좀 더 위 과정을 수월하게 볼 수 있다. grouped 객체에 mean을 하게 되면, 각 클래스별 생존율이 나온다. 

class1의 생존율은 $ 80 \over 80+136 $ ≈ 0.63

In [None]:
# Pclass와 Survived 두 가지 인자의 관계에 대한 표를 나타냄. margins의 의미는 총합 계산이 있느냐 없느냐를 구분하여 True면 구현을 해주고 False면 구현을 안 해줌. 
# style 이하는 표의 스타일을 지정해주는 것이라 데이터와 크게 관계 없음.

pd.crosstab(df_train['Pclass'], df_train['Survived'], margins=True).style.background_gradient(cmap='summer_r')

In [None]:
df_train[['Pclass', 'Survived']].groupby(['Pclass'], as_index=True).mean().sort_values(by='Survived', ascending=False).plot.bar()

# 각 Pclass별 전체 인원 대비 생존 확률을 나타낸 데이터를 막대 그래프 형태로 도시화함. 1st class에 탑승한 사람의 생존 확률이 높음을 나태내줌.

Pclass가 좋을수록, 즉 1등석에 앉은 사람일수록 생존율이 높은 것을 확인할 수 있다.

좀 더 쉽게 그래프를 그려보자. seaborn의 countplot을 이용하면, 특정 label에 따른 개수를 확인해 볼 수 있다.

In [None]:
y_position = 1.02        # 제목의 위치 설정
f, ax = plt.subplots(1, 2, figsize=(18,8))
df_train['Pclass'].value_counts().plot.bar(color=['#CD7F32','#FFDF00','#D3D3D3'], ax=ax[0])     # 색상 코드는 구글링을 통해 찾아서 원하는 색상에 대한 코들르 직접 찾는다.
ax[0].set_title('Number of Passengers By Pclass', y=y_position)
ax[0].set_ylabel('Count')
sns.countplot('Pclass', hue='Survived', data=df_train, ax=ax[1])
ax[1].set_title('Pclass: Survived vs Dead', y=y_position)
plt.show()


### 2.2. 성별

두 번째로 분석해 볼 내용은 성별과 생존여부의 상관관계에 대한 내용이다. 성별로 생존율이 어떻게 달라질까?

마찬가지로 pandas groupby와 seaborn countplot을 사용해서 시각화하겠다.

In [None]:
f, ax = plt.subplots(1, 2, figsize=(18, 8))
df_train[['Sex', 'Survived']].groupby(['Sex'], as_index=True).mean().plot.bar(ax=ax[0])    #성별에 따른 생존률에 대한 그래프를 왼쪽에 생성
ax[0].set_title('Survived VS Sex')
sns.countplot('Sex', hue = 'Survived', data=df_train, ax=ax[1])     # 성별에 따른 생존자 수와 사망자 수에 대한 그래프를 오른쪽에 생성
ax[1].set_title('Sex: Survived VS Dead')
plt.show()

In [None]:
df_train[['Sex', 'Survived']].groupby(['Sex'], as_index=False).mean().sort_values(by='Survived', ascending=False)

# 성별로 전체 인원 대비 생존 확률을 나타낸 데이터를 표시. 여성의 생존 확률이 더 높음을 직관적으로 알 수 있다.

In [None]:
pd.crosstab(df_train['Sex'], df_train['Survived'], margins=True).style.background_gradient(cmap='summer_r')

### 2.3. 성별과 Pclass 두 가지 인자와 생존 확률 간의 관계

이번에는 Sex, Pclass 두 가지에 관하여 생존이 어떻게 달라지는지 확인해보자.

seaborn의 factorplot을 이용하면, 손쉽게 3개의 차원으로 이뤄진 그래프를 그릴 수 있다. 3개의 차원이라고 해서 입체적으로 나오는 것이 아닌 그냥 3가지 인자의 상관관계를 동시에 확인할 수 있는 선형 그래프가 그려진다고 이해하면 될 것 같다.



In [None]:
sns.factorplot('Pclass', 'Survived', hue='Sex', data=df_train, size=6, aspect=1.5)

In [None]:
sns.factorplot(x='Sex', y='Survived', col='Pclass', data=df_train, satureation=.2, size=7, aspect=1)

모든 클래스에서 여성이 남성보다 살 수 있는 확률이 높은 것을 확인할 수 있다.

또한 남자, 여자 상관없이 Pclass가 높을수록 살 수 있는 확률이 높다.

hue 대신 column으로 하면 column별로 분리되어 그래프가 형성됨을 확인할 수 있다.

### 4. 나이

In [None]:
print('제일 나이 많은 탑승객 : {:.1f} Years'.format(df_train['Age'].max()))
print('제일 어린 탑승객 : {:.1f} Years'.format(df_train['Age'].min()))
print('탑승객 평균 나이 : {:.1f} Years'.format(df_train['Age'].mean()))

In [None]:
# 데이터 분포에 관련된 밀도함수에 관한 내용이다. 이를 히스토그램이라고 하며, 막대형태로 되어 있는 것을 그래프 형태로 부드럽게 이어주었다.

fig, ax = plt.subplots(1,1, figsize=(9,5))
sns.kdeplot(df_train[df_train['Survived'] == 1]['Age'], ax=ax)   # 생존자들의 데이터들의 age column만 가져와서 series를 받은 다음에 sns의 kdeplot에 넣겠다.
sns.kdeplot(df_train[df_train['Survived'] == 0]['Age'], ax=ax)   # 사망자들의 데이터들. 이하 동일
plt.legend(['Survived == 1', 'Survived == 0'])
plt.show()

생존자 중 나이가 어린 경우가 많이 분포했음을 알 수 있다.

In [None]:
plt.figure(figsize=(8, 6))
df_train['Age'][df_train['Pclass'] == 1].plot(kind='kde')
df_train['Age'][df_train['Pclass'] == 2].plot(kind='kde')
df_train['Age'][df_train['Pclass'] == 3].plot(kind='kde')

plt.xlabel('Age')
plt.title('Age Distribution within classes')
plt.legend(['1st Class', '2nd Class', '3rd Class'])

Class가 높을수록 나이 많은 사람의 비중이 커짐을 알 수 있다. 파란색 실선 참조

나이대가 변하면서 생존율이 어떻게 변하는지 보려고 하는 것이 목적이다.

아래의 그래프는 나이범위를 점점 좁혀가며 생존율이 어떻게 변하는지 보여주는 과정을 나타냈다.

In [None]:
cummulate_survival_ratio = []
for i in range(1, 80):
    cummulate_survival_ratio.append(df_train[df_train['Age'] < i]['Survived'].sum() / len(df_train[df_train['Age'] < i]['Survived']))

plt.figure(figsize=(7, 7))
plt.plot(cummulate_survival_ratio)
plt.title('Survival rate change depending on range of Age', y=1.02)
plt.ylabel('Survival rate')
plt.xlabel('Range of Age(0~x)')
plt.show()

이 그래프에서도 역시, 나이가 어릴수록 생존율이 높다는 결과를 얻어낼 수가 있다.

### 2.5 Pclass, Sex, Age

지금까지 본 sex, Pclass, Age, Survived 모두에 대해서 보고자 할 때 violinplot을 활용한다.

x축은 우리가 나눠서 보고 싶어하는 case(여기선 Pclass, sex)를 나타내고, y축은 보고 싶어하는 distribution(Age)이다.

In [None]:
f, ax = plt.subplots(1,2,figsize=(18,8))
sns.violinplot('Pclass', 'Age', hue='Survived', data=df_train, scale='count', split=True, ax=ax[0])
ax[0].set_title('Pclass and Age VS Survived')
ax[0].set_yticks(range(0,110,10))
sns.violinplot("Sex", "Age", hue="Survived", data=df_train, scale='count', split=True, ax=ax[1])
ax[1].set_title('Sex and Age VS Survived')
ax[1].set_yticks(range(0,110,10))
plt.show()

왼쪽 그림은 Pclass별로 Age의 distribution이 어떻게 다른지, 거기에 생존여부에 따라 구분한 그래프이다.

오른쪽 그림 역시 Sex, 생존에 따른 distribution이 어떻게 다른지 보여주는 그래프이다.

생존만 봤을 때, 모든 클래스에서 나이가 어릴수록 생존을 많이 한 것을 확인할 수 있으며 오른쪽 그림에서 보면 여자가 생존을 더 많이 한 것을 볼 수 있다. 여성과 아이를 먼저 챙겼다는 숨겨진 정보를 얻을 수 있었다!!!

### 2.6 Embarked(탑승 항구)

탑승한 곳에 따른 생존율은 과연 어떨지 위에서 해왔던 방법을 적용하여 확인해보자.


In [None]:
f, ax = plt.subplots(1,1, figsize=(7,7))
df_train[['Embarked', 'Survived']].groupby(['Embarked'], as_index=True).mean().sort_values(by='Survived', ascending=False).plot.bar(ax=ax)

보다시피, 조금의 차이는 있지만 생존율은 좀 비슷한 거 같다. 그나마 C가 제일 높은 것 같다. 모델에 얼마나 큰 영향을 미칠지는 모르겠지만 그래도 자료를 이용할 것이다. 사실, 모델을 만들고 나면 우리가 사용한 feature들이 얼마나 중요한 역할을 했는지 확인해볼 수 있다.

In [None]:
f,ax = plt.subplots(2,2, figsize=(20,15))
sns.countplot('Embarked', data=df_train, ax=ax[0,0])
sns.countplot('Embarked',hue="Sex", data=df_train, ax=ax[0,1])
sns.countplot('Embarked', hue="Survived", data=df_train, ax=ax[1,0])
sns.countplot('Embarked', hue='Pclass', data=df_train, ax=ax[1,1])
ax[0,0].set_title('(1) No. Of Passengers Boarded')
ax[0,1].set_title('(2) Male-Female Split for Embarked')
ax[1,0].set_title('(3) Embarked vs Survived')
ax[1,1].set_title('(4) Embarked vs Pclass')
plt.subplots_adjust(wspace=0.2, hspace=0.5)
plt.show()

Figure(1) - 전체적으로 봤을 때, S에서 가장 많은 사람이 탑승했다.
Figure(2) - C와 Q는 남녀의 비율이 비슷하고, S는 남자가 더 많았다.
Figure(3) - 생존확률이 S의 경우가 가장 낮은 것을 볼 수 있다.
Figure(4) - Class로 split해서 보니, C가 생존확률이 높은건 클래스가 높은 사람들이 많이 타서 그렇다. S는 3rd class가 많아서 생존확률이 낮게 나왔다.

### 2.7 형제자매(Family - SibSp), 부모자녀(Parch)

Sibsp와 Parch를 합치면 Family가 될 것이다. Family로 합쳐서 분석해보자.

In [None]:
df_train['FamilySize'] = df_train['SibSp'] + df_train["Parch"] + 1     # 자신을 포함해야하니 1을 더한다.
df_test['FamilySize'] = df_test['SibSp'] + df_test['Parch'] + 1

In [None]:
print("Maximum size of Family: ", df_train['FamilySize'].max())
print("Minimum size of Family: ", df_train['FamilySize'].min())

In [None]:
f, ax = plt.subplots(1, 3, figsize=(40,10))
sns.countplot('FamilySize', data=df_train, ax=ax[0])
sns.countplot('FamilySize', hue="Survived", data=df_train, ax=ax[1])
df_train[['FamilySize', 'Survived']].groupby(['FamilySize'], as_index=True).mean().sort_values(by='Survived', ascending=False).plot.bar(ax=ax[2])      
# ascending=False 의 의미는 내림차순을 의미한다. 반대로 True는 오름차순을 의미

ax[0].set_title('(1) No. Of Passengers Boarded', y=1.02)
ax[1].set_title('(2) Survived countplot depending on FamilySize',  y=1.02)
ax[2].set_title('(3) Survived rate depending on FamilySize',  y=1.02)

plt.subplots_adjust(wspace=0.2, hspace=0.5)
plt.show()

Figure(1) - 가족크기가 1~11까지 있음을 볼 수 있다.
대부분이 1명이고 그 다음으로 2,3,4명이 있다.

Figure(2),(3) - 가족 크기에 따른 생존확률이다. 가족이 4명인 경우가 가장 생존확률이 높다. 가족수가 너무 많아질수록(5,6,7,8,11), 가족 수가 너무 적을수록(1) 생존 확률이 적다. 2~4명 선에서 생존확률이 높은 걸 확인할 수 있다.

### 2.8 Fare

Fare는 탑승요금이며, continuous feature(연속 측정치)이다. 한번 higtogram을 그려보자.

In [None]:
fig, ax = plt.subplots(1,1, figsize = (8,8))
g = sns.distplot(df_train['Fare'], color='b', label = 'Skewness : {:.2f}'.format(df_train['Fare'].skew()), ax=ax)
g = g.legend(loc='best')

보면 알겠지만, distribution이 매우 비대칭인 것을 알 수 있다. Skewness는 비대칭도를 의미하는데 무려 4.79로 높은 수치를 나타내며, 만약 이대로 모델에 넣어준다면 자칫 모델이 잘못 학습을 할 수 있다. 몇 개 없는 outlier에 대해 너무 민감하게 반응한다면, 실제 예측 시에 좋지 못한 결과를 초래할 수 있다.

outlier의 영향을 줄이기 위해 Fare에 log를 취하고자 한다.

여기서 우리는 pandas의 유용한 기능을 사용할 것이다. dataFrame의 특정 column에 공통된 작업(함수)를 적용하고 싶으면 아래의 map, apply를 사용하면 매우 손쉽게 적용할 수 있다.

우리가 지금 원하는 것은 Fare columns의 데이터 모두를 log 취하는 것인데, 파이썬의 간단한 lambda 함수를 이용해 간단한 로그를 적용하는 함수를 map에 인수로 넣어주면, Fare column 데이터에 그대로 적용이 된다. 매우 유용한 기능이니 반드시 숙지하도록 하자!!

In [None]:
df_test.loc[df_test.Fare.isnull(), 'Fare'] = df_test['Fare'].mean()
# testset에 있는 nan value를 평균값으로 치환한다.

df_train['Fare'] = df_train['Fare'].map(lambda i: np.log(i) if i>0 else 0)
df_test['Fare'] = df_test['Fare'].map(lambda i: np.log(i) if i>0 else 0)

In [None]:
fig, ax = plt.subplots(1,1, figsize=(8,8))
g = sns.distplot(df_train['Fare'], color='b', label='Skewness : {:.2f}'.format(df_train['Fare'].skew()), ax=ax)
g = g.legend(loc='best')

log를 취하니, 비대칭성이 4.79에서 0.44로 감소했다. 이제 비대칭성이 많이 사라진 것을 볼 수 있다. 우리는 이러한 작업을 통해 모델이 좀 더 좋은 성능을 내도록 할 수 있다.

사실 방금한 작업은 feature engineering에 들어가는 부분인데 여기서 작업을 하게 되었다. 모델을 학습시키기 위해 그리고 그 모델의 성능을 높이기 위해 feature들에 여러 조작을 가하거나, 새로운 feature를 추가하는 것을 feature engineering이라고 하는데, 우리는 이제 그것을 살펴볼 것이다.

### 2.9 Cabin 

이 Feature는 NaN이 무려 80%나 되어, 생존에 영향을 미칠 중요한 정보를 얻어내기가 쉽지 않기 때문에 모델에 포함시키지 않는다.

In [None]:
df_train.head()

### 2.10 Ticket

이 Feature는 NaN이 없다. 일단 string data, 즉 문자 데이터이므로 우리가 어떤 작업들을 해줘야 실제 모델에 사용 가능한데, 이를 위해선 사실 아이디어가 필요하다.

In [None]:
df_train['Ticket'].value_counts()

ticket number는 매우 다양하다. 우리는 생존과 연결시키기 위해 여기서 어떤 특징을 이끌어내야만 할까?

이 튜토리얼에서는 ticket에 관한 내용은 pass하지만 튜토리얼을 끝낸 후 모델의 성능을 향상시키고 싶다면
ticket에서 정보를 이끌어낼 수 있으면 좋을 거 같다.