In [None]:
'''
Content
1. Dataset check
    1.1 Null data check
    1.2 Target label check
2. Exploratory data analysis
    2.1 Pclass
    2.2 Sex
    2.3 Both Sex and Pclass
    2.4 Age
    2.5 Pclass, Sex, Age
    2.6 Embarked
    2.7 Family - SibSp(Brother & Sister) + Parch (Parents & Children)
    2.8 Cabin
'''

In [None]:
'''
만약 데이터 사이언스, 머신러닝 또는 캐글에서 어떤 것을 해야하는지 잘 모르는 newbie라면, 타이타닉을 하시는 게 가장 좋은 선택입니다.
타이타닉은 아시다시피, 사상 최대 해난사고로써, 1,500여명의 희생자가 발생했습니다.
우리는 이 튜토리얼에서 타이타닉에 탑승한 사람들의 신상정보를 활용하여, 승선한 사람들의 생존여부를 예측하는 모델을 생성할 것입니다.
본 튜토리얼에서는 여러 시각화 도구(matplotlib, seabon, plotly), 데이터 분석 도구(pandas,nnumpy), 머신러닝 도구(sklearn)을 사용할 것 입니다.
본 튜토리얼은 캐글에 있는 여러 커널들을 참조하여 만들었습니다.
본 튜토리얼을 공부하신 뒤에, 캐글 타이타닉 컴퍼티션에 존재하는 여러 다른 커널들을 더 공부하시면 됩니다.
본 튜토이얼은 파이썬 문법에 어려움이 없으셔야 수월할 것입니다.
여기서 사용하는 라이브러리들을 써본 경험이 있으면 좋겠지만, 경험이 없다하더라도 한 줄씩 천천히 적어나가시면 충분히 하실 수 있습니다.
'''

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

plt.style.use('seaborn')
sns.set(font_scale=2.5)
'''
위 두줄은 필자가 항상 쓰는 방법.
matplotlib의 기본 scheme 말고 seaborn scheme을 세팅하고, 일일이 graph의 font size를 지정할 필요 없이
seaborn의 font_size를 사용하면 편리함
'''

import missingo as msno

#ignore warnings
import warnings
warnings.filterwarning('igonre')

%matplotlib inline

In [None]:
'''
앞으로 진행할 프로세스는 다음과 같다
1. 데이터셋 확인
    - 대부분의 캐글 데이터들은 잘 정제되어 있음.
    하지만 가끔, null data가 존재함.
    이를 확인하고, 향후 수정
2. 탐색적 데이터 분석 (exploratory data analysis)
    - 여러 feature들을 개별적으로 분석하고, feature들 간의 상관관계를 확인
    여러 시각화 툴을 사용하여 insight를 얻음
3. feature engineering
    - 모델을 세우기에 앞서, 모델의 성능을 높일 수 있도록 feature들을 engineering 함
    one-hot, encoding, class로 나누기, 구간으로 나누기, 텍스트 데이터 처리 등을 함
4. model 만들기
    - sklearn을 사용해 모델을 만듬
    파이썬 머신러닝을 할 때는 sklearn을 사용하면 수 많은 알고리즘을 일관된 문법으로 사용 가능
    물론 딥러닝을 위해 tensorflow, pytorch 등을 사용 할 수 있음
5. 모델 학습 및 예측
    - trainset을 가지고 모델을 학습 시킨 후, testset을 가지고 prediction 실시
6. 모델 평가
    - 예측 성능이 원하는 수준인지 판단.
    풀려는 문제에 따라 모델을 평가하는 방식도 달라짐
    학습된 모델이 어떤 것을 학습하였는지 확인
'''

In [None]:
'''
1. Dataset 확인
    1.1 파이썬에서 테이블화 된 데이터를 다루는 데 가장 최적화 되어있으며, 많이 쓰는 라이브러리는 pandas이다
    1.2 pandas를 사용하여 데이터셋의 간단한 통계적 분석부터, 복잡한 처리들을 간단한 메소드를 사용하여 할 수 있음.
    1.3 캐글에서 데이터셋은 보통 train, testset으로 나뉘어져 있음.
'''

In [None]:
print('-----------------------Dataset check-----------------------')

df_train = pd.read_csv('../input/train.csv')
df_test = pd.read_csv('../input/test/csv')

df_train.head()

In [None]:
'''
우리가 다루는 문제에서 feature는 Pclass, Age, SibSp, Parch, Fare 이며, 예측하려는 target label은 Survived 이다.
pandas dataframe에는 describe() 메소드가 있는데, 이를 쓰면 각 feature가 가진 통계치들을 반환해 줌
'''

In [None]:
df_train.describe()

In [None]:
df_test.describe()

In [1]:
'''
테이블에서 보다시피, PassenserID 숫자와 다른, 그러니깐, null data가 존재하는 열(feature)가 있음
이를 좀 더 보기 편하게 그래프로 시각화하여 확인하기
'''

'\n테이블에서 보다시피, PassenserID 숫자와 다른, 그러니깐, null data가 존재하는 열(feature)가 있음\n이를 좀 더 보기 편하게 그래프로 시각화하여 확인하기\n'

In [2]:
print('-----------------------1.1 Null data check-----------------------')

for col in df_train.columns :
    msg = 'column: {:>10}\t Percent of NaN value: {:.2f}%'.format
    (col, 100 * (df_train[col].isnull().sum() / df_train[col].shape[0]))
    print(msg)
    
for col in df_test.columns :
    msg = 'column: {:>10}\t Percent of NaN value : {: .2f}%'.format(col, 100*(df_test[col].isnull().sum() / df_test[col].shape[0]))
    print(msg)


1.1 Null data check



In [None]:
'''
Train, Test set에서 Age(둘다 약 20%), Cabin(둘다 약 80%), Embarked(Train만 0.22%) null data가 존재하는 것을 볼 수 있음.
Mano 라는 라이브러리를 사용하면 null data의 존재를 더 쉽게 볼 수 있음.
'''

In [3]:
mamo.matrix(df=df_train.iloc[:. :], figsize=(8,8), color = (0.8, 0.5, 0.2))

SyntaxError: invalid syntax (2020871343.py, line 1)

In [None]:
mamo.