<a href="https://colab.research.google.com/github/notingcode/spring2020/blob/master/titanic_data_preprocessing_tutorial.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Analyzing and Preprocessing Data with Matplotlib, Pandas, and NumPy
참고자료
1. [Pandas 기초 정리](https://doorbw.tistory.com/172)
2. [Matplotlib 기초 정리](https://doorbw.tistory.com/173)
3. [Hands-on 시리즈 저자가 만든 Matplotlib 튜토리얼](https://colab.research.google.com/drive/1lo8pAAo5GiUk4BZvSEnnkET6hTjP6eLR)
**드라이브에 사본을 만드신 후 튜토리얼과 과제 진행해주시기 바랍니다.**

##Upload Kaggle JSON and Download Data
만약 Kaggle 계정이 있다면 Kaggle API를 사용하는걸 추천합니다.\
만약 사용법을 전혀 모르신다면 [간략한 Kaggle 튜토리얼](https://colab.research.google.com/drive/1w-dlTXKtNYihnm7GlfH20fk88efapRBV)을 통해 사용법을 간략하게 익히시고 오시면 되겠습니다.


사용하고 싶지 않으시면 [Titanic: Machine Learning from Disaster](https://www.kaggle.com/c/titanic/data)에서 train.csv, test.csv을 다운받으시고 Colab에 두 파일을 같이 올리시면 됩니다. gender_submission.csv 파일의 경우 제출파일의 양식을 보여주는 것 뿐입니다.

In [0]:
from google.colab import files
files.upload()

In [0]:
# !mkdir ~/.kaggle
# !cp kaggle.json ~/.kaggle/
# !chmod 600 ~/.kaggle/kaggle.json

In [0]:
# !kaggle competitions list

In [0]:
# !kaggle competitions download -c titanic

##Load and Manipulate Data with Pandas
Pandas로 다운받은 데이터 다뤄보기

In [0]:
import pandas as pd # pandas 라이브러리를 pd 라는 이름으로 부릅니다.
import numpy as np # numpy 라이브러리를 np 라는 이름으로 부릅니다.

In [0]:
# pd.read_csv method를 이용하여 csv(comma-separated values)파일을 pandas dataframe으로 부릅니다.
# parameter로 파일의 이름을 넣으면 됩니다.
train_data = pd.read_csv('train.csv')
test_data = pd.read_csv('test.csv')

In [0]:
train_data.head(10)

**mini-exercise**: Pandas를 사용하여 생존자의 나이 column만을 추출해서 surv_age에 저장하세요

In [0]:
# hint
# 2D array를 index와 column으로 이름을 지어준 dataframe으로 만듬
df = pd.DataFrame([[1, 2], [4, 5], [7, 8]],
                  index=['cobra', 'viper', 'sidewinder'],
                  columns=['max_speed', 'shield'])

df

In [0]:
# 1D array를 index로 구분한 series로 만듬
tof = pd.Series([False, False, True],
                      index=['cobra', 'viper', 'sidewinder'],
                      dtype=bool)

tof

In [0]:
df[tof]

In [0]:
df['max_speed']

In [0]:
train_data['Survived'] == 1
# end of hint

In [0]:
# try here

##Analyze Data
Pandas외에 추가로 Matplotlib과 Seaborn이라는 Python 라이브러리를 통해 데이터를 시각화하는 작업을 해볼겁니다\
**만약 전처리로 바로 넘어가고 싶으시면 넘어가셔도 됩니다**

Feature(Variable)|Definition|Key
:-|:-|:-
survival|생존|0 = No, 1 = Yes
pclass|티켓 등급|1 = 1st, 2 = 2nd, 3 = 3rd
sex|성별|
Age|나이|
sibsp|함께 탑승중인 형제자매와 배우자#|
parch|함께 탑승중인 부모와 자녀#|
ticket|티켓 번호|
fare|탑승 요금|
cabin|객실 번호|
embarked|탑승한 항구|C = Cherbourg, Q = Queenstown, S = Southampton

In [0]:
%matplotlib inline
import matplotlib
import seaborn as sns # Seaborn은 Matplotlib를 기반으로 만든 데이터 시각화 라이브러리
import matplotlib.pyplot as plt

In [0]:
# 훈련 데이터와 테스트 데이터의 크기
print(f"{train_data.shape} {test_data.shape}")

In [0]:
# 데이터의 축(label)들의 이름
train_data.columns 

In [0]:
test_data.columns

In [0]:
# 각 label의 데이터타입(int, float, object,,,,)
train_data.dtypes

In [0]:
 # isna는 np.NaN인지 아닌지에 따라 같은 크기의 bool type 데이터를 리턴
 # sum은 NumPy와 동일하게 작동합니다. axis는 어느 방향으로 sum을 할지 결정(0은 행방향, 1은 열방향)
train_data.isna().sum(axis=0)

In [0]:
test_data.isna().sum(axis=0)

In [0]:
# 위의 전체적인 내용을 요약
train_data.info()

In [0]:
test_data.info()

In [0]:
# 훈련 데이터로부터 새로운 데이터 생성
noage_train_data = train_data[train_data['Age'].isna()]
havecabin_train_data  = train_data[~train_data['Cabin'].isna()]
knowage_train_data = train_data[~train_data['Age'].isna()]

In [0]:
# 데이터의 간략한 통계적 수치를 보여줌
train_data.describe()

In [0]:
havecabin_train_data.describe()

In [0]:
noage_train_data.describe()

In [0]:
knowage_train_data.describe()

In [0]:
# describe method는 기본적으로 여러 datatype으로 이루어지거나 string or unicode를 예외처리하기 때문에
# include 인자를 통해 특정 데이터 타입만 포함할 수 있습니다
train_data.describe(include=object)

In [0]:
# 각 value가 몇번 나왔는지 알려줍니다
# dropna를 False로 하면 NaN도 포함
train_data['Embarked'].value_counts(dropna = False)

In [0]:
train_data['Sex'].value_counts(dropna = False)

In [0]:
train_data['Pclass'].value_counts(dropna = False)

In [0]:
age_bins = [i*10 for i in range(9)]

In [0]:
# bin으로 분할하여 카운트
age_group_num = train_data['Age'].value_counts(bins = age_bins, sort = False)
age_group_num

In [0]:
# 레이블로 group 해줌
train_data.groupby('Sex')[['Survived']].mean()

In [0]:
# 레이블을 index(행)과 column(열)로 구분  
train_data.pivot_table('Survived', index='Sex', columns='Pclass')

In [0]:
figs, axes = plt.subplots(2, 2, figsize=(12, 13))

axes[0][0].boxplot(knowage_train_data['Age'])
axes[0][0].set_xlabel("Age")

axes[0][1].boxplot(train_data['Fare'])
axes[0][1].set_xlabel("Fare")

axes[1][0].hist(knowage_train_data['Age'], bins=10)
axes[1][0].set_xlabel("Age")

axes[1][1].hist(train_data['Fare'], bins=10)
axes[1][1].set_xlabel("Fare")

plt.show()

In [0]:
fig, axes = plt.subplots(1, 3, figsize=(25, 9))

sns.countplot(x='Sex', hue='Survived', data=train_data, ax=axes[0])
axes[0].set_title('Survival by sex')
axes[0].set_ylabel('')

sns.countplot(x='Pclass', hue='Survived', data=train_data, ax=axes[1])
axes[1].set_title('Survival by Pclass')
axes[1].set_ylabel('')

sns.countplot(x='Embarked', hue='Survived', data=train_data, ax=axes[2])
axes[2].set_title('Survival by Embarked')
axes[2].set_ylabel('')

plt.show()

In [0]:
plt.pie(train_data.groupby('Sex')[['Survived']].sum(),
        labels=['Female', 'Male'],
        autopct='%1.1f%%')
plt.title("Survival Ratio")

plt.show()

##Preprocessing

In [0]:
train_data

In [0]:
test_data

###연습

In [0]:
idx = ['cobra', 'viper', 'sidewinder']

df = pd.DataFrame([[1, 2], [4, 5], [7, 8]],
                  index=idx,
                  columns=['max_speed', 'shield'])

In [0]:
df

In [0]:
lethal_score = pd.Series(['six', 'four', 'two'], index=idx)

In [0]:
lethal_score

In [0]:
# index와 column의 이름과 그 축을 넣으면 데이터행이나 열을 떨굽니다
df.drop(['max_speed'], axis=1)

In [0]:
df.drop(['cobra'], axis=0)

In [0]:
df

In [0]:
# dataframe에 새로운 열을 추가
df['lethal'] = lethal_score

In [0]:
df['empty'] = pd.Series([np.NaN, np.NaN, np.NaN], index=idx)

In [0]:
df

In [0]:
# p1을 p2로 바꾼다
df['empty'].replace(np.NaN, 0) 

In [0]:
# NaN을 parameter값으로 바꾼다
df['empty'].fillna(0) 

In [0]:
df

In [0]:
df['empty'] = df['empty'].replace(np.NaN, 0).astype(int) # or df['empty'].replace(np.NaN, int(0))

In [0]:
df

In [0]:
# replace와 유사하게 dic의 key에 해당하는 값을 value로 바꿈
word_mapping = {'two': 2, 'four': 4, 'six': 6}

df['lethal'] = df['lethal'].map(word_mapping)

In [0]:
df

In [0]:
# lambda의 형식
# lambda (params): operation(params)
(lambda x: pd.Series(x))([1,2,3])

In [0]:
to_series = (lambda x: pd.Series(x))

to_series([1,2,3])

In [0]:
# apply에 인자로 함수를 넣으면 모든 데이터에 그 함수를 적용한 결과를 리턴
df['shield'] = df['shield'].apply(lambda x: x * 2)

In [0]:
df

###과제

In [0]:
# 불필요한 데이터 삭제
# 테스트 데이터의 PassengerId는 추후 예측 데이터를 제출할때 필요하니 유지


In [0]:
# 데이터의 분포나 특성을 확인하고 NaN 값을 변환한다.
# 훈련데이터는 Age, Cabin, Embarked에
# 테스트데이터는 Age, Fare, Cabin에 NaN 값이 있다.


In [0]:
# Sex, Embarked 같은 categorical data를 object(string)에서 int로 변환한다.


In [0]:
# Fare, Age 같은 float도 int로 바꾼다.
# hint: lower_bound < x <= upper_bound


In [0]:
# Name, Cabin 같은 object(string) 데이터를 사용하는 것이 좋다고 판단되면 int로 바꾼다.
# 이름의 경우 간단한 str.split() 파이썬 함수를 사용하는걸 추천합니다.
# hint: Mr., Mrs, Ms., Captain, ...


In [0]:
# pd.to_csv() 함수를 사용하여 파일을 저장
