In [1]:
import numpy as np           
import pandas as pd          
import matplotlib.pyplot as plt  
import seaborn as sns    

plt.style.use('seaborn')
sns.set(font_scale=2.5)   

import missingno as msno   ##pandas 데이터 프레임에서 결측 데이터를 찾는 기능을 제공(이패키지 사용하려면 데이터 프레임에 결측 데이터가 NaN값으로 저장되어 있어야함)

#ifnore warnings
import warnings    # 모듈을 임포트 하는 과정에서 트리거 되는 경고의 베이스 범주(기본적으로 무시된다)
warnings.filterwarnings('ignore')  ##경고메세지 무시하고싶을때

%matplotlib inline      

### numpy
과학계산을 위한 라이브러리, 행렬/배열 처리 및 연산, 난수 생성  -넘파이 배열은 데이터의 크기가 커질수록 저장 및 가공을 하는데 효율성을 보장합니다.
### pandas
관계형, 또는 레이블이 된 데이터로 쉽고 직관적으로 작업할수 있도록 설게되었고 빠르고 유연한 데이터 구조를 제공하는 파이썬 패키지
### matplotlib
다양한 데이터 다양한 방법으로 도식화 하는 파이썬 라이브러리(넘파이나 판다스에서 사용되는 자료구조 쉽게 시각화 가능)
### seaborn
matplotlib를 기반으로 다양한 색상테마와 통계용 차트등의 기능을 추가한 시각화 패키지
### plt.style.use('seaborn')
### sns.set(font_scale=2.5)   
이 두줄은 본 필자가 항상 쓰는 방법. matplotlib의 기본 scheme 말고 seaborn scheme을 세팅하고, 일일이 그래프의 폰트사이즈를 지정할 필요없이 saaborn의 font_scale을 사용하면 편합니다.
### missingno   
pandas 데이터 프레임에서 결측 데이터를 찾는 기능을 제공(이패키지 사용하려면 데이터 프레임에 결측 데이터가 NaN값으로 저장되어 있어야함)

### warning
### warnings.filterwarnings('ignore')
모듈을 임포트 하는 과정에서 트리거 되는 경고의 베이스 범주(기본적으로 무시된다)
경고메세지 무시하고싶을때

### %matplotlib inline
Rich output에 대한 표현 방식/Rich output- 그림, 소리, 애니메이션과 같은 결과


# 프로세스 과정
- 1. 데이터셋 확인(null data를 확인후 수정)
- 2. 여러 feature들을 개별적 분석해 상관관계 확인, 시각화 툴을 통해 insight 얻기ㅣ
- 3. feature engineering -모델의 성능을 높이기 위해 encoding, class나누기 등을 한다
- 4. model 만들기 - 싸이킷런을 이용해 모델 만들기
- 5. 모델 학습 예측- trainset으로 모델을 학습시키고 testset으로 prediction합니다
- 6. 모델평가- 예측성능이 원하는 수준인지 판단 (모델이 어떤것을 학습하였는지 확인)


# 1. dataset확인
-파이썬에서 테이블화 된 데이터를 다루는데 가장 최적화 되어 있으며, 많이 쓴느 라이브러리는 pandas입니다.
- 우리는 pandas를 사용하여 데이터셋의 간단한 통계적 분석부터 복잡한 처리들을 간단한 메소드를 사용하여 해낼 수 있습니다.
- 파이썬으로 데이터분석을 한다고 하면 반드시 능숙해져야 할 라이브러리이니, 여러 커널들을 공부하시면서 사용법에 익숙해지도록 반복 또 반복하시길 권장합니다.
- 캐글에서 데이터셋은 보통 train, testset으로 나뉘어 있습니다.

In [2]:
df_train = pd.read_csv('../input/titanic/train.csv')  # 데이터를 객체에 저
df_test = pd.read_csv('../input/titanic/test.csv')

In [3]:
df_train.head()  # *head(개수)- 상위 데이터 개수만큼 출력

### feature는 Pclass, Age, SibSp, Parch, Fare
예측하려는 target label은 Survived 이다

In [4]:
df_train.describe()    #describe() - Feature(또는 컬럼)별 통계적 수치 표시

In [5]:
df_test.describe()    #describe() - Feature(또는 컬럼)별 통계적 수치 표시

테이블에서 본것처럼, PassenserID 숫자와 다른, null data가 존재하는 열(feature)가 있다
이름 좀 더 보기 편하게 그래프로 시각화해서 살펴보자

# 1.1 Null data check

In [6]:
for col in df_train.columns:     
    msg = 'column: {:>10}\t Percent of NaN value: {:.2f}%'.format(col, 100 * (df_train[col].isnull().sum() / df_train[col].shape[0]))
  #          (오른쪽 정렬 )(탭)             (소수점 둘째자리까지 출력)         100 * (해당열의 결측치 개수True=1,False=0)/(해당열의 차원)
    print(msg)    # msg 출력
                                                                                                                 

### 코드 설명: for문을 사용하여 변수마다 몇 %의 결측치가 있는지 확인할 수 있는 코드이다 (in뒤의 df_train은 데이터 프레임의 이름이다.)

### 1. {:>10}: 오른쪽 정렬   /   {:.2f}: 소수점 둘째자리까지 출력
### 2. df_train[col].isnull().sum(): 해당열의 결측치가 몇개인지 알 수 있게하느 문장 True =1 False= 0으로 계산
### 3. df_train[col].shape[0]: 해당 열의 차원(열이 지정되어 있으므로 해으이 갯수를 보여준다)
### 4. 100*(df_train[col].isnull().sum()/df_train[col].shape[0]): 100*(결측치/ 전체 데이터)를 의미 위의 설명을 통해 %를 출력해주는 문장임을 알수있

머신러닝에서 행렬의 차원을 shape라는 개념으로 표현한다. 이 함수를 사용했을때 결국 (행의크기, 열의크기)를 알려준다
## Null data 파악하기
.isnull()  == data가 null 이면 True를 반환하고, 아니면 False를 반환한다   ex) df_test[col].isnull()

sum()  == null data 개수구하기
:clap  == bool값으로 전체 합을 구해서 그것을 빈 데이터 개수를 파악한다  ex) df_train[col],isnull().sum()




In [7]:
for col in df_test.columns:
    msg = 'column: {:>10}\t Percent of NaN value: {:.2f}%'.format(col,100 * (df_test[col].isnull().sum() / df_test[col].shape[0]))
    print(msg)

Train, Test set에서 Age,Cabin, Embarked null data 존재하는 것을 볼 수 있습니다.
MANO 라는 라이브러리를 사용하면 null data의 존재를 더 쉽게 볼 수 있습니다.

In [8]:
msno.matrix(df=df_train.iloc[:, :],figsize=(8,8), color=(0.8,0.5,0.2))
# iloc[:,:]                   데이터 전체 슬라이싱
# missingno 메트릭스로 표현 데이터 프레임에 df_train넘겨준다

### *msno==missingno
### -matrix 는 matrix로 만들어준다
### -df=df_train.iloc[:,:]  == data frame에 df_train을 넘겨준다.'iloc'은 index location으로 slicing 해주는것 
### -[:,:]는 모든데이터를 가져온다
### 종합해서 df_train으로 지정한 트레인 데이터셋에 대한 결측치를 매트릭스로 시각화 해준다

In [9]:
msno.bar(df=df_train.iloc[:,:], figsize=(8,8), color=(0.8, 0.5, 0.2))
#                   전체 슬라이싱      figure 크기      R   ,G   ,B

### df_train으로 지정한 트레인 데이터셋에 대한 결측치를 바 형태의 차트로 시각화 해준다. color 파라미터는 rgb를 지정해주는 것이다.

In [10]:
msno.bar(df=df_test.iloc[:, :], figsize=(8, 8), color=(0.8, 0.5, 0.2))

위와 동일

## 1.2 Target label 확인
- target label이 어떤 distribution을 가지고 있는지 확인해봐야 합니다
- 지금같은 binary clasification 문제의 경우에서 1과0의 분포가 어떠냐에 따라 모델의 평가 방법이 달라질수 있습니다

In [11]:
f, ax = plt.subplots(1, 2, figsize=(18,8))         # 도화지를 준비하는 과정 
#행,열 =   1행 2열 figure size는 x = 18, y = 8
df_train['Survived'].value_counts().plot.pie(explode=[0,0.1], autopct = '%1.1f%%', ax=ax[0], shadow= True) 
# train에 survived가 몇개가 있는지 카운트.파이그래프.확장.
ax[0].set_title('Pie plot - Survived')   # 0번째 열. 서브플롯타이틀 지
ax[0].set_ylabel('')  # y축의 이름을 없앤다
sns.countplot('Survived',data=df_train, ax=ax[1])  
#seaborn으로 df_train의 survived column을 세어서 도화지 1번 파트에 배치하겠다
ax[1].set_title('Count plot - Survived')

plt.show()

### *plt.subplots(행,열) - fig와 Axes 혹은 Axes 객체의 배열
### *value_counts - 지정해준 field의 value별 개수를 알려준다.
### *df_train[''].value_counts() = survived의 value를 카운트한다(객체는 plot)
### plot.pie(explode=[0,0.1] : pie모양으로 짼다
### autopct = '%1.1f%%': %의 형식
### ax=ax[0], shadow= True : pieplot을 0번째에 그리고 그림자 on
### *Set_title() - Matplotlib에서 서브플롯에 타이틀을 추가하는 메소드
### *set_ylabel("): y축의 label을 없애는 설정 
### *sns.countplot - 각 카테고리 값별로 데이터가 얼마나 있는지 표시(데이터 프레임에서만 사용가능!)

# 2. Exploratory data analysis

### -이제 본격적으로 데이터 분석 시작 데이터가 많으니 데이터 안에 숨겨진 사실을 찾기 위해 적절한 시각화 필요

### -시각화 라이브러리는 matplotlib, seaborn, plotly등이 있다. 특정 목적에 맞는 소스코드를 정리해 두어 필요할때마다 참고


## 2.1 Pclass

- 먼저 Pclass 에 대해서 살펴보겠습니다. Pclass 는 ordinal, 서수형 데이터입니다. 카테고리이면서, 순서가 있는 데이터 타입입니다.
- 먼저 Pclass 에 따른 생존률의 차이를 살펴보겠습니다. 엑셀의 피벗 차트와 유사한 작업을 하게 되는데, pandas dataframe 에서는 groupby 를 사용하면 쉽게 할 수 있습니다. 또한 pivot 이라는 메소드도 있습니다.
- 'Pclass', 'Survived' 를 가져온 후, pclass 로 묶습니다. 그러고 나면 각 pclass 마다 0, 1 이 count가 되는데, 이를 평균내면 각 pclass 별 생존률이 나옵니다
- 아래와 같이 count() 를 하면, 각 class 에 몇명이 있는 지 확인할 수 있으며, sum() 을 하면, 216 명중 생존한(survived=1)사람의 총합을 주게 됩니다

In [12]:
df_train[['Pclass', 'Survived']].groupby(['Pclass'], as_index=True).count()
#                             Pclass에 대해서 그룹화 시킴             카운트한다

# groupby 한번 더 정리

### *groupby() - 데이터 그룹화 (Pclass의 값들에 따른 그룹화)
### @Pclass에 대해서 그룹화를 시켜줌과 동시에 해당 값을 카운트 한 결과 groupby() 함수를 통해 Pclass 칼럼으로 그룹화하고 as_index 속성은 Pclass의 그룹화된 값을 기준으로 표시한다는 의미입니다 

In [13]:
df_train[['Pclass', 'Survived']].groupby(['Pclass'], as_index=True).sum()

pandas의 crosstab을 사용하면 좀 더 위 과정을 수월하게 볼수 있습니다

In [14]:
pd.crosstab(df_train['Pclass'], df_train['Survived'],margins=True).style.background_gradient(cmap='summer_r')
# 데이터 시각화

### *pd.crosstab(y,x) - crosstab을 활용해 데이터를 시각화

- grouped 객체에 mean()을 하게 되면, 각 클래스별 생존율을 얻을 수 있습니다. class1이면 아래와 같습니다
80/(80+136) ~=0.63

### style.background_gradient(cmap='summer_r') : 데이터의 범위에 따른 색갈을 설정해준다

In [15]:
df_train[['Pclass','Survived']].groupby(['Pclass'], as_index=True).mean().sort_values(by='Survived', ascending=False).plot.bar()
# Pclass로 그룹화 함과 동시에 해당값을 mean하고 내림차순 정렬을해 bar형식으로 표현

보다시피 Pclass가 좋을수록 생존율이 높은것을 확인할수 있다
좀더 보기 쉽게 그래프를 그려보면 ,seaborn의 countplot을 이용하면 ,특정 label에 따른 개수를 확인 해 볼 수 있다.

### *as_index=True).mean().sort_values(by='기준', ascending=False)를 통해서 정렬을 한다. 내림차순 정렬

- 보다시피, Pclass 가 좋을 수록(1st) 생존률이 높은 것을 확인할 수 있습니다.
- 좀 더 보기 쉽게 그래프를 그려보겠습니다. seaborn 의 countplot 을 이용하면, 특정 label 에 따른 개수를 확인해볼 수 있습니다.

In [16]:
y_position = 1.02   #타이틀이 그래프 위에서 얼마나 떨어졌는지 정함
f, ax = plt.subplots(1, 2, figsize = (18,8))   # 1행 2열로 나누고 figsize는 18,8로 한다
df_train['Pclass'].value_counts().plot.bar(color=['#CD7F32','#FFDF00','#D3D3D3'],ax=ax[0])
# train에 Pclass가 몇개인지 카운트 하고 bar로 표시(색상), 왼쪽에 그래프 그린다
ax[0].set_title('Number of Passengers By Pclass',y=y_position)
# 왼쪽에 그래프 제목
ax[0].set_ylabel('Count')   
# 왼쪽 그래프 ylabel 제목설정
sns.countplot('Pclass',hue='Survived',data=df_train, ax=ax[1])
#seaborn으로 Pclass와 survived를 세어서 도화지 1번 파트에 배치하겠다
ax[1].set_title('Pclass: Survived vs Dead', y=y_position)
# 오른쪽 그래프 제목
plt.show()

hue: 카테고리의 값에 따라 다르게 시각화 된다

- 클래스가 높을수록, 생존확률이 높은걸 확인할 수 있습니다

- 우리는 생존에 Pclass가 큰 영향을 미친다고 생각해볼 수 있으며, 나중에 모델을 세울 때 이 feature를 사용하는 것이 좋을 것이라 판단할 수 있습니다.

### 찾아보기

# 2.2 sex

- 이번에는 성별로 생존률이 어떻게 달라지는지 확인해 보겠습니다.
- 마찬가지로 pandas groupby와 seaborn countplot을 사용해서 시각화 해봅시다.

In [17]:
f, ax = plt.subplots(1,2,figsize=(18, 8))  # 1행2열
df_train[['Sex', 'Survived']].groupby(['Sex'], as_index=True).mean().plot.bar(ax=ax[0])
# 성별로 묶어서 바그래프로 왼쪽에 표시
ax[0].set_title('Survived vs Sex')
# 왼쪽 제목 설정
sns.countplot('Sex', hue='Survived', data=df_train, ax=ax[1])
# Sex와 Survived를 세어서 오른쪽에 배치
ax[1].set_title('Sex: Survived vs Dead')
# 오른쪽 제목 
plt.show()

# groupby 정리해서 입력

In [18]:
df_train[['Sex','Survived']].groupby(['Sex'], as_index=False).mean().sort_values(by='Survived',ascending=False)
# 

In [19]:
pd.crosstab(df_train['Sex'],df_train['Survived'],margins=True).style.background_gradient(cmap='summer_r')
# crosstab을 활용해서 데이터 시각화

Pclass와 마찬가지로,Sex도 예측 모델에 쓰일 중요한 feature임을 알 수 있습니다.

# 2.3 Both Sex and Pclass

- 이번에는 Sex, Pclass 두가지에 관하여 생존이 어떻게 달라지는지 확인해 봅시다
- seaborn의 factorplot을 이용하면, 손쉽게 3개의 차원으로 이루어진 그래프를 그릴수 있습니다.

In [20]:
sns.factorplot('Pclass', 'Survived', hue='Sex', data=df_train, size=6, aspect=1.5)
# seaborn을 이용해 범주용 플롯그림 x축 Pclass y축 Survived hue 옵션

### *sns.factorplot(x,y) - 범주용 플롯 그림
### hue - 지정해준 카테고리별로 색상을 다르게 해준다

In [21]:
sns.factorplot(x='Sex', y='Survived', col='Pclass', data= df_train, satureation=.5, size=9, aspect = 1)

# 2.4 Age

In [22]:
print('제일 나이 많은 탑승객 : {:.1f}Years'.format(df_train['Age'].max()))
print('제일 어린 탑승객 : {:.1f} Year'.format(df_train['Age'].min()))
print('탑승객 평균 나이 : {:.1f} Years'.format(df_train['Age'].mean()))

In [23]:
fig, ax = plt.subplots(1, 1, figsize=(9, 5))  # 1행1열로 표시
sns.kdeplot(df_train[df_train['Survived'] == 1]['Age'], ax=ax) #
sns.kdeplot(df_train[df_train['Survived'] == 0]['Age'], ax=ax)
plt.legend(['Survived == 1', 'Survived == 0'])  # 범례표
plt.show()

### *sns.kdeplot - 커널 및도 추정 히스토그램 같은 분포를 부드럽게 곡선화해서 그려준다

In [24]:
# Age distribution withing classes
plt.figure(figsize=(8,6))  # 새로운 figure 생성(가로세로 인)
df_train['Age'][df_train['Pclass'] == 1].plot(kind='kde')
df_train['Age'][df_train['Pclass'] == 2].plot(kind='kde')
df_train['Age'][df_train['Pclass'] == 3].plot(kind='kde')

plt.xlabel('Age')
plt.title('Age Distribution within classes')  # 제목설정
plt.legend(['1st Class', '2nd Class', '3rd Class'])  #범례

# 설명 부족!

In [25]:
cummulate_survival_ratio = []    #리스트 생성
for i in range(1,80):            #반복문
    cummulate_survival_ratio.append(df_train[df_train['Age'] < i]['Survived'].sum()/len(df_train[df_train['Age']<i]['Survived']))
    # 리스트에 하나씩 추가한다  ?????
    plt.figure(figsize=(7,7))    #figure 크기
    plt.plot(cummulate_survival_ratio)   # 점선 그래프 그리기
    plt.title('Survival rate change depending on range of Age',y=1.02)  # 제목설정
    plt.ylabel('Survival rate')        # y축 이름
    plt.xlabel('Range of Age(0~x)')    #x축 이름
    plt.show()

# 2.5 Pclass, Sex, Age

### -지금까지 본 sex, pclass, age, survived모두에 대해서 보고싶습니다 이름 쉽게 그려주는게 seaborn의 violinplot입니다
### x축은 우리가 나눠서 보고싶어하는 case(여기선 Pclass, Sex)를 나타내고 y축은 보고싶어 하는 distribution(Age)입니다

In [26]:
f,ax=plt.subplots(1,2,figsize=(18,8))  # 1행 2열 figure 사이즈는 18,8
sns.violinplot("Pclass", "Age", hue="Survived",data=df_train, scale='count',split=True,ax=ax[0])
#  바이올린 모양으로 시각화, x축Pclass, y축 Age 설정, Survived를 기준 scale:너비조절, 0번 열에 표시
# scale은 바이올린 그래프의 모양과 너비 설정변수(count: 숫자비율, width: 각바이올린 같은너비, area: 각 바이올린 같은 area)로 3가지 있음
ax[0].set_title('Pclass and Age vs Survived')
ax[0].set_yticks(range(0,110,10))
sns.violinplot("Sex","Age",hue="Survived",data=df_train,scale='count',split=True,ax=ax[1])
ax[1].set_title('Sex and Age vs Survived')
ax[1].set_yticks(range(0,110,10))
plt.show()

### *sns.violinplot - 바이올린 모양으로 데이터 세트의 분포를 시각화 해준다(가운데 흰점은 중앙값이다)

# 2.6 Embarked
(탑승한 항구)

In [27]:
f, ax= plt.subplots(1,1,figsize=(7,7))  
df_train[['Embarked','Survived']].groupby(['Embarked'], as_index=True).mean().sort_values(by='Survived', ascending=False).plot.bar(ax=ax)
#  Embarked, Survived 그룹들의 평균값을 구한다 , index는 사용하지 않고, 내림차순으로 bar그래프로 표현

### sort_values(by = 'x', ascending=T/F - 매개변수 정렬 by는 기준 T= 오름 ,F = 내림차순

In [28]:
f,ax = plt.subplots(2,2,figsize=(20,15))            # 2행 2열로 표현
sns.countplot('Embarked',data=df_train,ax=ax[0,0])  # seaborn으로 Embared세어서 1행1열 배치
ax[0,0].set_title('(1) No. Of Passengers Boarded')  # 1행1열 제목 설정
sns.countplot('Embarked',hue='Sex',data=df_train,ax=ax[0,1])  # Sex 변수 추가
ax[0,1].set_title('(2) Male-Female Split for Embarked')
sns.countplot('Embarked',hue='Survived',data=df_train,ax=ax[1,0])  # Survived변수 추가 
ax[1,0].set_title('(3) Embarked vs Survived')
sns.countplot('Embarked',hue='Pclass',data=df_train, ax=ax[1,1])  # Pclass변수 추가
ax[1,1].set_title('(4) Embarked vs Pclass')
plt.subplots_adjust(wspace=0.2, hspace=0.5)
plt.show()

## 2.7 Family- SibSp(형제 자매)+Parch(부모,자녀)

In [29]:
df_train['FamilySize']= df_train['SibSp'] + df_train['Parch'] + 1 # +1 하는 이유는 자신을 더애햐해서
df_test['FamilySize'] = df_test['SibSp'] + df_test['Parch'] + 1

In [30]:
print("Maximum size of Family: ", df_train['FamilySize'].max())
print("Minimum size of Family: ", df_train['FamilySize'].min())

In [31]:
f,ax = plt.subplots(1,3, figsize=(40,10))  # 1행 3열 표현
sns.countplot('FamilySize', data=df_train, ax=ax[0])  # 1열에 FamilySize 세어서 표현
ax[0].set_title('(1) No. Of Passengers Boarded', y=1.02) #1열 타이틀 설정

sns.countplot('FamilySize', hue='Survived', data=df_train, ax=ax[1])  # 2열에 FamilySize세고 Survived 변수 추가
ax[1].set_title('(2) Survived countplot depending on FamilySize', y=1.02) # 2열 타이틀 설정

df_train[['FamilySize','Survived']].groupby(['FamilySize'], as_index=True).mean().sort_values(by='Survived',ascending=False).plot.bar(ax=ax[2])
# FamilySize의 개수를 세어서 내림차순 bar형태로 3열에 표현 
ax[2].set_title('(3) Survived rate depending on FamilySize', y=1.02) # 3열 제목 설정

plt.subplots_adjust(wspace=0.2, hspace=0.5)
plt.show()

# 2.8 Fare

In [32]:
fig, ax = plt.subplots(1,1,figsize=(8,8)) # 1행1열로 표현
g = sns.distplot(df_train['Fare'], color = 'b', label='Skewness : {:.2f}'.format(df_train['Fare'].skew()), ax=ax)
# 도수분포표 출력
g = g.legend(loc='best')
# 

In [33]:
#아래 줄은 뒤늦게 발견했습니다. 13번째 강의에 언급되니, 일단 따라 치시고 넘어가면 됩니다.
df_test.loc[df_test.Fare.isnull(), 'Fare'] = df_test['Fare'].mean() 
# test에 있는 nan value를 평균값으로 치환합니다
df_train['Fare']= df_train['Fare'].map(lambda i:np.log(i) if i>0 else 0)
df_test['Fare'] = df_test['Fare'].map(lambda i: np.log(i) if i >0 else 0)

분포가 매우 비대칭이기 때문에 log를 취해준다

In [34]:
fig, ax=plt.subplots(1,1,figsize = (8,8))
g = sns.distplot(df_train['Fare'], color='b', label='Skewness : {:.2f}'.format(df_train['Fare'].skew()),ax=ax)
g= g.legend(loc='best')

# 2.9 Cabin

In [35]:
df_train.head()

# 2.10 Ticket

In [36]:
df_train['Ticket'].value_counts()

# Tutorial2

In [37]:
from pandas import Series

import plotly.offline as py
py.init_notebook_mode(connected=True)
import plotly.graph_objs as go
import plotly.tools as tls

df_train['FamilySize'] = df_train['SibSp']+df_train['Parch'] + 1 # 자신을 포함해야해서 1더함
df_test['FamilySize'] = df_test['SibSp']+df_test['Parch']+1 #위와 동일

df_test.loc[df_test.Fare.isnull(),'Fare']=df_test['Fare'].mean()
                     
df_train['Fare'] = df_train['Fare'].map(lambda i: np.log(i) if i>0 else 0)
df_test['Fare'] = df_test['Fare'].map(lambda i: np.log(i) if i > 0 else 0)                    
        

# 3. Feature engineering

# 3.1 Fill Null

## 3.1.1 Fill Null in Age using title

In [38]:
df_train['Initial'] = df_train.Name.str.extract('([A-Za-z]+)\.')   #Lets extract the Salutations
# Initial 열을 만들고 train열의 문자열 중에서 이름을 추출해서 Initial열에 넣겠다
df_test['Initial'] = df_test.Name.str.extract('([A-Za-z]+)\.')


In [39]:
pd.crosstab(df_train['Initial'], df_train['Sex']).T.style.background_gradient(cmap='summer_r')
# pandas의 크로스탭으로 x축 Initial y축 Sex로 표현

In [40]:
df_train['Initial'].replace(['Mlle','Mme','Ms','Dr','Major','Lady','Countess','Jonkheer','Col','Rev','Capt','Sir','Don','Dona'],['Miss','Miss','Miss','Mr','Mr','Mrs','Mrs','Other','Other','Other','Mr','Mr','Mr','Mr'],inplace=True)
# Initial열에서 특정값을 치환
df_test['Initial'].replace(['Mlle','Mme','Ms','Dr','Major','Lady','Countess','Jonkheer','Col','Rev','Capt','Sir','Don','Dona'],['Miss','Miss','Miss','Mr','Mr','Mrs','Mrs','Other','Other','Other','Mr','Mr','Mr','Mr'],inplace=True)

### *replace - 특정 데이터 값을 원하는 값으로 치환한다

In [41]:
df_train.groupby('Initial').mean()
# intial 의 그룹의 평균값을 구한다

In [42]:
df_train.groupby('Initial')['Survived'].mean().plot.bar()
# 평균값을 구하여 bar그래프로 표현 

## 본격적인 Null 채움

In [43]:
df_train.groupby('Initial').mean()

In [44]:
df_train.loc[(df_train.Age.isnull())&(df_train.Initial=='Mr'),'Age'] = 33
df_train.loc[(df_train.Age.isnull())&(df_train.Initial=='Mrs'),'Age'] = 36
df_train.loc[(df_train.Age.isnull())&(df_train.Initial=='Master'),'Age'] = 5
df_train.loc[(df_train.Age.isnull())&(df_train.Initial=='Miss'),'Age'] = 22
df_train.loc[(df_train.Age.isnull())&(df_train.Initial=='Other'),'Age'] = 46
# isnull 이면서 Initial이 () 인 조건을 만족하는 탑승객의 age = x로 치환한다
df_test.loc[(df_test.Age.isnull())&(df_test.Initial=='Mr'),'Age'] = 33
df_test.loc[(df_test.Age.isnull())&(df_test.Initial=='Mrs'),'Age'] = 36
df_test.loc[(df_test.Age.isnull())&(df_test.Initial=='Master'),'Age'] = 5
df_test.loc[(df_test.Age.isnull())&(df_test.Initial=='Miss'),'Age'] = 22
df_test.loc[(df_test.Age.isnull())&(df_test.Initial=='Other'),'Age']= 46

Age의 평균을 이용해 Null value를 모두 채운다

### loc + boolean + column을 사용해 치환하는 방법(자주쓰인다)
### *loc - 라벨값 기반의 2차원 인덱싱
### *iloc - 순서를 나타내는 정수 기반의 2차원 인덱싱

## 3.1.2 Fill Null in Embarked

In [45]:
print('Embarked has',sum(df_train['Embarked'].isnull()),'Null values')

In [46]:
df_train['Embarked'].fillna('S', inplace=True)
# Embarked에서 Null 을 'S'로 채운다

## 3.2 Change Age(continuous ta categorical)

나이와 같은 연속적인 데이터는 function을 카테고리화를 통해 진행하면 데이터 손실의 위험이 있지만 장점 도 존재한다 장점은?

In [47]:
df_train['Age_cat']= 0
df_train.loc[df_train['Age']<10, 'Age_cat'] = 0
df_train.loc[(10<=df_train['Age'])&(df_train['Age']<20),'Age_cat'] = 1
df_train.loc[(20<=df_train['Age'])&(df_train['Age']<30),'Age_cat'] = 2
df_train.loc[(30<=df_train['Age'])&(df_train['Age']<40),'Age_cat'] = 3
df_train.loc[(40<=df_train['Age'])&(df_train['Age']<50),'Age_cat'] = 4
df_train.loc[(50<=df_train['Age'])&(df_train['Age']<60),'Age_cat'] = 5
df_train.loc[(60<=df_train['Age'])&(df_train['Age']<70),'Age_cat'] = 6
df_train.loc[70<=df_train['Age'], 'Age_cat'] = 7
# 나이를 10살 단위로 나눠서 'age_cat' column에 값을 넣는다
df_test['Age_cat']= 0
df_test.loc[df_test['Age']<10, 'Age_cat'] = 0
df_test.loc[(10<=df_test['Age'])&(df_test['Age']<20),'Age_cat'] = 1
df_test.loc[(20<=df_test['Age'])&(df_test['Age']<30),'Age_cat'] = 2
df_test.loc[(30<=df_test['Age'])&(df_test['Age']<40),'Age_cat'] = 3
df_test.loc[(40<=df_test['Age'])&(df_test['Age']<50),'Age_cat'] = 4
df_test.loc[(50<=df_test['Age'])&(df_test['Age']<60),'Age_cat'] = 5
df_test.loc[(60<=df_test['Age'])&(df_test['Age']<70),'Age_cat'] = 6
df_test.loc[70<=df_test['Age'],'Age_cat'] = 7

In [48]:
def category_age(x):   # 함수 설정
    if x < 10:
        return 0
    elif x< 20:
        return 1
    elif x < 30:
        return 2
    elif x < 40:
        return 3
    elif x < 50:
        return 4
    elif x < 60:
        return 5
    elif x < 70:
        return 6
    else:
        return 7
    
df_train['Age_cat_2'] = df_train['Age'].apply(category_age)
# Age 데이터를 통해 category 함수로 분류한 값을 Age_cat_2에 넣어준다

In [49]:
print('1번 방법, 2번 방법 둘다 같은 결과를 내면 True 줘야함 ->', (df_train['Age_cat']==df_train['Age_cat_2']).all())


### *all() - 하나라도 다른값이 존재하면 False를 반환한다
### *any() - 다 False를 가져야 False를 반환한다

In [50]:
df_train.drop(['Age','Age_cat_2'], axis=1, inplace = True) 
# drop함수로 중복되는 column제거
df_test.drop(['Age'], axis=1, inplace=True)

## 3.3 Change Initial, Embarked and Sex(string to numerical)

In [51]:
df_train['Initial'] = df_train['Initial'].map({'Master':0, 'Miss':1, 'Mr':2, 'Mrs':3, 'Other':4})
# 고유의 숫자값으로 map을 통해 한번에 변환해서 적용시킨다
df_test['Initial'] = df_test['Initial'].map({'Master': 0 ,'Miss':1, 'Mr':2, 'Mrs':3, 'Other':4})

In [52]:
df_train['Embarked'].unique()  # unique메소드를 이용해 값을 확인

### *unique() - 데이터에 고유값들이 어떠한 종류가 있는지 알려주는 함수

In [53]:
df_train['Embarked'].value_counts() # Embarked의 데이터 수 출

### *value_counts() - 값별로 데이터의 수를 출력해주는 함수

In [54]:
df_train['Embarked'] = df_train['Embarked'].map({'C':0, 'Q':1, 'S':2})
# 고유의 숫자값으로 map을 통해 한번에 변환해서 적용시킨다
df_test['Embarked'] = df_test['Embarked'].map({'C':0, 'Q':1, 'S':2})

In [55]:
df_train['Embarked'].isnull().any()
# 데이터에 null 값이 없는것을 확인  (innull => null이 있으면 T 아니면 F)/(any() - 모두다 F여야 F)

In [56]:
df_train['Sex'] = df_train['Sex'].map({'female':0,'male':1})
# 성별을 0과 1로 바꿔준다
df_test['Sex'] = df_test['Sex'].map({'female':0,'male':1})

In [57]:
heatmap_data = df_train[['Survived','Pclass','Sex','Fare','Embarked','FamilySize','Initial','Age_cat']]

colormap = plt.cm.RdBu  # color 모음집
plt.figure(figsize=(14,12))  #figure 크기
plt.title('Pearson Correlation of Features', y=1.05, size=15) # 제목과 위치설정
sns.heatmap(heatmap_data.astype(float).corr(),linewidths=0.1, vmax=1.0, square=True, cmap=colormap, linecolor='white', annot=True, annot_kws={"size":16})
# seaborn으로 heatmap에 float 데이터 가져옴 
del heatmap_data

### sns.heatmap - 데이터의 배열을 색상으로 표현해주는 그래프
- 
- vmin,vmax : 색표현의 최소 최대값 설정
- cbar : colorbar의 유무 설정 True면 설정
- center : 중앙값 설정
- linewidths : 각 cell 사이마다 선을 넣고 선의 굵기 설정
- annot : 각 cell의 값 표기(fmt를 이용해 각 cell의 값의 데이터 형태를 지정해줘야 한다)
- cmap : 전에 설정해 두었던 colormap의 색상을 사용하여 heatmap 출력
- squar : 셀을 정사각형으로 출력하는것 
- annot : 셀 안에 숫자를 출력해주는거 / annot_kws : 숫자의 크기를 조정

# 3.4 One-hot encoding on Initial and Embarked

In [58]:
df_train = pd.get_dummies(df_train, columns=['Initial'],prefix='Initial')
# 더미로 만든다
df_test = pd.get_dummies(df_test, columns=['Initial'],prefix='Initial')

### *get_dummies : 가변수로 변환하는 함수(수치형 데이터로 변환할 경우 관계성이 존재해 오류가 발생 따라서 더미로 만든 가변수로 변환을 해줘야한다)

In [59]:
df_train.head()

In [60]:
df_train = pd.get_dummies(df_train, columns=['Embarked'],prefix='Embarked')
df_test = pd.get_dummies(df_test, columns=['Embarked'], prefix='Embarked')

In [61]:
df_train.drop(['PassengerId','Name','SibSp','Parch','Ticket','Cabin'], axis=1,inplace=True)
df_test.drop(['PassengerId','Name','SibSp','Parch','Ticket','Cabin'],axis=1, inplace =True)
# 필요한 컬럼을 남기고 나머진 제

In [62]:
df_train.head()

In [63]:
df_test.head()

# fare 값 다름 발견/ 못찾음

# 4. Building machine learning model and prediction using the trained model

In [64]:
#importing all the required ML packages
from sklearn.ensemble import RandomForestClassifier
# 랜덤포레스트 앙상블 사용
from sklearn import metrics # 모델의 평가를 위해서 씁니다
from sklearn.model_selection import train_test_split 
# traning set을 쉽게 나눠주는 함수입니다.

랜덤포레스트
- 결정트리 기반모델
- 여러 트리들을 앙상블 한 모델
- 파라미터를 어떻게 설정하냐에 따라 모델의 성능이 달라짐
- 튜토리얼 상 Default로 세팅

## 4.1 Preparation - Split dataset into train, valid, test set

In [65]:
X_train = df_train.drop('Survived', axis=1).values
# 학습에 쓰일 데이터와 target label 분리
target_label = df_train['Survived'].values
X_test = df_test.values

In [66]:
X_tr, X_vld, y_tr, y_vld = train_test_split(X_train, target_label,test_size=0.3,random_state=2018)

## 4.2 Model generation and prediction

In [67]:
model = RandomForestClassifier()
model.fit(X_tr,y_tr)
prediction = model.predict(X_vld)

In [68]:
print('총 {}명 중 {:.2f}% 정확도로 생존을 맞춤'.format(y_vld.shape[0],100 * metrics.accuracy_score(prediction, y_vld)))

## 4.3 Feature importance

In [69]:
from pandas import Series

feature_importance = model.feature_importances_
Series_feat_imp = Series(feature_importance, index=df_test.columns)

In [70]:
plt.figure(figsize=(8,8))
Series_feat_imp.sort_values(ascending=True).plot.barh()
plt.xlabel('Feature importance')
plt.ylabel('Feature')
plt.show()

## 4.4 Prediction on Test set

In [71]:
submission = pd.read_csv('../input/titanic/gender_submission.csv')

In [72]:
submission.head()

In [73]:
prediction = model.predict(X_test) 
# test,set에 대해 예측하고 결과를 scv 파일로 저장한다
submission['Survived']=prediction

In [74]:
submission.to_csv('./my_first_submission.csv',index=False)