# EDA To Prediction(DieTanic)

## Contents of the Notebook :

Part1 : Exploratory Data Analysis(EDA)
1. Analysis of the features (특징 분석)
2. Finding any relations or trends considering multiple features (특성들 간의 관계 찾기)

Part2 : Feature Engineering and Data Cleaning
1. Adding any few features (몇 가지 특성 추가)
2. Removing redundant features (중복 특성 제거)
3. Converting features into suitable form for modeling (특성 변환)

Part3 : Predictive Modeling
1. Running Basic Algorithms (기본 알고리즘 실행)
2. Cross Validation (교차 검증)
3. Ensembling (앙상블)
4. Important Features Extraction (중요 기능 추출?)

### Part1: Exploratory Data Analysis(EDA)

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use('fivethirtyeight') # stylesheet 종류 및 설정 변경
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline

In [None]:
data = pd.read_csv('../input/titanic/train.csv')

In [None]:
data.head()

In [None]:
data.isnull().sum() # 총 null 값 체크

The Age, Cabin and Embarked have null values. I will try to fix them.
나이, 카빈, 항구가 null 값을 가지고 있다. 고쳐보자

#### How many Survived?? 얼마나 많이 살았는가?

In [None]:
f, ax = plt.subplots(1,2,figsize=(18,8))                        # %% 이거 빠트리면 안나옴 ... autopct로 파이 안에 들어가는 백분율을 지정
data['Survived'].value_counts().plot.pie(explode=[0,0.1],autopct='%1.1f%%', ax=ax[0], shadow=True)
ax[0].set_title('Survived')
ax[0].set_ylabel('')
sns.countplot('Survived', data=data, ax=ax[1])
ax[1].set_title('Survived')
plt.show()

It is evident that not many passengers survived the accident.
살아남은 승객이 적다는 것이 명백함

Out of 891 passengers survived the accident. Out of 891 passengers in training set, only around 350 survived i.e Only 38.4% of the total training set survived the crash. We need to dig down more to get better insights from the data and see which categories of the passengers did survive and who didn't.
승객 891중 350명만이 살아남았다. 우리는 데이터에서 더 나은 인사이트를 얻고 어떤 범주의 승객들이 살아남았는지에 대해 더 깊이 알려고 한다.

We will try to check the survival rate by using the different features of the dataset. Some of the features being Sex, Port of Embarcation, Age, etc.
데이터셋의 다양한 특성들을 이용해 생존율을 확인하도록 하겠습니다. 특징으로는 성별, 항구, 나이 등등이 있다

First let us understand the different types of features.
먼저 여러가지 특징에 대해 알아보자

### Types Of Features 특성 타입

#### Categorical Features : 범주형 특성
A categorical variable is one that has two or more categories and each value in that feature can be categorised by them. For example, gender is a categorical variable having two categories(male and female). Now we cannot sort or give any ordering to such variables. They are also known as Nominal Variables. 
범주형 특성은 두개 이상의 범주가 있는 변수이며 해당 특성의 값은 각각 분류될 수 있다.예를 들어 성별은 두가지 범주(남성 및 여성)가 있는 특성. 이런 특성은 정렬하거나 순서를 지정할 수 없다. 공칭 변수라고도 한다

Categorical Features in the dataset : Sex, Embarked.
성별,항구

#### Ordinal Features : 순서형 특성
An ordinal variable is similar to categorical values, but the difference between them is that we can have relative ordering or sorting between the values. For eg :  if we have a feature like Height with values Tall, Medium, Short, then Height is a ordinal variable. Here we can have a relative sort the variable.
순서형 변수는 범주형과 유사하지만 값 간의 상대적 순서 지정 또는 정렬이 가능하다는 점이 다르다. 높음, 중간, 짧음 으로 나뉜 특성이 있으면 높이는 순서형 변수. 변수를 정렬할 수 있다

Ordinal Features in the dataset : PClass

#### Continous Feature : 연속형 특성
A feature is said to be continous if can take values between any two points or between the minimum or maximum values in the features column.
열의 두 점 또는 최소값과 최댓값 사이의 값을 취할 수 있는 경우 연속형
Continous Features in the dataset : Age 나이

### Analysing The Features
특성 분석
### Sex -> Categorical Feature
성별 -> 범주형 




In [None]:
data.groupby(['Sex', 'Survived'])['Survived'].count()

In [None]:
f, ax = plt.subplots(1,2,figsize=(18,8))
data[['Sex', 'Survived']].groupby(['Sex']).mean().plot.bar(ax=ax[0])
ax[0].set_title('Survived vs Sex')
sns.countplot('Sex', hue='Survived', data=data, ax=ax[1])
ax[1].set_title('Sex:Survived vs Dead')
plt.show()

# This looks interesting. The number of men on the ship is lot more than the number of women.
배에 타고 있는 남자수가 여자수보다 훨씬 많다
Still the number of women saved is almost twice the number of males saved. The survival rates for a women on the ship is around 75% while that for men in around 18-19%.
구조된 여성의 수는 남성보다 거의 두배. 배에 탑승한 여성의 생존율은 약 75퍼인 반면 남성은 약 18-19
This looks to be a very important feature for modeling. But is it the best?? Lets check other features.
모델링에 매우 중요한 특징으로 보인다.일단 다른 특성들도 확인해보자

### Pclass -> Ordinal Feature
피클래스 -> 순서형 특성

In [None]:
pd.crosstab(data.Pclass, data.Survived, margins=True).style.background_gradient(cmap='summer_r')

In [None]:
f, ax = plt.subplots(1,2,figsize=(18,8))
data['Pclass'].value_counts().plot.bar(color=['#CD7F32', '#FFDF00', '#D3D3D3'], ax=ax[0])
ax[0].set_title('Number Of Passengers By Pclass')
ax[0].set_ylabel('Count')
sns.countplot('Pclass', hue='Survived', data=data, ax=ax[1])
ax[1].set_title('Pclass:Survived vs Dead')
plt.show()

But we can clearly see that Passengers Of Pclass 1 were given a very high priority while rescue. Even thouth the number of Passengers in Pclass 3 were a lot higher, still the number of survival from them is very low, somewhere around 25%
우리는 구조하는 동안 피클래스 1의 승객들에게 우선순위가 주어졌음을 알고 있다. 피클래스 3의 승객 수가 훨씬 더 많았음에도 불구하고 생존자 수는 25%정도로 여전히 매우 적다

For Pclass 1% survived is around 63% while for Pclass2 is around 48%. So money and status matters. Such a materialistic world.
피클래스의 경우 1%의 생존율이 약 63퍼인 반면 2의 생존율은 약 48퍼다. 물질만능주의 ㅜㅜ
Lets Dive in little bit more and check for other interesting observations. Let's check survival rate with Sex and Pclass Together.
조금 더 자세히 살펴보고 다른 흥미로운 관측치가 있는지 확인해보자. 성별과 피클래스를 같이 확인해보자

In [None]:
pd.crosstab([data.Sex, data.Survived], data.Pclass, margins=True).style.background_gradient(cmap='summer_r')

In [None]:
sns.factorplot('Pclass', 'Survived', hue='Sex', data=data)
plt.show()

We use FactorPlto in this case, because they make the seperation of categorical values easy.
범주형 값을 쉽게 분리할 수 있기 때문에 factorplot사용한다.

Looking at the CrossTab and the FactorPlot, we can easily infer that survival for Women from Pclass1 is about 95-96%, as only 3 out of 94 Women from Pclass1 died.
크로스탭과 팩터플롯을 보면 피클래스1 여성 94명 중 3명만 사망해 피클래스1 여성 생존율이 약 95-96퍼임을 쉽게 알 수 있다 
It it evident that irrespective of Pclass, Women were given first priority while rescue. Even Men from Pclass1 have a very low survival rate.
피클래스와 관계없이 구조 시 여성이 최우선적으로 고려되었다는 것이 명백하다. 심지어 피클래스1의 남성들도 생존율이 매우 낮음

Looks like Pclass is also an important feature. Lets analyse other features.
피클래스도 아주 중요한 특징인 것 같다. 다른 특성도 분석해보자

### Age -> Continuous Feature 나이 -> 연속형 특성

In [None]:
print('Oldest Passenger was of : ', data['Age'].max(), 'Years')
print('Youngestn Passenger was of : ', data['Age'].min(), 'Years')
print('Average Age on the ship : ', data['Age'].mean(), 'Years')

In [None]:
f, ax = plt.subplots(1,2,figsize=(18,8))
sns.violinplot("Pclass", "Age", hue="Survived", data=data, split=True, ax=ax[0])
ax[0].set_title('Pclass and Age vs Survived')
ax[0].set_yticks(range(0, 110, 10))
sns.violinplot("Sex", "Age", hue="Survived", data=data, split=True, ax=ax[1])
ax[1].set_title('Sex and Age vs Survived')
ax[1].set_title(range(0, 110, 10))
plt.show()

Observations :
관측치

1. The number of children increases with Pclass and the survival rate for passengers below Age 10(i.e children) looks to be good irrespective of the Pclass.
피클래스에 따라 어린이의 수가 증가하며, 10세 미만 승객(어린이)의 생존율은 피클래스에 관계없이 양호한 것으로 보인다. 

2. Survival chances for Passengers aged 20-50 from Pclass1 is high and is even better for Women.
피클래스1의 20-50세 승객은 생존 확률이 높으며, 여성의 생존 확률이 더 높다

3. For males, the survival chances decreases with an increase in age.
남성의 경우 나이가 많을수록 생존 가능성이 낮아진다

As we had seen earlier, the Age feature has 177 null values. To replace these NaN values, we can assign them the mean age of the dataset.
앞에서 살펴본 것처럼 나이 특성에는 177개의 null 값이 있습니다. 이러한 NaN 값을 대체하기 위해 데이터셋의 평균을 할당할 수 있다.

But the problem is, there were many people with many different ages. We just cant assign a 4year kid with the mean age that is 29 years. Is there any way to find out what age-band does the passenger lie?
하지만 문제는 많은 다양한 연령대의 사람들이 있었다. 4살 아이를 평균 나이인 29세로 배정할 수가 없다. 

Bingo !!!!, we can check the Name feature. Looking upon the feature, we can see that the names have a salutation like Mr or Mrs. Thus we can assign the mean values of Mr and Mrs to the respective qroups.
우리는 그래서 이름 특성을 확인할 수 있다. 특징을 보면, 이름들이 미스터 미세스등등 있으니까 이 사람들의 평균값을 각각 그룹에 할당할 수 있다

"What's in a Name??" ------> Feature
이름에 특성이 있다

In [None]:
data['Initial']=0
for i in data:
    data['Initial'] = data.Name.str.extract('([A-Za-z]+)\.') # 이름으로부터 이니셜을 추출

Okay so here we are using the Regex:[A-Za-z]+).. So what it does is, it looks for strings which lie between A-Z or a-z and followed by a.(dot).So we successfully extract the Initials from the Name.
이름으로부터 이니셜을 성공적으로 추출했음

In [None]:
pd.crosstab(data.Initial, data.Sex).T.style.background_gradient(cmap='summer_r') # 이니셜과 성별 체크

Okay so there are some misspelled Initials like Mlle or Mme that stand for Miss. I will replace them with Miss and same thing for other values.
Mlle나 Mme 처럼 틀린 이니셜이 있다. 이것들을 Miss같은 값으로 대체하자

In [None]:
data['Initial'].replace(['Mlle','Mme','Ms','Dr','Major','Lady','Countess','Jonkheer','Col','Rev','Capt','Sir','Don'],['Miss','Miss','Miss','Mr','Mr','Mrs','Mrs','Other','Other','Other','Mr','Mr','Mr'],inplace=True)

In [None]:
data.groupby('Initial')['Age'].mean() # 이니셜로 평균 연령을 확인합시다.

#### Filling NaN Ages NaN 나이를 채우자

In [None]:
# 평균 연령의 cell값을 사용하여 nan 값 할당
data.loc[(data.Age.isnull())&(data.Initial=='Mr'),'Age']=33
data.loc[(data.Age.isnull())&(data.Initial=='Mrs'),'Age']=36
data.loc[(data.Age.isnull())&(data.Initial=='Master'),'Age']=5
data.loc[(data.Age.isnull())&(data.Initial=='Miss'),'Age']=22
data.loc[(data.Age.isnull())&(data.Initial=='Other'),'Age']=46

In [None]:
data.Age.isnull().any() # null 값은 최종적으로 남아 있지 않다

In [None]:
f, ax = plt.subplots(1,2,figsize=(20,10))
data[data['Survived']==0].Age.plot.hist(ax=ax[0], bins=20, edgecolor='black', color='red')
ax[0].set_title('Survived=0')
x1=list(range(0,85,5))
ax[0].set_xticks(x1)
data[data['Survived']==1].Age.plot.hist(ax=ax[1], color='green', bins=20, edgecolor='black')
ax[1].set_title('Survived = 1')
x2=list(range(0,85,5))
ax[1].set_xticks(x2)
plt.show()

#### Observations : 
1. The Toddlers(age<5) were saved in large numbers(The Women and Child First Policy)
유아가 먼저 구조되었다

2. The oldest Passenger was saved(80 years)
최고령 승객 구조(80)

3. Maximum number of deaths were in the age group of 30-40
최대 사망자 수는 30-40세였다.

In [None]:
sns.factorplot('Pclass', 'Survived', col='Initial', data=data)
plt.show()

The Women and Child first policy thus holds true irrespective of the class
그러므로 여성과 아동 우선 정책은 계급에 관계없이 적용된다

### Embarked ---> Categorical Value
항구 --> 범주형 

In [None]:
pd.crosstab([data.Embarked, data.Pclass], [data.Sex,data.Survived], margins=True).style.background_gradient(cmap='summer_r')

#### Chances for Survival by Port Embarkation
항구에 의한 생존 가능성

In [None]:
sns.factorplot('Embarked', 'Survived', data=data)
fig=plt.gcf()
fig.set_size_inches(5,3)
plt.show()

The chances for survival for Port C is highest around 0.55 while it is lowest for S
포트 C의 생존 확률은 0.55정도로 가장 높고 S의 생존 확률은 가장 낮다

In [None]:
f,ax=plt.subplots(2,2,figsize=(20,15))
sns.countplot('Embarked',data=data,ax=ax[0,0])
ax[0,0].set_title('No. Of Passengers Boarded')
sns.countplot('Embarked',hue='Sex',data=data,ax=ax[0,1])
ax[0,1].set_title('Male-Female Split for Embarked')
sns.countplot('Embarked',hue='Survived',data=data,ax=ax[1,0])
ax[1,0].set_title('Embarked vs Survived')
sns.countplot('Embarked',hue='Pclass',data=data,ax=ax[1,1])
ax[1,1].set_title('Embarked vs Pclass')
plt.subplots_adjust(wspace=0.2,hspace=0.5)
plt.show()

#### Observations : 

1. Maximum passengers boared from S. Majority of them being from Pclass3 최대 승객은 S에서 탑승했다. 대부분이 Pclass3이다.

2. The Passengers from C look to be lucky as a good proportion of them survived. The reason for this maybe the rescue of all the Pclass1 and Pclass2 Passengers. 
C에서 온 승객 중 상당수는 살아남은 것으로 보아 운이 좋은 것 같다

3. The Embark S looks to the port from where majority of the rich people boarded. Still the chances for survival is low here, that is because many passengers from Pclass3 around 81% didn't survive
S는 부자들이 많이 탄 항구같다. 이곳도 생존률이 낮다. 왜냐면 대략 81퍼의 피클래스3 승객들이 살지 못했기 때문이다.

4. Port Q had almost 95% of the passengers were from Pclass3
Q항구는 거의 95퍼의 승객들이 피클래스3이다.

In [None]:
sns.factorplot('Pclass', 'Survived', hue='Sex', col='Embarked', data=data)
plt.show()

#### Observation : 
1. The survival chances are almost 1 for women for Pclass1 and Pclass2 irrespective of the Pclass
피클래스1과 2의 생존확률은 클래스에 상관없이 거의 1이다

2. Port S looks to be very unlucky for Pclass3 Passengers as the survival rate for both men and women is very low(Money Matters)
피클래스3 승객에게 s항구는 남녀 모두 생존률이 매우 낮아 불운한 것으로 보인다.
(돈 문제?)

3. Port Q looks looks to be unlukiest for Men, as almost all were from Pclass 3 
Q항구는 남자에게 불운해 보인다. 거의 모두가 피클래스3이다

#### Filling Embarked NaN
As we saw that maximum passenger boarded from Port S, we replace NaN with S 

In [None]:
data['Embarked'].fillna('S', inplace=True)

In [None]:
data.Embarked.isnull().any() # Finally no NaN values

### SibSp -> Discrete Feature 이산형 특성

This feature represents whether a person is alone or with his family members.
이 특성은 승객이 혼자인지 아니면 가족들과 함께였는지를 나타낸다

Sibling = brother, sister, stepbrother, stepsister
형제 = 형제, 자매, 의붓형제

Spouse = husband, wife
남편, 부인

In [None]:
pd.crosstab([data.SibSp], data.Survived).style.background_gradient(cmap='summer_r')

In [None]:
f, ax = plt.subplots(1,2,figsize=(20,8))
sns.barplot('SibSp', 'Survived', data=data, ax=ax[0])
ax[0].set_title('SibSp vs Survived')
sns.pointplot('SibSp', 'Survived', data=data, ax=ax[1])
ax[1].set_title('SibSp vs Survived')
plt.close(2)
plt.show()

In [None]:
pd.crosstab(data.SibSp, data.Pclass).style.background_gradient(cmap='summer_r')

Observations:

The barplot and factorplot shows that if a passenger is alone on board with no siblings, he have 34.5% survival rate. The graph roughly decreases of the number of siblings increase. This makes sense. That is, if i have a family on board, i will to save them instead of saving myself first. Surprisingly the survival for families with 5-8 members is 0%. The reason may be Pclass??
막대그림 및 팩터플롯을 보면 승객이 형제 없이 혼자 탑승한 경우 생존율이 34.5다. 그래프는 형제 수가 증가할수록 감소한다. 말이 되는게 만약 가족이 있다면, 나를 구하는 대신 그들을 먼저 구할것이다. 놀랍게도 5-8인 가족의 생존율은 0%다. 그 이유는 피클래스 때문일 수 있음

The reason is Pclass. The crosstab shows that with SibSp>3 were all in Pclass3. It is imminent that all the large families in Pclass(>3) died.
크로스탭이 sibsp>3이 모두 피클래스 3에 있음을 보여준다. 피클래스의 대가족이 모두 사망할것이라고 예상한다.

### Parch 부모+자식

In [None]:
pd.crosstab(data.Parch, data.Pclass).style.background_gradient(cmap='summer_r')

The crosstab again shows that larger families were in Pclass3. 크로스탭은 피클래스3에 대가족이 많다는 것을 보여준다

In [None]:
f, ax = plt.subplots(1,2,figsize=(20,8))
sns.barplot('Parch', 'Survived', data=data, ax=ax[0])
ax[0].set_title('Parch vs Survived')
sns.pointplot('Parch', 'Survived', data=data, ax=ax[1])
ax[1].set_title('Parch vs Survived')
plt.close(2)
plt.show()

Observations:

Here too there results are quite similar. Passengers with their parents onboard have greater chance of survival. It however reduces as the number goes up.
결과가 꽤 비슷하다. 부모님과 탄 승객들은 생존가능성이 높다. 하지만 숫자가 올라갈수록 줄어든다

The chances of survival is good for somebody who has 1-3 parents on the ship. Being alone also proves to be fatal and chances for survival decreases when somebody has >4 parents on the ship.
1-3 부모님과 배를 탄 사람들은 생존 가능성이 좋다. 혼자 있는것 또한 치명적이고 누군가 4 이상의 부모가 있을 때 생존 가능성이 줄어든다.

### Fare -> Continuous Feature 요금 -> 연속적 특성

In [None]:
print('Highest Fare was : ', data['Fare'].max())
print('Lowest Fare was : ', data['Fare'].min())
print('Average Fare was : ', data['Fare'].mean())

The lowest fare is 0.0. Wow a free luxorious ride.
가장 낮은 요금은 0.0. 무료로 탔다

In [None]:
f,ax=plt.subplots(1,3,figsize=(20,8))
sns.distplot(data[data['Pclass']==1].Fare,ax=ax[0])
ax[0].set_title('Fares in Pclass 1')
sns.distplot(data[data['Pclass']==2].Fare,ax=ax[1])
ax[1].set_title('Fares in Pclass 2')
sns.distplot(data[data['Pclass']==3].Fare,ax=ax[2])
ax[2].set_title('Fares in Pclass 3')
plt.show()

There looks to be a large distribution in the fares of Passengers in Pclass1 and this distribution goes on decreasing as the standards reduces. As this is also continous, we can convert into discrete values by using binning.
피클래스1의 승객 요금에 큰 분포가 있어 보이며 표준이 감소하는 것으로 봐서 이러한 분포는 계속 감소하고 있음. 이것은 연속적이기 때문에, 우리는 바이닝을 통해서 값을 이산값으로 변환할 수 있다

#### Observations in a Nutshell for all features:
모든 특성에 대한 요약

sex : the chance of survival for women is high as compared to men.
성별 : 여성의 생존가능성은 남성에 비해 높다.

Pclass : there is a visible trend that being a 1st class passenger gives you better chances of survival. The survival rate for Pclass3 is very low. For women, the chance ofsurvival from Pclass1 is almost 1 and high to for those from Pclass 2. Money wins!
피클래스 : 퍼스트 클래스의 승객들은 더 높은 생존 가능성이 주어진다는 추세가 있다. 피클래스3의 생존률은 저조하다. 여성의 경우, 피클래스 1의 생존 가능성은 거의 1이고 피클래스 2는 매우 높다. 돈이 최고

Age : Children less than 5-10 years do have a high chance of survival. Passengers between age group 15 to 35 died a lot.
나이 : 아이들은 5-10세 미만일 경우 생존 가능성이 높다. 15-35 사이의 승객들은 많이 죽었다.

Embarked : This is a very interesting feature. The chances of survival at C looks to be better than even though the majority of Pclass1 passenger got up at S. Passengers at Q were all from Pclass3.
항구 : 매우 흥미로운 피쳐, C에서의 생존 가능성은 피클래스 1 승객의 대다수가 탄 S보다는 높아보인다. Q의 승객은 거의 피클래스3이었다.

Parch + SibSp : Having 1-2 siblings, spouse on board or 1-3 Parents shows a greater chance of probabilty rather than being alone or having a large family travelling with you.
부모 형제 : 1-2명의 형제자매, 배우자 또는 1-3명의 부모를 동반하는 것이 혼자나 대가족이 함께 여행하는 것보다 더 높은 가능성을 보여준다

### Correlation Between The Features 변수들 간 상관관계

In [None]:
sns.heatmap(data.corr(), annot=True, cmap='RdYlGn', linewidths=0.2) #data.corr() ---> correlation matrix
fig = plt.gcf()
fig.set_size_inches(10, 8)
plt.show()

#### Interpreting The Heatmap
히트맵 해석

The first thing to note is that only the numeric features are compared as it is obvious that we cannot correlate between alphabets or strings. Before understanding the plot, let us see what exactly correlation is.
첫번째로 주목할 점은 알파벳이나 문자열의 상관관계가 분명하지 않기 때문에 숫자적인 특징만 비교한다는 것. 그림을 이해하기 전에 정확한 상관관계가 무엇인지 알아보자

POSITIVE CORRELATION: If an increase in feature A leads to increase in feature B, then they are positively correlated. A value 1 means perfect positive correlation.
양의 상관관계 : A의 증가가 피쳐 B의 증가로 이어지면 둘은 양의 상관관계, 1은 완벽한 양의 상관관계를 의미한다

NEGATIVE CORRELATION: If an increase in feature A leads to decrease in feature B, then they are negatively correlated. A value -1 means perfect negative correlation.
음의 상관관계 : A B가 서로 감소로 이어지면 음의 상관관계, -1은 완벽한 음의 상관관계

Now lets say that two features are highly or perfectly correlated, so the increase in one leads to increase in the other. This means that both the features are containing highly similar information and there is very little or no variance in information. This is known as MultiColinearity as both of them contains almost the same information.
이제 두 기능이 완벽하게 상관되어 있으므로 하나가 증가하면 다른 하나도 증가한다고 가정해보자. 두 특징 모두 매우 유사한 정보를 포함하고 있으며 정보의 편차가 거의 없다. 두 가지 모두 거의 동일한 정보를 가지고 있기 때문에 이를 multicolinarity라고 한다

So do you think we should use both of them as one of them is redundant. While making or training models, we should try to eliminate redundant features as it reduces training time and many such advantages.
둘이 중복되는데 둘 다 사용해야 할까? 모델을 만들거나 훈련시키기 위해 우리는 중복 기능을 제거해야 한다. 훈련 시간을 줄이기 위해

Now from the above heatmap,we can see that the features are not much correlated. The highest correlation is between SibSp and Parch i.e 0.41. So we can carry on with all features.
위의 그래프를 통해 우리는 특징들이 크게 상관성이 없다는 것을 알 수 있다. 가장 높은 상관관계는 sibsp와 parch. 0.41이다. 그래서 우리는 모든 특성을 사용할 수 있다

## Part2: Feature Engineering and Data Cleaning
피쳐 엔지니어링 및 데이터 정리

Now what is feature engineering ?
피쳐 엔지니어링이 무엇일까?

Whenever we are given a dataset with features, it is not necessary that all the features will be important. There maybe be many redundant features which should be eliminated. Also we can get or add new features by observing or extracting information from other features.
여러 피쳐가 있는 데이터셋이 주어졌을 때, 언제나 모든 특성이 중요한것은 아니다. 제거해야할 중복 특성이 있을 수 있다. 또한 우리는 다른 특징에서 얻은 정보를 통해 새로운 특징을 얻거나 추가할 수 있다.

An example would be getting the Initals feature using the Name Feature. Lets see if we can get any new features and eliminate a few. Also we will tranform the existing relevant features to suitable form for Predictive Modeling. 
예를 들어 이름 피쳐에서 이니셜 피쳐를 만들수 있다. 몇가지 새로운 특성을 추가하고 몇가지 기능을 제거할 수 있을지 살펴보자. 기존 피쳐 또한 모델링에 적합한 형태로 변환하자

### Age_band

Problem With Age Feature:
As I have mentioned earlier that Age is a continous feature, there is a problem with Continous Variables in Machine Learning Models.
나이 특성의 문제 : 앞서 말했듯이 나이는 연속형 피쳐다. 머신러닝 모델에서 연속형 변수는 문제가 있음

Eg:If I say to group or arrange Sports Person by Sex, We can easily segregate them by Male and Female.
예 : 스포츠인을 성별에 따라 분류하거나 배열하라고 하면 쉽게 남녀로 구분할 수 있다.

Now if I say to group them by their Age, then how would you do it? If there are 30 Persons, there may be 30 age values. Now this is problematic.
만약 그들을 시대별로 분류해야 한다면, 어떻게 할것인가? 그들이 30대라면, 연령 값은 30명이 될 수 있다. 이게 문제

We need to convert these continous values into categorical values by either Binning or Normalisation. I will be using binning i.e group a range of ages into a single bin or assign them a single value.
우리는 이런 연속형을 범주형으로 변환해야한다 비닝 또는 정규화를 통해 다양한 연령을 단일 빈으로 그룹하거나 값을 할당한다

Okay so the maximum age of a passenger was 80. So lets divide the range from 0-80 into 5 bins. So 80/5=16. So bins of size 16.
최대 연령은 80세니까 0-80의 범위를 5개로 나누자. 16 사이즈의 빈

In [None]:
data['Age_band'] = 0
data.loc[data['Age']<=16, 'Age_band']=0
data.loc[(data['Age']>16)&(data['Age']<=32), 'Age_band']=1
data.loc[(data['Age']>32)&(data['Age']<=48), 'Age_band']=2
data.loc[(data['Age']>48)&(data['Age']<=64), 'Age_band']=3
data.loc[data['Age']>64, 'Age_band']=4
data.head(2)

In [None]:
data['Age_band'].value_counts().to_frame().style.background_gradient(cmap='summer')
# Checking the number of passengers in each band

In [None]:
sns.factorplot('Age_band', 'Survived', data=data, col='Pclass')
plt.show()

true that.. the survival rate decrease as the age increases irrespective of the Pclass.
생존율은 피클래스에 관계없이 나이가 증가함에 따라 감소한다

### Family_Size and Alone

At this point, we can create a new feature called "Family_size" and "Alone" and analyse it. This feature is the summation of Parch and SibSp. It gives us a combined data so that we can check if survival rate have anything to do with family size of the passengers. Alone will denote whether a passenger is alone or not
이 시점에서, 패밀리 사이즈와 얼론 이라는 새로운 피쳐를 만들어보자. 이 특성은 parch 와 sibsp의 합이다. 생존율이 가족 규모와 관련이 있는지 확인할 수 있도록 결합된 데이터 제공. 얼론은 혼자인지 아닌지 알수 있다. 

In [None]:
data['Family_Size'] = 0
data['Family_Size'] = data['Parch']+data['SibSp'] #family size
data['Alone'] = 0
data.loc[data.Family_Size==0, 'Alone']=1 #Alone

f, ax = plt.subplots(1,2, figsize=(18, 6))
sns.pointplot('Family_Size', 'Survived', data=data, ax=ax[0])
ax[0].set_title('Family_size vs Survived')
sns.pointplot('Alone', 'Survived', data=data, ax=ax[1])
ax[1].set_title('Alone vs Survived')
plt.close(2)
plt.close(3)
plt.show()

Family_Size=0 means that the passeneger is alone. Clearly, if you are alone or family_size=0,then chances for survival is very low. For family size > 4,the chances decrease too. This also looks to be an important feature for the model. Lets examine this further.
패밀리 사이즈=0은 승객이 혼자라는 것을 의미. 그럴 경우 생존 가능성이 매우 낮다. 가족수가 4보다 크면 생존 기회가 줄어든다. 이것은 모델에 중요한 특성이 될 것으로 보인다. 더 검토해보자

In [None]:
sns.factorplot('Alone', 'Survived', data=data, hue='Sex', col='Pclass')

It is visible that being alone is harmful irrespective of Sex or Pclass except for Pclass3 where the chances of females who are alone is high than those with family.
가족이 있는 여성보다 혼자 있을 확률이 높은 피클래스3을 제외하면 성별과 피클래스를 불문하고 혼자있는것이 유해하다는 것이 눈에 띔

### Fare_Range 요금범위

Since fare is also a continous feature, we need to convert it into ordinal value. For this we will use pandas.qcut.
요금 또한 연속적 특성이기 때문에, 우리는 순서형으로 변환해야 한다. 이걸위해 판다스의 큐컷을 사용할 것이다

So what qcut does is it splits or arranges the values according the number of bins we have passed. So if we pass for 5 bins, it will arrange the values equally spaced into 5 seperate bins or value ranges.
큐컷은 우리가 통과한 빈의 수에 따라 값을 분할하거나 배열한다. 따라서 5개의 빈을 통과하면 값이 5개의 개별 빈 또는 값 범위로 균등하게 배열된다

In [None]:
data['Fare_Range']=pd.qcut(data['Fare'],4)
data.groupby(['Fare_Range'])['Survived'].mean().to_frame().style.background_gradient(cmap='summer_r')

As discussed above, we can clearly see that as the fare_range increases, the chances of survival increases.
위에서 말했듯이, 우리는 요금범위가 높아질수록 생존 가능성이 높다는 것을 알 수 있다.

Now we cannot pass the Fare_Range values as it is. We should convert it into singleton values same as we did in Age_Band
현재로서는 요금 범위값을 전달할수 없다. 우리는 그것을 에이지밴드 처럼 싱글톤 값으로 변환해야한다

In [None]:
data['Fare_cat']=0
data.loc[data['Fare']<=7.91,'Fare_cat']=0
data.loc[(data['Fare']>7.91)&(data['Fare']<=14.454),'Fare_cat']=1
data.loc[(data['Fare']>14.454)&(data['Fare']<=31),'Fare_cat']=2
data.loc[(data['Fare']>31)&(data['Fare']<=513),'Fare_cat']=3

In [None]:
sns.factorplot('Fare_cat','Survived',data=data,hue='Sex')
plt.show()

Clearly, as the Fare_cat increases, the survival chances increases. This feature may become an important feature during modeling along with the Sex.
분명히, farecat이 증가할수록 생존율이 높아진다. 이 특성은 성별과 함께 중요한 특징이 된다

### Converting String Values into Numeric
since we cannot pass strings to a machine learning model, we need to convert features loke Sex, Embarked, etc into numeric values.
문자열 값을 숫자로 변환

머신러닝 모델에 문자열을 전달할 수 없기 때문에, 성별, 탑승처럼 숫자값으로 변환해야한다

In [None]:
data['Sex'].replace(['male', 'female'], [0,1], inplace=True)
data['Embarked'].replace(['S','C','Q'], [0,1,2], inplace=True)
data['Initial'].replace(['Mr','Mrs','Miss','Master','Other'], [0,1,2,3,4], inplace=True)

#### Dropping UnNeeded Features 불필요한 특성 제거

Name--> We don't need name feature as it cannot be converted into any categorical value.
이름 = 우리는 어떤 범주형 값으로 변환할 수가 없기 때문에 필요없다

Age--> We have the Age_band feature, so no need of this.
나이 = 우리는 에이지밴드가 있으니까. 필요없다

Ticket--> It is any random string that cannot be categorised.
표 = 이것은 랜덤한 문자기 때문에 범주화할수가 없음

Fare--> We have the Fare_cat feature, so unneeded
요금 = 우리는 farecat특성이 있으니까 필요없다

Cabin--> A lot of NaN values and also many passengers have multiple cabins. So this is a useless feature.
카빈 = nan값이 넘 많다. 필요없는 특성

Fare_Range--> We have the fare_cat feature.
페어 레인지 = farecat이 있어서 필요없음

PassengerId--> Cannot be categorised.
승객 id = 범주화할수 없음

In [None]:
data.drop(['Name','Age','Ticket','Fare','Cabin','Fare_Range','PassengerId'],axis=1,inplace=True)
sns.heatmap(data.corr(),annot=True,cmap='RdYlGn',linewidths=0.2,annot_kws={'size':20})
fig=plt.gcf()
fig.set_size_inches(18,15)
plt.xticks(fontsize=14)
plt.yticks(fontsize=14)
plt.show()

Now the above correlation plot, we can see some positively related features. Some of them being SibSp andd Family_Size and Parch and Family_Size and some negative ones like Alone and Family_Size.
위의 상관관계도를 보면, 양의 관계를 가진 몇가지 특성을 알 수 있다. 일부는 sibsp family size이고 일부는 parch familysize다. alone과 familysize와 같은 부정적인 것이다.


## Part3: Predictive Modeling 모델링

We have gained some insights from the EDA part. But with that, we cannot accurately predict or tell whether a passenger will survive or die. So now we will predict the whether the Passenger will survive or not using some great Classification Algorithms.Following are the algorithms I will use to make the model:
우리는 eda를 통해 몇가지 인사이트를 얻었다. 하지만 그것으로는 승객이 생존할지 여부를 정확하게 예측할 수 없다. 이제 우리는 알고리즘을 통해 승객의 생존여부를 예측해보겠다. 모델을 만들기 위한 알고리즘은 다음과 같다

1)Logistic Regression

2)Support Vector Machines(Linear and radial)

3)Random Forest

4)K-Nearest Neighbours

5)Naive Bayes

6)Decision Tree

7)Logistic Regression

In [None]:
#importing all the required ML packages
from sklearn.linear_model import LogisticRegression #logistic regression
from sklearn import svm #support vector Machine
from sklearn.ensemble import RandomForestClassifier #Random Forest
from sklearn.neighbors import KNeighborsClassifier #KNN
from sklearn.naive_bayes import GaussianNB #Naive bayes
from sklearn.tree import DecisionTreeClassifier #Decision Tree
from sklearn.model_selection import train_test_split #training and testing data split
from sklearn import metrics #accuracy measure
from sklearn.metrics import confusion_matrix #for confusion matrix

In [None]:
train,test=train_test_split(data,test_size=0.3,random_state=0,stratify=data['Survived'])
train_X=train[train.columns[1:]]
train_Y=train[train.columns[:1]]
test_X=test[test.columns[1:]]
test_Y=test[test.columns[:1]]
X=data[data.columns[1:]]
Y=data['Survived']

In [None]:
print(train_X.head(10))

#### Radial Support Vector Machines(rbf_SVM)

In [None]:
model=svm.SVC(kernel='rbf',C=1,gamma=0.1)
model.fit(train_X,train_Y)
prediction1=model.predict(test_X)
print('Accuracy for rbf SVM is ',metrics.accuracy_score(prediction1,test_Y))

#### Linear Support Vector Machine(linear-SVM)


In [None]:
model=svm.SVC(kernel='linear',C=0.1,gamma=0.1)
model.fit(train_X,train_Y)
prediction2=model.predict(test_X)
print('Accuracy for linear SVM is',metrics.accuracy_score(prediction2,test_Y))

#### Logistic Regression


In [None]:
model = LogisticRegression()
model.fit(train_X,train_Y)
prediction3=model.predict(test_X)
print('The accuracy of the Logistic Regression is',metrics.accuracy_score(prediction3,test_Y))

#### Decision Tree

In [None]:
model=DecisionTreeClassifier()
model.fit(train_X,train_Y)
prediction4=model.predict(test_X)
print('The accuracy of the Decision Tree is',metrics.accuracy_score(prediction4,test_Y))

#### K-Nearest Neighbours(KNN)

In [None]:
model=KNeighborsClassifier() 
model.fit(train_X,train_Y)
prediction5=model.predict(test_X)
print('The accuracy of the KNN is',metrics.accuracy_score(prediction5,test_Y))

Now the accuracy for the KNN model changes as we change the values for n_neighbours attribute. The default value is 5. Lets check the accuracies over various values of n_neighbours.
knn이웃 속성값을 변경하면 knn모델의 정확도가 변경된다. 기본값은 5다. knn의 다양한 값에 대한 정확도를 확인하겠다.

In [None]:
a_index=list(range(1,11))
a=pd.Series()
x=[0,1,2,3,4,5,6,7,8,9,10]
for i in list(range(1,11)):
    model=KNeighborsClassifier(n_neighbors=i) 
    model.fit(train_X,train_Y)
    prediction=model.predict(test_X)
    a=a.append(pd.Series(metrics.accuracy_score(prediction,test_Y)))
plt.plot(a_index, a)
plt.xticks(x)
fig=plt.gcf()
fig.set_size_inches(12,6)
plt.show()
print('Accuracies for different values of n are:',a.values,'with the max value as ',a.values.max())

#### Gaussian Naive Bayes


In [None]:
model=GaussianNB()
model.fit(train_X,train_Y)
prediction6=model.predict(test_X)
print('The accuracy of the NaiveBayes is',metrics.accuracy_score(prediction6,test_Y))

#### Random Forests

In [None]:
model=RandomForestClassifier(n_estimators=100)
model.fit(train_X,train_Y)
prediction7=model.predict(test_X)
print('The accuracy of the Random Forests is',metrics.accuracy_score(prediction7,test_Y))

he accuracy of a model is not the only factor that determines the robustness of the classifier. Let's say that a classifier is trained over a training data and tested over the test data and it scores an accuracy of 90%.
모형의 정확성만이 분류기의 견고함을 결정하는 유일한 요인은 아니다. 분류기가 훈련 데이터에 의해 훈련되고 테스트 데이터에 대해 테스트되며 90퍼의 정확도를 기록한다고 생각해보자

Now this seems to be very good accuracy for a classifier, but can we confirm that it will be 90% for all the new test sets that come over??. The answer is No, because we can't determine which all instances will the classifier will use to train itself. As the training and testing data changes, the accuracy will also change. It may increase or decrease. This is known as model variance.
매우 정확한 분류기처럼 보이지만, 새로 나오는 모든 테스트세트에 대해 90퍼가 될 수 있는지 확인할 수 있을까? 아니다. 그 이유는 분류기가 자신을 훈련시키기 위해 어떤 인스턴스를 사용할지 결정할 수 없기 때문이다. 훈련과 테스트데이터가 바뀌면 정확도도 달라질것.. 증가하거나 감소할 수 있는데 이를 모델 분산? 이라고 한다.

To overcome this and get a generalized model,we use Cross Validation.
이것의 극복과 일반화된 모델을 얻기 위해 교차검증을 사용한다

#### Cross Validation

Many a times, the data is imbalanced, i.e there may be a high number of class1 instances but less number of other class instances. Thus we should train and test our algorithm on each and every instance of the dataset. Then we can take an average of all the noted accuracies over the dataset.
데이터가 불균형한 경우가 많다. 즉 클래스1의 인스턴스 수는 많지만 다른 클래스의 인스턴스 수는 적을 수 있음. 따라서 데이터 셋의 각 인스턴스에서 알고리즘을 교육하고 테스트해야 한다. 그런 다음 데이터 세트의 모든 정확도의 평균을 구할 수 있다.

1) The K-Fold Cross Validation works by first dividing the dataset into k-subsets.
케이 폴드 교차검증은 먼저 데이터 집합을 k하위 집합으로 나누는 방식으로 작동한다

2) Let's say we divide the dataset into (k=5) parts. We reserve 1 part for testing and train the algorithm over the 4 parts.
데이터 세트를 5개로 나눈다고 가정하면. 우리는 테스트를 위해 1개의 파트를 예약하고 4개 파트에 걸쳐 알고리즘을 훈련한다

3) We continue the process by changing the testing part in each iteration and training the algorithm over the other parts. The accuracies and errors are then averaged to get a average accuracy of the algorithm.
각 반복에서 테스트 부분을 변경하고 다른 부분에 대해 알고리즘을 훈련하는 과정을 진행한다. 그런 다음 알고리즘의 평균 정확도를 얻기 위해 정확도와 오류를 평균화한다

This is called K-Fold Cross Validation.
이걸 케이폴드 교차검증이라고 함

4) An algorithm may underfit over a dataset for some training data and sometimes also overfit the data for other training set. Thus with cross-validation, we can achieve a generalised model.
알고리즘은 일부 훈련 데이터에 대해 데이터 세트를 과소 적합시킬 수 있으며 때로는 과대적합시킬 수 있다. 따라서 교차 검증을 통해 우리는 일반화된 모델을 만들 수 있다

In [None]:
from sklearn.model_selection import KFold #for K-fold cross validation
from sklearn.model_selection import cross_val_score #score evaluation
from sklearn.model_selection import cross_val_predict #prediction
kfold = KFold(n_splits=10, random_state=22) # k=10, split the data into 10 equal parts
xyz=[]
accuracy=[]
std=[]
classifiers=['Linear Svm','Radial Svm','Logistic Regression','KNN','Decision Tree','Naive Bayes','Random Forest']
models=[svm.SVC(kernel='linear'),svm.SVC(kernel='rbf'),LogisticRegression(),KNeighborsClassifier(n_neighbors=9),DecisionTreeClassifier(),GaussianNB(),RandomForestClassifier(n_estimators=100)]
for i in models:
    model = i
    cv_result = cross_val_score(model,X,Y, cv = kfold,scoring = "accuracy")
    cv_result=cv_result
    xyz.append(cv_result.mean())
    std.append(cv_result.std())
    accuracy.append(cv_result)
new_models_dataframe2=pd.DataFrame({'CV Mean':xyz,'Std':std},index=classifiers)       
new_models_dataframe2

In [None]:
plt.subplots(figsize=(12,6))
box=pd.DataFrame(accuracy,index=[classifiers])
box.T.boxplot()

In [None]:
new_models_dataframe2['CV Mean'].plot.barh(width=0.8)
plt.title('Average CV Mean Accuracy')
fig=plt.gcf()
fig.set_size_inches(8,5)
plt.show()

The classification accuracy can be sometimes misleading due to imbalance. We can get a summarized result with the help of confusion matrix, which shows where did the model go wrong, or which class did the model predict wrong.
정확도는 때때로 불균형으로 인해 잘못될 수 있다. 우리는 컨퓨전 매트릭스를 통해 요약된 결과를 얻을 수 있다. 모델이 어디서 잘못됐는지, 어떤 클래스가 잘못 예측했는지 보여준다

#### Confusion Matrix

It gives the number of correct and incorrect classifications made by the classifier.
분류기에 의해 생성된 정확한 분류와 부정확한 분류의 수를 제공한다

In [None]:
f,ax=plt.subplots(3,3,figsize=(12,10))
y_pred = cross_val_predict(svm.SVC(kernel='rbf'),X,Y,cv=10)
sns.heatmap(confusion_matrix(Y,y_pred),ax=ax[0,0],annot=True,fmt='2.0f')
ax[0,0].set_title('Matrix for rbf-SVM')
y_pred = cross_val_predict(svm.SVC(kernel='linear'),X,Y,cv=10)
sns.heatmap(confusion_matrix(Y,y_pred),ax=ax[0,1],annot=True,fmt='2.0f')
ax[0,1].set_title('Matrix for Linear-SVM')
y_pred = cross_val_predict(KNeighborsClassifier(n_neighbors=9),X,Y,cv=10)
sns.heatmap(confusion_matrix(Y,y_pred),ax=ax[0,2],annot=True,fmt='2.0f')
ax[0,2].set_title('Matrix for KNN')
y_pred = cross_val_predict(RandomForestClassifier(n_estimators=100),X,Y,cv=10)
sns.heatmap(confusion_matrix(Y,y_pred),ax=ax[1,0],annot=True,fmt='2.0f')
ax[1,0].set_title('Matrix for Random-Forests')
y_pred = cross_val_predict(LogisticRegression(),X,Y,cv=10)
sns.heatmap(confusion_matrix(Y,y_pred),ax=ax[1,1],annot=True,fmt='2.0f')
ax[1,1].set_title('Matrix for Logistic Regression')
y_pred = cross_val_predict(DecisionTreeClassifier(),X,Y,cv=10)
sns.heatmap(confusion_matrix(Y,y_pred),ax=ax[1,2],annot=True,fmt='2.0f')
ax[1,2].set_title('Matrix for Decision Tree')
y_pred = cross_val_predict(GaussianNB(),X,Y,cv=10)
sns.heatmap(confusion_matrix(Y,y_pred),ax=ax[2,0],annot=True,fmt='2.0f')
ax[2,0].set_title('Matrix for Naive Bayes')
plt.subplots_adjust(hspace=0.2,wspace=0.2)
plt.show()

#### Interpreting Confusion Matrix
해석

The left diagonal shows the number of correct predictions made for each class while the right diagonal shows the number of wrong prredictions made. Lets consider the first plot for rbf-SVM:
왼쪽 대각선은 각 클래스에 의해 수행된 올바른 예측의 수, 오른쪽 대각선은 잘못된 예측의 수를 나타낸다. rbfsvm에 대한 첫번째 플롯을 보자

1) The no. of correct predictions are 491(for dead) + 247(for survived) with the mean CV accuracy being (491+247)/891 = 82.8% which we did get earlier.
정확한 예측의 수는 491(사망한 경우) + 247(생존한 경우)이며, 평균 정확도는 491+247 나누기 891 = 82.8

2) Errors--> Wrongly Classified 58 dead people as survived and 95 survived as dead. Thus it has made more mistakes by predicting dead as survived.
오류 = 58의 사망자를 생존자로 잘못 분류, 95명은 사망자로 분류함. 그러므로 살아남은 것으로 죽은 것을 예측했기 때문에 더 많은 실수를 했다

By looking at all the matrices, we can say that rbf-SVM has a higher chance in correctly predicting dead passengers but NaiveBayes has a higher chance in correctly predicting passengers who survived.
모든 행렬을 보면 죽은 승객을 정확하게 예측할 확률이 높지만 나이브베이즈는 살아남은 승객을 정확하게 예측할 확률이 높다고 할수있다

#### Hyper-Parameters Tuning 

The machine learning models are like a Black-Box. There are some default parameter values for this Black-Box, which we can tune or change to get a better model. Like the C and gamma in the SVM model and similarly different parameters for different classifiers, are called the hyper-parameters, which we can tune to change the learning rate of the algorithm and get a better model. This is known as Hyper-Parameter Tuning.
머신러닝 모델은 블랙박스와 같다. 이 블랙박스에는 몇가지 기본 매개변수 값이 있으며 더 나은 모델을 위해 조정하거나 변경할 수 있다. svm모델의 c감마처럼 그리고 서로 다른 분류기에 대해 비슷하게 다른 매개변수를 하이퍼 파라미터라고 하며 이를 조정해서 알고리즘의 학습속도를 변경하고 더 나은 모델을 얻을 수 있다. 이걸 하이퍼파라미터튜닝이라 한다

We will tune the hyper-parameters for the 2 best classifiers i.e the SVM and RandomForests.
svm과 랜덤포레스트 등 젤 괜찮은 2개의 분류기에 대해 하이퍼 매개변수를 조정한다

#### SVM

In [None]:
from sklearn.model_selection import GridSearchCV
C=[0.05,0.1,0.2,0.3,0.25,0.4,0.5,0.6,0.7,0.8,0.9,1]
gamma=[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0]
kernel=['rbf','linear']
hyper={'kernel':kernel,'C':C,'gamma':gamma}
gd=GridSearchCV(estimator=svm.SVC(),param_grid=hyper,verbose=True)
gd.fit(X,Y)
print(gd.best_score_)
print(gd.best_estimator_)

#### Random Forests

In [None]:
n_estimators=range(100,1000,100)
hyper={'n_estimators':n_estimators}
gd=GridSearchCV(estimator=RandomForestClassifier(random_state=0),param_grid=hyper,verbose=True)
gd.fit(X,Y)
print(gd.best_score_)
print(gd.best_estimator_)

The best score for Rbf-Svm is 82.82% with C=0.05 and gamma=0.1. For RandomForest, score is abt 81.8% with n_estimators=900.
rbf-svm의 최고 점수로는 82.82로 C=0.05, 감마 = 0.1이다. 랜덤포레스트의 경우 점수는 81.8로 n_estimator=900이다

### Ensembling 앙상블

Ensembling is a good way to increase the accuracy or performance of a model. In simple words, it is the combination of various simple models to create a single powerful model.
앙상블은 모델의 정확성 또는 성능을 높이는 좋은 방법. 간단히 말해 그것은 다양한 간단한 모델들이 결합해 하나의 강력한 모델을 만드는 것

Lets say we want to buy a phone and ask many people about it based on various parameters. So then we can make a strong judgement about a single product after analysing all different parameters. This is Ensembling, which improves the stability of the model. Ensembling can be done in ways like:
우리가 핸드폰을 구매하고 싶고 다양한 매개 변수들을 바탕으로 많은 사람들에게 문의해보자. 그러면 서로 다른 모든 변수를 분석한 후 단일 제품에 대해 강력한 판단을 내릴 수 있다. 이것은 모델의 안정성을 높여주는 앙상블링.. 다음과 같은 방법이 있다

1) Voting Classifier

2) Bagging

3) Boosting

#### Voting Classifier
Voting Classifier
It is the simplest way of combining predictions from many different simple machine learning models. It gives an average prediction result based on the prediction of all the submodels. The submodels or the basemodels are all of diiferent types.
이것은 많은 머신러닝 모델의 예측을 결합하는 가장 간단한 방법. 모든 서브모델의 예측에 기초한 평균 예측 결과를 제공한다. 서브모델이나 베이즈 모델은 모두 다양한 종류다

In [None]:
from sklearn.ensemble import VotingClassifier
ensemble_lin_rbf=VotingClassifier(estimators=[('KNN',KNeighborsClassifier(n_neighbors=10)),
                                              ('RBF',svm.SVC(probability=True,kernel='rbf',C=0.5,gamma=0.1)),
                                              ('RFor',RandomForestClassifier(n_estimators=500,random_state=0)),
                                              ('LR',LogisticRegression(C=0.05)),
                                              ('DT',DecisionTreeClassifier(random_state=0)),
                                              ('NB',GaussianNB()),
                                              ('svm',svm.SVC(kernel='linear',probability=True))
                                             ], 
                       voting='soft').fit(train_X,train_Y)
print('The accuracy for ensembled model is:',ensemble_lin_rbf.score(test_X,test_Y))
cross=cross_val_score(ensemble_lin_rbf,X,Y, cv = 10,scoring = "accuracy")
print('The cross validated score is',cross.mean())

### Bagging
Bagging is a general ensemble method. It works by applying similar classifiers on small partitions of the dataset and then taking the average of all the predictions. Due to the averaging,there is reduction in variance. Unlike Voting Classifier, Bagging makes use of similar classifiers.
배깅은 일반적인 앙상블 방식이다. 데이터 세트의 작은 파티션에 유사한 분류기를 적용한 다음 모든 예측의 평균을 구하는 방식으로 작동한다. 평균화로 인해 분산이 감소한다. 투표 분류기와 달리 배깅은 유사한 분류기를 사용

#### Bagged KNN
Bagging works best with models with high variance. An example for this can be Decision Tree or Random Forests. We can use KNN with small value of n_neighbours, as small value of n_neighbours.
배깅은 분산이 높은 모형에서 가장 잘 작동한다. 이러한 예로 의사결정트리 또는 랜덤포레스트가 있다. 작은 k값으로 사용가능

In [None]:
from sklearn.ensemble import BaggingClassifier
model=BaggingClassifier(base_estimator=KNeighborsClassifier(n_neighbors=3),random_state=0,n_estimators=700)
model.fit(train_X,train_Y)
prediction=model.predict(test_X)
print('The accuracy for bagged KNN is:',metrics.accuracy_score(prediction,test_Y))
result=cross_val_score(model,X,Y,cv=10,scoring='accuracy')
print('The cross validated score for bagged KNN is:',result.mean())

#### Bagged DecisionTree

In [None]:
model=BaggingClassifier(base_estimator=DecisionTreeClassifier(),random_state=0,n_estimators=100)
model.fit(train_X,train_Y)
prediction=model.predict(test_X)
print('The accuracy for bagged Decision Tree is:',metrics.accuracy_score(prediction,test_Y))
result=cross_val_score(model,X,Y,cv=10,scoring='accuracy')
print('The cross validated score for bagged Decision Tree is:',result.mean())

### Boosting
Boosting is an ensembling technique which uses sequential learning of classifiers. It is a step by step enhancement of a weak model.Boosting works as follows:
부스팅은 분류기의 순차적 학습을 사용하는 앙상블 기법. 약한 모델의 단계적 향상이다. 

A model is first trained on the complete dataset. Now the model will get some instances right while some wrong. Now in the next iteration, the learner will focus more on the wrongly predicted instances or give more weight to it. Thus it will try to predict the wrong instance correctly. Now this iterative process continous, and new classifers are added to the model until the limit is reached on the accuracy.
모델은 먼저 전체 데이터세트에 대해 교육된다. 이제 모델은 어떤 예는 맞고 다른건 틀릴것이다. 이제 다음 반복에서 잘못 예측된 인스턴스에 더 집중하거나 더 많은 비중을 둔다. 따라서 잘못된 인스턴스를 정확하게 예측하려고 한다. 이 과정은 연속적이고 정확도의 한계에 도달할 때까지 새로운 분류기가 모델에 추가된다.

#### AdaBoost(Adaptive Boosting)
The weak learner or estimator in this case is a Decsion Tree. But we can change the dafault base_estimator to any algorithm of our choice.
이 약한 학습기 또는 예측기는 디시젼 트리. 하지만 우리는 디폴트값을 우리가 선택한 어떤 알고리즘으로도 변경할 수  있다 ...?? 먼솔

In [None]:
from sklearn.ensemble import AdaBoostClassifier
ada=AdaBoostClassifier(n_estimators=200,random_state=0,learning_rate=0.1)
result=cross_val_score(ada,X,Y,cv=10,scoring='accuracy')
print('The cross validated score for AdaBoost is:',result.mean())

#### Stochastic Gradient Boosting
Here too the weak learner is a Decision Tree.

In [None]:
from sklearn.ensemble import GradientBoostingClassifier
grad=GradientBoostingClassifier(n_estimators=500,random_state=0,learning_rate=0.1)
result=cross_val_score(grad,X,Y,cv=10,scoring='accuracy')
print('The cross validated score for Gradient Boosting is:',result.mean())

#### XGBoost

In [None]:
import xgboost as xg
xg.set_config(verbosity=0) # 오류
xgboost=xg.XGBClassifier(n_estimators=900,learning_rate=0.1)
result=cross_val_score(xgboost,X,Y,cv=10,scoring='accuracy')
print('The cross validated score for XGBoost is:',result.mean())

We got the highest accuracy for AdaBoost. We will try to increase it with Hyper-Parameter Tuning
우리는 adaboost의 정확도를 제일 높였다. 하이퍼 파라미터 튜닝으로 늘려보자


#### Hyper-Parameter Tuning for AdaBoost

In [None]:
n_estimators=list(range(100,1100,100))
learn_rate=[0.05,0.1,0.2,0.3,0.25,0.4,0.5,0.6,0.7,0.8,0.9,1]
hyper={'n_estimators':n_estimators,'learning_rate':learn_rate}
gd=GridSearchCV(estimator=AdaBoostClassifier(),param_grid=hyper,verbose=True)
gd.fit(X,Y)
print(gd.best_score_)
print(gd.best_estimator_)

The maximum accuracy we can get with AdaBoost is 83.16% with n_estimators=200 and learning_rate=0.05

#### Confusion Matrix for the Best Model

In [None]:
ada=AdaBoostClassifier(n_estimators=200,random_state=0,learning_rate=0.05)
result=cross_val_predict(ada,X,Y,cv=10)
sns.heatmap(confusion_matrix(Y,result),cmap='winter',annot=True,fmt='2.0f')
plt.show()

### Feature Importance

In [None]:
f,ax=plt.subplots(2,2,figsize=(15,12))
model=RandomForestClassifier(n_estimators=500,random_state=0)
model.fit(X,Y)
pd.Series(model.feature_importances_,X.columns).sort_values(ascending=True).plot.barh(width=0.8,ax=ax[0,0])
ax[0,0].set_title('Feature Importance in Random Forests')
model=AdaBoostClassifier(n_estimators=200,learning_rate=0.05,random_state=0)
model.fit(X,Y)
pd.Series(model.feature_importances_,X.columns).sort_values(ascending=True).plot.barh(width=0.8,ax=ax[0,1],color='#ddff11')
ax[0,1].set_title('Feature Importance in AdaBoost')
model=GradientBoostingClassifier(n_estimators=500,learning_rate=0.1,random_state=0)
model.fit(X,Y)
pd.Series(model.feature_importances_,X.columns).sort_values(ascending=True).plot.barh(width=0.8,ax=ax[1,0],cmap='RdYlGn_r')
ax[1,0].set_title('Feature Importance in Gradient Boosting')
model=xg.XGBClassifier(n_estimators=900,learning_rate=0.1)
model.fit(X,Y)
pd.Series(model.feature_importances_,X.columns).sort_values(ascending=True).plot.barh(width=0.8,ax=ax[1,1],color='#FD0F00')
ax[1,1].set_title('Feature Importance in XgBoost')
plt.show()

We can see the important features for various classifiers like RandomForests, AdaBoost,etc.
랜덤포레스트, adaboost등 다양한 분류기의 중요한 특징을 볼 수 있다


#### Observations:
1) Some of the common important features are Initial,Fare_cat,Pclass,Family_Size.
일반적으로 중요한 특성으로는 이니셜, 요금카테고리, 피클래스, 가족수등이 있ㄷ

2) The Sex feature doesn't seem to give any importance, which is shocking as we had seen earlier that Sex combined with Pclass was giving a very good differentiating factor. Sex looks to be important only in RandomForests.
성별은 별다른 중요성을 부여하지 않는것처럼 보이는데, 성별과 피클래스가 결합된 것이 매우 좋은 차별화 요소를 주고 있다는 것은 충격적이다. 성별은 랜덤 포레스트에서만 중요해 보인다

However, we can see the feature Initial, which is at the top in many classifiers.We had already seen the positive correlation between Sex and Initial, so they both refer to the gender.
그러나 많은 분류기에서 맨위에 있는 특성으로 이니셜을 볼 수 있다. 우리는 이미 성별과 이니셜의 양의 상관관계를 봤기 때문에 둘 다 성별을 언급한다. 

3) Similarly the Pclass and Fare_cat refer to the status of the passengers and Family_Size with Alone,Parch and SibSp.
마찬가지로 피클래스와 요금 카테고리는 승객 및 가족수와 alone parch sibsp의 상태를 나타낸다

I hope all of you did gain some insights to Machine Learning. Some other great notebooks for Machine Learning are: 

끝 ....