## Introdução:

<p>Neste caderno meu primeiro trabalho em data science tentarei explorar, através de machine learning,  o dataset Titanic. Tentarei de forma mais clara e suscinta possível transcorrer todos os processos de análise que envolvam as técnicas necessárias para alcançar os meus objetivos. Ressalto que este é o meu primeiro trabalho público de data science e que quaisquer sugestões serão sempre bemvindas.</p>
<p>O conjunto de dados do Titanic é indispensável para o iniciante em Data Science. Ele permite que você trabalhe no aprendizado supervisionado, mais precisamente em um problema de classificação.</p>
<p>Este trabalho será  dividido em duas partes:</p>
- A primeira parte vai se concentrar na <b>análise de dados</b> e na <b>visualização de dados</b>;
- O segundo vamos ver os diferentes <b>algoritmos usados para resolver nosso problema</b>;
- Finalmente, vamos expor algumas <b>dicas para implementar um modelo melhor.</b> 

Referências:
- Trabalho realizado sobre a análise do autor: Julien Heiduk e minsuk-heo.

## Objetivos:

<p>Seguem abaixo os principais objetivos a serem atingidos neste trabalho:</p>
<p><b>1. Entendimento dos dados;</b></p>
<p>1.1 Importação de Biblioteca;</p>
<p>1.2 Visualização;</p>
<p>1.3 Carregamento de dados;</p>
<p>1.4 Identificação das variáveis;</p>
<p>1.5 Tratamento de valores em falta;</p>
<p>1.6 Análise univariada;</p>
<p>1.7 Análise bivariada.</p>

<p><b>2. Engenharia de recursos;</b></p>

<p><b>3. Escolha e afinamento de um algoritmo;</b></p>
<p>3.1 Pesquisa de algoritmo;</p>
<p>3.2 Afinamento de algoritmo;</p>
<p>3.3 Seleção de algoritmo;</p>

<p><b>4. Conclusões.</b></p>

## 1. Entendimento dos dados:

In [None]:
'''
Auto reload do Notebook Jupyter:
'''
%load_ext autoreload
%autoreload 2

In [None]:
'''
Caminho dos arquivos carregados no Notebbok Jupyter:
'''
caminho = !pwd
print("O caminho é:", caminho)

## 1.1 Importação de Bibliotecas:
## 1.2 Visualização:
## 1.3 Carregamento de dados:

In [None]:
'''
Importação de bilbiotecas:
'''

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno
from collections import OrderedDict
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

'''
Visualização:
'''

%matplotlib inline
sns.set(color_codes=True)
pal = sns.color_palette("Set2", 10)
sns.set_palette(pal)

'''
Carregamento de dados:
'''
train = pd.read_csv("../input/train.csv")
test = pd.read_csv("../input/test.csv")
TitanicTrain.columns, TitanicTrain.shape

## 1.4 Identificação das variáveis:

In [None]:
'''
Identificação de variáveis:
'''

train.info()

In [None]:
'''
Identificação de variáveis:
'''

test.info()

<p><b>Informações sobre os recursos:</b></p>
- PassengerId = número de identificação de cada passageiro;
- Survived = 0 = No, 1 = Yes - (<b>Variável Categórica</b>);
- Pclass: 1st = Upper, 2nd = Middle, 3rd = Lower - Sócio-economico status dos passageiros - (<b>Variável Categórica</b>);
- Ticket class: 1 = 1st, 2 = 2nd, 3 = 3rd  - (<b>Variável Categórica</b>);
- Sibsp: n. de irmãos / cônjuges a bordo do Titanic  - (<b>Variável Contínua</b>);
- Parch: n. de Pais / crianças a bordo do Titanic (Algumas crianças estavam viajando com a baba, Parch=0 para eles)  - (<b>Variável Contínua</b>);
- Ticket: n. do Ticket;
- Fare: Valor econômico das passagens - (<b>Variável Contínua</b>);
- Cabin: n. das Cabines;
- Embarked: Porto de embarque - C = Cherbourg, Q = Queenstown, S = Southampton - (<b>Variável Categórica</b>).

## 1.5 Tratamento de valores em falta:

<p>Como temos poucos recursos, podemos usar o pacote <b>missingno</b>, que permite exibir a integridade do conjunto de dados.</p>

<p>Parece que há muitos valores ausentes para "Age" e "Cabin" e apenas 2 para "Embarked".</p>

In [None]:
'''
Tratamento de valores em falta:
'''

msno.matrix(train)

In [None]:
'''
Tratamento de valores em falta:
'''

msno.matrix(test)

## 1.6 Análise univariada:

- Mostrar as variáções das <b>variáveis continuas</b>;
- Mostrar as contagens de observações em cada <b>variável categórica</b> usando barras;
- Separar nossos recursos em duas listas: “categ” para os recursos categóricos e “conti” para os recursos contínuos;
- As variáveis  “Age” e  “Fare” são as únicas duas características que podemos considerar como contínuas.

In [None]:
'''
Análise univariada:
'''

categ =  [ 'Pclass', 'Sex', 'SibSp', 'Parch', 'Embarked']
conti = ['Fare', 'Age']

#Distribution
fig = plt.figure(figsize=(30, 10))
for i in range (0,len(categ)):
    fig.add_subplot(3,3,i+1)
    sns.countplot(x=categ[i], data=train);  

for col in conti:
    fig.add_subplot(3,3,i + 2)
    sns.distplot(train[col].dropna());
    i += 1
    
plt.show()
fig.clear()

## 1.7 Análise biivariada:

- Os próximos gráficos mostram a repartição da sobrevivência (e não sobrevivência) para cada característica categ e conti;
- Vamos usar outros tipos de gráficos para exibir a relação entre "sobrevivência" e nossos recursos;
- Parece que há muitas “mulheres” que não sobreviveram quando analisamos o sexto gráfico;
- Com o boxplot, podemos ver que não há outliers nos recursos “age” (talvez 3-4 observações que estão fora do quadro, mas nada alarmante); 
- Quanto à correlação entre as características, podemos ver que as correlações mais fortes em absoluto com “sobrevivido” são “tarifa” e “pclass”;
- O fato de “tarifa” e “pclass” ter uma forte correlação em absoluto é consistente e mostra que a priori as pessoas de classe alta gastam mais dinheiro (para ter um lugar melhor).

In [None]:
'''
Análise bivariada:
'''

fig = plt.figure(figsize=(30, 10))
i = 1
for col in categ:
    if col != 'Survived':
        fig.add_subplot(3,3,i)
        sns.countplot(x=col, data=train,hue='Survived');
        i += 1

# Box plot survived x age
fig.add_subplot(3,3,6)
sns.swarmplot(x="Survived", y="Age", hue="Sex", data=train);
fig.add_subplot(3,3,7)
sns.boxplot(x="Survived", y="Age", data=train)

# fare and Survived
fig.add_subplot(3,3,8)
sns.violinplot(x="Survived", y="Fare", data=train)

# correlations with the new features
corr = train.drop(['PassengerId'], axis=1).corr()
mask = np.zeros_like(corr, dtype=np.bool)
mask[np.triu_indices_from(mask)] = True
cmap = sns.diverging_palette(220, 10, as_cmap=True)
fig.add_subplot(3,3,9)
sns.heatmap(corr, mask=mask, cmap=cmap, cbar_kws={"shrink": .5})
plt.show()
fig.clear()

## 2. Engenharia de recursos:

 - Vamos tratar recurso por recurso para preparar o datset para o cross validation e teste de vários algoritmos.

In [None]:
train.head()

In [None]:
test.head()

In [None]:
# Name:
train_test_data = [train, test] # combining train and test dataset

for dataset in train_test_data:
    dataset['Title'] = dataset['Name'].str.extract(' ([A-Za-z]+)\.', expand=False)
    
title_mapping = {"Mr": 0, "Miss": 1, "Mrs": 2, 
                 "Master": 3, "Dr": 3, "Rev": 3, "Col": 3, "Major": 3, "Mlle": 3,"Countess": 3,
                 "Ms": 3, "Lady": 3, "Jonkheer": 3, "Don": 3, "Dona" : 3, "Mme": 3,"Capt": 3,"Sir": 3 }
for dataset in train_test_data:
    dataset['Title'] = dataset['Title'].map(title_mapping)
    
# Deletando o campo Name dos datasets:
train.drop('Name', axis=1, inplace=True)
test.drop('Name', axis=1, inplace=True)

In [None]:
# Sex:
sex_mapping = {"male": 0, "female": 1}
for dataset in train_test_data:
    dataset['Sex'] = dataset['Sex'].map(sex_mapping)

In [None]:
# Age:
# fill missing age with median age for each title (Mr, Mrs, Miss, Others)
train["Age"].fillna(train.groupby("Title")["Age"].transform("median"), inplace=True)
test["Age"].fillna(test.groupby("Title")["Age"].transform("median"), inplace=True)

In [None]:
# Embraked:
Pclass1 = train[train['Pclass']==1]['Embarked'].value_counts()
Pclass2 = train[train['Pclass']==2]['Embarked'].value_counts()
Pclass3 = train[train['Pclass']==3]['Embarked'].value_counts()
df = pd.DataFrame([Pclass1, Pclass2, Pclass3])
for dataset in train_test_data:
    dataset['Embarked'] = dataset['Embarked'].fillna('S')
embarked_mapping = {"S": 0, "C": 1, "Q": 2}
for dataset in train_test_data:
    dataset['Embarked'] = dataset['Embarked'].map(embarked_mapping)

In [None]:
# Fare:
train["Fare"].fillna(train.groupby("Pclass")["Fare"].transform("median"), inplace=True)
test["Fare"].fillna(test.groupby("Pclass")["Fare"].transform("median"), inplace=True)
for dataset in train_test_data:
    dataset.loc[ dataset['Fare'] <= 17, 'Fare'] = 0,
    dataset.loc[(dataset['Fare'] > 17) & (dataset['Fare'] <= 30), 'Fare'] = 1,
    dataset.loc[(dataset['Fare'] > 30) & (dataset['Fare'] <= 100), 'Fare'] = 2,
    dataset.loc[ dataset['Fare'] > 100, 'Fare'] = 3

In [None]:
# Cabin:
for dataset in train_test_data:
    dataset['Cabin'] = dataset['Cabin'].str[:1]
cabin_mapping = {"A": 0, "B": 0.4, "C": 0.8, "D": 1.2, "E": 1.6, "F": 2, "G": 2.4, "T": 2.8}
for dataset in train_test_data:
    dataset['Cabin'] = dataset['Cabin'].map(cabin_mapping)
# fill missing Fare with median fare for each Pclass
train["Cabin"].fillna(train.groupby("Pclass")["Cabin"].transform("median"), inplace=True)
test["Cabin"].fillna(test.groupby("Pclass")["Cabin"].transform("median"), inplace=True)

In [None]:
# FamilySize:
train["FamilySize"] = train["SibSp"] + train["Parch"] + 1
test["FamilySize"] = test["SibSp"] + test["Parch"] + 1
#facet = sns.FacetGrid(train, hue="Survived",aspect=4)
#acet.map(sns.kdeplot,'FamilySize',shade= True)
#facet.set(xlim=(0, train['FamilySize'].max()))
family_mapping = {1: 0, 2: 0.4, 3: 0.8, 4: 1.2, 5: 1.6, 6: 2, 7: 2.4, 8: 2.8, 9: 3.2, 10: 3.6, 11: 4}
for dataset in train_test_data:
    dataset['FamilySize'] = dataset['FamilySize'].map(family_mapping)

In [None]:
# Preparações finais do dataset
features_drop = ['Ticket', 'SibSp', 'Parch']
train = train.drop(features_drop, axis=1)
test = test.drop(features_drop, axis=1)
train = train.drop(['PassengerId'], axis=1)

In [None]:
# Preparações finais do dataset
train_data = train.drop('Survived', axis=1)
train_target = train['Survived']
test_data = test.drop('PassengerId', axis=1).copy()
test_target = test['PassengerId']

train_data.shape, train_target.shape, test_data.shape, test_target.shape

In [None]:
train_data.head(10)

In [None]:
test_data.head()

## 3. Escolha e afinamento de um algoritmo:
## 3.1 Pesquisa de algoritmo:

In [None]:
# Importing Classifier Modules
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC

import numpy as np

In [None]:
train.info()

In [None]:
test.info()

Modificar startified k fold

In [None]:
# Cross Validation (K-fold)
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
k_fold = KFold(n_splits=10, shuffle=True, random_state=0)

In [None]:
# Logistic Regression
clf = LogisticRegression()
scoring = 'accuracy'
score = cross_val_score(clf, train_data, train_target, cv=k_fold, n_jobs=1, scoring=scoring)
print(score)

In [None]:
# Logistic Regression
acc_LR = round(np.mean(score)*100, 2)
acc_LR

In [None]:
# KNN
clf = KNeighborsClassifier(n_neighbors = 13)
scoring = 'accuracy'
score = cross_val_score(clf, train_data, train_target, cv=k_fold, n_jobs=1, scoring=scoring)
print(score)

In [None]:
# kNN Score
acc_KNN = round(np.mean(score)*100, 2)
acc_KNN

In [None]:
# Decision Tree
clf = DecisionTreeClassifier()
scoring = 'accuracy'
score = cross_val_score(clf, train_data, train_target, cv=k_fold, n_jobs=1, scoring=scoring)
print(score)

In [None]:
# Decision Tree Score
acc_DecisionTree = round(np.mean(score)*100, 2)
acc_DecisionTree

In [None]:
# Ramdom Forest
clf = RandomForestClassifier(n_estimators=13)
scoring = 'accuracy'
score = cross_val_score(clf, train_data, train_target, cv=k_fold, n_jobs=1, scoring=scoring)
print(score)

In [None]:
# Random Forest Score
acc_RamdomForest = round(np.mean(score)*100, 2)
acc_RamdomForest

In [None]:
# Naive Bayes
clf = GaussianNB()
scoring = 'accuracy'
score = cross_val_score(clf, train_data, train_target, cv=k_fold, n_jobs=1, scoring=scoring)
print(score)

In [None]:
#Naive Bayes Score
acc_NaiveBayes = round(np.mean(score)*100, 2)
acc_NaiveBayes

In [None]:
# SVM
import warnings
warnings.filterwarnings(action='ignore')
clf = SVC()
scoring = 'accuracy'
score = cross_val_score(clf, train_data, train_target, cv=k_fold, n_jobs=1, scoring=scoring)
print(score)

In [None]:
acc_SVM = round(np.mean(score)*100,2)
acc_SVM

In [None]:
'''
Resumo da Pesquisa de algoritmo:
'''

models = pd.DataFrame({
    'Model': ['LR', 'KNN', 'Decision Tree', 'Random Forest', 'Naives Bayes', 'Support Vector Machines'],
    'Score': [acc_LR, acc_KNN, acc_DecisionTree, acc_RamdomForest, acc_NaiveBayes, acc_SVM]})
models.sort_values(by='Score', ascending=False)

In [None]:
lr = LogisticRegression()
lr.fit(train_data, train_target)
Predictions = lr.predict(test_data)
Predictions

In [None]:
test_data_ids = test["PassengerId"]
submission_df = {"PassengerId": test_data_ids,
                 "Survived": Predictions}
submission = pd.DataFrame(submission_df)

In [None]:
submission.to_csv("submission.csv",index=False)

## 3.2 Afinamento do algoritmo:

In [None]:
'''
Seleciona os 10 recursos que tenham o maior ANOVA F-value com o fator de rótulo:
'''

from sklearn.feature_selection import SelectKBest

selector = SelectKBest(k=5)
selected5 = selector.fit_transform(train_data, target)
selected5.shape

In [None]:
'''
Ajustando os parâmetros do LR usando GridSearchCV:
'''
'''
from sklearn.model_selection import GridSearchCV

clf = LogisticRegression()
parameters = {'C': [1e-7, 1e-6, 1e-5, 1e-4, 1e-3, 1e-2, 1e-1, 1e0],
    'penalty': ['l2'],
    'n_jobs': [-1]}

grid_search = GridSearchCV(clf, parameters)
grid_result = grid_search.fit(selected5, target).best_estimator_
grid_result
'''

In [None]:
'''
Ajustando os parâmetros do SVC usando GridSearchCV:
'''
'''
from sklearn.model_selection import GridSearchCV

clf = SVC()
parameters = {'kernel': ['rbf', 'linear', 'poly'], 'C': [0.1, 1, 10, 100, 1000],'gamma': [1, 0.1, 0.01, 0.001, 0.0001], 'degree': [3, 4, 5], 'class_weight':['balanced', None]}

grid_search = GridSearchCV(clf, parameters)
grid_result = grid_search.fit(selected5, target).best_estimator_
grid_result
'''

## 3.3 Seleção de algoritmo:

Segundo a tabela acima o <b>LR</b>, <b>SVM</b> e o <b>Ramdom Forest</b> parecem ser os algoritmos  <b>do set de testes</b> que obtiveram uma melhor performace nestas condições do dataset Titanic.

## 4. Conclusões:
Apesar de utilizarmos idéias da análise do autor Julien Heiduk, na parte final utilizei uma validação cruzada como forma de treinamento das habilidades de Machine Learning. 