<a href="https://colab.research.google.com/github/soaresedirlan/data_science/blob/master/titanic_previsao_sobrevivencia.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Titanic: Machine Learning**

![alt text](https://aventurasnahistoria.uol.com.br/media/_versions/titanic_cgzvpEm_widelg.jpg)

Após colidir com um iceberg em 15 de abril de 1912, seu naufrágio matou 1.502 pessoas de um total de 2.224 passageiros.

Como principal fator contribuinte, logo se descobriu que não havia botes salva-vidas suficientes para toda a tripulação e passageiros.

Obviamente, aqueles que sobreviveram à tragédia contaram com muita sorte, mas será que alguns grupos de passageiros não tiveram "mais sorte" que outros grupos? Será que crianças e mulheres realmente tiveram mais chances de sobreviver? Será que o Jack teve menos chances de escapar do seu destino trágico que a Rose, só pelo fato de ele ter embarcado na 3ª Classe?

Com os dados reais disponibilizados, agora você pode fazer uma análise exploratória, testar suas hipóteses e até mesmo construir um modelo preditivo (que tal descobrir quais seriam suas chances de sobrevivência na 1ª Classe se você tivesse viajado com sua esposa e filho?!)

**Resumidamente, o objetivo deste desafio é utilizar os dados disponíveis para medir a chance de sobrevivência dos passageiros do Titanic.**

## Checklist

1. Definição do Problema
2. Obtenção dos Dados
3. Exploração dos Dados
4. Preparação dos Dados
5. Construção do Modelo
6. Avaliação

## 1. Definição do Problema

A construção do Titanic levou cerca de 2 anos e custou 7,5 milhões de dólares (valores da época). Com 269 metros de comprimento, 28 metros de largura e 53 metros de altura, operava com uma tripulação de 892 pessoas e poderia levar até 2435 passageiros (espalhados pelas três classes disponíveis).

Pensado para ser o mais seguro e luxuoso navio da época, foi lançado ao mar em 1911, ganhando fama de ser "inafundável".

A descrição completa da competição, assim como o conjunto de dados, está disponível na página do Kaggle [Titanic: Machine Learning from Disaster](https://www.kaggle.com/c/titanic).

O naufrágio do Titanic teve como fatores contribuintes causas naturais (como o clima) e causas humanas (negligência e excesso de confiança). Independente das causas, o fato é que seu naufrágio matou 1502 pessoas de um total de 2224 passageiros.

Embora aqueles que escaparam com vida tiveram sua boa dose de sorte, alguns grupos de pessoas eram mais propensos a escaparem da morte do que outros. Por exemplo, mulheres, crianças e passageiros da 1ª Classe. Assim, nota-se que existe algum padrão que pode ser extraído dos dados brutos.

### Objetivo
**Análise sobre quais variáveis tiveram maior influência na probabilidade de sobrevivência** (ou seja, que tipo de pessoa teve mais chance de escapar com vida).

Após analisar os dados, foi criado **um modelo que mostra a previsão de sobrevivência** para um passageiro qualquer que seja fornecido como *input*.



## 2. Obtenção dos Dados

[Os dados disponibilizados pelo Kaggle](https://www.kaggle.com/c/titanic/data) foram divididos em dois grupos:

* Dataset de treino (```train.csv```)
    * Deve ser usado para construir o modelo de Machine Learning. Neste conjunto de dados, é informado se o passageiro sobreviveu ou não. 
    * Composto por diversas *features* como gênero do passageiro e classe do embarque.
* Dataset de Teste (```test.csv```)
    * Deve ser usado como dados que nunca forma vistos pelo modelo. Neste conjunto de dados, não é informado se o passageiro sobreviveu ou não.
    

Para conseguir baixar os arquivos, é precisar criar um login no Kaggle antes. Para facilitar, os arquivos estão junto com este notebook (pasta ```./data/...```

In [0]:
#Montar o seu drive.
from google.colab import drive
drive.mount('/content/drive')

In [0]:
#Importar bibliotecas necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

#permitir vizualiza todas as colunas
pd.options.display.max_columns = None

#renderizar o grafico direto no notebook
%matplotlib inline

In [0]:
titanic = pd.read_csv('/content/drive/My Drive/data_science/datasets/titanic.csv')

In [0]:
#Verificando as dimensões do dataframe
print("Colunas:\t{}\nRegistros:\t{}".format(titanic.shape[1], titanic.shape[0]))


## 3. Exploração dos Dados

Em uma análise inicial, serão estudadas cada variável. É importante verificar seu nome, tipo, porcentagem de valores faltantes, presença de outliers e tipo de distribuição.

Como se trata de um Aprendizado Supervisionado (*Supervised Learning*), a variável ```Survived``` é definida como sendo a nossa variável alvo (*target*).

### Dicionário de Dados

* **PassengerId:** Número de identificação do passageiro
* **Survived:** Informa se o passageiro sobreviveu ao desastre
    * 0 = Não
    * 1 = Sim
* **Pclass:** Classe do bilhete
    * 1 = 1ª Classe
    * 2 = 2ª Classe
    * 3 = 3ª Classe
* **Name:** Nome do passageiro
* **Sex:** Sexo do passageiro
* **Age:** Idade do passageiro
* **SibSp:** Quantidade de cônjuges e irmãos a bordo
* **Parch:** Quantidade de pais e filhos a bordo
* **Ticket:** Número da passagem
* **Fare:** Preço da Passagem
* **Cabin:** Número da cabine do passageiro
* **Embarked:** Porto no qual o passageiro embarcou
    * 1 - C = Cherbourg
    * 2 - Q = Queenstown
    * 3 - S = Southampton

**Quais os tipos de cada variável?**

* Variáveis Numéricas
    * Discretas
        * Pclass
        * SibSp
        * Parch
    * Contínuas
        * Age
        * Fare
    * Alvo
        * Survived
    * Chave Primária
        * PassengerId
* Variáveis Categóricas
    * Name
    * Sex
    * Ticket
    * Cabin
    * Embarked

In [0]:
#Ver as 5 primeiras entradas do conjunto de dados
display(titanic.head())

In [0]:
#Identificar o tipo de cada variável
display(titanic.dtypes)

In [0]:
# instalando o pandas profiling
!pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip

In [0]:
# import o ProfileReport
from pandas_profiling import ProfileReport

In [0]:
# executando o profile
profile = ProfileReport(titanic, title='Relatório - Pandas Profiling', html={'style':{'full_width':True}})
profile

**Qual a porcentagem de valores faltantes?**

A informação sobre a **Cabin** é a que possui o maior número de informações faltantes, com mais de 77%. Após, a coluna **Age** não possui valor em quase 20% dos passageiros. Por fim, a coluna informando o Porto de embarque (**Embarked**) possui apenas 2% de informações faltantes.

In [0]:
(titanic.isnull().sum() / titanic.shape[0]).sort_values(ascending=False)

**Como é a distribuição estatística dos dados?**

In [0]:
titanic.describe()

In [0]:
#Ver histograma das variaveis numericas
titanic.hist(figsize=(10,8));

**Quais grupos de pessoas tinham mais chances de sobrevivência??**

In [0]:
#Analisar a probabilidade de sobrevivencia pelo sexo
titanic[['Sex', 'Survived']].groupby(['Sex']).mean()

In [0]:
# Plotar os gráficos para Survived vs. Sex, Pclass e Embarked
fig, (axis1, axis2, axis3) = plt.subplots(1,3, figsize=(12,4))

sns.barplot(x='Sex', y='Survived', data=titanic, ax=axis1)
sns.barplot(x='Pclass', y='Survived', data=titanic, ax=axis2)
sns.barplot(x='Embarked', y='Survived', data=titanic, ax=axis3);

In [0]:
# ver influência da idade na probabilidade de sobrevivência
age_survived = sns.FacetGrid(titanic, col='Survived')
age_survived.map(sns.distplot, 'Age')


In [0]:
# plotar o heatmap para as variáveis numéricas
sns.heatmap(titanic.corr(), cmap='coolwarm', fmt='.2f', linewidths=0.1,
            vmax=1.0, square=True, linecolor='white', annot=True);

Pouca gente sabe que o método ```df.describe()``` pode ser usado também para ver algo sobre a estatística descritiva em colunas que não são números. Para isso, é só passar o argumento ```include=['O']```. 

**ATENÇÃO, é a letra 'O', e não o número 0!**

In [0]:
titanic.describe(include=['O'])

Olhando esses dados a gente observa que:
* Os valores para ```Name``` são únicos, um para cada pessoa;
* Não há *missing values* para ```Name``` e ```Sex```;
* Existem apenas os sexos Masculino e Feminino, sendo que o com maior frequência é o Masculino (577/891 = 65%);
* O Porto no qual embarcaram mais passageiros é o de S = Southampton.

##Preparação dos Dados

### Juntando os *datasets* de treino e teste

Uma dica para quando você vai preparar os dados para um modelo de *Machine Learning* é juntar os *datasets* de treino e teste em um único, e separar novamente no final.

Muitas vezes a gente vai fazer um *feature engineering*, criar variáveis *dummy* ou codificar as variáveis. Daí, nosso modelo vai ser treinado em cima dessa arquitetura, e os dados de teste vão ter que seguir essa mesma estrutura.

Por isso, é muito mais fácil fazer todas as etapas para um único *DataFrame* e dividir novamente entre treino e teste.



### Remoção de atributos irrelevantes

Os atributos ```survival``` (objetivo ou label), e atributos que descrevem os passageiros ou os agrupam em categorias são úteis e serão mantidos, por exemplo: ```Pclass```, ```Sex```, ```Age```, ```SibSp```, ```Parch```, ```Fare``` e ```Embarked```. 


* ```passengerId``` é apenas uma chave primária para identificar um passageiro e não é relevante para o problema.

* ```Name``` náo é útil para previsão, mas pode ser útil para identificação dos registros ou pós-processamento (por exemplo, extrair o último nome).

* ```Ticket``` não identifica o registro e nem descreve o passageiro, por isso, deve ser removido.


In [0]:

titanic.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1, inplace=True)

### Valores omissos ou inconssistentes




Vamos dar uma olhada nos valores que faltam em cada columna e tratar esses campos vazios.

Normalmente, há duas abordagens mais utilizadas quando a gente encontra *missing values*:
* Preencher esses valores arbitrariamente (média, mediana, valor mais frequente); e
* Excluir a linha inteira.

Cada caso é um caso e novamente você, cientista de dados, é quem vai tomar a decisão sobre qual passo seguir.

Na maioria das vezes não é desejável jogar informação de uma linha inteira só por causa de um campo faltando. Sempre que possível é melhor você preencher o campo, e é isso que vamos fazer.

Em atributos numéricos , as possibilidades são:

1. substituir por zeros;
2. substituir por um valor médio ou mediano;
3. estimar valores usando modelos estatísticos ou preditivos;
4. particionar a base em registros completos e registros incompletos.

In [0]:
# completar ou apagar valores faltantes nos datasets de treino e teste
titanic.isnull().sum()

Para as variáveis idade e tarifa, vou colocar o valor da mediana, e para a variável do porto de embarque, vou colocar o valor com maior frequência.

In [0]:
# age
age_median = titanic['Age'].median()
titanic['Age'].fillna(age_median, inplace=True)

#Survived
survived_top = titanic['Survived'].value_counts()[0]
titanic['Survived'].fillna(survived_top, inplace=True)

# embarked
embarked_top = titanic['Embarked'].value_counts()[1]
titanic['Embarked'].fillna(embarked_top, inplace=True)

In [0]:
# Ver como ficou os valores Faltantes
titanic.isnull().sum()

###Transformando tipo de dados

In [0]:
#Mudar tipo de variavel

titanic.Age = titanic.Age.astype('int')
titanic.Survived = titanic.Survived.astype('int')
titanic.Embarked = titanic.Embarked.astype('int')

### Detectando outliers

Outliers são valores extremos. A estatística descritiva, em geral, provê um bom indicativo da presença de outliers, com valores máximos e mínimo muito distantes; o valor da média muito próximo de um máximo ou mínimo, mostrando problema de distribuição dos dados.

In [0]:
titanic["Fare"].plot(kind="box", figsize=(9,9))

index = np.where(titanic["Fare"] == max(titanic["Fare"]) )

print("Registros com valores extremos:",titanic.loc[index], sep='\n')

### Criando novos atributos

Vamos criar uma nova variável ```Family```, que irá unir, conjude e irmãos (```SibSp```) com pais e filhos (```Parch```).

In [0]:
titanic["Family"] = titanic["SibSp"] + titanic["Parch"] + 1

# Encontrando quem tem a maior família À bordo

most_family = np.where(titanic["Family"] == max(titanic["Family"]))

print("\nAs maiores famílias à bordo:\n{0}".format(titanic.loc[most_family]))

 Os atributos agora estão redundantes, ou muito correlacionados, como podemos ver com a matriz de correlação. A matriz só funciona com tipos de ddos numéricos. Será possível perceber que a variável ```Family``` terá forte correlação (acima de 0.75) com ```SibSp``` e ```Parch```.

In [0]:
# Plotar Correlação Novamente
sns.heatmap(titanic.corr(), cmap='coolwarm', fmt='.2f', linewidths=0.1,
            vmax=1.0, square=True, linecolor='white', annot=True);

In [0]:
#Deletando colunas não necessarias
titanic.drop(['SibSp','Parch'], axis=1, inplace=True)

### Preparar as variáveis pro modelo

O modelo matemático exige que trabalhemos com variáveis numéricas, ou seja, temos transformar os dados de entrada que estão em formato categoria para números.

Como você vê abaixo, eu convertir os valores possíveis de ```Sex```para ```{'female': 0, 'male': 1}```.

In [0]:
X = titanic[['Pclass', 'Sex', 'Age', 'Fare', 'Embarked', 'Family']]
y = titanic.Survived

In [0]:
from sklearn import preprocessing
sex = preprocessing.LabelEncoder()
sex.fit(['female','male'])
X.Sex = sex.transform(X.Sex) 


In [0]:
#Ver o tipo de dado
display(X.dtypes)

##Separa conjunto de dados

In [0]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

print('shape X_train: {} \n' 'shape X_test: {} \n'.format(X_train.shape, X_test.shape))

## Construção do Modelo e Avaliação

* Modelo de Regressão Logística


In [0]:
# importar bibliotecas do modelo de Machine Learning
from sklearn.linear_model import LogisticRegression


# criar um modelo de Regressão Logística
lr_model = LogisticRegression(solver='liblinear')

#Treina modelo Regressão Logística
lr_model.fit(X_train, y_train)

#Avalia o Modelo nos dados de teste
y_pred_lr = lr_model.predict(X_test)



In [0]:
# verificar a acurácia do modelo
from sklearn.metrics import accuracy_score
print('Acurácia de Previsão: ', accuracy_score(y_test, y_pred_lr) * 100)

Acurácia, chegando a 79%.

* Modelo de árvore de decisão

In [0]:

# importar bibliotecas do modelo de Machine Learning
from sklearn.tree import DecisionTreeClassifier

#criar um modelo Arvore de decisão
tree_model = DecisionTreeClassifier(max_depth=3)

#Treina modelo Arvore de decisão
tree_model.fit(X_train, y_train)

#Avalia o Modelo nos dados de teste
y_pred_tree = tree_model.predict(X_test)




In [0]:
# verificar a acurácia do modelo
from sklearn.metrics import accuracy_score
print('Acurácia de Previsão: ', accuracy_score(y_test, y_pred_tree) * 100)

In [0]:
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
print(classification_report(y_test, y_pred_tree))

Um pequeno ganho na acurácia, chegando agora a quase 81%.

* RandonForestClassifier


In [0]:
from sklearn.ensemble import RandomForestClassifier

#Criar o algoritimo RandomForestRegressor
rf_regressor = RandomForestClassifier(n_estimators=200, max_depth=7, max_features=3)

#Treina o modelo
rf_regressor.fit(X_train, y_train)

#Previsão do meu modelo
y_pred_rf = rf_regressor.predict(X_test)

In [0]:
# verificar a acurácia do modelo
from sklearn.metrics import accuracy_score
print('Acurácia de Previsão: ', accuracy_score(y_test, y_pred_rf))

Um pequeno Perda na acurácia, chegando agora a quase 80%.

## Eu sobreviveria ao Titanic?

Por fim, já que nosso modelo está pronto, vamos ver se eu e minha esposa sobreviveríamos ao naufrágio do Titanic.

Vou considerar que viajaríamos na 2ª Classe, eu com 35 anos e ela com 30, levando nosso bebê Theo, tendo pago o preço médio do Ticket e embarcados no porto de Southampton (Reino Unido).

In [0]:
X

In [0]:
# declarar os valores das variáveis para mim e minha esposa
edirlan = np.array([2, 1, 28, 35.0, 2, 2]).reshape((1, -1))
jacque = np.array([2, 0, 30, 35.0, 3, 2]).reshape((1, -1))


if tree_model.predict(edirlan) == 0:
  print('Edirlan Morreu')
else:
  print('Edirlan Viveu')
                  

if tree_model.predict(jacque) == 0:
  print('Jacque Morreu')
else:
  print('Jacque Viveu')
                  
            
                  
