<a href="https://colab.research.google.com/github/MathMachado/Python_RFB/blob/master/Projetos/Titanic/Titanic.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# PROJETO TITANIC

end_to_end regression project: https://www.kaggle.com/pablocastilla/predict-house-prices-with-xgboost-regression

## Machine Learning com Python (Scikit-Learn)

![Scikit-Learn](https://github.com/MathMachado/Python_RFB/blob/master/Material/scikit-learn-1.png?raw=true)

Esse é um exemplo completo do uso de Data Science com o Iris dataset.

https://nbviewer.jupyter.org/github/rhiever/Data-Analysis-and-Machine-Learning-Projects/blob/master/example-data-science-notebook/Example%20Machine%20Learning%20Notebook.ipynb


Usar esse exemplo: https://towardsdatascience.com/machine-learning-workflow-on-diabetes-data-part-01-573864fcc6b8

end-to-end Data Science Project:
https://www.kaggle.com/tjsauer/titanic-survival-python-solution

https://www.kaggle.com/sgus1318/titanic-analysis-learning-to-swim-with-python

https://www.kaggle.com/luxcem/titanic-introduction-to-data-science-with-python

https://towardsdatascience.com/your-first-kaggle-competition-submission-64da366e48cb

https://www.dataquest.io/blog/kaggle-fundamentals/

https://medium.com/i-like-big-data-and-i-cannot-lie/how-i-scored-in-the-top-9-of-kaggles-titanic-machine-learning-challenge-243b5f45c8e9

https://ahmedbesbes.com/how-to-score-08134-in-titanic-kaggle-challenge.html

https://www.datacamp.com/community/tutorials/kaggle-machine-learning-eda

https://www.mattoncode.pl/keras-neural-network-kaggle-competition/


Para os gráficos, use: https://github.com/MathMachado/complete_data_visualization_with_python/blob/master/A_complete_data_visualization_with_python.ipynb





# 1. BUSINESS UNDERSTANDING
> Esta fase é dedicada a entender o que se deseja alcançar a partir de uma perspectiva de negócios. O objetivo deste estágio do processo é descobrir fatores importantes que possam influenciar o resultado do projeto.

* Nosso objetivo é construir um modelo que seja capaz de predizer se um determinado sobrevivente do Titanic sobreviveu ou morreu na tragédia.

![BusinessUnderstanding](https://github.com/MathMachado/Python_RFB/blob/master/Material/BusinessUnderstanding.png?raw=true)

# 2. DATA UNDERSTANDING
* O foco desta fase está na coleta e exploração dos dados. Lembre-se de que a precisão dos modelos de ML depende da quantidade e qualidade dos dados.

![DataUnderstanding](https://github.com/MathMachado/Python_RFB/blob/master/Material/DataUnderstanding.png?raw=true)

# 3. DATA PREPARATION
> Esta fase é dedicada à preparar, transformar e limpar dados: remover duplicatas, corrigir erros, lidar com Missing Values, normalização, conversões de tipo de dados e etc.

![DataPreparation](https://github.com/MathMachado/Python_RFB/blob/master/Material/DataPreparation.png?raw=true)

Nesta fase vamos estudar:

<input type="checkbox" disabled checked> Missing Values

<input type="checkbox" disabled checked> Outliers

<input type="checkbox" disabled checked> Rescaling Data

<input type="checkbox" disabled checked> Feature Engineering

<input type="checkbox" disabled checked> Feature Selection ou Dimensionality Reduction

<input type="checkbox" disabled checked> Data Cleaning;

<input type="checkbox" disabled checked> Preparar e transformar dados;

<input type="checkbox" disabled checked> Conversão de tipos de dados;

> "_80% of a Data Scientist's valuable time is spent simply finding, cleansing, and organizing data, leaving only 20% to actually perform analysis..._" IBM Data Analytics.

## Leitura Recomendada:
* [Why, How and When to Scale your Features](https://medium.com/greyatom/why-how-and-when-to-scale-your-features-4b30ab09db5e)

## Dados

A seguir, as variáveis/atributos do dataframe:

* Dicionário de dados do dataframe Titanic:
    * **PassengerID**: ID do passageiro;
    * **Survived**: Indicador, sendo 1= Passageiro sobreviveu e 0= Passageiro morreu;
    * **Pclass**: Classe em que o passageiro viaja (1 classe, 2 classe, 3 classe, etc);
    * **Age**: Idade do Passageiro;
    * **SibSp**: Número de parentes a bordo (esposa, irmãos, pais e etc);
    * **Parch**: Número de pais/crianças a bordo;
    * **Fare**: Valor pago pela viagem;
    * **Cabin**: Cabine do Passageiro;
    * **Embarked**: A porta pelo qual o Passageiro embarcou.
    * **Name**: Nome do Passageiro;
    * **Sex**: Sexo do Passageiro.

## Carregar as bibliotecas (genéricas) Python

In [0]:
# Pandas
import pandas as pd
from pandas import Series, DataFrame

import collections 
import random

# numpy, matplotlib, seaborn
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style('whitegrid')
%matplotlib inline

# preprocessing data
from sklearn.model_selection import cross_val_score, cross_val_predict
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import LabelEncoder
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.model_selection import StratifiedShuffleSplit
from sklearn.pipeline import FeatureUnion

# machine learning
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint as sp_randint
from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import RidgeClassifier, PassiveAggressiveClassifier, SGDClassifier, LogisticRegressionCV, LogisticRegression
from sklearn.naive_bayes import BernoulliNB, MultinomialNB
from sklearn.neighbors import KNeighborsClassifier, RadiusNeighborsClassifier, NearestCentroid
from sklearn.neural_network import MLPClassifier
from sklearn.tree import DecisionTreeClassifier, ExtraTreeClassifier
from sklearn.ensemble import AdaBoostClassifier, BaggingClassifier, RandomForestClassifier
from sklearn.gaussian_process import GaussianProcessClassifier
from sklearn.svm import SVC

from sklearn.ensemble import ExtraTreesClassifier

from xgboost import XGBClassifier

# remove warnings to keep notebook clean
import warnings
warnings.filterwarnings('ignore')

## Carregar Dados

In [0]:
url_train= 'https://raw.githubusercontent.com/MathMachado/Python_RFB/master/Dataframes/Titanic_With_MV.csv?token=AGDJQ66VHCKS4WOSCOC3E3S5MATZ4'
url_test= 'https://raw.githubusercontent.com/MathMachado/Python_RFB/master/Dataframes/Titanic_test.csv?token=AGDJQ67KV6QPCZZ5YUAMVIC5MAT5K'

# Carrega os dataframes de treinamento e teste e define 'PassengerId' como chave
df_train= pd.read_csv(url_train, index_col='PassengerId')
df_test= pd.read_csv(url_test, index_col='PassengerId')

# Faz uma cópia dos dados originais da variável resposta 'Survived'
df_train_Survived = df_train["Survived"].copy()

# merge train and test
df = df_train.append(df_test, sort= False)

# Registra os índices do dataframe de treinamento e teste para separarmos estes dataframes mais tarde
train_index = df_train.index
test_index = df_test.index

## Entendendo o dataframe

Inicialmente, vamos avaliar os dataframes df_train e df_test:

In [0]:
df_train.shape

In [0]:
df_test.shape

* Quantas linhas e colunas possui o dataframe?
* Porque eu juntei os dois dataframes (df_train e df_test) num único dataframe?

Abaixo, listamos a lista das variáveis do dataframe:

In [0]:
df.columns

Quantas linhas e colunas tem noso dataframe?

In [0]:
df.shape

* Quantas linhas e colunas possuem nosso dataframe?

Visualizar (parte) do dataframe:

In [0]:
df.head(50)

O comando a seguir apresenta as principais informações acerca do dataframe:

In [0]:
df.info() 

## Deletar variáveis/atributos que não serão usados na modelagem
* Observe que a variável 'Ticket' não tem valor algum para nosso propósito. Por conta disso, vamos deletá-lo.

Inicialmente, vamos deletar as variáveis que não são de interesse para a análise. Isso nos ajuda a focar no que de fato é importante.

In [0]:
df = df.drop(['Ticket'], axis=1) # axis= 1 indica que se trata de uma operação na coluna do dataframe. Lembre-se: axis= 0 indica operação nas linhas do dataframe.
df.head(3)

Observe que a coluna 'Ticket' foi de fato deletada do dataframe.

A seguir, crio a variável 'Survived2' para ajudar no entendimento dos dados:

In [0]:
df['Survived2'] = df['Survived']
df['Survived2'] = df['Survived2'].map({0:'Died',1:'Survived'})
df.head(50)

## Entendendo as variáveis
* Vamos verificar como as variáveis estão preenchidas a fim de corrigir possíveis problemas de preenchimento.

A função a seguir nos ajudará com o Data Visualization, cruzando a variável-resposta 'Survived' com qualquer outra passada à função:

In [0]:
def Avalia_Taxa_Sobrevivencia(df, column):
    title_xt = pd.crosstab(df[column], df['Survived2'])
    print(pd.crosstab(df[column], df['Survived2'], margins=True))
    title_xt_pct = title_xt.div(title_xt.sum(1).astype(float), axis=0)
    
    title_xt_pct.plot(kind='bar', stacked=True, title='Taxa de Sobrevivência dos Passageiros', 
                      color= ['r', 'g'])
    plt.xlabel(column)
    plt.ylabel('Taxa de Sobrevivência')
    plt.legend(loc='upper center', bbox_to_anchor=(0.5, -0.05),shadow=True, ncol=2)
    plt.show()

A seguir, a função para data visualization das variáveis:

In [0]:
def Catplot_Graph(x, y, hue= 'Survived2', col= None):
    plt.rcdefaults()
    g= sns.catplot(x= x, y= y, hue= hue, palette={'Died':'red','Survived':'blue'}, col= col, data=df, kind= 'bar', height=4, aspect=.7)
    plt.show()

### Variável 'Sex'

* Como está o preenchimento desta variável?

In [0]:
df_copia1= df.copy()
df.Sex.value_counts()

In [0]:
#df= df_copia1.copy()

Qual sua opinião sobre esse preenchimento?

* Algum problema?

Oops... Aqui temos vários problemas... Olhando para estes resultados, você concorda que 'male', 'm', 'MALE', M', 'mALE' e 'Men' se trata da mesma informação?

Da mesma forma, 'female', 'f', 'F', 'Female', 'fEMALE', 'Woman', 'w' e 'W' também se trata da mesma informação?

Então, vamos fazer o seguinte:

Toda vez que eu encontrar um desses valores: ['m', 'MALE', 'M', 'mALE', 'Men'], vou substituir por 'male';
Toda vez que eu encontrar um desses valores: ['f', 'F', 'Female', 'fEMALE', 'Woman', 'w', 'W'], vou substituit por 'female'.
O comando a seguir faz estas substituições:

Definindo o dicionário para fazermos as substituições dos valores inconsistentes:

In [0]:
dSex= {}
dSex.update(dict.fromkeys(['m', 'MALE', 'M', 'mALE', 'Men', 'male'], "male"))
dSex.update(dict.fromkeys(['f', 'F', 'Female', 'fEMALE', 'Woman', 'w', 'W', 'female'], 'female'))
dSex

In [0]:
df['Sex2']= df['Sex'].map(dSex)
df.Sex2.value_counts()

In [0]:
df.head()

**Atenção:** Os comandos abaixo são uma alternativa ao map() aplicado anteriormente para corrigir os atributos da variável 'Sex':

```
df['Sex2'] = df['Sex'].replace(['m', 'MALE', 'M', 'mALE', 'Men'], 'male')
df['Sex3'] = df['Sex2'].replace(['f', 'F', 'Female', 'fEMALE', 'Woman', 'w', 'W'], 'female') 
df.Sex3.value_counts()
```



Agora ok, temos algo que faz sentido para a variável 'Sex'.

Ok, de fato corrigimos os problemas de preenchimento da variável 'Sex'. então, vamos renomear nossa variável para o que tínhamos antes:

In [0]:
# Deleta as variáveis 'Sex':
df= df.drop(columns= ['Sex'], axis= 1)

# Renomea a variável auxiliar 'Sex2' para 'Sex':
df= df.rename(columns= {'Sex2': 'Sex'})

# Mostra os dados:
df.head()

In [0]:
sns.catplot(x="Sex", kind="count", data=df)

### Variável 'Cabin'
* No caso da variável 'Cabin', vamos construir as variáveis 'Deck' e 'Seat'

In [0]:
set(df['Cabin'])

Como podemos ver, trata-se de uma variável categórica com vários níveis. Portanto, vamos capturar somente a primeira letra da variável 'Cabin'. Para tal, vamos utilizar a função slice().

> slice() - Get substring from a given string using slice object;

A seguir, capturamos a primeira letra da variável 'Cabin':

In [0]:
# definindo a variável 'Deck' que representará a primeira letra da variável 'Cabin'
df["Deck"] = df["Cabin"].str.slice(0,1)
df.Deck.value_counts()

A seguir, vamos extrair a parte numérica da variável 'Cabin' usando Expressões Regulares:

In [0]:
# Import the library Regular Expressions
import re

In [0]:
# Primeiramente, usamos a função split() para separar o conteúdo da variável em colunas: 
new = df["Cabin"].str.split(" ", n = 3, expand = True) 
new.head()

Observe acima que o comando gera quantos splits da variável eu quiser. No entanto, por simplicidade, me interessa somente o primeiro split.

Agora, vou extrair o número do assento usando Expressões Regulares:

In [0]:
new2= new[0].str.extract('(\d+)')
new2.head()

Por fim, vou carregar esta informação ao dataframe df:

In [0]:
df["Seat"]= new2
df.head()

Por fim, excluir a variável 'Cabin':

In [0]:
df= df.drop(columns= ["Cabin"], axis=1, errors="ignore")

### Variável 'Embarked'

In [0]:
df.Deck.value_counts()

In [0]:
sns.catplot(x="Deck", kind="count", data=df)

Não vejo problemas com esta variável. Vamos em frente...

### Variável 'Pclass'

In [0]:
df.Pclass.value_counts()

Algum problema com esta variável?

In [0]:
sns.catplot(x="Pclass", kind="count", data=df)

### Variável 'Parch'

In [0]:
df.Parch.value_counts()

In [0]:
sns.catplot(x="Parch", kind="count", data=df)

### Variável 'SibSp'

In [0]:
df.SibSp.value_counts()

* Algum problema?

In [0]:
sns.catplot(x="SibSp", kind="count", data=df)

### Variável 'Fare'

Transformações: arredondar variável Fare.

In [0]:
df['Fare']= round(df['Fare'], 0)

In [0]:
df.plot.scatter('Age','Fare')

### Variável 'Age'

Transformações: arredondar variável Fare.

In [0]:
df['Age']= round(df['Age'], 0)

## Missing Values

> Lidar com Missing Values é um dos piores pesadelos de um Cientista de dados. Especialmente, se o número de MV for grande o suficiente (geralmente acima de 5%). Nesse caso, os valores não podem ser descartados e um Cientista de Dados inteligente deve "imputar" os valores ausentes.

* Nesta sessão, vamos identificar, analisar e tratar Missing Values (MV).
* Como MV são gerados?
    * Usuário se esqueceu de preencher ou preencheu errado o campo;
    * Os dados foram perdidos durante a transferência manual de um banco de dados legado;
    * Erro de programação;
    * Os usuários optaram por não preencher um campo vinculado a suas crenças sobre como os resultados seriam usados ou interpretados.
* As funções df.isnull() e df.isna() são apropriadas para nos indicar quantas observações são MV no dataframe.

Vamos utilizar a função abaixo para nos ajudar no diagnóstico dos Missing Values:

In [0]:
def Mostra_MV(df):
    total = df.isnull().sum().sort_values(ascending=False)
    percent = 100*round((df.isnull().sum()/df.isnull().count()).sort_values(ascending=False),2)
    missing_data = pd.concat([total, percent], axis=1, keys=['Total', 'Percentual'])
    #f, ax = plt.subplots(figsize=(15, 6))
    #plt.xticks(rotation='90')
    #sns.barplot(x=missing_data.index, y=missing_data['Percentual'])
    #plt.xlabel('Features', fontsize=15)
    #plt.ylabel('Percentual de Missing Values', fontsize=15)
    #plt.title('Percentual de Missing Values por Variável', fontsize=15)
    print(missing_data.head(10))

In [0]:
Mostra_MV(df)

* **Interpretação do resultado acima**: 
    * Não se incomode, por enquanto, com os NaN da variável 'Survived' e 'Survived2';
    * A variável 'Seat' possui 1027 NaN's;
    * A variável 'Deck' possui 1014 NaN's;
    * A Variável 'Age' possui 263 NaN's;
    * A Variável 'Embarked' possui 2 NaN's;
    * A variável 'Fare' possui 1 NaN.

* **Nota:** Diferença entre as funções df.isna() e df.isnull():
    * Para detectar NaN em numpy use np.isnan();
    * Para detectar NaN em pandas, então tanto faz usar pd.isna() ou pd.isnull().

### Variável 'Deck'

* Vimos anteriormente que a variável 'Deck' possui 1014 (77%) valores nulos. Vamos focar no tratamento desses NaN's:

    * **A solução**: Como se trata de uma variável categórica, o tratamento que darei aqui é atribuir uma letra aos MV.

* Antes, porém, vamos criar a variável 'MV_Deck' que receberá o valor 1 se 'Deck' é MV e 0, caso contrário.

In [0]:
df_copia2= df.copy()
set(df['Deck']) # Esse comando mostra os NaN's da variável

In [0]:
df['MV_Deck']= df['Deck'].apply(lambda x: 0 if x in ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'T'] else 1)
df.MV_Deck.value_counts()

In [0]:
set(df['MV_Deck']) # Esse comando mostra os NaN's da variável

Agora, todo 'NaN' encontrado no dataframe será substituído pela letra 'M', que representará os Missing Values:

In [0]:
df["Deck"]= df["Deck"].fillna("M")
df.Deck.value_counts()

In [0]:
set(df['Deck']) # Esse comando mostra os NaN's da variável

Como pode ser visto acima, substituimos todos os MV por 'M'.

### Variável 'Seat'

Avaliando se a variável 'Seat' possui NaN's:

In [0]:
set(df['Seat']) # Esse comando mostra os NaN's da variável

Qual o atributo mais frequente da variável 'Seat'?

In [0]:
df.Seat.value_counts()

Como vimos Seat= 6 é o mais comum. Portanto, vamos substituir todos os NaN's desta variável por 6:

In [0]:
df["Seat"]= df["Seat"].fillna(6)

O próximo passo é converter o tipo da variável 'Seat' de Object para int.

In [0]:
df_copia3= df.copy()
#df= df_copia3.copy()

In [0]:
df= df.astype({'Seat': int}) 
df.info()

### Variável 'Fare'

* Vimos que a variável 'Fare' possui 1 MV. Como se trata de um percentual pequeno de MV, podemos:
    * Deletar esta observação ou;
    * Substituir o MV pela média/mediana/moda.
    
* A função dropna() pode ser usada para deletarmos tanto linhas/observações quanto colunas/variáveis com MV.

Aqui, vou substituir o NaN da variável 'Fare' pela mediana. A seguir, a média da variável 'Fare' antes da transformação, pois é muito importante compararmos o antes e o depois da transformação. Esta análise de impacto é muito importante para se avaliar o quanto as transformações impactam a distribuição da variável original.

In [0]:
df['Fare'].mean()

Aplicamos a transformação...

In [0]:
df['Fare'].fillna(df['Fare'].median(), inplace=True)

Média da variável 'Fare' depois da transformação:

In [0]:
df['Fare'].mean()

Como podemos ver, nada muito sério em termos de impacto na variável.

Qual a distribuição da variável 'Fare'?

In [0]:
sns.distplot(df['Fare'])

Percebe-se que a distribuição de 'Fare' é não-Normal. Vamos aplicar uma transformação para tentar obter normalidade?

### Variável 'Embarked'

* A variável 'Embarked' possui 2 MV. Como se trata de uma variável categórica, nossas opções são deletar ou atribuir um valor (em função de outras variáveis).

In [0]:
df_copia4= df.copy()
set(df['Embarked']) # Esse comando mostra os NaN's da variável

Por simplicidade, aqui vou substituir as observações NaN da variável 'Embarked' por 'S', que é o valor mais frequente:

ps.: O comando a seguir retorna o atributo 'S', que nesse caso, é o atributo de interesse em nosso caso: df['Embarked'].mode()[0]. Veja abaixo:

In [0]:
sMode_Of_Embarked= df['Embarked'].mode()[0]
sMode_Of_Embarked

In [0]:
df["Embarked2"]= df["Embarked"]
df["Embarked2"]= df["Embarked2"].fillna(sMode_Of_Embarked)
set(df['Embarked2']) # Esse comando mostra os NaN's da variável

Desta forma, substituimos os NaN's da variável 'Embarked' pela moda da distribuição.

Se quiséssemos deletar as duas observações NaN's da variável 'Embarked', basta usar o comando:

In [0]:
# axis= 0 - indica que a operação será realizada nas linhas/observações.
df_copia4= df_copia4.dropna(axis= 0, subset = ['Embarked'])

Podemos ver, a seguir, que as linhas (62 e 830 não existem mais no dataframe df_copia4 (fizemos uma cópia do dataframe df antes de iniciarmos o tratamento dos NaN's da variável 'Embarked'):

Vamos verificar primeiro a existência da linha 62 no dataframe df_copia4:

In [0]:
df_copia4.loc[60:65]

Como podemos ver, a linha 62 não existe mais. Da mesma forma, a seguir, verificamos se a linha 830 existe no dataframe.

In [0]:
df_copia4.loc[825:835]

Como esperávamos, a linha 830 também não existe no dataframe.

Com isso, excluimos as 2 observações MV da variável 'embarked'.

A seguir, deletamos a variável 'Embarked':

In [0]:
df= df.drop(columns= ['Embarked'], axis= 1) # axis= 1 significa dropar a coluna.

E renomeamos a variável auxiliar 'Embarked2' para 'Embarked':

In [0]:
df= df.rename(columns= {'Embarked2': 'Embarked'})

### Variável 'Age' - Variável do tipo numérica

* Vimos anteriormente que a variável 'Age' possui 263 valores nulos.

* Como se trata de uma variável numérica, vamos aplicar algumas estratégias para resolver o problema, pois não podemos descartar 263 (20%) observações do nosso dataframe.

* Aqui é uma boa ideia criar a variável 'MV_Age' que receberá o valor 1 se 'Age' é MV e 0, caso contrário.

In [0]:
df_copia5= df.copy()
#df= df_copia5.copy()

Podemos substituir os NaN's da variável 'Age' com a média (ou mediana) da distribuição, conforme abaixo:

In [0]:
df['Age2']= df['Age'].fillna(df['Age'].median())

OU, substituir os NaN da variável 'Age' pela média de 'Age' considerando 'Sex', conforme abaixo:

In [0]:
df['Age3']= df['Age'].fillna(df.groupby('Sex')['Age'].transform("median"))

In [0]:
df.head()

Vamos inspecionar as colunas envolvidas para avaliar os impactos sofridos...

In [0]:
# Resultado geral, por curiosidade
df[['Age', 'Age2', 'Age3', 'Sex']].groupby('Sex').mean()

Concorda que não houve grandes impactos nas transformações aplicadas?

* Qual sua opinião?

In [0]:
df.head()

Certificando de que todos os NaN's foram tratados, com exceção de 'Survived' e 'Survived2':

In [0]:
Mostra_MV(df)

In [0]:
df.head()

## Feature Engineering

### Variável 'MV_Age':

In [0]:
df.head()

Para construir a variável 'MV_Age', vamos utilizar a função pd.isna(). Por exemplo, o comando abaixo verifica se cada linha/observação da variável 'Age' é um NaN.

In [0]:
df['Age'].isna().sum()

A seguir, criamos uma variável auxiliar intitulada 'MV_AUX', que receberá 'True', caso 'Age' seja um valor válido e 'False' caso 'Age' seja NaN.

Veja abaixo:

In [0]:
df['MV_AUX']= df['Age'].isna()
df.head()

In [0]:
# Adiciona a nova coluna baseado no dicionario 
df['MV_Age'] = df['MV_AUX'].map({True: 1, False: 0})
df.head()

Deleta a variável auxiliar 'MV_AUX':

In [0]:
df= df.drop(columns= ['MV_AUX'], axis=1)

Nosso dataframe está assim:

In [0]:
df.head()

Qual a relação entre a variável 'MV_Age' e a variável-resposta?

In [0]:
Avalia_Taxa_Sobrevivencia(df, 'MV_Age')

### Variável 'Age_Category'
* Construir a variável 'Age_Category' baseado na variável 'Age2'.

In [0]:
def Age_Category(age):
    if (age <= 1):
        return 'Baby'
    if (age <= 4):
        return 'Toddler'
    elif(age <= 12):
        return 'Child'
    elif (age <= 19):
        return 'Teenager'
    elif (age <= 30):
        return 'Adult'
    elif (age <= 50):
        return 'Middle_Aged'
    elif(age < 60):
        return 'Senior_Citizen'
    else:
        return 'Old'

In [0]:
df['Age_Category'] = df['Age2'].map(Age_Category)

In [0]:
set(df['Age_Category']) # Esse comando mostra os NaN's da variável

Como tratamos os NaN's da variável 'Age2' previamente, então, consequentemente, a variável 'Age_Category' não possui NaN's, como podemos verificar acima.

### Variável 'Title'

* Para fins de Data Manipulation, vamos capturar o tratamento dos passageiros contido na variável 'Name'. Ou seja, 'Mr.', 'Mrs.', 'Miss' e etc...

> Fonte: As funções get_title e title_map foram extraídas de https://www.kaggle.com/tjsauer/titanic-survival-python-solution

In [0]:
df.head()

In [0]:
def get_title(name):
    if '.' in name:
        return name.split(',')[1].split('.')[0].strip()
    else:
        return 'Unknown'

def title_map(title):
    if title in ['Mr', 'Ms']:
        return 1
    elif title in ['Master']:
        return 2
    elif title in ['Ms','Mlle','Miss']:
        return 3
    elif title in ["Mme", "Ms", "Mrs"]:
        return 4
    elif title in ["Jonkheer", "Don", "Sir", "the Countess", "Dona", "Lady"]:
        return 5
    elif title in ["Capt", "Col", "Major", "Dr", "Rev"]:
        return 6
    else:
        return 7

Captura o tratamento dos passageiros:

In [0]:
df['Title'] = df['Name'].apply(get_title).apply(title_map)  
set(df['Title']) # Esse comando mostra os NaN's da variável

Drop a coluna 'Name', pois não vamos mais precisar dela em nossas análises:

In [0]:
df= df.drop(columns= ["Name"], axis=1, errors="ignore")

Apresenta o conteúdo do dataframe:

In [0]:
df.head(3)

### Variável Age_1digito

In [0]:
df['Age2_1digito']= round(df['Age2']/10, 0).astype(np.int64)

In [0]:
set(df['Age2_1digito']) # Esse comando mostra os NaN's da variável

### Variável 'Family_Size'
* As variáveis SibSp e Parch estão relacionadas ao grupo familiar. Portanto, vamos criar a variável 'Family_Size', da seguinte forma:

In [0]:
df['Family_Size']= df['SibSp']+df['Parch']+1

A seguir, verificamos se esta operação produziu algum NaN.

In [0]:
df['Family_Size'].isnull().sum()

In [0]:
sns.catplot(x="Family_Size", kind="count", data=df)

In [0]:
set(df['Family_Size']) # Esse comando mostra os NaN's da variável

### Inferindo 'Age'
* Aqui, aplicamos Machine Learning para inferior o valor da variável 'Age' baseado nas outras features.

Primeiramente, vamos selecionar somente as variáveis que desejamos para estimar 'Age':

In [0]:
df_Age= df[['Pclass', 'SibSp', 'Sex', 'Fare', 'Deck', 'Embarked', 'Title', 'Age', 'Family_Size']].copy()
df_Age.head()

Gravamos o dataframe: df_Age.csv

```
from IPython.display import FileLink, FileLinks
path = './'
filename = 'df_tratado.csv'
df.to_csv(path + filename)
FileLinks(path)
df_Age.to_csv("df_Age.csv", sep= ',', index = True, header=True)
```

Ler o dataframe df_Age:

In [0]:
url3= 'https://raw.githubusercontent.com/MathMachado/Python_RFB/master/Dataframes/df_Age.csv?token=AGDJQ6ZHQZGDOIY7ZWU4NXC5M2CCU'
# Carrega o dataframe para estimativa de 'Age'
df_Age2= pd.read_csv(url3, index_col='PassengerId')
df_Age2.head(10)

Primeiramente, temos que construir buckets para a variável numéricas 'Fare'. A seguir, construimos 10 classes para 'Fare':

In [0]:
df_Age2['Fare_Aux']= pd.cut(df_Age2['Fare'], 10)
set(df_Age2['Fare_Aux']) # Esse comando mostra os NaN's da variável

In [0]:
df_Age2.head()

In [0]:
le = LabelEncoder()
df_Age2['Fare_Cat']= le.fit_transform(df_Age2['Fare_Aux'])
df_Age2= df_Age2.drop(columns= ['Fare_Aux', 'Fare'], axis= 1)
df_Age2.head(5)

Agora usar Encoder para as variáveis categóricas 'Embarked' e 'Deck':

In [0]:
df_Age2['Embarked_Cat']= le.fit_transform(df_Age2['Embarked'])
df_Age2['Deck_Cat']= le.fit_transform(df_Age2['Deck'])
df_Age2['Sex_Cat']= le.fit_transform(df_Age2['Sex'])
df_Age2= df_Age2.drop(columns= ['Embarked', 'Deck', 'Sex'], axis= 1)
df_Age2.head()

Definindo as amostras de treinamento e teste

In [0]:
# Amostras de treinamento:
df_Age3= df_Age2.copy()
X_train= df_Age3[df_Age3['Age'].notna()]
X_train= X_train.drop(columns= ['Age'], axis= 1)

y_train= df_Age3[df_Age3['Age'].notna()]
y_train= y_train['Age']

print(X_train.shape, y_train.shape)

In [0]:
# Amostras teste:
X_test= df_Age3[df_Age3['Age'].isnull()]
X_test= X_test.drop(columns= ['Age'], axis= 1)

y_test= df_Age3[df_Age3['Age'].isnull()]
y_test= y_test['Age']

print(X_test.shape, y_test.shape)

In [0]:
X_train.head()

In [0]:
y_train.head()

In [0]:
X_test.head()

Treinando modelo

In [0]:
# carregar bibliotecas
from sklearn.ensemble import RandomForestRegressor
from xgboost import XGBRegressor
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.linear_model import LinearRegression

In [0]:
# Instantiate model with 1000 decision trees
rf= RandomForestRegressor(n_estimators = 1000, random_state = 20111974, bootstrap= True)
xg= XGBRegressor(n_estimators=10000, random_state= 20111974)
rr = Ridge(random_state= 20111974, alpha=0.01, max_iter= 10e5, normalize= True)
la = Lasso(alpha=0.01, max_iter=10e5, normalize= True)
lr = LinearRegression(normalize=True)

# Train the model on training data
rf.fit(X_train, y_train)
xg.fit(X_train, y_train)
rr.fit(X_train, y_train)
la.fit(X_train, y_train)
lr.fit(X_train, y_train)

In [0]:
# Use the forest's predict method on the test data
predictions_rf = rf.predict(X_train)
predictions_xg = xg.predict(X_train)
predictions_rr = rr.predict(X_train)
predictions_la = la.predict(X_train)
predictions_lr = lr.predict(X_train)

print(predictions_rf.shape, predictions_xg.shape, predictions_rr.shape, predictions_la.shape, predictions_lr.shape)

In [0]:
# Calculate the absolute errors
errors_rf = abs(predictions_rf - y_train)
errors_xg = abs(predictions_xg - y_train)
errors_rr = abs(predictions_rr - y_train)
errors_la = abs(predictions_la - y_train)
errors_lr = abs(predictions_lr - y_train)

# Print out the mean absolute error (mae)
print('RF - Mean Absolute Error:', round(np.mean(errors_rf), 2), 'degrees.')
print('XG - Mean Absolute Error:', round(np.mean(errors_xg), 2), 'degrees.')
print('RR - Mean Absolute Error:', round(np.mean(errors_rr), 2), 'degrees.')
print('LA - Mean Absolute Error:', round(np.mean(errors_la), 2), 'degrees.')
print('LR - Mean Absolute Error:', round(np.mean(errors_lr), 2), 'degrees.')

Aplicando o modelo em X_test:

In [0]:
X_test.shape

In [0]:
X_test.head()

In [0]:
X_test['Age4']= xg.predict(X_test[['Pclass', 'SibSp', 'Title', 'Family_Size', 'Fare_Cat', 'Embarked_Cat', 'Deck_Cat', 'Sex_Cat']])
X_test['Age_Inf']= round(X_test['Age4'], 0)

In [0]:
X_test.head()

In [0]:
Mostra_MV(X_test)

Atualizando os NaN's do dataset df com 'Age_Inf' do dataframe X_test:

In [0]:
df_Age4= X_test.drop(columns= ['Pclass', 'SibSp', 'Title', 'Family_Size', 'Fare_Cat', 'Embarked_Cat', 'Deck_Cat', 'Sex_Cat', 'Age4'], axis= 1)
df= pd.merge(df, df_Age4, on= 'PassengerId', how= 'left')
df_Age4.head()

In [0]:
Mostra_MV(df)

In [0]:
df.head(5)

In [0]:
df.loc[df['Age_Inf'].isnull(),'Age_Inf'] = df['Age']

In [0]:
Mostra_MV(df)

In [0]:
df['Age_Inf']= round(df['Age_Inf'], 0)

In [0]:
df.head()

#### Avaliando o impacto da variável 'Age_Inf'
* Vamos inspecionar as colunas envolvidas para avaliar os impactos sofridos.

In [0]:
# Resultado geral, por curiosidade
print(round(df[['Age', 'Age2', 'Age3', 'Age_Inf', 'Sex']].groupby('Sex').mean(),0))

In [0]:
df= df.drop(columns= ['Age'], axis= 1)

In [0]:
Mostra_MV(df)

### Qual a conclusão?

## Outliers

* Nesta sessão, vamos analisar os Outliers para cada uma das variáveis do nosso dataframe.

> __In statistics, an outlier is an observation point that is distant from other observations.__ - Wikipedia

### Z-Score

* Z-Score pode ser utilizado para detectar Outliers.
* É a diferença entre o valor e a média da amostra expressa como o número de desvios-padrão. 
* Se o escore z for menor que 2,5 ou maior que 2,5, o valor estará nos 5% do menor ou maior valor (2,5% dos valores em ambas as extremidades da distribuição). No entanto, é pratica comum utilizarmos 3 ao invés dos 2,5.

Abaixo, definimos a função para detectar os outliers baseados no Z-Score:

In [0]:
from scipy.stats import zscore
def ZScore_Outlier_Detect(column):
    df[column+'_ZS'] = zscore(df[column])
    df[column+'__is_outlier'] = df[column+'_ZS'].apply(lambda x: x <= -3 or x >= 3)
    df_AUX= df[df[column+'__is_outlier']== False]
    min_vlr= df_AUX[column].min()
    max_vlr= df_AUX[column].max()    
    df[column+'_Outlier_ZS']= df[column]
    
    df.loc[df[column+'_Outlier_ZS'] < min_vlr, column+'_Outlier_ZS'] = min_vlr
    df.loc[df[column+'_Outlier_ZS'] > max_vlr, column+'_Outlier_ZS'] = max_vlr
 
    df.drop(columns= [column+'_ZS', column+'__is_outlier'], axis=1, inplace= True)

### IQR Score

* O Intervalo interquartil (IQR) é uma medida de dispersão estatística, sendo igual à diferença entre os percentis 75 e 25, ou entre quartis superiores e inferiores, IQR = Q3 - Q1.

Abaixo, a função para detectar outliers baseados no IQR Score:

In [0]:
def IQR_Score_Outlier_Detect(column):
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    Lim_Inf= Q1-1.5*IQR
    Lim_Sup= Q3+1.5*IQR
    df[column+'__is_outlier'] = df[column].apply(lambda x: x <= Lim_Inf or x >= Lim_Sup)
    
    df_AUX= df[df[column+'__is_outlier']== False]
    min_vlr= df_AUX[column].min()
    max_vlr= df_AUX[column].max()    
    df[column+'_Outlier_IQR']= df[column]
    
    df.loc[df[column+'_Outlier_IQR'] < min_vlr, column+'_Outlier_IQR'] = min_vlr
    df.loc[df[column+'_Outlier_IQR'] > max_vlr, column+'_Outlier_IQR'] = max_vlr
 
    df.drop(columns= [column+'__is_outlier'], axis=1, inplace= True)

### Avaliando Outliers: variáveis 'Age2', 'Age3', 'Age_Inf' e 'Fare'

In [0]:
#df= df_copia7.copy()
df_copia7= df.copy()
df.head()

In [0]:
df_Outlier= df[['Pclass', 'SibSp', 'Fare', 'Sex', 'Deck', 'Embarked', 'Title']].copy()
df_Outlier.head()

A seguir, vamos detectar outliers usando os dois métodos e depois decidimos qual variável tem melhor poder preditivo.

In [0]:
ZScore_Outlier_Detect('Age2')
ZScore_Outlier_Detect('Age3')
ZScore_Outlier_Detect('Age_Inf')
ZScore_Outlier_Detect('Fare')

In [0]:
IQR_Score_Outlier_Detect('Age2')
IQR_Score_Outlier_Detect('Age3')
IQR_Score_Outlier_Detect('Age_Inf')
IQR_Score_Outlier_Detect('Fare')

Vamos tabular alguns resultados para avaliar o impacto destas transformações na variável-resposta 'Survived':

In [0]:
print(round(df[['Age2', 'Age2_Outlier_ZS', 'Age2_Outlier_IQR', 'Survived2']].groupby('Survived2').mean(),0))

Qual sua opinião com relação à estes resultados para a variável 'Age'?

In [0]:
print(round(df[['Age3','Age3_Outlier_IQR','Age3_Outlier_ZS','Survived2']].groupby('Survived2').mean(),0))

Qual sua opinião com relação à estes resultados?

In [0]:
print(round(df[['Age_Inf','Age_Inf_Outlier_IQR','Age_Inf_Outlier_ZS','Survived2']].groupby('Survived2').mean(),0))

Qual sua opinião com relação à estes resultados?

In [0]:
print(round(df[['Fare', 'Fare_Outlier_ZS', 'Fare_Outlier_IQR', 'Survived2']].groupby('Survived2').mean(),0))

Qual sua opinião com relação à estes resultados?

**Mais Importante**: Qual a decisão tomamos diante destes resultados?

### Sugestões de Leitura
* [An Awesome Tutorial to Learn Outlier Detection in Python using PyOD Library](https://www.analyticsvidhya.com/blog/2019/02/outlier-detection-python-pyod/)

## Análise de Correlação

https://towardsdatascience.com/handling-missing-values-in-machine-learning-part-2-222154b4b58e

In [0]:
# calcula a correlação entre as colunas/variáveis do dataframe
correlacao= df.corr().abs()

# Seleciona o triângulo superior da matriz de correlação
correlacao = correlacao.where(np.triu(np.ones(correlacao.shape), k=1).astype(np.bool))
correlacao

Acho que a figura abaixo apresenta melhor visualização do que a anterior.

In [0]:
fig, ax = plt.subplots(figsize=(15, 15)) 
mask = np.zeros_like(df.corr().abs())
mask[np.triu_indices_from(mask)] = 1
sns.heatmap(df.corr().abs(), mask= mask, ax= ax, cmap='coolwarm', annot= True)

## PCA - Principal Components Analysis

* Quando se tem muitas variáveis no seu dataframe, selecionar variáveis para seus modelos pode ser complicado;
* PCA ajuda a selecionar os melhores atributos para seus modelos.
* Ajuda  aevitar overfitting;

## Data Visualization

> Para aprender com mais detalhes sobre 'Pandas Pivot Table & Crosstabs', consulte: 

* https://medium.com/@yangdustin5/quick-guide-to-pandas-pivot-table-crosstab-40798b33e367
* https://pbpython.com/pandas-crosstab.html
* https://towardsdatascience.com/10-python-pandas-tricks-to-make-data-analysis-more-enjoyable-cb8f55af8c30
* https://dfrieds.com/data-analysis/crosstabs-python-pandas

> Para aprender mais sobre gráficos, consulte:

* [Visualization with Seaborn](https://jakevdp.github.io/PythonDataScienceHandbook/04.14-visualization-with-seaborn.html)
*[Exploring the Titanic dataset with seaborn](https://gist.github.com/mwaskom/8224591)

Inicialmente, gostaríamos de saber, quantos morreram e quantos sobreviveram ao acidente:

In [0]:
sns.countplot(x='Survived2', data=df);

### DataViz para 'Deck'

In [0]:
Avalia_Taxa_Sobrevivencia(df, 'Deck')

In [0]:
Catplot_Graph(x= "Deck", y= "Age2", hue= 'Survived2', col= None)

In [0]:
Catplot_Graph(x= "Deck", y= "Fare", hue= 'Survived2', col= None)

In [0]:
plt.rcdefaults()
# make boxplot with Catplot
sns.catplot(x='Pclass', y='Age2', kind="box",  data=df, height=4,aspect=1.5)
# add data points to boxplot with stripplot
sns.stripplot(x='Pclass', y='Age2', data=df, alpha=0.3,jitter=0.2,color='k');
plt.show()

In [0]:
Catplot_Graph(x= "Sex", y= "Age2", hue= 'Survived2', col= "Deck")

* Qual a relação entre 'Deck', 'Sex' e 'Fare'?

In [0]:
Catplot_Graph(x= "Sex", y= "Fare", hue= 'Survived2', col= "Deck")

**Vamos interpretar esses resultados**:

* Esse gráfico relaciona a 'Taxa de Sobrevivência' por cada tipo de 'Deck'.

* Pela legenda, temos que a cor vermelha se refere a quem morreu, ao passo que a cor verde representa quem sobreviveu. Baseado nisso, responda às seguintes perguntas:
    * Qual 'Deck' apresenta maior 'Taxa de Sobrevivência'?
    * Qual 'Deck' apresenta menor 'Taxa de Sobrevivência'?
    * O que aconteceu com a maioria das pessoas que estavam no Deck= T?
    * Qual a conclusão?

### DataViz para 'MV_Deck'

In [0]:
Avalia_Taxa_Sobrevivencia(df, 'MV_Deck')

In [0]:
Catplot_Graph(x= "MV_Deck", y= "Age2", hue= 'Survived2', col= None)

In [0]:
Catplot_Graph(x= "MV_Deck", y= "Fare", hue= 'Survived2', col= None)

**Vamos interpretar esses resultados**:

* Esse gráfico relaciona a 'Taxa de Sobrevivência' por cada tipo de 'MV_Deck'.

* Pela legenda, temos que a cor vermelha se refere a quem morreu, ao passo que a cor verde representa quem sobreviveu. Baseado nisso, responda às seguintes perguntas:
    * Qual a conclusão?

### DataViz para 'Embarked'

In [0]:
Avalia_Taxa_Sobrevivencia(df, 'Embarked')

In [0]:
Catplot_Graph(x= "Embarked", y= "Age2", hue= 'Survived2', col= None)

In [0]:
Catplot_Graph(x= "Embarked", y= "Fare", hue= 'Survived2', col= None)

In [0]:
Catplot_Graph(x= "Sex", y= "Age2", hue= 'Survived2', col= 'Embarked')

In [0]:
Catplot_Graph(x= "Sex", y= "Fare", hue= 'Survived2', col= 'Embarked')

**Vamos interpretar esses resultados:**:

* Esse gráfico relaciona a 'Taxa de Sobrevivência' por cada tipo de 'Embarked'.

* Pela legenda, temos que a cor vermelha se refere a quem morreu, ao passo que a cor verde representa quem sobreviveu. Baseado nisso, responda às seguintes perguntas:
    * Qual 'Embarked' apresenta maior 'Taxa de Sobrevivência'?
    * Qual 'Embarked' apresenta menor 'Taxa de Sobrevivência'?
    * Qual a conclusão?

### DataViz para 'Sex'

In [0]:
Avalia_Taxa_Sobrevivencia(df, 'Sex')

In [0]:
Catplot_Graph(x= "Sex", y= "Fare", hue= 'Survived2', col= None)

**Vamos interpretar esses resultados**:

* Esse gráfico relaciona a 'Taxa de Sobrevivência' por cada tipo de 'Sex'.

* Pela legenda, temos que a cor vermelha se refere a quem morreu, ao passo que a cor verde representa quem sobreviveu. Baseado nisso, responda às seguintes perguntas:
    * Qual 'Sex' apresenta maior 'Taxa de Sobrevivência'?
    * Qual 'Sex' apresenta menor 'Taxa de Sobrevivência'?

    * Qual a conclusão?

### DataViz para 'Pclass'

In [0]:
Avalia_Taxa_Sobrevivencia(df, 'Pclass')

In [0]:
Catplot_Graph(x= "Pclass", y= "Age2", hue= 'Survived2', col= None)

In [0]:
Catplot_Graph(x= "Pclass", y= "Fare", hue= 'Survived2', col= None)

In [0]:
Catplot_Graph(x= 'Sex', y= 'Age2', hue= 'Survived2', col= 'Pclass')

In [0]:
Catplot_Graph(x= 'Sex', y= 'Fare', hue= 'Survived2', col= 'Pclass')

**Vamos interpretar esses resultados**:
* Responda as seguintes perguntas:
    * Qual classe morreram mais pessoas?
    * Qual a conclusão geral?

### DataViz para 'Parch'
* Atributo numérico que representa os filhos/pais.

In [0]:
Avalia_Taxa_Sobrevivencia(df, 'Parch')

In [0]:
Catplot_Graph(x= 'Parch', y= 'Age2', hue= 'Survived2', col= None)

In [0]:
Catplot_Graph(x= 'Parch', y= 'Fare', hue= 'Survived2', col= None)

In [0]:
Catplot_Graph(x= 'Sex', y= 'Age2', hue= 'Survived2', col= 'Parch')

In [0]:
Catplot_Graph(x= 'Sex', y= 'Fare', hue= 'Survived2', col= 'Parch')

**Vamos interpretar esses resultados**

* Qual a conclusão geral?

### DataViz para 'SibSp'
* Atributo numérico que representa os irmãos/cônjuge.

In [0]:
Avalia_Taxa_Sobrevivencia(df, 'SibSp')

Avaliando o impacto do atributo 'SibSp' na taxa de sobrevivência

In [0]:
Catplot_Graph(x= 'SibSp', y= 'Age2', hue= 'Survived2', col= None)

In [0]:
Catplot_Graph(x= 'SibSp', y= 'Fare', hue= 'Survived2', col= None)

In [0]:
Catplot_Graph(x= 'SibSp', y= 'Age2', hue= 'Survived2', col= 'SibSp')

In [0]:
Catplot_Graph(x= 'SibSp', y= 'Fare', hue= 'Survived2', col= 'SibSp')

**Vamos interpretar esses resultados**

* Qual a conclusão geral?

### DataViz para 'Family_Size'

In [0]:
Avalia_Taxa_Sobrevivencia(df, 'Family_Size')

In [0]:
# Get the unique values of Embarked and its maximum
family_sizes = sorted(df['Family_Size'].unique())
family_size_max = max(family_sizes)

df_0 = df[df['Survived'] == 0]['Family_Size']
df_1 = df[df['Survived'] == 1]['Family_Size']
plt.hist([df_0, df_1], 
         bins=family_size_max + 1, 
         range=(0, family_size_max), 
         stacked=True)
plt.legend(('Died', 'Survived'), loc='best')
plt.title('Survivors by Family Size')

In [0]:
Catplot_Graph(x= 'Sex', y= 'Age2', hue= 'Survived2', col= 'Family_Size')

In [0]:
Catplot_Graph(x= 'Sex', y= 'Fare', hue= 'Survived2', col= 'Family_Size')

### DataViz para 'Age', 'Age3' e 'Age_Inf' - Numérica

#### Boxplot

![](https://github.com/MathMachado/Python_RFB/blob/master/Material/boxplot.png?raw=true)

In [0]:
plt.rcdefaults()
# make boxplot with Catplot
sns.catplot(y='Age2', kind="box",  data=df, height=4,aspect=1.5)
# add data points to boxplot with stripplot
sns.stripplot(y='Age2', data=df, alpha=0.3,jitter=0.2,color='k');
plt.show()

In [0]:
plt.rcdefaults()
# make boxplot with Catplot
sns.catplot(x='Sex', y='Age2', kind="box",  data=df, height=4,aspect=1.5)
# add data points to boxplot with stripplot
sns.stripplot(x='Sex', y='Age2', data=df, alpha=0.3,jitter=0.2,color='k');
plt.show()

In [0]:
plt.rcdefaults()
df['Age2'].plot(kind='hist')
plt.show()

In [0]:
plt.rcdefaults()
# make boxplot with Catplot
sns.catplot(x='Survived2', y='Age2', kind="box",  data=df, height=4,aspect=1.5)
# add data points to boxplot with stripplot
sns.stripplot(x='Survived2', y='Age2', data=df, alpha=0.3,jitter=0.2,color='k');
plt.show()

In [0]:
# Set up a grid of plots
# Size of matplotlib figures that contain subplots
fizsize_with_subplots = (10, 10)
# Size of matplotlib histogram bins
bin_size = 10

fig, axes = plt.subplots(2, 1, figsize=fizsize_with_subplots)

# Histogram of AgeFill segmented by Survived
df_0 = df[df['Survived'] == 0]['Age2']
df_1 = df[df['Survived'] == 1]['Age2']
max_age = max(df['Age2'])
bins= int(np.ceil(max_age/bin_size))

axes[0].hist([df_0, df_1], bins= int(np.ceil(max_age/bin_size)), range=(1, max_age), stacked=True)
axes[0].legend(('Died', 'Survived'), loc='best')
axes[0].set_title('Survivors by Age Groups Histogram')
axes[0].set_xlabel('Age')
axes[0].set_ylabel('Count')

# Scatter plot Survived and AgeFill
axes[1].scatter(df['Survived'], df['Age2'])
axes[1].set_title('Survivors by Age Plot')
axes[1].set_xlabel('Survived')
axes[1].set_ylabel('Age')

Infelizmente, os dois gráficos acima não nos trazem muitas informações sobre a idade dos passageiros. Vamos continuar investigando...

### DataViz para 'Fare' - Numérica

In [0]:
plt.rcdefaults()
df['Fare'].plot(kind='hist')
plt.show()

In [0]:
plt.rcdefaults()
# make boxplot with Catplot
sns.catplot(y='Fare', kind="box",  data=df, height=4,aspect=1.5)
# add data points to boxplot with stripplot
sns.stripplot(y='Fare', data=df, alpha=0.3,jitter=0.2,color='k');
plt.show()

In [0]:
plt.rcdefaults()
# make boxplot with Catplot
sns.catplot(x='Survived2', y='Fare', kind="box",  data=df, height=4,aspect=1.5)
# add data points to boxplot with stripplot
sns.stripplot(x='Survived2', y='Fare', data=df, alpha=0.3,jitter=0.2,color='k');
plt.show()

Quem pagou mais tem maior taxa de sobrevivência?

In [0]:
plt.rcdefaults()
# make boxplot with Catplot
sns.catplot(x='Sex', y='Fare', kind="box",  data=df, height=4,aspect=1.5)
# add data points to boxplot with stripplot
sns.stripplot(x='Sex', y='Fare', data=df, alpha=0.3,jitter=0.2,color='k');
plt.show()

Homens pagaram mais?

### DataViz para distribuição conjunta entre 'Fare' e 'Sex' - Numérica

In [0]:
plt.rcdefaults()
# make boxplot with Catplot
sns.catplot(x='Sex', y='Fare', hue="Survived2", kind="box", data=df, height=4,aspect=1.5)
# add data points to boxplot with stripplot
sns.stripplot(x='Sex', y='Fare', hue="Survived2", data=df, alpha=0.3,jitter=0.2,color='k');
plt.show()

## Feature Engineering - Encoding variáveis Categóricas

> Para mais sobre hot-encoding, consulte:

* [Why One-Hot Encode Data in Machine Learning?](https://machinelearningmastery.com/why-one-hot-encode-data-in-machine-learning/)
*[Continuous Numeric Data](https://towardsdatascience.com/understanding-feature-engineering-part-1-continuous-numeric-data-da4e47099a7b)

Inicialmente, vamos categorizar as variáveis floats do nosso dataframes.



Para isso, podemos usar duas alternativas:

* usar a função pd.cut() para construir categorias das variáveis numéricas.
* Usar Decision Trees para nos dizer quais as melhores classes.

Vamos aplicar os dois approaches aqui, ok.

### Construindo classes das variáveis numéricas usando pd.cut()

* Para exemplificar, considere a variável 'Age2' a seguir:

Salvando uma cópia do dataframe tratado:

In [0]:
df.to_csv("df_Tratado.csv", sep= ',', index = True, header=True)

In [0]:
df2= df.copy()
Age2_Cat= pd.cut(df2['Age2'], 10)

Propus que o Python construisse 10 categorias para 'Age2'. Veja a seguir as classes criadas:

In [0]:
set(Age2_Cat)

In [0]:
Age2_Cat.head()

Ok, vamos criar estas categorias para cada variável float diratamente no nosso dataframe:

In [0]:
Numeric_Vars= ['Age2', 'Age3', 'Age2_Outlier_ZS', 'Age2_Outlier_IQR', 'Age3_Outlier_ZS', 'Age3_Outlier_IQR', 'Fare', 
               'Fare_Outlier_ZS', 'Fare_Outlier_IQR', 'Seat']

for var in Numeric_Vars:
    df2[var+'_Cut']= pd.cut(df2[var], 10)

Vamos ver os resultados...

In [0]:
df2.head()

### Construir as classes das variáveis numéricas usando Decision Trees

> Para saber mais sobre discretização usando Decision Trees, consulte [Discretisation Using Decision Trees](https://towardsdatascience.com/discretisation-using-decision-trees-21910483fa4b).

In [0]:
X_tree= df2[['Survived','Age2','Age3','Fare','Seat','Age2_Outlier_ZS','Age2_Outlier_IQR','Age3_Outlier_ZS','Age3_Outlier_IQR','Fare_Outlier_ZS','Fare_Outlier_IQR']]
X_tree= X_tree[X_tree['Survived'].notna()]

y_tree= df2[['Survived']]
y_tree= y_tree[y_tree['Survived'].notna()]
y_tree.shape

### Construindo o Classificador - Decision Tree

Vamos construir uma Decision Tree usando 'Age2' para prever 'Survived', tendo como objetivo discretizar 'Age2'.

In [0]:
from sklearn.tree import DecisionTreeClassifier 
from sklearn.tree import DecisionTreeRegressor
from sklearn import tree, metrics

tree_model = DecisionTreeClassifier(max_depth=2)
tree_model.fit(X_tree.Age2.to_frame(), X_tree.Survived)

X_tree['Age2_tree']=tree_model.predict_proba(X_tree.Age2.to_frame())[:,1] 
X_tree.head(10)

A nova variável 'Age2_tree' representa a probabilidade do ponto/observação pertencer à classe.

### Verificando o número de valores únicos presentes na variável 'Age2_tree'

In [0]:
X_tree.Age2_tree.unique()

* Por que apenas quatro probabilidades?
    * Definimos max_depth = 2. Isso significa uma Decision Tree de profundidade 2, com 2 splits, resultando em 4 buckets. Por isso que temos o vetor acima com somente 4 probabilidades diferentes.

### Verificando a relação entre a variável discreta 'Age2_tree' e a variável-resposta 'Survived'

In [0]:
fig = plt.figure()
fig = X_tree.groupby(['Age2_tree'])['Survived'].mean().plot()
fig.set_title('Monotonic relationship between discretised Age and target')
fig.set_ylabel('Survived')

Aqui podemos ver uma relação monotônica entre a variável 'Age2_tree' e a variável-resposta 'Survived'. Isso sugere que a variável 'Age2_tree' parece ser um bom preditor da variável-resposta 'Survived'.

### Verificando o número de passageiros por bucket/bin

In [0]:
X_tree.groupby(['Age2_tree'])['Survived'].count().plot.bar()

### Verificando os intervalos gerados pela Decision Tree

In [0]:
pd.concat( [X_tree.groupby(['Age2_tree'])['Age2'].min(), X_tree.groupby(['Age2_tree'])['Age2'].max()], axis=1)

* A interpretação disso é: A Decision Tree gerou 4 buckets/bins:
    * 0-1 com probabilidade= 1;
    * 1-6 com probabilidade= 0.65;
    * 7-63 com probabilidade= 0.36;
    * 64-80 com probabilidade= 0.07.

### Otimizando a Decision Tree - Selecionando o depth ótimo

In [0]:
from sklearn.model_selection import cross_val_score

score_ls = []     # here I will store the roc auc
score_std_ls = [] # here I will store the standard deviation of the roc_auc
for tree_depth in [1,2,3,4]:
    tree_model = DecisionTreeClassifier(max_depth=tree_depth)
    
    scores = cross_val_score(tree_model, X_tree.Age2.to_frame(), y_tree, cv=3, scoring='roc_auc')   
    
    score_ls.append(np.mean(scores))
    
    score_std_ls.append(np.std(scores))
    
temp = pd.concat([pd.Series([1,2,3,4]), pd.Series(score_ls), pd.Series(score_std_ls)], axis=1)
temp.columns = ['depth', 'roc_auc_mean', 'roc_auc_std']
print(temp)

Podemos ver que o melhor resultado se dá para depth= 4. No entanto, o valor para depth= 3 não é muito diferente. Então, por simplicidade, vou usar depth= 3.

### Transformando a variável 'Age2' usando a Decision Tree

In [0]:
tree_model = DecisionTreeClassifier(max_depth= 3)
tree_model.fit(X_tree.Age2.to_frame(), X_tree.Survived)
X_tree['Age2_tree'] = tree_model.predict_proba(X_tree.Age2.to_frame())[:,1]

### Inspecionando a variável

In [0]:
X_tree.head()

### Checking os valores únicos da variável

In [0]:
X_tree.Age2_tree.unique()

### Verificando os intervalos gerados pela Decision Tree

In [0]:
pd.concat( [X_tree.groupby(['Age2_tree'])['Age2'].min(), X_tree.groupby(['Age2_tree'])['Age2'].max()], axis=1)

In [0]:
X_tree.shape

In [0]:
X_tree.head()

Como temos somente 6 probabilidades/valores para 'Age2_tree', então vou fazer o seguinte:

In [0]:
set_Age2_tree= set(X_tree['Age2_tree'])
set_Age2_tree= sorted(list(set_Age2_tree))
set_Age2_tree

Criando o dicionário a partir dos valores únicos:

In [0]:
Niveis= [1,2,3,4,5,6]
zipObj= zip(set_Age2_tree, Niveis)
DictObj= dict(zipObj)
DictObj

In [0]:
X_tree['Age2_tree2'] = X_tree['Age2_tree'].map(DictObj)

In [0]:
X_tree.head(5)

In [0]:
X_tree2= X_tree[['Age2', 'Age2_tree']]

In [0]:
X_tree2.head()

In [0]:
df_drop_dupl = X_tree2.drop_duplicates(['Age2'])
df_drop_dupl.shape

In [0]:
zipObj= zip(df_drop_dupl['Age2'], df_drop_dupl['Age2_tree'])
DictObj= dict(zipObj)
DictObj

In [0]:
X_tree= X_tree.drop(columns= ['Age2', 'Age2_tree'], axis= 1)

Aplica o dicionário na base de testes

### Automatizando o processo

In [0]:
df2.head()

In [0]:
Numeric_Vars= ['Age2', 'Fare', 'Seat', 'Age3', 'Age2_Outlier_ZS', 'Age2_Outlier_IQR', 'Age3_Outlier_ZS', 'Age3_Outlier_IQR', 'Fare_Outlier_ZS', 'Fare_Outlier_IQR']
#Numeric_Vars= ['Fare']

df3= df2.copy()

X_tree= df2[['Survived','Age2','Age3','Fare','Seat','Age2_Outlier_ZS','Age2_Outlier_IQR','Age3_Outlier_ZS','Age3_Outlier_IQR','Fare_Outlier_ZS','Fare_Outlier_IQR']]
X_tree= X_tree[X_tree['Survived'].notna()]

y_tree= df2[['Survived']]
y_tree= y_tree[y_tree['Survived'].notna()]

X_tree.head()

In [0]:
for var in Numeric_Vars:
    tree_model = DecisionTreeClassifier(max_depth=3)
    tree_model.fit(X_tree[var].to_frame(), X_tree['Survived'])

    df2[var+'_tree']= tree_model.predict_proba(df2[var].to_frame())[:,1]

    var_unicos= set(df2[var+'_tree'])
    var_unicos= sorted(list(var_unicos))

    Niveis= list(range(len(var_unicos)))
      
    zipObj= zip(var_unicos, Niveis)
    DictObj1= dict(zipObj)

    df2[var+'_tree2'] = df2[var+'_tree'].map(DictObj1)

    df2= df2.drop(columns= [var, var+'_tree'], axis= 1)
    df2= df2.rename(columns={var+'_tree2': var+'_tree'})

In [0]:
df2.head()

In [0]:
total = df2.isnull().sum().sort_values(ascending=False)
percent = (df2.isnull().sum()/df2.isnull().count()).sort_values(ascending=False)
missing_data = pd.concat([total, percent], axis=1, keys=['Total', 'Percentual'])
f, ax = plt.subplots(figsize=(15, 6))
plt.xticks(rotation='90')
sns.barplot(x=missing_data.index, y=missing_data['Percentual'])
plt.xlabel('Features', fontsize=15)
plt.ylabel('Percentual de Missing Values', fontsize=15)
plt.title('Percentual de Missing Values por Variável', fontsize=15)
missing_data.head()

### Label Encoding

Variáveis categóricas para decodificarmos:

In [0]:
df4= df2.copy()
Categorical_Vars= ['Embarked', 'Deck', 'Sex', 'Age2_Cut', 'Age3_Cut', 'Age2_Outlier_ZS_Cut', 'Age2_Outlier_IQR_Cut', 'Age3_Outlier_ZS_Cut', 'Age3_Outlier_IQR_Cut',
                   'Fare_Cut', 'Fare_Outlier_ZS_Cut', 'Fare_Outlier_IQR_Cut', 'Seat_Cut']
df4[Categorical_Vars].head()

In [0]:
#df_copia= df.copy()
#df= df_copia.copy()

In [0]:
le = LabelEncoder()

Aplicando Label Encoder às colunas/variáveis categóricas do dataframe:

In [0]:
for var in Categorical_Vars:
    df4[var+'_le']= le.fit_transform(df4[var])

In [0]:
df5= df4.drop(columns= Categorical_Vars, axis= 1)

In [0]:
df5.head()

In [0]:
total = df5.isnull().sum().sort_values(ascending=False)
percent = (df5.isnull().sum()/df5.isnull().count()).sort_values(ascending=False)
missing_data = pd.concat([total, percent], axis=1, keys=['Total', 'Percentual'])
f, ax = plt.subplots(figsize=(15, 6))
plt.xticks(rotation='90')
sns.barplot(x=missing_data.index, y=missing_data['Percentual'])
plt.xlabel('Features', fontsize=15)
plt.ylabel('Percentual de Missing Values', fontsize=15)
plt.title('Percentual de Missing Values por Variável', fontsize=15)
missing_data.head()

### One-Hot Encoding - Construindo variáveis dummies para variáveis categóricas

Primeiramente, vamos separar as bases de treinamento e teste e, na sequência, transformar as variáveis float para int:

In [0]:
df_train= df5.copy()
df_train= df_train.drop(columns= ['Survived2'], axis= 1)
df_train.shape

In [0]:
df_train.head()

In [0]:
df_train.info()

Construindo variáveis dummies para as variáveis categóricas:

In [0]:
Variaveis= list(df_train.columns)
Variaveis.remove('Survived')
Variaveis

In [0]:
for var in Variaveis:
    ohe= pd.get_dummies(df_train[var]).rename(columns=lambda x: var+'_'+ str(x))
    df_train= pd.merge(df_train, ohe, on= 'PassengerId', how= 'left')

df_train= df_train.drop(columns= Variaveis, axis= 1)

In [0]:
df_train.head()

Adicionando as variáveis dummies criadas ao dataframe original. Observe que em ambos os dataframes (df e ohe) temos 'PassengerId' como chave. Vamos usá-la para fazer o append desses dois dataframes. Em caso de dúvida, consulte o capítulo [Data Analysis With Pandas](https://github.com/MathMachado/Python_RFB/blob/master/Data%20Analysis%20with%20Pandas.ipynb).

In [0]:
df6 = pd.merge(df_train, ohe, on='PassengerId', how='left')
df6.shape

In [0]:
df6.head(5)

Pronto, nosso dataframe está pronto/preparado para Machine Learning!

# Modeling
* Para aprender mais sobre Scikit-Learn, consulte: https://scikit-learn.org/stable/

Colocar nas referências: https://towardsdatascience.com/hackcvilleds-4636c6c1ba53

![Modeling](https://github.com/MathMachado/Python_RFB/blob/master/Material/Modeling.png?raw=true)

## Train/Test Split

Vamos organizar os dados do dataframe convenientemente da seguinte forma:

![X](https://github.com/MathMachado/Python_RFB/blob/master/Material/Architecture.png?raw=true)
[Fonte](https://jakevdp.github.io/PythonDataScienceHandbook/06.00-figure-code.html#Features-and-Labels-Grid)

In [0]:
df7= df6.copy()
X= df7[df7['Survived'].notna()]
X= X.drop(columns= ['Survived'], axis= 1)

y= df7[df7['Survived'].notna()]
y= y['Survived']

print(X.shape, y.shape)

In [0]:
X.head()

In [0]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
print(X_train.shape, y_train.shape)

Importance Sampling usando 'Random Forest':

In [0]:
from sklearn.ensemble import RandomForestClassifier
rf_clf = RandomForestClassifier(n_estimators = 500, max_depth=12)
rf_clf.fit(X_train, y_train)
rf_y_pred = rf_clf.predict(X_test)

pd.Series(rf_clf.feature_importances_, index = X_train.columns).nlargest(12).plot(kind = 'barh',
                                                                               figsize = (10, 10),
                                                                              title = 'Feature importance from RandomForest').invert_yaxis();


Definindo os classificadores:

In [0]:
names = [PassiveAggressiveClassifier,
         SGDClassifier,
         LogisticRegression,
         KNeighborsClassifier, 
         NearestCentroid, 
         MLPClassifier,
         DecisionTreeClassifier,
         ExtraTreeClassifier,
         AdaBoostClassifier,
         BaggingClassifier,
         RandomForestClassifier,
         GaussianProcessClassifier,
         SVC,
         XGBClassifier, 
         GradientBoostingClassifier,
         GaussianNB]

In [0]:
classifiers = [PassiveAggressiveClassifier(),
               SGDClassifier(),
               LogisticRegression(),
               KNeighborsClassifier(), 
               NearestCentroid(), 
               MLPClassifier(),
               DecisionTreeClassifier(),
               ExtraTreesClassifier(n_estimators = 750, max_features = 'sqrt', max_depth = 35,  n_jobs = 50, criterion = 'entropy', random_state = 42, verbose = 1),
               AdaBoostClassifier(),
               BaggingClassifier(),
               RandomForestClassifier(n_estimators = 750, criterion = 'gini', max_features = 'sqrt', max_depth = 3, min_samples_split = 4, min_samples_leaf = 2, n_jobs = 50, random_state = 42, verbose = 1),
               GaussianProcessClassifier(),
               SVC(probability=True),
               XGBClassifier(n_estimators= 2000,max_depth= 4,min_child_weight= 2,gamma=0.9,subsample=0.8,colsample_bytree=0.8,objective='binary:logistic',nthread= -1,scale_pos_weight=1),
               GradientBoostingClassifier(n_estimators = 900, learning_rate = 0.0008, loss = 'exponential', min_samples_split = 3, min_samples_leaf = 2, max_features ='sqrt', max_depth = 3,  random_state = 42, verbose = 1),
               GaussianNB()
              ]

In [0]:
results = []

for name, clf in zip(names, classifiers):
    clf.fit(X_train, y_train)
    scores_train = cross_val_score(clf, X_train, y_train, cv=10)
    predicted= clf.predict(X_test)    
    acc= accuracy_score(y_test, predicted)    
    results.append([name, scores_train.mean(), scores_train.std(), acc])

In [0]:
pd.DataFrame(results, columns=['Name', 'Mean', 'Std', 'Accuracy']).sort_values(['Mean'])

## Ensemble Methods

Check: https://mlwave.com/kaggle-ensembling-guide/

![TPOT](https://github.com/MathMachado/Python_RFB/blob/master/Material/Voting.png?raw=true)

Se fizermos:

In [0]:
from sklearn import ensemble

rf_est = ensemble.RandomForestClassifier(n_estimators = 750, criterion = 'gini', max_features = 'sqrt', max_depth = 3, min_samples_split = 4, min_samples_leaf = 2, n_jobs = 50, random_state = 42, verbose = 1)
gbm_est = ensemble.GradientBoostingClassifier(n_estimators = 900, learning_rate = 0.0008, loss = 'exponential', min_samples_split = 3, min_samples_leaf = 2, max_features ='sqrt', max_depth = 3,  random_state = 42, verbose = 1)
et_est = ensemble.ExtraTreesClassifier(n_estimators = 750, max_features = 'sqrt', max_depth = 35,  n_jobs = 50, criterion = 'entropy', random_state = 42, verbose = 1)

voting_est = ensemble.VotingClassifier(estimators = [('rf', rf_est),('gbm', gbm_est),('et', et_est)],
                                       voting = 'soft', weights = [3,5,2],
                                       n_jobs = 50)
                                       
voting_est.fit(X_train, y_train)
print("VotingClassifier Score: " + str(voting_est.score(X_train, y_train)))
print("VotingClassifier Estimators: " + str(voting_est.estimators_))

# Model Selection and Evaluation

![Evaluation](https://github.com/MathMachado/Python_RFB/blob/master/Material/Evaluation.png?raw=true)

# Deployment

![Deployment](https://github.com/MathMachado/Python_RFB/blob/master/Material/Deployment.png?raw=true)