<a href="https://colab.research.google.com/github/MathMachado/Python_RFB/blob/master/Projetos/Titanic/3DP_Missing%20Value%20Handling.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# PROJETO TITANIC
## 3DP - DATA PREPARATION
## 3DP - Missing Value Handling

# Machine Learning com Python (Scikit-Learn)

![Scikit-Learn](https://github.com/MathMachado/Python_RFB/blob/master/Material/scikit-learn-1.png?raw=true)

# Carregar as bibliotecas (genéricas) Python

In [0]:
# Pandas
import pandas as pd
from pandas import Series, DataFrame

# numpy, matplotlib, seaborn
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style('whitegrid')
%matplotlib inline

# remove warnings to keep notebook clean
import warnings
warnings.filterwarnings('ignore')

# Carregar Dados

In [0]:
url= 'https://raw.githubusercontent.com/MathMachado/Python_RFB/master/Dataframes/df_3DP_FE1.csv?token=AGDJQ676E373FPVNODFVMZ25NV6R2'

# Carrega o dataframe da fase anterior e define 'PassengerId' como chave
df= pd.read_csv(url, index_col='PassengerId')
df.head()

# Missing Values

> Lidar com Missing Values é um dos piores pesadelos de um Cientista de dados. Especialmente, se o número de MV for grande o suficiente (geralmente acima de 5%). Nesse caso, os valores não podem ser descartados e um Cientista de Dados inteligente deve "imputar" os valores ausentes.

* Nesta sessão, vamos identificar, analisar e tratar Missing Values (MV).
* Como MV são gerados?
    * Usuário se esqueceu de preencher ou preencheu errado o campo;
    * Os dados foram perdidos durante a transferência manual de um banco de dados legado;
    * Erro de programação;
    * Os usuários optaram por não preencher um campo vinculado a suas crenças sobre como os resultados seriam usados ou interpretados.
* As funções df.isnull() e df.isna() são apropriadas para nos indicar quantas observações são MV no dataframe.

Vamos utilizar a função abaixo para nos ajudar no diagnóstico dos Missing Values:

In [0]:
def Mostra_MV(df):
    total = df.isnull().sum().sort_values(ascending=False)
    percent = 100*round((df.isnull().sum()/df.isnull().count()).sort_values(ascending=False),2)
    missing_data = pd.concat([total, percent], axis=1, keys=['Total', 'Percentual'])
    #f, ax = plt.subplots(figsize=(15, 6))
    #plt.xticks(rotation='90')
    #sns.barplot(x=missing_data.index, y=missing_data['Percentual'])
    #plt.xlabel('Features', fontsize=15)
    #plt.ylabel('Percentual de Missing Values', fontsize=15)
    #plt.title('Percentual de Missing Values por Variável', fontsize=15)
    print(missing_data.head(10))

In [0]:
Mostra_MV(df)

* **Interpretação do resultado acima**: 
    * Não se incomode, por enquanto, com os NaN da variável 'Survived' e 'Survived2';
    * A variável 'Seat' possui 1027 NaN's;
    * A variável 'Deck' possui 1014 NaN's;
    * A Variável 'Age' possui 263 NaN's;
    * A Variável 'Embarked' possui 2 NaN's;
    * A variável 'Fare' possui 1 NaN.

* **Nota:** Diferença entre as funções df.isna() e df.isnull():
    * Para detectar NaN em numpy use np.isnan();
    * Para detectar NaN em pandas, então tanto faz usar pd.isna() ou pd.isnull().

### Variável 'Deck'

* Vimos anteriormente que a variável 'Deck' possui 1014 (77%) valores nulos. Vamos focar no tratamento desses NaN's:

    * **A solução**: Como se trata de uma variável categórica, o tratamento que darei aqui é atribuir uma letra aos MV.

* Antes, porém, vamos criar a variável 'MV_Deck' que receberá o valor 1 se 'Deck' é MV e 0, caso contrário.

In [0]:
df_copia2= df.copy()
set(df['Deck']) # Esse comando mostra os NaN's da variável

In [0]:
df['MV_Deck']= df['Deck'].apply(lambda x: 0 if x in ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'T'] else 1)
df.MV_Deck.value_counts()

In [0]:
set(df['MV_Deck']) # Esse comando mostra os NaN's da variável

Agora, todo 'NaN' encontrado no dataframe será substituído pela letra 'M', que representará os Missing Values:

In [0]:
df["Deck"]= df["Deck"].fillna("M")
df.Deck.value_counts()

In [0]:
set(df['Deck']) # Esse comando mostra os NaN's da variável

Como pode ser visto acima, substituimos todos os MV por 'M'.

### Variável 'Seat'

Avaliando se a variável 'Seat' possui NaN's:

In [0]:
set(df['Seat']) # Esse comando mostra os NaN's da variável

Qual o atributo mais frequente da variável 'Seat'?

In [0]:
df.Seat.value_counts()

Como vimos Seat= 6 é o mais comum. Portanto, vamos substituir todos os NaN's desta variável por 6:

In [0]:
df["Seat"]= df["Seat"].fillna(6)

O próximo passo é converter o tipo da variável 'Seat' de Object para int.

In [0]:
df_copia3= df.copy()
#df= df_copia3.copy()

In [0]:
df= df.astype({'Seat': int}) 
df.info()

### Variável 'Fare'

* Vimos que a variável 'Fare' possui 1 MV. Como se trata de um percentual pequeno de MV, podemos:
    * Deletar esta observação ou;
    * Substituir o MV pela média/mediana/moda.
    
* A função dropna() pode ser usada para deletarmos tanto linhas/observações quanto colunas/variáveis com MV.

Aqui, vou substituir o NaN da variável 'Fare' pela mediana. A seguir, a média da variável 'Fare' antes da transformação, pois é muito importante compararmos o antes e o depois da transformação. Esta análise de impacto é muito importante para se avaliar o quanto as transformações impactam a distribuição da variável original.

In [0]:
df['Fare'].mean()

Aplicamos a transformação...

In [0]:
df['Fare'].fillna(df['Fare'].median(), inplace=True)

Média da variável 'Fare' depois da transformação:

In [0]:
df['Fare'].mean()

Como podemos ver, nada muito sério em termos de impacto na variável.

Qual a distribuição da variável 'Fare'?

In [0]:
sns.distplot(df['Fare'])

Percebe-se que a distribuição de 'Fare' é não-Normal. Vamos aplicar uma transformação para tentar obter normalidade?

### Variável 'Embarked'

* A variável 'Embarked' possui 2 MV. Como se trata de uma variável categórica, nossas opções são deletar ou atribuir um valor (em função de outras variáveis).

In [0]:
df_copia4= df.copy()
set(df['Embarked']) # Esse comando mostra os NaN's da variável

Por simplicidade, aqui vou substituir as observações NaN da variável 'Embarked' por 'S', que é o valor mais frequente:

ps.: O comando a seguir retorna o atributo 'S', que nesse caso, é o atributo de interesse em nosso caso: df['Embarked'].mode()[0]. Veja abaixo:

In [0]:
sMode_Of_Embarked= df['Embarked'].mode()[0]
sMode_Of_Embarked

In [0]:
df["Embarked2"]= df["Embarked"]
df["Embarked2"]= df["Embarked2"].fillna(sMode_Of_Embarked)
set(df['Embarked2']) # Esse comando mostra os NaN's da variável

Desta forma, substituimos os NaN's da variável 'Embarked' pela moda da distribuição.

Se quiséssemos deletar as duas observações NaN's da variável 'Embarked', basta usar o comando:

In [0]:
# axis= 0 - indica que a operação será realizada nas linhas/observações.
df_copia4= df_copia4.dropna(axis= 0, subset = ['Embarked'])

Podemos ver, a seguir, que as linhas (62 e 830 não existem mais no dataframe df_copia4 (fizemos uma cópia do dataframe df antes de iniciarmos o tratamento dos NaN's da variável 'Embarked'):

Vamos verificar primeiro a existência da linha 62 no dataframe df_copia4:

In [0]:
df_copia4.loc[60:65]

Como podemos ver, a linha 62 não existe mais. Da mesma forma, a seguir, verificamos se a linha 830 existe no dataframe.

In [0]:
df_copia4.loc[825:835]

Como esperávamos, a linha 830 também não existe no dataframe.

Com isso, excluimos as 2 observações MV da variável 'embarked'.

A seguir, deletamos a variável 'Embarked':

In [0]:
df= df.drop(columns= ['Embarked'], axis= 1) # axis= 1 significa dropar a coluna.

E renomeamos a variável auxiliar 'Embarked2' para 'Embarked':

In [0]:
df= df.rename(columns= {'Embarked2': 'Embarked'})

### Variável 'Age' - Variável do tipo numérica

* Vimos anteriormente que a variável 'Age' possui 263 valores nulos.

* Como se trata de uma variável numérica, vamos aplicar algumas estratégias para resolver o problema, pois não podemos descartar 263 (20%) observações do nosso dataframe.

* Aqui é uma boa ideia criar a variável 'MV_Age' que receberá o valor 1 se 'Age' é MV e 0, caso contrário.

In [0]:
df_copia5= df.copy()
#df= df_copia5.copy()

Podemos substituir os NaN's da variável 'Age' com a média (ou mediana) da distribuição, conforme abaixo:

In [0]:
df['Age2']= df['Age'].fillna(df['Age'].median())

OU, substituir os NaN da variável 'Age' pela média de 'Age' considerando 'Sex', conforme abaixo:

In [0]:
df['Age3']= df['Age'].fillna(df.groupby('Sex')['Age'].transform("median"))

In [0]:
df.head()

Vamos inspecionar as colunas envolvidas para avaliar os impactos sofridos...

In [0]:
# Resultado geral, por curiosidade
df[['Age', 'Age2', 'Age3', 'Sex']].groupby('Sex').mean()

* Qual sua opinião sobre as médias apresentadas acima?

In [0]:
df.head()

Deletando a variável 'Age'

In [0]:
df= df.drop(columns= ['Age'], axis= 1) # axis= 1 significa dropar a coluna.

Certificando de que todos os NaN's foram tratados, com exceção de 'Survived' e 'Survived2':

In [0]:
Mostra_MV(df)

Como podem ver, tratamos todos os NaN's que haviam nas variáveis do dataframe.

# Conclusão

In [0]:
df.head(50)

# Salvar cópia do dataframe tratado nesta fase

In [0]:
df.to_csv("df_3DP_MVH.csv", sep= ',', index = True, header=True)