# Missing Values

#### Quando trabalhamos com dados reais, raramente temos o que chamamos de um "Tidy DataFrame", ou seja, um banco de dados organizado e limpo...

#### Um dos problemas mais comuns são ausência de dados... Mais adiante, quando começarmos a parte de Machine Learning, 1 campo vazio resulta no erro de toda análise

#### Por sorte, o Pandas contém diversas formas de lidar com ausência de dados... Vamos verificar algumas delas...

In [76]:
#primeiro, carregando as bibliotecas e carregando um banco de dados:
import numpy as np
import pandas as pd

df = pd.read_csv('countries of the world.csv', decimal=',')
df.head(15)

Unnamed: 0,Country,Region,Population,Area (sq. mi.),Pop. Density (per sq. mi.),Coastline (coast/area ratio),Net migration,Infant mortality (per 1000 births),GDP ($ per capita),Literacy (%),Phones (per 1000),Arable (%),Crops (%),Other (%),Climate,Birthrate,Deathrate,Agriculture,Industry,Service
0,Afghanistan,ASIA (EX. NEAR EAST),31056997,647500,48.0,0.0,23.06,163.07,700.0,36.0,3.2,12.13,0.22,87.65,1.0,46.6,20.34,0.38,0.24,0.38
1,Albania,EASTERN EUROPE,3581655,28748,124.6,1.26,-4.93,21.52,4500.0,86.5,71.2,21.09,4.42,74.49,3.0,15.11,5.22,0.232,0.188,0.579
2,Algeria,NORTHERN AFRICA,32930091,2381740,13.8,0.04,-0.39,31.0,6000.0,70.0,78.1,3.22,0.25,96.53,1.0,17.14,4.61,0.101,0.6,0.298
3,American Samoa,OCEANIA,57794,199,290.4,58.29,-20.71,9.27,8000.0,97.0,259.5,10.0,15.0,75.0,2.0,22.46,3.27,,,
4,Andorra,WESTERN EUROPE,71201,468,152.1,0.0,6.6,4.05,19000.0,100.0,497.2,2.22,0.0,97.78,3.0,8.71,6.25,,,
5,Angola,SUB-SAHARAN AFRICA,12127071,1246700,9.7,0.13,0.0,191.19,1900.0,42.0,7.8,2.41,0.24,97.35,,45.11,24.2,0.096,0.658,0.246
6,Anguilla,LATIN AMER. & CARIB,13477,102,132.1,59.8,10.76,21.03,8600.0,95.0,460.0,0.0,0.0,100.0,2.0,14.17,5.34,0.04,0.18,0.78
7,Antigua & Barbuda,LATIN AMER. & CARIB,69108,443,156.0,34.54,-6.15,19.46,11000.0,89.0,549.9,18.18,4.55,77.27,2.0,16.93,5.37,0.038,0.22,0.743
8,Argentina,LATIN AMER. & CARIB,39921833,2766890,14.4,0.18,0.61,15.18,11200.0,97.1,220.4,12.31,0.48,87.21,3.0,16.73,7.55,0.095,0.358,0.547
9,Armenia,C.W. OF IND. STATES,2976372,29800,99.9,0.0,-6.47,23.28,3500.0,98.6,195.7,17.55,2.3,80.15,4.0,12.07,8.23,0.239,0.343,0.418


In [77]:
#Não se preocupe com o código abaixo... mais adiante vamos entender ele melhor...
#Apenas estamos pegando duas informações: O tamanho do dataset original e quantos valores "perdidos" aparecem em cada coluna

print(df.shape)
missing_values_count = df.isnull().sum()
missing_values_count

(227, 20)


Country                                0
Region                                 0
Population                             0
Area (sq. mi.)                         0
Pop. Density (per sq. mi.)             0
Coastline (coast/area ratio)           0
Net migration                          3
Infant mortality (per 1000 births)     3
GDP ($ per capita)                     1
Literacy (%)                          18
Phones (per 1000)                      4
Arable (%)                             2
Crops (%)                              2
Other (%)                              2
Climate                               22
Birthrate                              3
Deathrate                              4
Agriculture                           15
Industry                              16
Service                               15
dtype: int64

### Removendo os valores ausentes:

In [78]:
#Nossa primeira opção é remover todos os valores ausentes, usando o método "dropna"
df_corrigido = df.dropna()

In [79]:
print(df_corrigido.shape)
missing_values_count = df_corrigido.isnull().sum()
missing_values_count

(179, 20)


Country                               0
Region                                0
Population                            0
Area (sq. mi.)                        0
Pop. Density (per sq. mi.)            0
Coastline (coast/area ratio)          0
Net migration                         0
Infant mortality (per 1000 births)    0
GDP ($ per capita)                    0
Literacy (%)                          0
Phones (per 1000)                     0
Arable (%)                            0
Crops (%)                             0
Other (%)                             0
Climate                               0
Birthrate                             0
Deathrate                             0
Agriculture                           0
Industry                              0
Service                               0
dtype: int64

### Duas coisas aconteceram: Não temos nenhum dado vazio, o que é ótimo, porém de 227 linhas fomos para 179, ou seja, perdemos toda a informação de 48 países

In [80]:
#O método "dropna" tem por default o padrão axis = 0 (remove toda a linha), outra opção seria remover a coluna.
#Para isso, usamos axis = 1
df_corrigido = df.dropna(axis=1)

In [81]:
print(df_corrigido.shape)
missing_values_count = df_corrigido.isnull().sum()
missing_values_count

(227, 6)


Country                         0
Region                          0
Population                      0
Area (sq. mi.)                  0
Pop. Density (per sq. mi.)      0
Coastline (coast/area ratio)    0
dtype: int64

### Agora temos os 227 paises, porém nossas colunas diminuiram de 20 para 6!!

### Outra opção é, no lugar de remover os dados inexistentes, utilizar o que chamamos de:

## Filling in missing values

In [82]:
# Podemos, por exemplo, preencher todos os valores vazios com algo específico, utilizando o método 'fillna'
# Nesse caso, utilizamos 'zero':

df_corrigido = df.fillna(0)

In [83]:
print(df_corrigido.shape)
missing_values_count = df_corrigido.isnull().sum()
missing_values_count

(227, 20)


Country                               0
Region                                0
Population                            0
Area (sq. mi.)                        0
Pop. Density (per sq. mi.)            0
Coastline (coast/area ratio)          0
Net migration                         0
Infant mortality (per 1000 births)    0
GDP ($ per capita)                    0
Literacy (%)                          0
Phones (per 1000)                     0
Arable (%)                            0
Crops (%)                             0
Other (%)                             0
Climate                               0
Birthrate                             0
Deathrate                             0
Agriculture                           0
Industry                              0
Service                               0
dtype: int64

## Perfeito! Todas linhas, todas as colunas e sem nehhum valor ausente!!

#### Só que...

In [84]:
original = df['Literacy (%)'].describe()
alterado = df_corrigido['Literacy (%)'].describe()

print('original:')
print('')
print(original)
print('')
print('alterado')
print('')
print(alterado)


original:

count    209.000000
mean      82.838278
std       19.722173
min       17.600000
25%       70.600000
50%       92.500000
75%       98.000000
max      100.000000
Name: Literacy (%), dtype: float64

alterado

count    227.000000
mean      76.269604
std       29.346066
min        0.000000
25%       62.950000
50%       90.300000
75%       97.800000
max      100.000000
Name: Literacy (%), dtype: float64


### Outras opções:

In [85]:
# Preenchendo com a média da coluna:

df_corrigido['Literacy (%)'] = df['Literacy (%)'].fillna(df['Literacy (%)'].mean())
df_corrigido['Literacy (%)'].describe()

count    227.000000
mean      82.838278
std       18.920483
min       17.600000
25%       76.400000
50%       90.300000
75%       97.800000
max      100.000000
Name: Literacy (%), dtype: float64

In [86]:
# Preenchendo com o mesmo valor da linha de baixo:

df_corrigido['Literacy (%)'] = df['Literacy (%)'].fillna(method = 'bfill', axis=0)
df_corrigido['Literacy (%)'].describe()

count    227.000000
mean      82.233040
std       20.147248
min       17.600000
25%       69.900000
50%       92.200000
75%       98.000000
max      100.000000
Name: Literacy (%), dtype: float64

In [75]:
# Preenchendo com o mesmo valor da linha de cima:

df_corrigido['Literacy (%)'] = df['Literacy (%)'].fillna(method = 'ffill', axis=0)
df_corrigido['Literacy (%)'].describe()

count    227.000000
mean      82.611454
std       19.759614
min       17.600000
25%       70.600000
50%       92.200000
75%       98.000000
max      100.000000
Name: Literacy (%), dtype: float64

# Importante!

### Não existe (pelo menos ainda não) um método mágico que funcione melhor para todos os problemas!

#### Várias biografias citam que 80% do tempo de um DataScientist envolve a parte de "Data Cleanning", que é justamente organizar e ajustar os dados e apenas 20% fica com a parte de implementar algum método de IA...


### Algumas dicas para essa etapa:

* Conheça os dados!
Nenhum dado está desaparecido sem algum motivo, entender a causa desse ruído é muito importante para sua análise

* FFILL funciona para casos em que seus dados apresentam uma sequência lógica
Ex.: Se os dados são cadastrados em uma tabela em ordem de categoria, por exemplo

* Geralmente, você vai precisar juntar mais de um método
Cada coluna de um banco de dados representa alguma informação diferente, dessa forma, provavelmente você deverá analisar cada coluna e buscar qual a melhor forma de trabalhar com ela!


##### Exemplo:

Vamos supor que você está trabalhando com um banco de dados referente a preços de casa.
Existem quatro categorias com dados vazios: 
* npool (número de piscinas na casa)
* size (m² da casa)
* neighb (bairro)
* other (observações)
 

Verificando essas colunas, você percebe que 90% dos valores npool estão vazios, o que faz sentido, pois a maioria das casas não tem piscina, então, trocar os vazios por zero nessa coluna pode fazer sentido

    método fillna(0)

Você conhece a origem da planilha, e sabe que ela foi preenchida casa por casa (em ordem), então o bairro de uma casa tem grandes chances de ser o bairro da casa da linha superior, dessa forma um ffill pode ser utilizado nessa categoria.

    método ffill() ou bfill()

Olhando para other, 99% dos valores estão vazios, e você não encontra nenhuma relação com outras colunas... Talvez nesse caso o melhor seja usar um dropna nessa coluna toda.

    método dropna()

Já em size, você percebe uma grande disperção dos valores, porém, plotando essa disperção com outras combinações de colunas (preço, nro de quartos e se tem garagem ou não, por exemplo), você percebe certa correlação. Então você pode criar uma função que preenche size conforme a média de linhas que apresentam categorias similares 

    método fillna( select condicional + mean() )
