# Lidando com Valores Ausentes na biblioteca pandas

**Valores Ausentes** ocorrem quando não foram informados valores para certas variáveis em um dataset. É comum ocorrer quando utilizamos dados reais.

O que é um valor ausente para o Pandas?
* None (Nativo do Python)
* NaN (Not a Number): constante da biblioteca Numpy

Neste notebook vamos aprender algumas maneiras de lidar com valores ausentes.

Link para a documentação do Pandas sobre missing data: https://pandas.pydata.org/docs/user_guide/missing_data.html

## Instalação e Importação da biblioteca pandas

Antes de rodar este notebook, garanta que a biblioteca abaixo estejam instaladas em seu ambiente:

In [None]:
import pandas as pd

## Criação do dataframe e análise inicial dos dados

Nosso dataset de testes será o `titanic.csv`, um dataset bastante famoso em ciência de dados. Esse dataset contém as seguintes informações sobre os passageiros do Titanic:

* `PassengerId` = ID do passageiro do navio (chave primária).
* `Pclass	` = Tipo de classe de passagem (valor numérico entre 1 e 3), sendo 1 a melhor classe e 3 a pior classe.
* `Name` = Nome do passageiro
* `Sex` = Gênero do passageiro, com valores male/female.
* `Age` = Idade do passageiro na data da ocorrência do naufrágio (em anos).
* `SibSp` = Número de irmãos / cônjuges a bordo.
* `Parch` = Número de pais / filhos a bordo.
* `Ticket` = Número do ticket.
* `Fare` = Valor da passagem.
* `Cabin` = Código de identificação da Cabine.
* `Embarked` = Porto ondem o passageiro embarcou no navio. (C = Cherbourg, Q = Queenstown, S = Southampton)
* `survived` = Se sobreviveu ao naufrágio estará como 1 e caso esteja com 0 (zero) não sobreviveu.


In [None]:
# Carrega o dataset
dados = pd.read_csv('titanic.csv')

# Exibe as primeiras linhas do dataset
dados.head()

In [None]:
# Outra forma de observar os dados do dataset é com a função sample
dados.sample(5)

Podemos obter algumas estatísticas sobre os dados usando a função `describe`

In [None]:
dados.describe()

**EXERCÍCIO**
Com a execução da célula anterior, podemos notar que o atributo `Age` possui um valor máximo de 80. Esse valor pode ser considerado um outlier? Como você poderia justificar sua afirmação (com base no dataset e com base em informações externas)?

In [None]:
dados.Age.describe()

## Resposta:
- Expectativa de vida na Inglaterra na época era de 51 anos;
- Como a maior idade é 80 e a média de idades é 29.7, podemos concluir que 80 pode ser considerado um Outlier.

## Identificando valores ausentes

A função `isnull()` retorna verdadeiro se um valor em uma posição do dataframe é vazio

In [None]:
dados['Age'].isnull()

Podemos obter a contagem de valores nulos em cada coluna em um novo dataframe

In [None]:
contagem_nulos = dados.isnull().sum()
contagem_nulos

## Exclusão de Registros com dados faltantes

Uma forma de lidar com valores ausentes é excluir do dataframe as linhas que possuem valores ausentes. Isso pode ser feito facilmente através da função `dropna`. Essa função retorna um dataset sem as linhas que possuem algum valor ausente


In [None]:
sem_nulos = dados.dropna()

In [None]:
sem_nulos

**EXERCÍCIO**

Quantos registros foram excluídos do dataset?

In [None]:
registros_pre, cols_pre = dados.shape
registros_pos, cols_pos = sem_nulos.shape
registros_excluidos = registros_pre - registros_pos
registros_excluidos

**EXERCÍCIO**

Pode-se também excluir do dataset as colunas que contém valores faltantes. Para isso deve-se informar o parâmetro `axis=1` para a função `dropna`. Teste essa função e verifique quantas colunas foram excluídas do dataframe.

In [None]:
cols_nulas_exc = dados.dropna(axis=1)

In [None]:
registros_pos, cols_pos = cols_nulas_exc.shape
cols_excluidas = cols_pre - cols_pos
cols_excluidas

## Inputação de Dados

### Substituição Dummy

Outra forma de lidar com valores ausentes é preencher os valores faltantes com um valor padrão. A função `fillna(valor)` pode ser utilizada para realizar esta tarefa.

*Tome cuidado*: a função `fillna` preenche todo o dataframe de uma vez


In [None]:
# Preenchendo todos os dados faltantes com 0
preenchido = dados.fillna(0)

In [None]:
preenchido

In [None]:
# Note que não teremos mais valores nulos no dataset
contagem_nulos = preenchido.isnull().sum()
contagem_nulos

### Substituição pela Média / Item Frequente

In [None]:
dados_teste = {
    "Produto": ["A", "B", "C", "D"],
    "Quantidade": [10, None, 15, 20],
    "Preco": [100, 200, None, 100]
}

df_vendas = pd.DataFrame(dados_teste)
df_vendas

In [None]:
# Definindo o valor padrão -1 para a coluna quantidade
df_vendas.fillna({"Quantidade": -1}, inplace=True) ## inplace=True faz com que a operação seja realizada na própria variável

# Obtendo a moda do atributo preço
moda_preco = df_vendas["Preco"].mode()[0]
df_vendas.fillna({'Preco': moda_preco}, inplace=True)

df_vendas

**EXERCÍCIO**

Preencha os dados ausentes do dataset Titanic da seguinte forma:
* Atribua o valor ‘A101’ para as cabines faltantes
* Preencha o atributo idade com o valor médio das idades dos passageiros


É possível também usar os valores que estão nas linhas vizinhas para completar os valores faltantes.

In [None]:
cabin_correta = dados.copy()

In [None]:
cabin_correta['Cabin'] = cabin_correta['Cabin'].fillna('A101')
cabin_correta

In [None]:
idade_acertada = dados

In [None]:
idade_acertada['Age'] = idade_acertada['Age'].fillna(idade_acertada.Age.mean())
idades_acertadas = idade_acertada[['Age']].query('Age == @idade_acertada.Age.mean()')
print('Idades acertadas estao nos index: ')
print(idades_acertadas.index)

**EXERCÍCIO**

Procure na documentação da função `fillna` quais as configurações possíveis para o atributo `method`. Crie um exemplo que use esse método para preencher os valores da coluna `Cabin`. Confira o resultado para ver se ele fica conforme o esperado.

In [126]:
cabin_teste = dados.copy()
cabin_teste.fillna(method='pad')
cabin_teste

  cabin_teste.fillna(method='pad')


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.000000,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.000000,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.000000,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.000000,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.000000,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.000000,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.000000,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,29.699118,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.000000,0,0,111369,30.0000,C148,C


### Substituição por Interpolação

Nesse tipo de inputação, os dados são imputados segundo um modelo de interpolação matemática.

In [None]:
res = dados["Age"].interpolate(method="linear")

for antigo, novo in zip(dados["Age"], res):
    print(antigo, novo)

**Exercício**

Faz sentido utilizar interpolação para imputar valores para o atributo idade do dataset de testes? Em que casos isso faz mais sentido?

# Resposta:
- Acreditamos que nao seja muito adequado utilizar a interpolacao para atribuir idades faltantes, pois nao tem nenhuma logica em utilizar esse principio ao inferir idades