Neste material, vamos entender as formas de trabalhar com dados nulos disponíveis na biblioteca Pandas.

> ***Nota:*** *Todos os dados utilizados nos exemplos desse notebook são fictícios.*

**Mas o que são dados nulos?**
  - Dados nulos representam informações vazias, inexistentes ou que não foram preenchidas.
  - No Pandas, os dados nulos são comumente representados pelo tipo `NaN`. No entanto, dependendo do tipo de dado na coluna, o valor ausente pode ser representado como `Na` (para strings) ou `NaT` (para datas e horários).

Vamos usar um pequeno DataFrame para explorar, de forma prática, as funções que o [`pandas`](https://pandas.pydata.org/docs/) fornece para manipular dados ausentes.

In [None]:
import pandas as pd

Nosso conjunto de dados contém apenas duas colunas sem dados nulos: `id_vendedor` e `valor_unidade`. Outro detalhe é que somente a primeira linha não possui dados nulos.

In [None]:
vendas = {
    "id_vendedor": [101, 102, 103, 104, 105],
    "id_cliente": [201, None, 203, 204, None],
    "quantidade_compras": [5, 3, None, 2, None],
    "valor_unidade": [20.0, 15.5, 10.0, 4.0, 25.0],
    "valor_total": [100.0, 46.5, None, None, 125.0]
}
df = pd.DataFrame(vendas)
df

Unnamed: 0,id_vendedor,id_cliente,quantidade_compras,valor_unidade,valor_total
0,101,201.0,5.0,20.0,100.0
1,102,,3.0,15.5,46.5
2,103,203.0,,10.0,
3,104,204.0,2.0,4.0,
4,105,,,25.0,125.0


A primeira coisa que faremos é identificar os dados nulos.

## 1 Encontrar valores nulos

A função [`isnull()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isnull.html) identifica valores ausentes no DataFrame.

In [None]:
df.isnull()

Unnamed: 0,id_vendedor,id_cliente,quantidade_compras,valor_unidade,valor_total
0,False,False,False,False,False
1,False,True,False,False,False
2,False,False,True,False,True
3,False,False,False,False,True
4,False,True,True,False,False


Semelhante ao `isnull()`, temos o [`isna()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isna.html).
- O `isna()` executa a mesma funcionalidade do `isnull()` e a escolha entre eles depende da preferência de quem programa.

De modo divergente, para identificar os valores **não ausentes**, usamos [`notnull()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.notnull.html) ou [`notna()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.notna.html) (a funcionalidade inversa de `isnull()` e `isna()`).

Lembre-se de que podemos utilizar todos esses métodos em colunas específicas do DataFrame também.

In [None]:
df["valor_total"].isnull()

Unnamed: 0,valor_total
0,False
1,False
2,True
3,True
4,False


A partir do resultado acima, podemos verificar as linhas que têm valores nulos nessa coluna, observando os dados correspondentes:

In [None]:
df[df["valor_total"].isnull()]

Unnamed: 0,id_vendedor,id_cliente,quantidade_compras,valor_unidade,valor_total
2,103,203.0,,10.0,
3,104,204.0,2.0,4.0,


Uma **dica**: normalmente usamos o método [`info()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html) para identificar informações gerais sobre o DataFrame, mas ele também pode ser útil para verificar a quantidade de valores **não nulos** presentes em cada coluna.

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   id_vendedor         5 non-null      int64  
 1   id_cliente          3 non-null      float64
 2   quantidade_compras  3 non-null      float64
 3   valor_unidade       5 non-null      float64
 4   valor_total         3 non-null      float64
dtypes: float64(4), int64(1)
memory usage: 328.0 bytes


Já que aprendemos a identificar a existência de valores nulos, vamos descobrir quantos deles existem.

## 2 Contar valores nulos

Para isso, unimos a forma de encontrar valores nulos com `isnull()` ou `isna()` a uma função nativa do Python, `sum()`. Essa função permite somar a quantidade de valores `True` em cada coluna do DataFrame.

In [None]:
df.isnull().sum()

Unnamed: 0,0
id_vendedor,0
id_cliente,2
quantidade_compras,2
valor_unidade,0
valor_total,2


Podemos aplicar a função `sum()` novamente para ver o total geral de valores nulos no DataFrame.

In [None]:
df.isnull().sum().sum()

6

## 3 Preencher valores nulos

Uma opção para lidar com valores nulos é preenchê-los com outro valor. Podemos fazer isso utilizando a função [`fillna()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html).

Basta informar o conteúdo que será usado para preencher os valores nulos.

In [None]:
df.fillna(0)

Unnamed: 0,id_vendedor,id_cliente,quantidade_compras,valor_unidade,valor_total
0,101,201.0,5.0,20.0,100.0
1,102,0.0,3.0,15.5,46.5
2,103,203.0,0.0,10.0,0.0
3,104,204.0,2.0,4.0,0.0
4,105,0.0,0.0,25.0,125.0


O valor usado para preencher pode ser de diferentes tipos, como strings, dicionários, DataFrames ou Series. Veja exemplos:
- `df.fillna('sem valor')`
- `df.fillna(df.mean())`

É válido destacar que podemos realizar essa manipulação em uma coluna específica, e não necessariamente no DataFrame inteiro.

In [None]:
df['quantidade_compras'].fillna(0)

Unnamed: 0,quantidade_compras
0,5.0
1,3.0
2,0.0
3,2.0
4,0.0


Existem outros métodos de preenchimento de valores nulos além de colocarmos os valores manualmente.

O primeiro deles é o [`ffill()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.ffill.html), que preenche os dados nulos com o mesmo valor do dado não ausente da linha anterior.

In [None]:
df.ffill() #forward

Unnamed: 0,id_vendedor,id_cliente,quantidade_compras,valor_unidade,valor_total
0,101,201.0,5.0,20.0,100.0
1,102,201.0,3.0,15.5,46.5
2,103,203.0,3.0,10.0,46.5
3,104,204.0,2.0,4.0,46.5
4,105,204.0,2.0,25.0,125.0


De maneira similar, porém inversa, o [`bfill()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.bfill.html) preenche os dados nulos com o mesmo valor do dado não ausente da linha posterior.

In [None]:
df.bfill() #backward

Unnamed: 0,id_vendedor,id_cliente,quantidade_compras,valor_unidade,valor_total
0,101,201.0,5.0,20.0,100.0
1,102,203.0,3.0,15.5,46.5
2,103,203.0,2.0,10.0,125.0
3,104,204.0,2.0,4.0,125.0
4,105,,,25.0,125.0


Outra forma de preenchimento de dados nulos que o Pandas oferece é o [`interpolate()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.interpolate.html), que utiliza a interpolação para estimar e preencher os valores ausentes dentro de cada coluna. Por padrão, a técnica de interpolação utilizada é a linear.

A interpolação linear é uma técnica matemática usada para estimar valores dentro de uma faixa de dados conhecida. No caso do Pandas, ela assume que os dados seguem um padrão linear (ou seja, uma reta) entre dois pontos conhecidos.

In [None]:
df.interpolate()

Unnamed: 0,id_vendedor,id_cliente,quantidade_compras,valor_unidade,valor_total
0,101,201.0,5.0,20.0,100.0
1,102,202.0,3.0,15.5,46.5
2,103,203.0,2.5,10.0,72.666667
3,104,204.0,2.0,4.0,98.833333
4,105,204.0,2.0,25.0,125.0


## 4 Remover valores nulos

Quando não vale a pena manter os dados nulos, uma opção é removê-los do conjunto de dados. Para remover dados nulos, utilizamos a função [`dropna()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html).

A função `dropna()` remove, por padrão, todas as linhas onde existem dados nulos.

In [None]:
df.dropna()

Unnamed: 0,id_vendedor,id_cliente,quantidade_compras,valor_unidade,valor_total
0,101,201.0,5.0,20.0,100.0


Podemos adicionar o parâmetro `axis=1` para alterar o foco da remoção para as colunas.

O padrão é o `axis=0`, que representa a atuação da função nas linhas.

In [None]:
df.dropna(axis=1)

Unnamed: 0,id_vendedor,valor_unidade
0,101,20.0
1,102,15.5
2,103,10.0
3,104,4.0
4,105,25.0


Podemos especificar um parâmetro que define que o `dropna()` avalie apenas colunas específicas para remover valores. Nesse caso, apenas as linhas com valores nulos nessa(s) coluna(s) específica(s) serão removidas.

In [None]:
df.dropna(subset = ['id_cliente'])

Unnamed: 0,id_vendedor,id_cliente,quantidade_compras,valor_unidade,valor_total
0,101,201.0,5.0,20.0,100.0
2,103,203.0,,10.0,
3,104,204.0,2.0,4.0,


---
### **Extensão do material: outros parâmetros do `dropna()`**

Também podemos mudar o critério para remover valores. Por padrão, o `dropna()` remove qualquer linha que contenha um valor nulo. Ao adicionar um parâmetro como `how='all'`, definimos que o `dropna()` só deve remover as linhas em que **todos os valores** são nulos.
- `df.dropna(how='all')`

Vale lembrar do parâmetro `inplace=True`, que garante que as modificações feitas pela função sejam aplicadas diretamente no DataFrame manipulado, sem a necessidade de criar um novo.
- `df.dropna(inplace=True)`

Esse parâmetro também está disponível nas outras funções de manipulação que vimos até aqui, como as relacionadas ao preenchimento de valores nulos.

---

Com isso, você já conhece as funcionalidades mais comuns que o Pandas fornece para lidar com dados nulos!

Agora você pode praticar o conhecimento adquirido nos exercícios. Fique à vontade para compartilhar o que você aprendeu. Boas práticas!