# 6 - Lidando com dados faltantes

## Identificando valores faltantes em dados tabulares
Vamos iniciar nosso estudo identificando dados faltantes em tabelas.

In [None]:
import pandas as pd

df = pd.read_csv('missing.csv')
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


**Comentário 01:** Na célula acima há a importação da biblioteca `pandas` com o aliás 'pd'. Na linha seguinte, temos a execução do método `read_csv` que lê um arquivo de valores separados por vírgula (*.csv) ou um arquivo texto (*.txt) para um dataframe, nesse caso, o dataframe `ds`.

In [None]:
df.isnull().sum()

A    0
B    0
C    1
D    1
dtype: int64

**Comentário 02:** O método `isnull()` filtra os valores ausentes no dataframe enquanto o método `sum` faz a contagem desses valores.

In [None]:
# Cria um array numpy com todos os valores do DataFrame

df.values

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6., nan,  8.],
       [10., 11., 12., nan]])

**Comentário 03:** `df.values` retorna um array numpy com os valores do dataframe.

## Eliminando amostras ou *features* com valores ausentes

In [None]:
# Remove colunas que contém valores faltantes

df.dropna(axis=0)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


**Comentário 04:** `df.dropna(axis=0)` remove as linhas que contém valores ausentes no dataframe `df`.

In [None]:
# Removendo colunas que contém valores faltantes

df.dropna(axis=1)

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,10.0,11.0


**Comentário 05:** `df.dropna(axis=1)` remove as colunas que contém valores ausentes no dataframe `df`.

In [None]:
# "Drop" apenas nas linhas onde todas as colunas são NaN

df.dropna(how='all')

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


**Comentário 06:** `df.dropna(how='all')` remove as linhas em que os valores de todas as suas colunas são `NaN`.

In [None]:
# Removendo linhas que possuem menos de 3 valores reais

df.dropna(thresh=4)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


**Comentário 07:** `df.dropna(thresh=4)` remove as linhas que possuem menos de 3 valores reais.

In [None]:
# Remove apenas linhas onde NaN aparece em uma coluna específica

df.dropna(subset=['C'])

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
2,10.0,11.0,12.0,


**Comentário 08:** `df.dropna(subset=['C'])` remove as linhas em que o valor `NaN` aparece na coluna especificada (nesse caso, a coluna `'C'`).