## Tratando valores nulos (NaN)

In [1]:
import pandas as pd
import numpy as np

In [2]:
file = 'ufo.csv'
ufo = pd.read_csv(file)

In [3]:
# Utilizando o tail (inverso do head())
ufo.tail()

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
18236,Grant Park,,TRIANGLE,IL,12/31/2000 23:00
18237,Spirit Lake,,DISK,IA,12/31/2000 23:00
18238,Eagle River,,,WI,12/31/2000 23:45
18239,Eagle River,RED,LIGHT,WI,12/31/2000 23:45
18240,Ybor,,OVAL,FL,12/31/2000 23:59


<ul>
    <li>"NaN" não é uma string. Ele é um valor especial do numpy: <b>numpy.nan</b></li>
    <li>É comum a referência "Not a number", que significa <b>missing value</b></li>
    <li>O método <b><i>read_csv</i></b> detecta valores nulos automaticamente e preenche com NaN na leitura do arquivo</li>
</ul>

## O isnull() retorna um Dataframe boleano, onde True indica valor nulo e False valor preenchido

In [4]:
# No arquivo null, os valores ímpares são nulos
file = 'nulos.csv'
nulos = pd.read_csv(file)

In [5]:
nulos.isnull().tail()

Unnamed: 0,id,nome
0,False,True
1,False,False
2,False,True
3,False,False


In [6]:
ufo.isnull().tail()

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
18236,False,True,False,False,False
18237,False,True,False,False,False
18238,False,True,True,False,False
18239,False,False,False,False,False
18240,False,True,False,False,False


## notnull() é exatamente o oposto do isnull()

In [9]:
nulos.notnull().tail()

Unnamed: 0,id,nome
0,True,False
1,True,True
2,True,False
3,True,True


In [8]:
ufo.notnull().tail()

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
18236,True,False,True,True,True
18237,True,False,True,True,True
18238,True,False,False,True,True
18239,True,True,True,True,True
18240,True,False,True,True,True


## E como saber a quantidade de valores nulos em uma coluna?

In [10]:
ufo.isnull().sum()

City                  25
Colors Reported    15359
Shape Reported      2644
State                  0
Time                   0
dtype: int64

## Como o isnull().sum() funciona?
O <b>isnull()</b> retorna verdadeiro ou falso. O retorno verdadeiro ou falso é convertido pelo Pandas em 0 para falso e 1 para verdadeiro. Então o método <b>sum()</b> agrega os valores das colunas, pois ele <b>opera por padrão no eixo 0.</b>

## Construindo um filtro de valores nulos

In [11]:
# Verificando as linhas em que a coluna City possui valor nulo
ufo[ufo.City.isnull()].head(20)

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
21,,,,LA,8/15/1943 0:00
22,,,LIGHT,LA,8/15/1943 0:00
204,,,DISK,CA,7/15/1952 12:30
241,,BLUE,DISK,MT,7/4/1953 14:00
613,,,DISK,NV,7/1/1960 12:00
1877,,YELLOW,CIRCLE,AZ,8/15/1969 1:00
2013,,,,NH,8/1/1970 9:30
2546,,,FIREBALL,OH,10/25/1973 23:30
3123,,RED,TRIANGLE,WV,11/25/1975 23:00
4736,,,SPHERE,CA,6/23/1982 23:00


In [12]:
# Número de linhas e colunas
A = ufo.shape
A

(18241, 5)

## dropna()

In [13]:
B = ufo.dropna(how='any').shape
B

(2486, 5)

In [14]:
# O retorno do shape é uma tupla
print('Deletadas ' + str((A[0] - B[0])) + ' Linhas com valores nulos')

Deletadas 15755 Linhas com valores nulos


In [15]:
# O implace também é um parâmetro do dropna e é falso por padrão. Não altera o dataset original
ufo.dropna(how='any').shape

(2486, 5)

In [16]:
ufo.shape

(18241, 5)

## all - Caso todos os valores de uma linha sejam nulos, ela será deletada

In [None]:
ufo.dropna(how='all').shape