## Tratando valores nulos (NaN)

In [1]:
import pandas as pd
import numpy as np

In [2]:
file = 'ufo.csv'
ufo = pd.read_csv(file)

In [3]:
# Utilizando o tail (inverso do head())
ufo.tail()

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
18236,Grant Park,,TRIANGLE,IL,12/31/2000 23:00
18237,Spirit Lake,,DISK,IA,12/31/2000 23:00
18238,Eagle River,,,WI,12/31/2000 23:45
18239,Eagle River,RED,LIGHT,WI,12/31/2000 23:45
18240,Ybor,,OVAL,FL,12/31/2000 23:59


<ul>
    <li>"NaN" não é uma string. Ele é um valor especial do numpy: <b>numpy.nan</b></li>
    <li>É comum a referência "Not a number", que significa <b>missing value</b></li>
    <li>O método <b><i>read_csv</i></b> detecta valores nulos automaticamente e preenche com NaN na leitura do arquivo</li>
</ul>

## O isnull() retorna um Dataframe boleano, onde True indica valor nulo e False valor preenchido

In [4]:
# No arquivo null, os valores ímpares são nulos
file = 'nulos.csv'
nulos = pd.read_csv(file)

In [5]:
nulos.isnull().tail()

Unnamed: 0,id,nome
0,False,True
1,False,False
2,False,True
3,False,False


In [6]:
ufo.isnull().tail()

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
18236,False,True,False,False,False
18237,False,True,False,False,False
18238,False,True,True,False,False
18239,False,False,False,False,False
18240,False,True,False,False,False


## notnull() é exatamente o oposto do isnull()

In [7]:
nulos.notnull().tail()

Unnamed: 0,id,nome
0,True,False
1,True,True
2,True,False
3,True,True


In [8]:
ufo.notnull().tail()

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
18236,True,False,True,True,True
18237,True,False,True,True,True
18238,True,False,False,True,True
18239,True,True,True,True,True
18240,True,False,True,True,True


## E como saber a quantidade de valores nulos em uma coluna?

In [9]:
ufo.isnull().sum()

City                  25
Colors Reported    15359
Shape Reported      2644
State                  0
Time                   0
dtype: int64

## Como o isnull().sum() funciona?
O <b>isnull()</b> retorna verdadeiro ou falso. O retorno verdadeiro ou falso é convertido pelo Pandas em 0 para falso e 1 para verdadeiro. Então o método <b>sum()</b> agrega os valores das colunas, pois ele <b>opera por padrão no eixo 0.</b>

## Construindo um filtro de valores nulos

In [10]:
# Verificando as linhas em que a coluna City possui valor nulo
ufo[ufo.City.isnull()].head(20)

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
21,,,,LA,8/15/1943 0:00
22,,,LIGHT,LA,8/15/1943 0:00
204,,,DISK,CA,7/15/1952 12:30
241,,BLUE,DISK,MT,7/4/1953 14:00
613,,,DISK,NV,7/1/1960 12:00
1877,,YELLOW,CIRCLE,AZ,8/15/1969 1:00
2013,,,,NH,8/1/1970 9:30
2546,,,FIREBALL,OH,10/25/1973 23:30
3123,,RED,TRIANGLE,WV,11/25/1975 23:00
4736,,,SPHERE,CA,6/23/1982 23:00


In [11]:
# Número de linhas e colunas
A = ufo.shape
A

(18241, 5)

## dropna()

In [12]:
B = ufo.dropna(how='any').shape
B

(2486, 5)

In [13]:
# O retorno do shape é uma tupla
print('Deletadas ' + str((A[0] - B[0])) + ' Linhas com valores nulos')

Deletadas 15755 Linhas com valores nulos


In [14]:
# O implace também é um parâmetro do dropna e é falso por padrão. Não altera o dataset original
ufo.dropna(how='any').shape

(2486, 5)

In [15]:
ufo.shape

(18241, 5)

## all - Caso todos os valores de uma linha sejam nulos, ela será deletada

In [16]:
ufo.dropna(how='all').shape

(18241, 5)

## Utilizando o dropna com parâmetros
### O parâmetro subset recebe uma lista

In [17]:
# Estamos criando um subset com City e Shape Reported. Se houver qualquer valor nulo nessas colunas, a linha será deletada
ufo.dropna(subset=['City', 'Shape Reported'], how='any').shape

(15576, 5)

In [18]:
# Se todos os valores estiverem nulos em City ou Shape Reported, as linhas serão deletadas
ufo.dropna(subset=['City', 'Shape Reported'], how='all').shape

(18237, 5)

### Como trabalhar com parâmetros how()
<ul>
    <li>O any funciona como um or ou |</li>
    <li>O all funciona como um and ou &</li>
</ul>

### value_counts realiza um count, porém não conta os valores NaN

In [19]:
ufo['Shape Reported'].value_counts().head()

LIGHT       2803
DISK        2122
TRIANGLE    1889
OTHER       1402
CIRCLE      1365
Name: Shape Reported, dtype: int64

In [33]:
# Podemos incluir os valores NaN
ufo['Shape Reported'].value_counts(dropna=False).head()

LIGHT       2803
Diversos    2644
DISK        2122
TRIANGLE    1889
OTHER       1402
Name: Shape Reported, dtype: int64

In [21]:
# Podemos ainda preencher os valores que estão faltando
ufo['Shape Reported'].fillna(value='Diversos', inplace=True)

In [22]:
ufo['Shape Reported'].value_counts().head()

LIGHT       2803
Diversos    2644
DISK        2122
TRIANGLE    1889
OTHER       1402
Name: Shape Reported, dtype: int64

## E a coca?

In [24]:
arquivo = 'sanduiches.txt'
vendas = pd.read_csv(arquivo, sep='\t')
vendas.head()

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,$2.39
1,1,1,Izze,[Clementine],$3.39
2,1,1,Nantucket Nectar,[Apple],$3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,$2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98


In [25]:
vendas.shape

(4622, 5)

In [27]:
# Apagando os valores das linhas com valores nulos em descrição
ordens = vendas.dropna(subset=['choice_description'], how='any')

In [28]:
ordens.shape

(3376, 5)

In [29]:
ordens.head()

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
1,1,1,Izze,[Clementine],$3.39
2,1,1,Nantucket Nectar,[Apple],$3.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98
5,3,1,Chicken Bowl,"[Fresh Tomato Salsa (Mild), [Rice, Cheese, Sou...",$10.98
7,4,1,Steak Burrito,"[Tomatillo Red Chili Salsa, [Fajita Vegetables...",$11.75


In [36]:
ordens.choice_description.str.contains('Coke').astype(int).sum()

257

In [None]:
# Quando uma série é boleana, automaticamente é convertida quanto aplica uma função de agregação no final.
ordens.choise_description.str.contains('Coke').sum()

## E quantos pratos tem Guacamole?

In [41]:
ordens.choice_description.str.contains('Guacamole').astype(int).sum()

1037

## E quantos pratos tem Arroz?

In [43]:
ordens.choice_description.str.contains('Rice').astype(int).sum()

2402