In [1]:
import pandas as pd
import numpy as np

In [6]:
file = 'ufo.csv'
ufo = pd.read_csv(file)

In [3]:
#Utilizando o tail()
ufo.tail()

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
18236,Grant Park,,TRIANGLE,IL,12/31/2000 23:00
18237,Spirit Lake,,DISK,IA,12/31/2000 23:00
18238,Eagle River,,,WI,12/31/2000 23:45
18239,Eagle River,RED,LIGHT,WI,12/31/2000 23:45
18240,Ybor,,OVAL,FL,12/31/2000 23:59


"NaN" não é uma string. Ele é um valor especial do numpy: numpy.nan

### O isnull() retorna um Dataframe boleano, onde True indica o valor nulo e False valor preenchido

In [5]:
#No arquivo null, os valores ímpares são nulos
file = 'nulos.csv'
nulos = pd.read_csv(file)

In [7]:
nulos.isnull().tail()

Unnamed: 0,id,nome
0,False,True
1,False,False
2,False,True
3,False,False


In [8]:
ufo.isnull().tail()

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
18236,False,True,False,False,False
18237,False,True,False,False,False
18238,False,True,True,False,False
18239,False,False,False,False,False
18240,False,True,False,False,False


### notnull() é exatamente o oposto do isnull()

In [10]:
nulos.notnull().tail()

Unnamed: 0,id,nome
0,True,False
1,True,True
2,True,False
3,True,True


In [11]:
ufo.notnull().tail()

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
18236,True,False,True,True,True
18237,True,False,True,True,True
18238,True,False,False,True,True
18239,True,True,True,True,True
18240,True,False,True,True,True


### E como saber a quantidade de valores nulos em uma coluna

In [12]:
ufo.isnull().sum()

City                  25
Colors Reported    15359
Shape Reported      2644
State                  0
Time                   0
dtype: int64

O método sum()agrega os valores das colunas, pois ele opera por padrão no eixo 0.

## Construindo um filtro de valores nulos

In [14]:
ufo[ufo.City.isnull()].head()

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
21,,,,LA,8/15/1943 0:00
22,,,LIGHT,LA,8/15/1943 0:00
204,,,DISK,CA,7/15/1952 12:30
241,,BLUE,DISK,MT,7/4/1953 14:00
613,,,DISK,NV,7/1/1960 12:00


In [18]:
#Numero de linhas e colunas
A = ufo.shape
A

(18241, 5)

## dropna()

#### any - Se qualquer valor estiver faltando na linha, então o dropna APAGA a linha inteira

In [17]:
B = ufo.dropna(how='any').shape
B

(2486, 5)

In [19]:
#O retorno do shape é uma tupla
print('Deletadas ' + str((A[0] - B[0])) + ' linhas com valores nulos')

Deletadas 15755 linhas com valores nulos


In [20]:
#O inplace também é um parâmetro do dropna e é falso por padrão
ufo.dropna(how='any').shape

(2486, 5)

In [21]:
#As linhas com NaN continuam no Dataframe
ufo.shape

(18241, 5)

#### all - Se todos os valores de uma linha forem nulos, a linha será APAGADA

In [22]:
ufo.dropna(how='all').shape

(18241, 5)

#### Utilizando o dropna com parâmetros

In [23]:
#Estamos criando um subset com City e Shape Reported. Se houver qualquer valor nulo nessas colunas, a linha será deletada

ufo.dropna(subset=['City','Shape Reported'], how='any').shape

(15576, 5)

In [24]:
#Apaga somente de City e Shape Reported forem nulos
ufo.dropna(subset=['City','Shape Reported'], how='all').shape

(18237, 5)

### value_counts realiza um count, porem não conta os valores NaN

In [28]:
ufo['Shape Reported'].value_counts().head()

LIGHT       2803
DISK        2122
TRIANGLE    1889
OTHER       1402
CIRCLE      1365
Name: Shape Reported, dtype: int64

In [29]:
#podemos incluir o NaN
ufo['Shape Reported'].value_counts(dropna=False).head()

LIGHT       2803
NaN         2644
DISK        2122
TRIANGLE    1889
OTHER       1402
Name: Shape Reported, dtype: int64

In [30]:
#Podemos ainda preencher os valores que estão faltando
ufo['Shape Reported'].fillna(value='DIVERSOS', inplace=True)

In [31]:
ufo['Shape Reported'].value_counts().head()

LIGHT       2803
DIVERSOS    2644
DISK        2122
TRIANGLE    1889
OTHER       1402
Name: Shape Reported, dtype: int64

In [32]:
# E a coca cola???
arquivo = "sanduiches.txt"
vendas = pd.read_table(arquivo)
vendas.head()

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,$2.39
1,1,1,Izze,[Clementine],$3.39
2,1,1,Nantucket Nectar,[Apple],$3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,$2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98


In [33]:
vendas.shape

(4622, 5)

In [34]:
#Apagando as linhas com valores nulos em Descricao

ordens = vendas.dropna(subset=['choice_description'],how='any')

In [35]:
ordens.shape

(3376, 5)

In [36]:
ordens.head()

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
1,1,1,Izze,[Clementine],$3.39
2,1,1,Nantucket Nectar,[Apple],$3.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98
5,3,1,Chicken Bowl,"[Fresh Tomato Salsa (Mild), [Rice, Cheese, Sou...",$10.98
7,4,1,Steak Burrito,"[Tomatillo Red Chili Salsa, [Fajita Vegetables...",$11.75


In [38]:
ordens.choice_description.str.contains('Coke').sum()

257

### E quantos pratos tem Guacamole

In [39]:
ordens.choice_description.str.contains('Guacamole').astype(int).sum()

1037

In [40]:
ordens.choice_description.str.contains('Rice').astype(int).sum()

2402