## Tratando valores nulos (NaN)

In [None]:
import numpy as np
import pandas as pd

In [None]:
file="C:\\Git\\DataScience\\ufo.csv"
ufo=pd.read_csv(file)

In [None]:
#Utilizando o tail (inverso do head)

ufo.tail()

* NaN não é uma string. Ele é um valor especial do Numpy: **numpy.nan**
* É comum a referência "Not a Number", que significa **missing value**
* O método ***read_csv*** detecta valores nulos automaticamente e preenche com NaN na leitura do arquivo

## O isnull() retorna um data frame booleano, onde True indica valor nulo e False valor preenchido

In [None]:
#No arquivo nulos, os valores ímpares são nulos

file="C:\\Git\\DataScience\\nulos.csv"
nulos=pd.read_csv(file)

In [None]:
nulos.isnull().tail()

In [None]:
ufo.isnull().tail()

## notnull é o oposto do isnull()

In [None]:
nulos.notnull().tail()

In [None]:
ufo.notnull().tail()

## E como saber a quantidade de nulos em uma coluna?

In [None]:
ufo.isnull().sum()

### Como os isnull().sum() funciona?

O ***isnull()*** retorna verdadeiro ou falso. O retorno verdadeiro é convertido pelo Pandas em 0 para falso e 1 para verdadeiro. Então o método ***sum()*** agrega os valores das colunas, pois, ele ***opera por padrão no eixo 0***.

## Construindo um filtro de valores nulos

In [None]:
#Verificando as linhas em que a coluna city possui valor nulo

ufo[ufo.City.isnull()].head(20)

In [None]:
#Número de linhas e colunas

A = ufo.shape #O resultado é uma tupla
A

## dropna()

### any: se qualquer valor estiver faltando na linha, então o dropna apaga a linha

In [None]:
B = ufo.dropna(how='any').shape
B

In [None]:
#O retorno do shape é uma tupla

print('Deletadas ' + str((A[0] - B[0])) + ' linhas com valores nulos')

In [None]:
#O inplace também é um parâmetro do dropna e é falso por padrão

ufo.dropna(how='any').shape

In [None]:
#As linhas com NaN continuam no data frame

ufo.shape

### all: se todos os valores da linha forem nulos, ela será deletada

In [None]:
ufo.dropna(how='all').shape

### Utilizando o dropna com parâmetros

#### O parâmetro subset recebe uma lista

In [None]:
#Estamos criando um subset com City e Shape Reported. Se houver qualquer valor nulo nessas colunas, a linha será deletada

ufo.dropna(subset=['City','Shape Reported'],how='any').shape

In [None]:
#Se todos os valores estiverem nulos em City ou Shape Reported, as linhas serão deletadas

ufo.dropna(subset=['City','Shape Reported'],how='all').shape

***Como trabalha o parâmetro how?***

* O any funciona como um OR ou I
* o all funciona como um AND ou &

#### value_counts realiza um count, porém não conta os valores NaN

In [None]:
ufo['Shape Reported'].value_counts().head()

In [None]:
#Podemos incluir os valores NaN

ufo['Shape Reported'].value_counts(dropna=False).head()

In [None]:
#Podemos ainda preencher os valores que estão faltando

ufo['Shape Reported'].fillna(value='DIVERSOS',inplace=True)

In [None]:
#Confirmando a contagem incluindo o valor DIVERSOS

ufo['Shape Reported'].value_counts().head()