## Missing Data

Para valores nulos o Pandas adota o mesmo padrão do Numpy e utilizia NaN (Not a Number), que é um valor especial de ponto flutuante reconhecido por todos os sistemas que usam a representação de ponto flutuante IEEE padrão.

In [1]:
import numpy as np
import pandas as pd

In [2]:
# Verificando o dtype de uma array com NaN
vals2 = np.array([1, np.nan, 3, 4])
vals2.dtype

dtype('float64')

O problema dos dados que possuem NaN é que eles "contaminam" o restante dos demais dados, inviabilizando operações

In [3]:
# Executando algumas operações
vals2.sum(), vals2.min(), vals2.max()

  return umr_minimum(a, axis, None, out, keepdims)
  return umr_maximum(a, axis, None, out, keepdims)


(nan, nan, nan)

O NumPy porém provê algumas agregações especiais que ingoram valores ausentes

In [4]:
np.nansum(vals2), np.nanmin(vals2), np.nanmax(vals2)

(8.0, 1.0, 4.0)

**Operando Valores Nulos**  
O Pacote Pandas possui vários métodos para detectar, remover e substituir valores nulos.

**Detectando valores nulos**  
O Pandas possui 2 métodos para detectar valores nulos:
    
    isnull()
       Gera valores booleandosque indica valores ausentes
    
    notnull()
       Oposto de insnull


In [5]:
data = pd.Series([1, np.nan, 'hello', None])
data.isnull()

0    False
1     True
2    False
3     True
dtype: bool

**Descartando valores nulos**  
O método para descartar valor nulo é o dropna:

    dropna()
       Retorna uma versão filtrada dos dados

In [6]:
# Descartando valores NaN para uma array
data.dropna()

0        1
2    hello
dtype: object

Para DataFrames não é possível descartar valores NaN de forma isolada, pois só podemos descartar linhas e colunas inteiras.

In [7]:
# Criando um DataFrame
df = pd.DataFrame([[1, np.nan, 2],
                   [2, 3, 5],
                   [np.nan, 4, 6]])
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [8]:
# Por padrão a função dropna() irá descartar todas as linhas que tiverem qualquer valor nulo:
df.dropna()

Unnamed: 0,0,1,2
1,2.0,3.0,5


In [9]:
# Porém podemos escolher se queremos descartar colunas com valores nulos:
df.dropna(axis='columns')

Unnamed: 0,2
0,2
1,5
2,6


In [10]:
# Podemos também escolher descartar somente as linhas/colunas que possuírem todos os valores NaN
# Para isso utilizamos o parâmetro how=all, que no caso de nosso DaaFrame não descartará nenhum valor
df.dropna(axis='columns', how='all')

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [11]:
# Para um controle mais refinado, o parâmetro thresh permite especificar um número mínimo de valores 
# não nulos para a linha / coluna a ser mantida:
df.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2
1,2.0,3.0,5


**Preenchendo valores nulos**  
Às vezes, em vez de descartar valores de NA, podemos substituí-los por um valor válido. Esse valor pode ser um único número como zero ou pode ser algum tipo de inserção ou interpolação de valores. Podemos fazer isso usando o método isnull () como uma máscara, mas como essa é uma operação muito comum, o Pandas fornece o método fillna(), que retorna uma cópia da matriz com os valores nulos substituídos.

    fillna()
        Retorna uma cópia dos dados com valores preenchidos

In [12]:
# Criando uma série
data = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
data

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

In [13]:
# Preenchendo valores NA com zero:
data.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

In [14]:
# Para um DataFrame as opções são similares
df2 = pd.DataFrame({'A': [1, 2, 3, np.nan, 5], 'B': [6, 7, 8, 9, 10]})
df2

Unnamed: 0,A,B
0,1.0,6
1,2.0,7
2,3.0,8
3,,9
4,5.0,10


In [15]:
# Preenchendo o valor nulo com a média da coluna
df3 = pd.DataFrame(df2['A'].fillna(df2['A'].mean()))
df3

Unnamed: 0,A
0,1.0
1,2.0
2,3.0
3,2.75
4,5.0


In [16]:
# Utilizando o foward fill para propagar o valor anterior
df2.fillna(method='ffill', axis=0)

Unnamed: 0,A,B
0,1.0,6
1,2.0,7
2,3.0,8
3,3.0,9
4,5.0,10
