# ▪Cria dados ausentes ( Missing Values )

In [11]:
# Importa pandas e numpy 
import pandas as pd
import numpy as np
# Cria DataFrame pandas com auxílio do numpy com valores aleatórios 
df = pd.DataFrame(np.random.randn(5, 3), 
                  index=['a', 'c', 'e', 'f','h'], # Índice original 
                  columns=['one', 'two', 'three'])# Colunas 
# Usa a função reindex para adicionar índices nulos nos dados(b,d,g)
df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])
# Exibe o resultado 
display(df)

Unnamed: 0,one,two,three
a,1.100032,-0.341813,-2.90113
b,,,
c,0.521323,-0.060475,1.781624
d,,,
e,0.19485,1.113686,0.676366
f,0.181798,1.208728,-0.136759
g,,,
h,-0.188255,0.03634,0.096677


## Usando a reindexação, criamos um DataFrame com valores ausentes.  Na saída, NaN significa Não é um Número.

## ▪Verifique se há valores nulos 

##  Para tornar a detecção de valores ausentes mais fácil (e em diferentes tipos de array), o Pandas fornece as funções isnull () e notnull (), que também são métodos em objetos Series e DataFrame.

In [10]:
# Verifica por coluna | Verifica por soma total  
df['one'].isnull()    , df.isnull().sum()

(a    False
 b     True
 c    False
 d     True
 e    False
 f    False
 g     True
 h    False
 Name: one, dtype: bool,
 one      3
 two      3
 three    3
 dtype: int64)

## ▪ Limpeza / preenchimento de dados ausentes

##  O Pandas fornece vários métodos para limpar os valores ausentes.  A função fillna()  pode “preencher” os valores NA com dados não nulos de algumas maneiras.

In [18]:
# Preenche todas linhas contendo NA com 0
df.fillna(0)

Unnamed: 0,one,two,three
a,1.100032,-0.341813,-2.90113
b,0.0,0.0,0.0
c,0.521323,-0.060475,1.781624
d,0.0,0.0,0.0
e,0.19485,1.113686,0.676366
f,0.181798,1.208728,-0.136759
g,0.0,0.0,0.0
h,-0.188255,0.03634,0.096677


### Aqui, estamos preenchendo com valor zero;  em vez disso, também podemos preencher com qualquer outro valor.

# ▪ Abandone os valores ausentes 

## Se você deseja simplesmente excluir os valores ausentes, use a função dropna() junto com o argumento do eixo.  Por padrão, eixo = 0, ou seja, ao longo da linha, o que significa que se qualquer valor dentro de uma linha for NA, então toda a linha é excluída.

In [19]:
# Exclui todas linhas com dados nulos 
df.dropna()

Unnamed: 0,one,two,three
a,1.100032,-0.341813,-2.90113
c,0.521323,-0.060475,1.781624
e,0.19485,1.113686,0.676366
f,0.181798,1.208728,-0.136759
h,-0.188255,0.03634,0.096677


##  ▪Substituir Valores Ausentes (ou) Genéricos

### Muitas vezes, temos que substituir um valor genérico por algum valor específico.  Podemos conseguir isso aplicando o método de substituição.

In [21]:
# Cria DataFrame com valores numéricos 
df = pd.DataFrame({'one':[10,20,30,40,50,2000],
                   'two':[1000,0,30,40,50,60]})
# Exibe a substituição dos valores 1000 por 10, 2000 por 60
display (df.replace({1000:10,2000:60}))

Unnamed: 0,one,two
0,10,10
1,20,0
2,30,30
3,40,40
4,50,50
5,60,60
