# DataFrame With Missing Data

In [1]:
import pandas as pd
import numpy as np

In [2]:
# Criando dicionario correspondente ao dataset. 
# as chaves correspondem as colunas, e os valores das chaves,
# correspondem aos valores das colunas

dados = {
    'nomes': ['João', 'Maria', 'José', np.nan, 'Pedro'],
    'sexo': ['M', 'F', 'M', np.nan, 'M'],
    'idade': [14, 13, np.nan, np.nan, 15],
    'nota': [4, 10, 7, np.nan, 8]
}

#Criando DataSet a partir do dicionário
df = pd.DataFrame(dados)

In [3]:
df

Unnamed: 0,idade,nomes,nota,sexo
0,14.0,João,4.0,M
1,13.0,Maria,10.0,F
2,,José,7.0,M
3,,,,
4,15.0,Pedro,8.0,M


### Excluindo todos as linhas que não apresentam todos os dados

#### Dropna

In [4]:
# O metodo dropna retorna um novo dataset, sem as linhas
# que não apresentam todos os valores
df.dropna()

Unnamed: 0,idade,nomes,nota,sexo
0,14.0,João,4.0,M
1,13.0,Maria,10.0,F
4,15.0,Pedro,8.0,M


### Excluindo linha que apresentam os valores todas as colunas inválidos

#### Dropna com o parametro how

In [5]:
# O parametro how do método dropna, quando setado como
# all, exclui todas as linhas que não apresentam no minimo
# uma coluna com dado válido.
df.dropna(how="all")

Unnamed: 0,idade,nomes,nota,sexo
0,14.0,João,4.0,M
1,13.0,Maria,10.0,F
2,,José,7.0,M
4,15.0,Pedro,8.0,M


### Excluindo coluna que apresentar todos os valores inválidos

#### Dropna com o parametro axis

In [6]:
# Criando coluna no dataset sem valores válidos
df['series'] = np.nan

In [7]:
# O  método dropna com parametro how, quando setado como
# all e o parametro axis, quando setado como
# 0 (default), exclui todas as linhas que não apresentam no minimo
# uma coluna com dado válido.

df.dropna(how="all", axis=0)

Unnamed: 0,idade,nomes,nota,sexo,series
0,14.0,João,4.0,M,
1,13.0,Maria,10.0,F,
2,,José,7.0,M,
4,15.0,Pedro,8.0,M,


In [8]:
# O  método dropna com parametro how, quando setado como
# all e o parametro axis, quando setado como
# 1, exclui todas as colunas que não apresentam no minimo
# um com dado válido.

df.dropna(how="all", axis=1)

Unnamed: 0,idade,nomes,nota,sexo
0,14.0,João,4.0,M
1,13.0,Maria,10.0,F
2,,José,7.0,M
3,,,,
4,15.0,Pedro,8.0,M


### Definindo a quantidade minima de valores inválidos para se excluir uma linha

#### thresh

In [9]:
# Quando o atributo thresh é setado no metodo
# dropna, as linhas que apresentaram a quantidade
# de valores inválidos igual ou maior que valor desse atributo,
# serão eliminadas

# Nesse exemplo serão excluidas todas as linhas
# que apresentam 2 ou mais valores inválidos
df.dropna(thresh=2)

Unnamed: 0,idade,nomes,nota,sexo,series
0,14.0,João,4.0,M,
1,13.0,Maria,10.0,F,
2,,José,7.0,M,
4,15.0,Pedro,8.0,M,


### Preenchendo coluna com determinado valor no dataset

#### fillna

In [10]:
# O metodo fillna permite substituir todos os valores inválidos 
# de uma determinada serie do DataSet, pelo parâmetro passado na chamada da função

# Substituindo todos os inválidos da coluna series do dataset por 8
df.fillna(8)

Unnamed: 0,idade,nomes,nota,sexo,series
0,14.0,João,4.0,M,8.0
1,13.0,Maria,10.0,F,8.0
2,8.0,José,7.0,M,8.0
3,8.0,8,8.0,8,8.0
4,15.0,Pedro,8.0,M,8.0


### Fazendo alterações diretamente no DataSet

#### Os metodos dropna e fillna retornam um novo dataset, em vez de atualizar os valores do já existe. Caso você queira fazer a alteração diretamente, basta passar o atributo inplace com valor igual a True na chamada desses metodos.

In [11]:
# Excluindo a coluna series que apresenta todos os valores
# inválidos, permanentemente.
df.dropna(how="all", axis=1, inplace=True)
df

Unnamed: 0,idade,nomes,nota,sexo
0,14.0,João,4.0,M
1,13.0,Maria,10.0,F
2,,José,7.0,M
3,,,,
4,15.0,Pedro,8.0,M


In [12]:
# Criando novamente a coluna series
df['series'] = np.nan

In [13]:
# Substituindo os valores da coluna series por 8, permantemente:
df['series'].fillna(8, inplace=True)
df

Unnamed: 0,idade,nomes,nota,sexo,series
0,14.0,João,4.0,M,8.0
1,13.0,Maria,10.0,F,8.0
2,,José,7.0,M,8.0
3,,,,,8.0
4,15.0,Pedro,8.0,M,8.0
