# Limpeza e preparação dos dados

## Dados Ausentes

Dados ausentes podem ser representados por NAN (Not a Number) ou NONE, esse tipo de dados no PANDAS são considerados NA ( Not Available)

### Excluindo Dados Ausentes

In [1]:
import pandas as pd
import numpy as np

In [19]:
data = pd.DataFrame([
    [1,6.5,3],
    [1, np.nan, None],
    [np.nan,np.nan,np.nan],
    [np.nan,6.5,3],
    [None, None, None]
])

display(data)

# remove os Valores Ausentes
display(data.dropna().style.set_caption('Remove os Valores Ausentes'))

# Remove apenas as linhas com todos os Valores Ausentes
display(data.dropna(how="all").style.set_caption('Remove apenas as linhas com todos os Valores Ausentes'))

data['new_column'] = np.nan
display(data)

# Remove apenas as colunas com todos os Valores Ausentes
display(data.dropna(how="all", axis='columns').style.set_caption('Remove apenas as colunas com todos os Valores Ausentes'))

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0
4,,,


Unnamed: 0,0,1,2
0,1.0,6.5,3.0


Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


Unnamed: 0,0,1,2,new_column
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,
4,,,,


Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0
4,,,


### Preenchendo Dados Ausentes

In [31]:
data2 = pd.DataFrame(np.random.standard_normal((7,3)))

data2.iloc[:4,0] = np.nan
data2.iloc[2:5,2] = np.nan

display(data2)

# Preenche os dados ausentes com um VALOR
display(data2.fillna('NULO').style.set_caption("Preenche os dados ausentes com um VALOR"))

# Preenche os dados ausentes com um VALOR diferente para cada coluna
display(data2.fillna({0:'NULO',2:'VAZIO'}).style.set_caption("Preenche os dados ausentes com um VALOR diferente para cada coluna"))

Unnamed: 0,0,1,2
0,,-2.105386,0.466196
1,,-0.842781,0.045549
2,,0.937307,
3,,-1.24597,
4,0.096486,-0.529587,
5,-1.135631,1.274999,-0.091634
6,-0.55118,-0.809739,0.51179


Unnamed: 0,0,1,2
0,NULO,-2.105386,0.466196
1,NULO,-0.842781,0.045549
2,NULO,0.937307,NULO
3,NULO,-1.24597,NULO
4,0.096486,-0.529587,NULO
5,-1.135631,1.274999,-0.091634
6,-0.551180,-0.809739,0.511790


Unnamed: 0,0,1,2
0,NULO,-2.105386,0.466196
1,NULO,-0.842781,0.045549
2,NULO,0.937307,VAZIO
3,NULO,-1.24597,VAZIO
4,0.096486,-0.529587,VAZIO
5,-1.135631,1.274999,-0.091634
6,-0.551180,-0.809739,0.511790


## Transformação de dados

### Remoção de duplicidades

In [11]:
data = pd.DataFrame({"k1":["one","two"] * 3 + ["two"],
                     "k2":[1,1,2,3,3,4,4]
                     })

display(data)

# duplicated()
# retorna uma Serie boleana
print("resultado do metodo duplicated()")
display(data.duplicated())

# drop_duplicates()
# retorna uma Serie boleana
print("resultado do metodo drop_duplicates()")
display(data.drop_duplicates())

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4
6,two,4


resultado do metodo duplicated()


0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

resultado do metodo drop_duplicates()


Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4


#### Parametros de drop_duplicates

In [None]:
# Escolhendo a coluna para calcular duplicidades

# subset: define a coluna para observar a DUPLICIDADE
display(data.drop_duplicates(subset=["k1"]))

# keep: define o a orientação para aplicar a DUPLICIDADE
display(data.drop_duplicates(subset=["k1"], keep="last"))

Unnamed: 0,k1,k2
0,one,1
1,two,1


Unnamed: 0,k1,k2
4,one,3
6,two,4


### Transformação com Função ou Mapeamento

In [16]:
data = pd.DataFrame({
    "food":["bacon", "pulled pork", "bacon", "pastrami", "corned beef", "bacon", "pastrami", "honey ham", "nova lox"],
    "ounces":[4, 3, 12, 6, 7.5, 8, 3, 5, 6]
})

display(data)

Unnamed: 0,food,ounces
0,bacon,4.0
1,pulled pork,3.0
2,bacon,12.0
3,pastrami,6.0
4,corned beef,7.5
5,bacon,8.0
6,pastrami,3.0
7,honey ham,5.0
8,nova lox,6.0


Criaremos um MAPEAMENTO para adicionar o TIPO DE CARNE para o TIPO DE ANIMAL:

In [None]:
# Dicionario do mapeamento
meat_to_animal = {
    "bacon":"pig",
    "pulled pork": "pig",
    "pastrami":"cow",
    "corned beef":"cow",
    "honey ham":"pig",
    "nova lox":"salmon"
}

# data["food"] => Série da coluna que iremos nos basear para aplicar o mapeamento
# "animal" => é a nova coluna no dataframe
print("usando DICIONARIO para o mapeamento")
data["animal"] = data["food"].map(meat_to_animal)

display(data)

print("usando FUNÇÃO para o mapeamento")
data.drop(columns=['animal'],inplace=True)
def get_animal(x):
    return meat_to_animal[x]

data["animalFuncao"] = data["food"].map(get_animal)

display(data)

# Para TRANSFORMAÇÃO nos valores do dataframe também é possível usar o método REPLACE


usando DICIONARIO para o mapeamento


Unnamed: 0,food,ounces,animal
0,bacon,4.0,pig
1,pulled pork,3.0,pig
2,bacon,12.0,pig
3,pastrami,6.0,cow
4,corned beef,7.5,cow
5,bacon,8.0,pig
6,pastrami,3.0,cow
7,honey ham,5.0,pig
8,nova lox,6.0,salmon


usando FUNÇÃO para o mapeamento


Unnamed: 0,food,ounces,animalFuncao
0,bacon,4.0,pig
1,pulled pork,3.0,pig
2,bacon,12.0,pig
3,pastrami,6.0,cow
4,corned beef,7.5,cow
5,bacon,8.0,pig
6,pastrami,3.0,cow
7,honey ham,5.0,pig
8,nova lox,6.0,salmon


### Renomeação de índices dos eixos

Os indices TAMBÉM podem ser renomeados, e para isso podemos usar o MAP do objeto INDEX, ou um dicionário assim como é feito com os dados do dataframe

In [21]:
data = pd.DataFrame(np.arange(12).reshape((3, 4)),
                    index=["Ohio", "Colorado", "New York"],
                    columns=["one", "two", "three", "four"]
                    )

display(data)

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
New York,8,9,10,11


In [23]:
# Limita o tamano do rótulo em 4 caracteres, todos maiusculos
def transform(x):
    return x[:4].upper()

data.index = data.index.map(transform)
display(data)

Unnamed: 0,one,two,three,four
OHIO,0,1,2,3
COLO,4,5,6,7
NEW,8,9,10,11


In [24]:
# Rename
data.rename(index=str.title, columns=str.upper)

Unnamed: 0,ONE,TWO,THREE,FOUR
Ohio,0,1,2,3
Colo,4,5,6,7
New,8,9,10,11


In [26]:
# Rename com dicionário
data.rename(index={"OHIO":"INDIANA"},
            columns={"three":"peekaboo"})

Unnamed: 0,one,two,peekaboo,four
INDIANA,0,1,2,3
COLO,4,5,6,7
NEW,8,9,10,11
