# CHAPTER 5 - Cleaning Data

Podemos usar ferramentas genéricas como pandas e ferramentas especializadas como pyjanitor para ajudar na limpeza de dados.

In [1]:
# Importando bibliotecas
import pandas as pd 
import janitor as jn 
import numpy as np


# 5.1 - Nomes de coluna

Ao usar pandas, ter nomes de coluna compatíveis com Python torna possível o acesso ao atributo. A função pyjanitor `clean_names()` retornará um DataFrame com colunas em minúsculas e espaços substituídos por sublinhados:

In [2]:
def coletar_dados():
    
    url = "https://hbiostat.org/data/repo/titanic3.xls"
    df = pd.read_excel(url).clean_names()
    
    return df

df = coletar_dados()



In [4]:
# exemmplo do uso da funçao clearn__names()

Xbad = pd.DataFrame({
    
    "A": [1, "Nome", 3],
    "sales numbers": [20.0, 30.0, None]
    }
)

jn.clean_names(Xbad)

Unnamed: 0,a,sales_numbers
0,1,20.0
1,Nome,30.0
2,3,


## Dica

Eu recomendo atualizar colunas usando atribuição de índice, o método `.assign`, atribuição `.loc` ou `.iloc`. Eu também recomendo não usar atribuição de atributo para atualizar colunas em pandas. Devido ao risco de sobrescrever métodos existentes com o mesmo nome de uma coluna, não é garantido que a atribuição de atributos funcione.

A biblioteca pyjanitor é útil, mas não nos permite remover espaços em branco ao redor das colunas. Podemos usar pandas para ter um controle mais refinado da renomeação da coluna:

In [20]:
def clean_col(name):
    return name.strip().lower().replace(" ","_")

Xbad.rename(columns=clean_col)

Unnamed: 0,a,sales_numbers
0,1,20.0
1,Nome,30.0
2,3,


# 5.2 Substituindo valores Ausentes

Substituindo valores ausentes

Se quisermos preencher os valores ausentes com um valor específico, podemos usar o método DataFrame .fillna:

In [15]:
Xbad.fillna(10)

Unnamed: 0,A,sales numbers
0,1,20.0
1,Nome,30.0
2,3,10.0


Ou a função .fill_empty do pyjanitor


In [23]:
jn.fill_empty(Xbad, columns =["A","sales numbers"], value=10)

Unnamed: 0,A,sales numbers
0,1,20.0
1,Nome,30.0
2,3,10.0


Frequentemente, usaremos imputações mais refinadas em pandas, scikit-learn ou fancyimpute para realizar a substituição nula por coluna.

Como uma verificação de sanidade antes de criar modelos, você pode usar pandas para garantir que lidou com todos os valores ausentes. O código a seguir retorna um único booleano se houver alguma célula ausente em um DataFrame:

In [25]:
df.isna().any().any()

True