## Fazendo uma limpeza nos dados

Ferramentas genéricas como o pandas e ferramentas especializadas como o pyjanitor podem ser usadas para ajudar na 
limpeza dos dados.

##### Nomes das colunas 

Ao usar o pandas, ter nomes de colunas apropriadadas para Python torna possível o acesso aos atributos. A função
"clean_names" d pyjanitor devolverá um DataFrame com as colunas em letras minúsculas e os espaços substituídos por
underscores:

In [1]:
import pandas as pd

# Caminho em Pasta
path = "datasets/titanic/titanic3.xls"
df = pd.read_excel(path)

In [2]:
import janitor as jn

Xbad = pd.DataFrame(
    {
        "A": [1, None, 3],
        "  sales numbers ": [20.0, 30.0, None],
    }
)
jn.clean_names(Xbad)

Unnamed: 0,a,_sales_numbers_
0,1.0,20.0
1,,30.0
2,3.0,


##### A biblioteca pyjanitor é conveniente, mas não nos permite remover espaços em branco em torno das colunas.

In [3]:
# Podemos usar o pandas para ter um controle mais minucioso ao renomear as colunas:
def clean_col(name):
    return (
        name.strip().lower().replace(" ","_")
    )

Xbad.rename(columns=clean_col)

Unnamed: 0,a,sales_numbers
0,1.0,20.0
1,,30.0
2,3.0,


##### Substituindo valores ausentes

A função coalesce do pyjanitor recebe um DataFrame e uma lista de colunas para serem consideradas. Essa é uma 
funcionalidade semelhante áquela que vemos no Excel e em bancos de dados SQL.Ela devolve o primeiro valor não nulo
para cada linha.

In [4]:
jn.coalesce(
    Xbad, 
    "A", "  sales numbers ", 
    target_column_name="val",
)


Unnamed: 0,A,sales numbers,val
0,1.0,20.0,1.0
1,,30.0,30.0
2,3.0,,3.0


##### Se quisermos substituir os valores ausentes por um valor específico, podemos usar o método .fillna do DataFrame

In [5]:
Xbad.fillna(10)

Unnamed: 0,A,sales numbers
0,1.0,20.0
1,10.0,30.0
2,3.0,10.0


In [6]:
# ou a função fill_empty do pyjanitor:

jn.fill_empty(
    Xbad, 
    column_names = ['A', '  sales numbers '],
    value = 10,
)

Unnamed: 0,A,sales numbers
0,1.0,20.0
1,10.0,30.0
2,3.0,10.0


##### Pode usar o pandas para garantir que todos os valores ausentes foram tratados. 

O código a seguir devolve um único booleano para informar se há alguma célula com valor ausente em um DataFrame

In [7]:
df.isna().any().any()

True