# Limpeza de Dados

Na aula anterior, você teve uma visão geral das técnicas de tratamento de dados para análise. Nesta aula, você vai:

- identificar colunas e linhas desnecessárias em um DataFrame e remover essas entradas para otimizar os dados;

- executar a normalização de textos e o tratamento de valores nulos em um DataFrame para padronizar e completar os dados;

- demonstrar a capacidade de salvar um DataFrame limpo em um novo arquivo CSV utilizando o comando df.to_csv().

In [1]:
# Importando as bibliotecas necessárias
import pandas as pd

In [2]:
# Gerando Dataframes dos dados de clientes
# caminho do arquivo CSV - assets\clientes.csv

df = pd.read_csv(r'C:\Users\rodri\dev\ciencia_de_dados_v2\assets\clientes.csv', encoding='utf-8')

pd.set_option('display.width', None)
print(df.head(10))

                      nome             cpf  idade        data  \
0  Sr. Vitor Gabriel Silva  640.***.***-01   90.0  1933-12-06   
1            Calebe Santos  651.***.***-46   40.0  1984-03-06   
2       Maria Julia Castro  164.***.***-43    NaN  2035-04-12   
3           Arthur Da Rosa  085.***.***-30   53.0  1970-04-16   
4             Juan Pereira  520.***.***-21   68.0  1955-10-25   
5   Dra. Ana Laura Ribeiro  210.***.***-20   69.0  1954-05-09   
6       Maria Clara Araújo  960.***.***-80   41.0  1983-03-14   
7         Vitória Oliveira  302.***.***-83   31.0  1993-03-10   
8        Benjamin Oliveira  451.***.***-84   49.0  1974-05-16   
9            Pietro Barros  843.***.***-50   51.0  1972-08-19   

                        endereco                     bairro estado  
0       trevo emanuel silva, 482                 vila tirol     AP  
1              recanto moraes, 7         ernesto nascimento     PB  
2     residencial de pereira, 20                     jatobá     AL  
3       

### Removendo dados

In [3]:
# Removendo dados 
df.drop('pais', axis=1, inplace=True) #Coluna

# Removendo linha 2
df.drop(2, axis=0, inplace=True) #linha

KeyError: "['pais'] not found in axis"

### Normalizando campos de texto

In [7]:
# Normalizando campos nome, endereço e estado
df['nome'] = df['nome'].str.title()
df['endereco'] = df['endereco'].str.lower()
df['estado']= df['estado'].str.strip().str.upper()

### Convertendo tipos de dados

In [None]:
# verificando tipo de dados da idade
df.dtypes['idade']

# Convertendo idade para tipo inteiro
df['idade'] = df['idade'].astype(int)

IntCastingNaNError: Cannot convert non-finite values (NA or inf) to integer

### Tratando valores nulos

In [None]:
df_fillna = df.fillna(0)         # Substitui valores nulos por 0
df_dropna = df.dropna()          # Remove registros co valores nulos
df_dropna4 = df.dropna(thresh=4) # Manter registros com no minimo 4 valores não nulos
df = df.dropna(subset=['cpf'])   # Remover registros com CPF nulo

In [None]:
print(f'Valores nulos: \n{df.isnull().sum()}')
print(f'Qtd de registros nulos com fillna: \n{df_fillna.isnull().sum().sum()}')
print(f'Qtd de registros nulos com dropna: \n{df_dropna.isnull().sum().sum()}')
print(f'Qtd de registros nulos com dropna4: \n{df_dropna4.isnull().sum().sum()}')
print(f'Qtd de registros nulos com CPF: \n {df.isnull().sum().sum()}')

### Tratando formato de dados

In [None]:
# tratando formato de data para DD/MM/AAAA
df['data_corrigida'] = pd.to_datetime(df['data'], format='%d/%m/%Y', errors='coerce')

### Tratar dados duplicados

In [None]:
print(f'Qtd registros atuais: \n {df.shape[0]}')
df.drop_duplicates()
df.drop_duplicates(subset='cpf', inplace=True)
print(f'Qtd registros removendo as duplicidades: \n{len(df)}')

In [None]:
# mostrandos dados limpos
print(f'Dados linpos: \n {df}')

### Salvar Dataframe

In [None]:
df['data'] = df['data_corrigida']
df['idade'] = df['idade_corrigida']

df_salvar = df[['nome', 'cpf', 'idade', 'data', 'endereco', 'estado']]
df_salvar.to_csv('assets\clientes_limpeza.csv', index=False)

print(f'Novo DataFrame: \n'{pd.read_csv(r'C:\Users\rodri\dev\ciencia_de_dados_v2\assets\clientes_limpeza.csv')})
