# Limpeza de Dados - Padronização e Correções

---

#### Neste notebook realizamos a limpeza e padronização do dataset `clientes.csv`.
#### As etapas incluem remoção de dados irrelevantes, normalização de texto, tratamento de valores nulos e duplicados, além de ajustes de tipo e formato.

## 1. Leitura dos Dados

Importamos os dados e ajustamos a exibição para facilitar a visualização.

- `pd.set_option`('display.width', None) - Ajusta a exibição para não cortar dados na tela.

In [None]:
import pandas as pd

df = pd.read_csv('../data/clientes.csv')

pd.set_option('display.width', None)
print(df.head())

## 2. Remoção de Dados

Parâmetro axis no Pandas é usado para especificar a direção axis=1 = colunas, axis=0 = linhas
- `drop()` com `axis = 1 ` - remove colunas.
- `drop()` com `axis = 0 ` - remove linhas.
- `inplace = True ` - aplica a alteração diretamente no DataFrame.

In [None]:
df.drop('pais', axis=1, inplace=True)
df.drop(2, axis=0, inplace=True)

## 3. Normalização de Texto

- `.str.title() ` - primeira letra maiúscula
- `.str.lower()` - tudo minúsculo
- `.str.strip().str.upper() ` - remove espaços e coloca tudo em maiúsculo

In [None]:
df['nome'] = df['nome'].str.title()
df['endereco'] = df['endereco'].str.lower()
df['estado'] = df['estado'].str.strip().str.upper()

## 4. Conversão de Tipos

- `astype(int)` - garante que idade seja do tipo inteiro para análises numéricas

In [None]:
df['idade'] = df['idade'].astype(int)

## 5. Tratamento de Valores Nulos

- `fillna(0)` - substitui nulos por zero
- `dropna()` - remove registros com qualquer valor nulo
- `dropna(thresh=4)` - mantém registros com pelo menos 4 valores não nulos
- `dropna(subset=['cpf'])` - remove registros com CPF nulo

In [None]:
df_fillna = df.fillna(0)
df_dropna = df.dropna()
df_dropna4 = df.dropna(thresh=4)
df = df.dropna(subset=['cpf'])

print('Valores nulos: \n', df.isnull().sum())
print('Qtd de registros nulos com fillna: ', df_fillna.isnull().sum().sum())
print('Qtd de registros nulos com dropna: ', df_dropna.isnull().sum().sum())
print('Qtd de registros nulos com dropna4: ', df_dropna4.isnull().sum().sum())
print('Qtd de registros nulos com CPF: ', df.isnull().sum().sum())

## 6. Substituição Contextual de Nulos

- Substitui valores nulos com base no contexto da coluna.
- Exemplo: `'estado'`recebe `'Desconhecido'`, `'endereco'` recebe `'Endereço não informado'`, e `'idade'` recebe a média.


In [None]:
df.fillna({'estado': 'Desconhecido'}, inplace=True)
df['endereco'] = df['endereco'].fillna('Endereço não informado')
df['idade_corrigida'] = df['idade'].fillna(df['idade'].mean())

## 7. Conversão de Datas

- `pd.to_datetime()` - transforma texto em formato de data.
- `errors = 'coerce'` -  converte datas inválidas em `NaT`.

In [None]:
df['data_corrigida'] = pd.to_datetime(df['data'], format='%d/%m/%Y', errors='coerce')

## 8. Remoção de Duplicatas

- `drop_duplicates()` - remove registros repetidos.
- `subset = 'cpf' - ` garante que não haja CPFs duplicados.
- `df.shape[0]` e `len(df)` - ambas servem para mostrar a quantidade de linhas

In [None]:
print('Qtd registros atual: ', df.shape[0])
df.drop_duplicates()
df.drop_duplicates(subset='cpf', inplace=True)
print('Qtd registros removendo as duplicadas: ', len(df))

## 9. Atualização de Colunas Corrigidas

Substitui as colunas (data e idade) originais pelas versões tratadas.

In [None]:
df['data'] = df['data_corrigida']
df['idade'] = df['idade_corrigida']

## 10. Seleção de Colunas Relevantes

Mantemos apenas as colunas úteis para análise.
- `index = False ` evita salvar o índice como coluna no CSV.

In [None]:
df_salvar = df[['nome', 'cpf', 'idade', 'data', 'endereco', 'estado']]
df_salvar.to_csv('clientes_limpeza.csv', index=False)

print('Novo DataFrame: \n', pd.read_csv('../data/clientes_limpeza.csv'))