# Limpeza de Dados da DataClean

Implemente, do zero, um sistema de tratamento de dados em Python, utilizando um arquivo CSV. O sistema deve carregar os dados, exibir informaÃ§Ãµes bÃ¡sicas, tratar dados ausentes, detectar e tratar duplicatas, analisar outliers, aplicar normalizaÃ§Ã£o e encoding, e trabalhar com datas. Opcionalmente, pode gerar visualizaÃ§Ãµes e relatÃ³rios.


## InstruÃ§Ãµes

Faaala Dev,

Chegou a hora de colocar em prÃ¡tica tudo o que aprendemos sobre tratamento de dados ðŸ§¹ðŸ“Š

Neste desafio, vocÃª vai atuar como analista de dados da empresa fictÃ­cia DataClean Co., responsÃ¡vel por garantir que os conjuntos de dados usados nas anÃ¡lises sejam confiÃ¡veis, limpos e prontos para gerar insights de qualidade.

O time de negÃ³cios enviou um arquivo com informaÃ§Ãµes de clientes, produtos e vendas, mas o conjunto contÃ©m valores ausentes, duplicatas, outliers e inconsistÃªncias â€” e sua missÃ£o Ã© deixÃ¡-lo pronto para futuras anÃ¡lises!

Como todo bom desafio, talvez vocÃª precise explorar alguns conceitos novos ou revisar conteÃºdos vistos nas aulas. EntÃ£o lembre-se: pesquise, teste e explore. Isso faz parte do processo! ðŸ’ª

Tenha paciÃªncia e acredite no seu progresso. O aprendizado adquirido aqui serÃ¡ essencial na sua jornada como analista de dados ðŸš€

## Sobre o desafio

A empresa fictÃ­cia DataClean Co. te enviou o arquivo `dados_clientes.csv`, contendo o histÃ³rico de clientes e suas compras.

Sua missÃ£o Ã© aplicar as principais tÃ©cnicas de tratamento de dados vistas no mÃ³dulo, deixando o dataset pronto para uma anÃ¡lise exploratÃ³ria e visualizaÃ§Ãµes posteriores.

## Regras da aplicaÃ§Ã£o
VocÃª deverÃ¡:

* Carregar os dados a partir do arquivo `dados_clientes.csv`.
* Exibir informaÃ§Ãµes bÃ¡sicas:
   * Mostrar as 5 primeiras linhas.
   * Exibir o nÃºmero total de registros e colunas.
   * Identificar os tipos de dados de cada coluna.
* Tratar dados ausentes:
   * Identificar colunas com valores nulos.
   * Substituir, remover ou preencher valores ausentes de forma adequada.
* Detectar e tratar duplicatas:
   * Verificar se hÃ¡ registros duplicados.
   * Remover duplicatas mantendo os dados mais relevantes.
* Analisar outliers:
   * Utilizar boxplots e quartis para identificar outliers em colunas numÃ©ricas.
   * Decidir se os valores devem ser removidos, substituÃ­dos ou mantidos.
* Aplicar normalizaÃ§Ã£o e encoding:
  * Normalizar colunas numÃ©ricas (por exemplo, preÃ§o, idade ou renda).
  * Converter colunas categÃ³ricas em variÃ¡veis numÃ©ricas com encoding.
* Trabalhar com datas:
  * Converter colunas de data para o formato correto.
  * Criar colunas derivadas (ex: ano, mÃªs, dia da semana).

## Modelo de dados (arquivo `dados_clientes.csv`)
O arquivo `dados_clientes.csv` contÃ©m informaÃ§Ãµes de clientes, produtos e vendas. As colunas esperadas podem incluir, mas nÃ£o se limitam a:

* `id_cliente` (inteiro)
* `nome` (string)
* `idade` (inteiro)
* `genero` (string)
* `renda` (float)
* `produto` (string)
* `categoria_produto` (string)
* `valor_gasto` (float)
* `data_compra` (data)
* `regiao` (string)

## Como executar
1. Salve o cÃ³digo Python em um arquivo ou Jupiter Notebook (ex: `tratamento_dados.py`).
2. Certifique-se de que o arquivo `dados_clientes.csv` esteja no mesmo diretÃ³rio.
3. Execute o script Python no terminal ou no Colab: python `tratamento_dados.py`

## Se quiser se desafiar ðŸ’¡
* Gerar visualizaÃ§Ãµes:
   * Histograma mostrando a distribuiÃ§Ã£o da renda dos clientes.
   * Boxplot comparando o gasto mÃ©dio por categoria de produto.
   * Scatterplot mostrando a relaÃ§Ã£o entre idade e valor gasto.
   * Heatmap de correlaÃ§Ã£o entre variÃ¡veis numÃ©ricas.
* Extra (opcional):
   * Exportar o dataset final limpo para um novo arquivo `.csv`.
   * Criar um relatÃ³rio em `.xlsx` ou `.pdf` mostrando o antes e depois do tratamento.



In [None]:
# 1. Setup inicial (Colab)
# Bibliotecas principais
import pandas as pd
import numpy as np

# VisualizaÃ§Ã£o
import matplotlib.pyplot as plt
import seaborn as sns

# PrÃ©-processamento
from sklearn.preprocessing import MinMaxScaler, LabelEncoder

In [None]:
# 2. Carregar o dataset
from google.colab import files
uploaded = files.upload()

In [None]:
df = pd.read_csv("dados_clientes.csv")

In [None]:
# 3. InformaÃ§Ãµes bÃ¡sicas dos dados
df.head()

In [None]:
print(f"Registros: {df.shape[0]}")
print(f"Colunas: {df.shape[1]}")

In [None]:
df.dtypes

In [None]:
df.info()

In [None]:
# 4. Tratamento de dados ausentes
df.isnull().sum()

In [None]:
# Colunas numÃ©ricas
num_cols = df.select_dtypes(include=['int64', 'float64']).columns

for col in num_cols:
    df[col].fillna(df[col].median(), inplace=True)

# Colunas categÃ³ricas
cat_cols = df.select_dtypes(include=['object']).columns

for col in cat_cols:
    df[col].fillna("Desconhecido", inplace=True)

In [None]:
# 5. Detectar e tratar duplicatas
df.duplicated().sum()

In [None]:
df = df.drop_duplicates()

In [None]:
# 6. AnÃ¡lise e tratamento de outliers
plt.figure(figsize=(12,6))
df[num_cols].boxplot()
plt.xticks(rotation=45)
plt.show()

In [None]:
for col in num_cols:
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1

    limite_inferior = Q1 - 1.5 * IQR
    limite_superior = Q3 + 1.5 * IQR

    df = df[(df[col] >= limite_inferior) & (df[col] <= limite_superior)]

In [None]:
# 7. NormalizaÃ§Ã£o dos dados numÃ©ricos
scaler = MinMaxScaler()

df[num_cols] = scaler.fit_transform(df[num_cols])

In [None]:
# 8. Encoding de variÃ¡veis categÃ³ricas
encoder = LabelEncoder()

for col in cat_cols:
    df[col] = encoder.fit_transform(df[col])

In [None]:
# 9. Tratamento de datas
df['data_compra'] = pd.to_datetime(df['data_compra'], errors='coerce')

In [None]:
df['ano_compra'] = df['data_compra'].dt.year
df['mes_compra'] = df['data_compra'].dt.month
df['dia_semana'] = df['data_compra'].dt.dayofweek

In [None]:
# Desafio Extra
plt.figure(figsize=(8,5))
sns.histplot(df['renda'], kde=True)
plt.title("DistribuiÃ§Ã£o da Renda dos Clientes")
plt.show()

In [None]:
plt.figure(figsize=(8,5))
sns.boxplot(x='categoria_produto', y='valor_gasto', data=df)
plt.title("Valor Gasto por Categoria")
plt.show()

In [None]:
plt.figure(figsize=(8,5))
sns.scatterplot(x='idade', y='valor_gasto', data=df)
plt.title("Idade vs Valor Gasto")
plt.show()

In [None]:
plt.figure(figsize=(10,6))
sns.heatmap(df[num_cols].corr(), annot=True, cmap='coolwarm')
plt.title("CorrelaÃ§Ã£o entre VariÃ¡veis NumÃ©ricas")
plt.show()

In [None]:
# 10. Exportar dataset limpo
df.to_csv("dados_clientes_limpos.csv", index=False)

In [None]:
files.download("dados_clientes_limpos.csv")