<a href="https://colab.research.google.com/github/marcelofschiavo/ds-cookbook/blob/main/01_Coleta_e_Limpeza.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 01. Coleta e Limpeza de Dados (SQL & Pandas)

**Objetivo:** Nenhum modelo de Machine Learning pode gerar valor a partir de dados ruins ("Garbage In, Garbage Out").
Aqui est√£o as "receitas" fundamentais para buscar, carregar, inspecionar e limpar dados brutos do mundo real, usando as duas ferramentas essenciais: SQL (para bancos de dados) e Pandas (para manipula√ß√£o em Python).

## 1. SQL  

### Receita 1.1: `SELECT`, `FROM`, `WHERE`

* **üß† Intui√ß√£o:** √â o b√°sico do pedido. "Ei, banco de dados (`FROM vendas`), me traga (`SELECT`) a lista de `produto` e `quantidade` vendida, mas *apenas* (`WHERE`) da categoria `Eletr√¥nicos`."
* **üéì Defini√ß√£o T√©cnica:** `SELECT` define as colunas (proje√ß√£o) a serem retornadas. `FROM` especifica a tabela fonte dos dados. `WHERE` aplica um filtro nas linhas (sele√ß√£o) com base em uma condi√ß√£o l√≥gica.
* **üç≥ Receita:**
    ```sql
    SELECT
        produto,
        quantidade
    FROM
        vendas
    WHERE
        categoria = 'Eletr√¥nicos';
    ```
* **üìä Resultado:** Uma tabela contendo apenas os produtos e quantidades da categoria 'Eletr√¥nicos'. As outras categorias e colunas s√£o omitidas.
    ```
    | produto | quantidade |
    | :------ | :--------- |
    | Laptop  | 1          |
    | Teclado | 2          |
    | Monitor | 1          |
    | Mouse   | 3          |
    ```

### Receita 1.2: `GROUP BY`

* **üß† Intui√ß√£o:** "Agora, quero saber o *total* vendido de cada categoria. Primeiro, fa√ßa 'montinhos' (`GROUP BY`) por `categoria`. Depois, some (`SUM`) a `quantidade` de cada montinho."
* **üéì Defini√ß√£o T√©cnica:** Agrupa linhas que compartilham o mesmo valor na coluna especificada (`categoria`). √â usado em conjunto com fun√ß√µes de agrega√ß√£o (`SUM`, `AVG`, `COUNT`, `MIN`, `MAX`) que operam sobre cada grupo formado. O `AS` renomeia a coluna resultante.
* **üç≥ Receita:**
    ```sql
    SELECT
        categoria,
        SUM(quantidade) AS total_vendido,
        AVG(preco_unitario) AS preco_medio
    FROM
        vendas
    GROUP BY
        categoria;
    ```
* **üìä Resultado:** Uma tabela resumida, mostrando o total de itens vendidos e o pre√ßo unit√°rio m√©dio para cada categoria. Note que a linha da 'Mesa' (quantidade NULL) pode ser ignorada pelo `SUM` dependendo da configura√ß√£o do banco.
    ```
    | categoria   | total_vendido | preco_medio |
    | :---------- | :------------ | :---------- |
    | Eletr√¥nicos | 7             | 1232.50     |
    | Casa        | 10            | 25.00       |
    | M√≥veis      | 1             | 700.00      |
    ```
    *(O preco_medio de M√≥veis pode variar se o NULL for inclu√≠do ou n√£o no AVG)*

### Receita 1.3: `JOIN`

* **üß† Intui√ß√£o:** "Eu tenho a lista de vendas (com `id_cliente`) e a lista de clientes (com `id_cliente` e `nome_cliente`). Quero 'colar' as duas usando o `id_cliente` para saber *quem* comprou *o qu√™*."
* **üéì Defini√ß√£o T√©cnica:** Combina linhas de duas ou mais tabelas (`vendas` e `clientes`) com base em uma coluna relacionada (`id_cliente`). `INNER JOIN` retorna apenas as linhas onde a chave existe em *ambas* as tabelas. A cl√°usula `ON` especifica a condi√ß√£o de jun√ß√£o (igualdade entre a Chave Estrangeira `v.id_cliente` e a Chave Prim√°ria `c.id_cliente`). `v` e `c` s√£o apelidos (aliases) para as tabelas.
* **üç≥ Receita:**
    ```sql
    SELECT
        v.produto,
        v.quantidade,
        c.nome_cliente,
        c.cidade
    FROM
        vendas v
    INNER JOIN
        clientes c ON v.id_cliente = c.id_cliente;
    ```
* **üìä Resultado:** Uma tabela combinada mostrando o produto, quantidade, nome do cliente e cidade. A venda da Mesa (cliente 104) aparecer√° aqui porque ele existe na tabela `clientes` do nosso exemplo Python.
    ```
    | produto       | quantidade | nome_cliente | cidade      |
    | :------------ | :--------- | :----------- | :---------- |
    | Laptop        | 1          | Ana Silva    | S√£o Paulo   |
    | Teclado       | 2          | Bruno Lima   | Rio Janeiro |
    | Caneca        | 10         | Ana Silva    | S√£o Paulo   |
    | Monitor       | 1          | Carla Dias   | S√£o Paulo   |
    | Cadeira Gamer | 1          | Bruno Lima   | Rio Janeiro |
    | Mouse         | 3          | Ana Silva    | S√£o Paulo   |
    | Mesa de Escrit.| NaN        | Daniel Reis  | B. Horizonte|
    ```

## 2. Pandas (Python Data Analysis Library)

Faz quase tudo que o SQL faz, mas diretamente na mem√≥ria do Python, com objetos chamados DataFrames.
O c√≥digo abaixo cria nossos dois DataFrames principais na mem√≥ria:

In [5]:
import pandas as pd
import numpy as np # Usaremos para criar um valor NaN

# Criando o DataFrame 'vendas' diretamente no Python (listas dentro de um dicion√°rio)
data_vendas = {
    'id_venda': [1, 2, 3, 4, 5, 6, 7],
    'produto': ['Laptop', 'Teclado', 'Caneca', 'Monitor', 'Cadeira Gamer', 'Mouse', 'Mesa de Escrit.'],
    'categoria': ['Eletr√¥nicos', 'Eletr√¥nicos', 'Casa', 'Eletr√¥nicos', 'M√≥veis', 'Eletr√¥nicos', 'M√≥veis'],
    'quantidade': [1, 2, 10, 1, 1, 3, np.nan], # Adicionando NaN (NULL)
    'preco_unitario': [3500.00, 150.00, 25.00, 1200.00, 950.00, 80.00, 450.00],
    'id_cliente': [101, 102, 101, 103, 102, 101, 104],
    'data_venda': pd.to_datetime(['2025-10-20', '2025-10-21', '2025-10-21', '2025-10-22', '2025-10-23', '2025-10-24', '2025-10-25']) # Convertendo para data
}
df_vendas = pd.DataFrame(data_vendas)

# Criando o DataFrame 'clientes'
data_clientes = {
    'id_cliente': [101, 102, 103, 104],
    'nome_cliente': ['Ana Silva', 'Bruno Lima', 'Carla Dias', 'Daniel Reis'],
    'cidade': ['S√£o Paulo', 'Rio Janeiro', 'S√£o Paulo', 'B. Horizonte']
}
df_clientes = pd.DataFrame(data_clientes)

print("DataFrames criados:")
print("--- Vendas ---")
print(df_vendas)
print("\n--- Clientes ---")
print(df_clientes)

DataFrames criados:
--- Vendas ---
   id_venda          produto    categoria  quantidade  preco_unitario  \
0         1           Laptop  Eletr√¥nicos         1.0          3500.0   
1         2          Teclado  Eletr√¥nicos         2.0           150.0   
2         3           Caneca         Casa        10.0            25.0   
3         4          Monitor  Eletr√¥nicos         1.0          1200.0   
4         5    Cadeira Gamer       M√≥veis         1.0           950.0   
5         6            Mouse  Eletr√¥nicos         3.0            80.0   
6         7  Mesa de Escrit.       M√≥veis         NaN           450.0   

   id_cliente data_venda  
0         101 2025-10-20  
1         102 2025-10-21  
2         101 2025-10-21  
3         103 2025-10-22  
4         102 2025-10-23  
5         101 2025-10-24  
6         104 2025-10-25  

--- Clientes ---
   id_cliente nome_cliente        cidade
0         101    Ana Silva     S√£o Paulo
1         102   Bruno Lima   Rio Janeiro
2         103   

### Receita 2.1: Ler um CSV (`pd.read_csv`)

* **üß† Intui√ß√£o:** "Dizer ao Python: 'Abra este arquivo (`vendas.csv`) que parece uma planilha e coloque os dados na nossa mesa de trabalho (`df_vendas`)'."
* **üéì Defini√ß√£o T√©cnica:** Fun√ß√£o do Pandas para ler arquivos de texto delimitados (como CSV) em um objeto DataFrame. Possui diversos par√¢metros para lidar com diferentes formatos (separador `sep`, cabe√ßalho `header`, codifica√ß√£o `encoding`, tratamento de erros `on_bad_lines`, etc.).
* **üç≥ Receita:**

In [12]:
# 1. Primeiro, vamos SALVAR nosso df_vendas em um arquivo CSV
#    Usamos index=False para n√£o salvar o √≠ndice 0,1,2... como uma coluna
try:
    df_vendas.to_csv('vendas_para_teste.csv', index=False, sep=';', encoding='utf-8')
    print("Arquivo 'vendas_para_teste.csv' salvo com sucesso (separador=';').\n")

    # 2. Agora, vamos LER o arquivo que acabamos de criar.
    #    Esta √© a receita execut√°vel do pd.read_csv()
    df_lido = pd.read_csv('vendas_para_teste.csv', sep=';')

    print("--- Arquivo CSV lido de volta para a vari√°vel 'df_lido': ---")
    print(df_lido.head()) # .head() mostra as 5 primeiras linhas

except Exception as e:
    print(f"Ocorreu um erro ao salvar/ler o arquivo: {e}")
    print("Verifique as permiss√µes da pasta.")

Arquivo 'vendas_para_teste.csv' salvo com sucesso (separador=';').

--- Arquivo CSV lido de volta para a vari√°vel 'df_lido': ---
   id_venda        produto    categoria  quantidade  preco_unitario  \
0         1         Laptop  Eletr√¥nicos         1.0          3500.0   
1         2        Teclado  Eletr√¥nicos         2.0           150.0   
2         3         Caneca         Casa        10.0            25.0   
3         4        Monitor  Eletr√¥nicos         1.0          1200.0   
4         5  Cadeira Gamer       M√≥veis         1.0           950.0   

   id_cliente  data_venda  
0         101  2025-10-20  
1         102  2025-10-21  
2         101  2025-10-21  
3         103  2025-10-22  
4         102  2025-10-23  


* **üìä Resultado:** Se o arquivo 'vendas.csv' existisse no diret√≥rio, a vari√°vel `df_vendas_lido` conteria um DataFrame id√™ntico ao `df_vendas` que criamos manualmente. `.head()` √© um m√©todo que exibe as primeiras 5 linhas do DataFrame, √∫til para uma verifica√ß√£o r√°pida.

### Receita 2.2: Filtrar (`df[...]`) - Equivalente ao `WHERE`

* **üß† Intui√ß√£o:** "Da nossa mesa de trabalho (`df_vendas`), me mostre *apenas* as linhas onde a coluna `categoria` √© igual a `'Eletr√¥nicos'`. Ou talvez, onde a `quantidade` √© maior que 5."
* **üéì Defini√ß√£o T√©cnica:** Utiliza **Boolean Masking**. A express√£o condicional (ex: `df_vendas['categoria'] == 'Eletr√¥nicos'`) gera uma S√©rie Pandas de valores `True` ou `False` (a m√°scara). Passar essa m√°scara dentro dos colchetes `df_vendas[...]` seleciona apenas as linhas onde a m√°scara √© `True`. Condi√ß√µes m√∫ltiplas podem ser combinadas usando `&` (AND l√≥gico) e `|` (OR l√≥gico), agrupadas por par√™nteses devido √† preced√™ncia de operadores.
* **üç≥ Receita:**

In [13]:
# Filtro simples: Selecionar apenas a categoria 'Eletr√¥nicos'
df_eletronicos = df_vendas[df_vendas['categoria'] == 'Eletr√¥nicos']
print("--- Apenas Eletr√¥nicos ---")
print(df_eletronicos)

# Filtro composto: Categoria 'Eletr√¥nicos' E quantidade maior que 1
# (Note os par√™nteses obrigat√≥rios em volta de cada condi√ß√£o)
df_eletronicos_multiplos = df_vendas[
    (df_vendas['categoria'] == 'Eletr√¥nicos') & (df_vendas['quantidade'] > 1)
]
print("\n--- Eletr√¥nicos com Quantidade > 1 ---")
print(df_eletronicos_multiplos)

# Filtro usando .isin() para m√∫ltiplos valores (o oposto de `WHERE categoria IN (...)`)
categorias_interesse = ['Casa', 'M√≥veis']
df_casa_moveis = df_vendas[df_vendas['categoria'].isin(categorias_interesse)]
print("\n--- Apenas Categorias 'Casa' ou 'M√≥veis' ---")
print(df_casa_moveis)

--- Apenas Eletr√¥nicos ---
   id_venda  produto    categoria  quantidade  preco_unitario  id_cliente  \
0         1   Laptop  Eletr√¥nicos         1.0          3500.0         101   
1         2  Teclado  Eletr√¥nicos         2.0           150.0         102   
3         4  Monitor  Eletr√¥nicos         1.0          1200.0         103   
5         6    Mouse  Eletr√¥nicos         3.0            80.0         101   

  data_venda  
0 2025-10-20  
1 2025-10-21  
3 2025-10-22  
5 2025-10-24  

--- Eletr√¥nicos com Quantidade > 1 ---
   id_venda  produto    categoria  quantidade  preco_unitario  id_cliente  \
1         2  Teclado  Eletr√¥nicos         2.0           150.0         102   
5         6    Mouse  Eletr√¥nicos         3.0            80.0         101   

  data_venda  
1 2025-10-21  
5 2025-10-24  

--- Apenas Categorias 'Casa' ou 'M√≥veis' ---
   id_venda          produto categoria  quantidade  preco_unitario  \
2         3           Caneca      Casa        10.0            25.0   


* **üìä Resultado:** `df_eletronicos` conter√° um novo DataFrame apenas com as 4 linhas correspondentes a produtos eletr√¥nicos. `df_eletronicos_multiplos` conter√° apenas as 2 linhas de 'Teclado' e 'Mouse', que satisfazem ambas as condi√ß√µes. `df_casa_moveis` conter√° as linhas de 'Caneca', 'Cadeira Gamer' e 'Mesa de Escrit.'. A filtragem √© essencial para isolar subconjuntos de dados para an√°lises espec√≠ficas.

### Receita 2.3: Agrupar (`.groupby().agg()`) - Equivalente ao `GROUP BY`

* **üß† Intui√ß√£o:** "Vamos fazer 'montinhos' (`groupby`) por `categoria` na nossa mesa de trabalho. Depois, para cada montinho, vamos calcular (`agg`) v√°rias coisas: o total vendido (`sum` da quantidade), o pre√ßo m√©dio (`mean` do pre√ßo) e quantas vendas teve (`count`)."
* **üéì Defini√ß√£o T√©cnica:** O m√©todo `.groupby()` cria um objeto `DataFrameGroupBy`, que representa os dados particionados pelos grupos especificados. M√©todos de agrega√ß√£o (`.sum()`, `.mean()`, `.count()`, `.min()`, `.max()`, `.std()`, etc.) podem ser encadeados para calcular estat√≠sticas por grupo. O m√©todo `.agg()` √© mais flex√≠vel, permitindo aplicar m√∫ltiplas fun√ß√µes de agrega√ß√£o simultaneamente e renomear as colunas resultantes. Ele recebe um dicion√°rio onde as chaves s√£o os nomes das novas colunas e os valores s√£o tuplas `('coluna_original', 'funcao_agregacao_string')` ou diretamente a fun√ß√£o de agrega√ß√£o.
* **üç≥ Receita:**

In [14]:
resumo_categoria_pd = df_vendas.groupby('categoria').agg(
    total_vendido=('quantidade', 'sum'),           # Soma as quantidades
    preco_medio=('preco_unitario', 'mean'),        # Calcula a m√©dia dos pre√ßos
    contagem_vendas=('id_venda', 'count'),         # Conta o n√∫mero de vendas (linhas)
    preco_maximo=('preco_unitario', 'max')         # Encontra o pre√ßo unit√°rio m√°ximo
).reset_index() # Transforma o √≠ndice 'categoria' de volta em coluna

print("--- Resumo por Categoria (Pandas) ---")
print(resumo_categoria_pd)

--- Resumo por Categoria (Pandas) ---
     categoria  total_vendido  preco_medio  contagem_vendas  preco_maximo
0         Casa           10.0         25.0                1          25.0
1  Eletr√¥nicos            7.0       1232.5                4        3500.0
2       M√≥veis            1.0        700.0                2         950.0


* **üìä Resultado:** Produz um novo DataFrame, onde cada linha representa uma `categoria`. As colunas mostram as estat√≠sticas agregadas calculadas para cada grupo: a soma total de `quantidade` (ignorando o NaN), a m√©dia do `preco_unitario`, a contagem de `id_venda` (n√∫mero de produtos naquela categoria) e o `preco_unitario` mais alto encontrado. O `.reset_index()` √© usado para que `categoria` volte a ser uma coluna normal, facilitando manipula√ß√µes posteriores.

### Receita 2.4: Juntar (`pd.merge()`) - Equivalente ao `JOIN`

* **üß† Intui√ß√£o:** "Vamos 'colar' (`merge`) a nossa mesa de vendas (`df_vendas`) com a mesa de clientes (`df_clientes`) usando o `id_cliente` como 'cola', para que possamos ver o nome e a cidade do cliente ao lado de cada venda."
* **üéì Defini√ß√£o T√©cnica:** A fun√ß√£o `pd.merge()` combina dois DataFrames com base em uma ou mais colunas comuns (chaves), similar √†s opera√ß√µes JOIN em SQL.
    * `on`: Especifica a(s) coluna(s) chave(s) para a jun√ß√£o. Se os nomes forem diferentes, usa-se `left_on` e `right_on`.
    * `how`: Define o tipo de jun√ß√£o:
        * `'inner'` (padr√£o): Retorna apenas linhas com chaves correspondentes em *ambos* DataFrames (equivalente a INNER JOIN).
        * `'left'`: Retorna todas as linhas do DataFrame da *esquerda* (`df_vendas`) e as correspondentes da direita (`df_clientes`). Se n√£o houver correspond√™ncia, preenche com `NaN` (equivalente a LEFT JOIN).
        * `'right'`: O oposto do 'left'.
        * `'outer'`: Retorna todas as linhas de *ambos*, preenchendo com `NaN` onde n√£o h√° correspond√™ncia.
* **üç≥ Receita:**

In [15]:
# Jun√ß√£o padr√£o (INNER JOIN)
df_completo_inner = pd.merge(
    df_vendas,
    df_clientes,
    on='id_cliente',
    how='inner'
)
print("--- Tabela Combinada (INNER JOIN) ---")
print(df_completo_inner)

# Exemplo com LEFT JOIN (para incluir vendas mesmo sem cliente correspondente, se houvesse)
# df_completo_left = pd.merge(
#     df_vendas,
#     df_clientes,
#     on='id_cliente',
#     how='left'
# )
# print("\n--- Tabela Combinada (LEFT JOIN) ---")
# print(df_completo_left)

--- Tabela Combinada (INNER JOIN) ---
   id_venda          produto    categoria  quantidade  preco_unitario  \
0         1           Laptop  Eletr√¥nicos         1.0          3500.0   
1         2          Teclado  Eletr√¥nicos         2.0           150.0   
2         3           Caneca         Casa        10.0            25.0   
3         4          Monitor  Eletr√¥nicos         1.0          1200.0   
4         5    Cadeira Gamer       M√≥veis         1.0           950.0   
5         6            Mouse  Eletr√¥nicos         3.0            80.0   
6         7  Mesa de Escrit.       M√≥veis         NaN           450.0   

   id_cliente data_venda nome_cliente        cidade  
0         101 2025-10-20    Ana Silva     S√£o Paulo  
1         102 2025-10-21   Bruno Lima   Rio Janeiro  
2         101 2025-10-21    Ana Silva     S√£o Paulo  
3         103 2025-10-22   Carla Dias     S√£o Paulo  
4         102 2025-10-23   Bruno Lima   Rio Janeiro  
5         101 2025-10-24    Ana Silva     S√

* **üìä Resultado:** `df_completo_inner` conter√° um DataFrame com todas as colunas de `df_vendas` e `df_clientes` (exceto `id_cliente` duplicado). Como todos os `id_cliente` em `df_vendas` existem em `df_clientes` neste exemplo, o resultado do `inner` e do `left` seria o mesmo. O `merge` √© fundamental para enriquecer os dados de uma tabela com informa√ß√µes de outra.

### Receita 2.5: Lidar com Dados Nulos (`.isnull()`, `.fillna()`, `.dropna()`)

* **üß† Intui√ß√£o:** "Ops! A 'quantidade' da Mesa de Escrit√≥rio est√° vazia (`NaN`, que √© o 'NULL' do Pandas). Isso vai dar problema nos c√°lculos. O que fazemos? (1) Jogamos a linha inteira da Mesa fora (`dropna`)? Ou (2) Tentamos 'adivinhar' um valor para colocar ali (`fillna`), como a quantidade '1' (que √© a mais comum para m√≥veis)?"
* **üéì Defini√ß√£o T√©cnica:** Dados ausentes (`NaN` - Not a Number) s√£o valores indefinidos que precisam ser tratados antes da an√°lise ou modelagem.
    * `.isnull()`: Retorna uma m√°scara booleana (`True` onde for `NaN`). Encadeado com `.sum()` (`df.isnull().sum()`), conta os `NaN`s por coluna.
    * `.dropna()`: Remove linhas (padr√£o, `axis=0`) ou colunas (`axis=1`) que cont√™m pelo menos um `NaN`. O argumento `subset` permite especificar colunas onde procurar por `NaN`s. √â uma abordagem simples, mas pode levar √† perda significativa de dados.
    * `.fillna()`: Preenche os `NaN`s com um valor especificado. Pode ser um valor escalar (ex: 0, 'Desconhecido'), uma medida estat√≠stica (m√©dia `.mean()`, mediana `.median()`, moda `.mode()[0]`), ou usar m√©todos de preenchimento como `method='ffill'` (propaga o √∫ltimo valor v√°lido para frente) ou `method='bfill'` (propaga o pr√≥ximo valor v√°lido para tr√°s). A escolha da estrat√©gia de imputa√ß√£o √© crucial e depende do contexto.
* **üç≥ Receita (C√≥digo Pandas):**

In [17]:
# 1. Verificar onde est√£o os nulos
print("--- Contagem de Nulos por Coluna (Antes) ---")
print(df_vendas.isnull().sum())

# 2. Estrat√©gia A: Preencher o nulo na quantidade com a mediana da coluna
mediana_qtd = df_vendas['quantidade'].median() # Mediana √© mais robusta
print(f"\nA mediana da quantidade √©: {mediana_qtd}")

df_vendas_filled = df_vendas.copy() # Criar c√≥pia para n√£o alterar o original
df_vendas_filled['quantidade'] = df_vendas_filled['quantidade'].fillna(mediana_qtd)
print("\n--- DataFrame com Nulos Preenchidos (fillna com mediana) ---")
print(df_vendas_filled)
print("Contagem de Nulos (Depois do fillna):")
print(df_vendas_filled['quantidade'].isnull().sum()) # Deve ser 0

# 3. Estrat√©gia B: Remover a linha que cont√©m nulos na coluna 'quantidade'
df_vendas_dropped = df_vendas.dropna(subset=['quantidade']) # Remove a linha da Mesa
print("\n--- DataFrame com Linha Nula Removida (dropna) ---")
print(df_vendas_dropped)
print(f"N√∫mero de linhas antes: {len(df_vendas)}, depois do dropna: {len(df_vendas_dropped)}")

--- Contagem de Nulos por Coluna (Antes) ---
id_venda          0
produto           0
categoria         0
quantidade        1
preco_unitario    0
id_cliente        0
data_venda        0
produto_limpo     0
dtype: int64

A mediana da quantidade √©: 1.5

--- DataFrame com Nulos Preenchidos (fillna com mediana) ---
   id_venda          produto    categoria  quantidade  preco_unitario  \
0         1           Laptop  Eletr√¥nicos         1.0          3500.0   
1         2          Teclado  Eletr√¥nicos         2.0           150.0   
2         3           Caneca         Casa        10.0            25.0   
3         4          Monitor  Eletr√¥nicos         1.0          1200.0   
4         5    Cadeira Gamer       M√≥veis         1.0           950.0   
5         6            Mouse  Eletr√¥nicos         3.0            80.0   
6         7  Mesa de Escrit.       M√≥veis         1.5           450.0   

   id_cliente data_venda   produto_limpo  
0         101 2025-10-20          laptop  
1         

* **üìä Resultado:** A primeira parte mostra que apenas a coluna `quantidade` tem um valor nulo. `df_vendas_filled` ter√° a linha 7 ('Mesa de Escrit.') com a `quantidade` preenchida pelo valor da mediana (que √© 1.0 neste caso). `df_vendas_dropped` ter√° apenas 6 linhas, pois a linha 7 foi completamente removida. A estrat√©gia `fillna` preserva mais dados, enquanto `dropna` √© mais simples, mas pode enviesar a an√°lise se muitos dados forem removidos. A escolha depende do percentual de dados faltantes e do impacto da vari√°vel.

## 3. Receitas Avan√ßadas de Limpeza e Transforma√ß√£o

A limpeza b√°sica (tipos, nulos, duplicatas) √© s√≥ o come√ßo. Frequentemente, precisamos transformar os dados para torn√°-los mais √∫teis ou padronizados.

### Receita 3.1: Limpeza Avan√ßada de Texto (`.str` e `regex`)

* **üß† Intui√ß√£o:** "Os nomes dos produtos est√£o uma bagun√ßa ('Laptop Modelo X!', 'Teclado (Sem Fio)'). Vamos tirar os caracteres especiais ('!') e padronizar, talvez extrair s√≥ a informa√ß√£o principal ('Laptop', 'Teclado')."
* **üéì Defini√ß√£o T√©cnica:** Uso de m√©todos do acessador `.str` combinados com express√µes regulares (`regex`) para limpar e padronizar strings. Inclui remo√ß√£o de caracteres indesejados (`replace`), extra√ß√£o de padr√µes (`extract`), verifica√ß√£o de conte√∫do (`contains`), e padroniza√ß√£o de caixa (`lower`, `upper`, `title`).
* **üç≥ Receita:**

In [16]:
# Exemplo: Limpar coluna 'produto'
df_vendas['produto_limpo'] = df_vendas['produto'].str.lower() # Padroniza caixa
# Remove caracteres n√£o alfanum√©ricos (exceto espa√ßo) usando regex
df_vendas['produto_limpo'] = df_vendas['produto_limpo'].str.replace(r'[^\w\s]+', '', regex=True)
# Remove espa√ßos extras no in√≠cio/fim
df_vendas['produto_limpo'] = df_vendas['produto_limpo'].str.strip()

print("\n--- Coluna 'produto' ap√≥s limpeza de texto ---")
print(df_vendas[['produto', 'produto_limpo']])


--- Coluna 'produto' ap√≥s limpeza de texto ---
           produto   produto_limpo
0           Laptop          laptop
1          Teclado         teclado
2           Caneca          caneca
3          Monitor         monitor
4    Cadeira Gamer   cadeira gamer
5            Mouse           mouse
6  Mesa de Escrit.  mesa de escrit


* **üìä Resultado:** A nova coluna `produto_limpo` conter√° vers√µes padronizadas ('laptop', 'teclado', 'mesa de escrit'), mais f√°ceis de agrupar ou usar em modelos. Regex √© uma ferramenta poderosa (e complexa) essencial para limpeza de texto.

### Receita 3.2: Manipula√ß√£o de Datas (`pd.to_datetime` e `.dt`)

* **üß† Intui√ß√£o:** "A coluna `data_venda` j√° √© uma data, mas eu quero saber *apenas* o m√™s da venda, ou o dia da semana, ou quantos dias se passaram desde a venda."
* **üéì Defini√ß√£o T√©cnica:** Ap√≥s garantir que a coluna √© do tipo `datetime` (usando `pd.to_datetime`), o acessador `.dt` permite extrair componentes da data/hora (ano `.dt.year`, m√™s `.dt.month`, dia `.dt.day`, dia da semana `.dt.dayofweek`, etc.) ou calcular dura√ß√µes (`datetime.now() - df['data_venda']`).
* **üç≥ Receita:**

In [18]:
# Garante que a coluna √© datetime (j√° fizemos na cria√ß√£o)
# df_vendas['data_venda'] = pd.to_datetime(df_vendas['data_venda'])

# Extrair componentes
df_vendas['mes_venda'] = df_vendas['data_venda'].dt.month
df_vendas['dia_semana_venda'] = df_vendas['data_venda'].dt.dayofweek # 0=Segunda, 6=Domingo

# Calcular tempo decorrido (ex: dias desde a venda at√© hoje)
hoje = pd.to_datetime('today').normalize() # Pega a data de hoje, sem as horas
df_vendas['dias_desde_venda'] = (hoje - df_vendas['data_venda']).dt.days

print("\n--- Colunas de data extra√≠das e calculadas ---")
print(df_vendas[['data_venda', 'mes_venda', 'dia_semana_venda', 'dias_desde_venda']].head())


--- Colunas de data extra√≠das e calculadas ---
  data_venda  mes_venda  dia_semana_venda  dias_desde_venda
0 2025-10-20         10                 0                 9
1 2025-10-21         10                 1                 8
2 2025-10-21         10                 1                 8
3 2025-10-22         10                 2                 7
4 2025-10-23         10                 3                 6


* **üìä Resultado:** O DataFrame agora tem colunas adicionais (`mes_venda`, `dia_semana_venda`, `dias_desde_venda`) que podem ser usadas como *features* em modelos de ML (Engenharia de Features) ou para an√°lises sazonais.

### Receita 3.3: Detec√ß√£o e Tratamento (B√°sico) de Outliers

* **üß† Intui√ß√£o:** "O gr√°fico Boxplot mostrou um sal√°rio 'l√° em cima', muito diferente dos outros. Esse valor extremo (outlier) pode distorcer nossa m√©dia e talvez at√© o modelo. Precisamos decidir: ele √© um erro de digita√ß√£o (removemos/corrigimos) ou √© real (mantemos, ou usamos t√©cnicas robustas)?"
* **üéì Defini√ß√£o T√©cnica:** Outliers s√£o pontos de dados que diferem significativamente de outras observa√ß√µes. Podem ser erros ou valores genuinamente extremos. M√©todos comuns de detec√ß√£o incluem inspe√ß√£o visual (Boxplot, Scatterplot) ou regras estat√≠sticas (ex: Z-score > 3, ou fora de 1.5 * IQR dos quartis). O tratamento varia: remo√ß√£o, corre√ß√£o (se for erro claro), transforma√ß√£o (ex: log) ou uso de modelos robustos a outliers (como a Mediana ou √°rvores de decis√£o).
* **üç≥ Receita:**

In [19]:
# 1. Detec√ß√£o usando IQR (m√©todo do Intervalo Interquartil)
Q1 = df_vendas['preco_unitario'].quantile(0.25)
Q3 = df_vendas['preco_unitario'].quantile(0.75)
IQR = Q3 - Q1
limite_inferior = Q1 - 1.5 * IQR # m√©todo de Tukey
limite_superior = Q3 + 1.5 * IQR

print(f"\n--- Detec√ß√£o de Outliers (Pre√ßo Unit√°rio) ---")
print(f"Q1: {Q1}, Q3: {Q3}, IQR: {IQR}")
print(f"Limites para outliers: Abaixo de {limite_inferior:.2f} ou Acima de {limite_superior:.2f}")

# Identificar os outliers
outliers = df_vendas[
    (df_vendas['preco_unitario'] < limite_inferior) | (df_vendas['preco_unitario'] > limite_superior)
]
print("\nOutliers encontrados:")
if not outliers.empty:
    print(outliers)
else:
    print("Nenhum outlier encontrado pelos limites do IQR.")

# 2. Tratamento (Exemplo: Capping - Limitar ao valor m√°ximo/m√≠nimo aceit√°vel)
# df_vendas['preco_unitario_capped'] = df_vendas['preco_unitario'].clip(lower=limite_inferior, upper=limite_superior)
# print("\nPre√ßo ap√≥s capping (limita√ß√£o):")
# print(df_vendas['preco_unitario_capped'])
# NOTA: Capping/Remo√ß√£o deve ser feito com MUITO cuidado. Geralmente √© melhor manter.


--- Detec√ß√£o de Outliers (Pre√ßo Unit√°rio) ---
Q1: 115.0, Q3: 1075.0, IQR: 960.0
Limites para outliers: Abaixo de -1325.00 ou Acima de 2515.00

Outliers encontrados:
   id_venda produto    categoria  quantidade  preco_unitario  id_cliente  \
0         1  Laptop  Eletr√¥nicos         1.0          3500.0         101   

  data_venda produto_limpo  mes_venda  dia_semana_venda  dias_desde_venda  
0 2025-10-20        laptop         10                 0                 9  


* **üìä Resultado:** O c√≥digo calcula os limites baseados no IQR. No nosso exemplo, o Laptop (3500) provavelmente ser√° identificado como outlier superior. A se√ß√£o de tratamento (comentada) mostra como poder√≠amos "limitar" (cap) esse valor ao `limite_superior`, mas ressalta que a remo√ß√£o ou altera√ß√£o de outliers exige an√°lise cr√≠tica do neg√≥cio.

### Receita 3.4: Binning (Discretiza√ß√£o) com `pd.cut` e `pd.qcut`

* **üß† Intui√ß√£o:** "A coluna `preco_unitario` tem muitos valores diferentes (R$ 25, R$ 150, R$ 3500...). Isso pode ser muito detalhado para uma an√°lise ou modelo. Vamos simplificar criando 'faixas de pre√ßo' (ex: 'Barato', 'M√©dio', 'Caro')."
* **üéì Defini√ß√£o T√©cnica:** Processo de converter uma vari√°vel num√©rica cont√≠nua em uma vari√°vel categ√≥rica discreta (bins ou faixas). Isso pode reduzir o ru√≠do e capturar rela√ß√µes n√£o-lineares.
    * **`pd.cut` (Corte por Valor):** Voc√™ define os *limites* exatos das faixas (ex: 0-200, 201-1000, 1001+). Isso √© bom quando voc√™ tem regras de neg√≥cio claras.
    * **`pd.qcut` (Corte por Quantil):** Voc√™ define *quantas faixas* quer (ex: 3), e o Pandas garante que cada faixa tenha (aproximadamente) o *mesmo n√∫mero de produtos*. Isso √© bom para segmenta√ß√£o.
* **üç≥ Receita:**

In [20]:
# Usando o DataFrame deste exerc√≠cio: df_vendas
print("--- Pre√ßos Originais ---")
print(df_vendas[['produto', 'preco_unitario']])

# --- Op√ß√£o 1: pd.cut (Definindo os limites de valor) ---
# Queremos faixas: Barato (0-200), M√©dio (200-1000), Caro (1000+)
# Usamos -np.inf e np.inf para garantir que pegamos todos os valores
faixas_valor = [-np.inf, 200, 1000, np.inf]
nomes_faixas_valor = ['Barato', 'M√©dio', 'Caro']

# Criamos a nova coluna 'faixa_preco_valor'
df_vendas['faixa_preco_valor'] = pd.cut(
    df_vendas['preco_unitario'],
    bins=faixas_valor,
    labels=nomes_faixas_valor,
    right=True # right=True (padr√£o) significa que o intervalo inclui o limite direito (ex: (200, 1000])
)

print("\n--- Binning com pd.cut (Corte por Valor) ---")
print(df_vendas[['produto', 'preco_unitario', 'faixa_preco_valor']])


# --- Op√ß√£o 2: pd.qcut (Dividindo em grupos de tamanho igual) ---
# Queremos 3 grupos (tercis), n√£o importa o valor, apenas a quantidade
# q=3 significa 3 grupos (tercis)
nomes_faixas_quantil = ['Mais Barato (33%)', 'Intermedi√°rio (33%)', 'Mais Caro (33%)']

# Criamos a nova coluna 'faixa_preco_quantil'
df_vendas['faixa_preco_quantil'] = pd.qcut(
    df_vendas['preco_unitario'],
    q=3,
    labels=nomes_faixas_quantil
)

print("\n--- Binning com pd.qcut (Corte por Quantil) ---")
print(df_vendas[['produto', 'preco_unitario', 'faixa_preco_quantil']])

# Veja a contagem para provar que pd.qcut dividiu os grupos:
print("\nContagem por quantil (pd.qcut):")
print(df_vendas['faixa_preco_quantil'].value_counts())

--- Pre√ßos Originais ---
           produto  preco_unitario
0           Laptop          3500.0
1          Teclado           150.0
2           Caneca            25.0
3          Monitor          1200.0
4    Cadeira Gamer           950.0
5            Mouse            80.0
6  Mesa de Escrit.           450.0

--- Binning com pd.cut (Corte por Valor) ---
           produto  preco_unitario faixa_preco_valor
0           Laptop          3500.0              Caro
1          Teclado           150.0            Barato
2           Caneca            25.0            Barato
3          Monitor          1200.0              Caro
4    Cadeira Gamer           950.0             M√©dio
5            Mouse            80.0            Barato
6  Mesa de Escrit.           450.0             M√©dio

--- Binning com pd.qcut (Corte por Quantil) ---
           produto  preco_unitario  faixa_preco_quantil
0           Laptop          3500.0      Mais Caro (33%)
1          Teclado           150.0  Intermedi√°rio (33%)
2   

* **üìä Resultado:**
    * O DataFrame `df_vendas` agora tem duas novas colunas.
    * A coluna `faixa_preco_valor` (feita com `pd.cut`) mostra 'Barato' (Teclado, Caneca, Mouse), 'M√©dio' (Cadeira, Mesa) e 'Caro' (Laptop, Monitor), com base nos *valores* que definimos.
    * A coluna `faixa_preco_quantil` (feita com `pd.qcut`) dividiu os 7 produtos em 3 grupos com o n√∫mero mais pr√≥ximo poss√≠vel de itens em cada (3, 2, 2). Veja como o 'Monitor' (1200) e 'Laptop' (3500) ca√≠ram no mesmo grupo 'Mais Caro (33%)'.
    * Esta t√©cnica √© uma poderosa ferramenta de **Engenharia de Features** (Pilar 1 do ML).