# Quest√µes SQL
1 - Explique como estruturaria um data lake em tr√™s camadas:
*  Raw (dados brutos)
* Processed (dados tratados)
* Curated (dados prontos para an√°lise)

Mostre um exemplo de diret√≥rio

---
**Camada RAW**

A camada RAW de um data lake √© respons√°vel por armazenar os dados da maneira mais pr√≥xima poss√≠vel ao que foram recebidos originalmente, geralmente salvos em algum formato estruturado, como `csv`, `json`, `parquet`, `xml`.

Nesta camada n√£o √© esperado que haja nenhum tratamento dos dados, e isso inclui poss√≠veis erros e duplica√ß√µes nos dados.

Geralmente √© esperado que esta camada possua acesso mais restrito, pois √© nela que s√£o feitas alguns tipos de atividades, como reprocesamento de dados e auditorias.

Neste projeto a camada RAW est√° representada na diret√≥rio `raw_data`, al√©m de seus subdiret√≥rios. Eles s√£o o mais pr√≥ximo das informa√ß√µes originais, o que √© ilustrado pela quantidade de informa√ß√µes ausentes nas mais variadas tabelas e seus formatos.

**Camada Processed**

A camada processed, por sua vez, √© a respons√°vel por armazenar os dados ap√≥s a limpeza, normaliza√ß√£o e padroniza√ß√£o.

Os dados s√£o submetidos √† processos de transforma√ß√µes como a remo√ß√£o de duplicatas, convers√£o de tipos, padroniza√ß√£o de nomes de colunas e enriquecimento a partir de outras fontes de dados.

Nesta etapa os dados s√£o manipulados em formatos mais restritos, como `parquet` para aplica√ß√µes de big data ou formatos estruturados mais simples, como `csv` e `json`.

S√£o tamb√©m estruturados, geralmente, por dom√≠nio de neg√≥cio e particionados por data.

**Camada Curated**

Esta √© a camada final, planejada e otimizada para an√°lise de dados.

√â nela que √© feita tarefas como a jun√ß√£o de tabelas, agrega√ß√µes e c√°lculos de indicadores.

Os formatos mais comuns s√£o Parquet, Delta Lake ou outras propriet√°rias.

Um exemplo mais extenso de um data lake pode ser visualizado no seguinte esquema

```
/data_lake/
‚îÇ
‚îú‚îÄ‚îÄ raw/
‚îÇ   ‚îú‚îÄ‚îÄ vendas/
‚îÇ   ‚îÇ   ‚îú‚îÄ‚îÄ api_vendas/2025/11/09/vendas_20251109_1200.json
‚îÇ   ‚îÇ   ‚îî‚îÄ‚îÄ api_vendas/2025/11/08/vendas_20251108_1200.json
‚îÇ   ‚îú‚îÄ‚îÄ clientes/
‚îÇ   ‚îÇ   ‚îî‚îÄ‚îÄ upload_excel/2025/11/09/clientes_original.xlsx
‚îÇ   ‚îî‚îÄ‚îÄ logs/
‚îÇ       ‚îî‚îÄ‚îÄ app/2025/11/09/logs_20251109.txt
‚îÇ
‚îú‚îÄ‚îÄ processed/
‚îÇ   ‚îú‚îÄ‚îÄ vendas/
‚îÇ   ‚îÇ   ‚îî‚îÄ‚îÄ ano=2025/mes=11/dia=09/vendas.parquet
‚îÇ   ‚îú‚îÄ‚îÄ clientes/
‚îÇ   ‚îÇ   ‚îî‚îÄ‚îÄ ano=2025/mes=11/dia=09/clientes_normalizados.parquet
‚îÇ   ‚îî‚îÄ‚îÄ produtos/
‚îÇ       ‚îî‚îÄ‚îÄ ano=2025/mes=11/dia=09/produtos_refinados.parquet
‚îÇ
‚îî‚îÄ‚îÄ curated/
    ‚îú‚îÄ‚îÄ dashboards/
    ‚îÇ   ‚îî‚îÄ‚îÄ vendas_por_estado.parquet
    ‚îú‚îÄ‚îÄ indicadores/
    ‚îÇ   ‚îú‚îÄ‚îÄ receita_mensal.parquet
    ‚îÇ   ‚îî‚îÄ‚îÄ churn_rate.parquet
    ‚îî‚îÄ‚îÄ modelos_ml/
        ‚îî‚îÄ‚îÄ features_clientes.parquet

```
-----

**- Calcule o pre√ßo m√©dio mensal por commodity, mostrando a varia√ß√£o percentual em rela√ß√£o ao m√™s anterior (fun√ß√£o LAG)**

In [3]:
import pandas as pd
from sqlalchemy import create_engine, inspect, text
from dotenv import load_dotenv
import os

load_dotenv()

True

In [5]:
DB_USER = os.getenv("DB_USER")
DB_PASS = os.getenv("DB_PASSWORD")
DB_HOST = os.getenv("DB_HOST")
DB_PORT = int(os.getenv("DB_PORT", 5432))
DB_NAME = os.getenv("DB_NAME")
SCHEMA = 'public'

In [9]:
engine = create_engine(f"postgresql+psycopg2://{DB_USER}:{DB_PASS}@{DB_HOST}:{DB_PORT}/{DB_NAME}")
insp = inspect(engine)

tables = insp.get_table_names(schema=SCHEMA)

In [25]:
for table in tables:
    cols = [col["name"] for col in insp.get_columns(table, schema=SCHEMA)]
    if "date" not in cols or not any(c for c in cols if "prazo" in c or "a_vista" in c):
        continue  # pula tabelas que n√£o t√™m colunas de pre√ßo

    price_col = next(c for c in cols if "prazo" in c or "a_vista" in c)

    print(f"üìä Calculando varia√ß√£o mensal de '{price_col}' na tabela: {table}")

    query = f"""
    SELECT
        region_id,
        date_trunc('month', date) AS month,
        AVG("{price_col}") AS avg_price,
        LAG(AVG("{price_col}")) OVER (
            PARTITION BY region_id
            ORDER BY date_trunc('month', date)
        ) AS prev_avg_price,
        ROUND(
            (AVG("{price_col}") - LAG(AVG("{price_col}")) OVER (
                PARTITION BY region_id
                ORDER BY date_trunc('month', date)
            )) / NULLIF(LAG(AVG("{price_col}")) OVER (
                PARTITION BY region_id
                ORDER BY date_trunc('month', date)
            ), 0) * 100, 2
        ) AS var_percent
    FROM "{SCHEMA}"."{table}"
    GROUP BY region_id, date_trunc('month', date)
    ORDER BY region_id, month;
    """

    df = pd.read_sql(text(query), engine)
    display(df.tail())
    
    # Remova este break para processar todas as tabelas
    # O break est√° aqui apenas para evitar muitas sa√≠das durante a exibi√ß√£o do exemplo
    break 

engine.dispose()


üìä Calculando varia√ß√£o mensal de 'a_vista_brl' na tabela: acucar_cristal_branco_cepea_esalq_sao_paulo


Unnamed: 0,region_id,month,avg_price,prev_avg_price,var_percent
266,1,2025-07-01 00:00:00-03:00,118.492174,126.4375,-6.28
267,1,2025-08-01 00:00:00-03:00,119.728571,118.492174,1.04
268,1,2025-09-01 00:00:00-03:00,118.647273,119.728571,-0.9
269,1,2025-10-01 00:00:00-03:00,114.956522,118.647273,-3.11
270,1,2025-11-01 00:00:00-03:00,109.294,114.956522,-4.93


---
**- Liste os 5 produtos mais negociados no √∫ltimo ano**

√â importante ressaltas que os dados atuais n√£o permitem dizer quais s√£o os 5 produtos mais negociados no ano por volume diretamente. Podemos, entretanto, usar *a quantidade de registros do ano*

In [32]:
engine = create_engine(f"postgresql+psycopg2://{DB_USER}:{DB_PASS}@{DB_HOST}:{DB_PORT}/{DB_NAME}")
insp = inspect(engine)

tables = insp.get_table_names(schema=SCHEMA)
results = []

for table in tables:
    cols = [c["name"] for c in insp.get_columns(table, schema=SCHEMA)]
    if "date" not in cols:
        continue  # ignora tabelas sem coluna de data

    query = text(f"""
        SELECT COUNT(*) AS registros_ultimo_ano
        FROM "{SCHEMA}"."{table}"
        WHERE date >= CURRENT_DATE - INTERVAL '1 year';
    """)

    with engine.connect() as conn:
        count = conn.execute(query).scalar()
        results.append({"produto": table, "registros_ultimo_ano": count})

# Criar DataFrame e ordenar
df = pd.DataFrame(results).sort_values(by="registros_ultimo_ano", ascending=False)

display(df.head(5))

Unnamed: 0,produto,registros_ultimo_ano
0,acucar_cristal_branco_cepea_esalq_sao_paulo,248
1,algodao_pluma_cepea_esalq_8_dias,248
2,indicador_acucar_cristal_santos_fob,248
3,indicador_arroz_casca_cepea_irga_rs,248
4,indicador_cafe_robusta_cepea_esalq,248


Novamente, n√£o podemos chegar a conclus√µes profundas por falta de dados que dizem exatamente o que o questionamento deseja

---

**- Identifique registros an√¥malos (ex: pre√ßos negativos ou fora de faixa)**

Considerando valores em d√≥lares (USD) para o c√°lculo de outliers em raz√£o da estabilidade da moeda

In [45]:
engine = create_engine(f"postgresql+psycopg2://{DB_USER}:{DB_PASS}@{DB_HOST}:{DB_PORT}/{DB_NAME}")
insp = inspect(engine)

tables = insp.get_table_names(schema=SCHEMA)
anomalias = []

for table in tables:
    cols = [c["name"] for c in insp.get_columns(table, schema=SCHEMA)]
    price_cols = [c for c in cols if any(k in c.lower() for k in ["a_vista_usd", "prazo_de_8_dias_usd"])]

    if not price_cols or "date" not in cols:
        print('Nenhuma coluna de pre√ßo encontrada ou coluna de data ausente em', table)
        continue

    price_col = price_cols[0]
    print(f"Verificando anomalias em '{table}' ({price_col})...")

    # Carregar dados relevantes
    query = f'SELECT id, date, "{price_col}" AS price, region_id FROM "{SCHEMA}"."{table}" WHERE "{price_col}" IS NOT NULL'
    df = pd.read_sql(text(query), engine)

    if df.empty:
        continue

    # ---- 1Ô∏è‚É£ Pre√ßos negativos
    negativos = df[df["price"] < 0].copy()
    if not negativos.empty:
        negativos["tipo_anomalia"] = "pre√ßo_negativo"
        negativos['table'] = table
        anomalias.append(negativos)

    # ---- 2Ô∏è‚É£ Outliers (usando IQR)
    q1 = df["price"].quantile(0.25)
    q3 = df["price"].quantile(0.75)
    iqr = q3 - q1
    lim_inf = q1 - 1.5 * iqr
    lim_sup = q3 + 1.5 * iqr

    outliers = df[(df["price"] < lim_inf) | (df["price"] > lim_sup)].copy()
    if not outliers.empty:
        outliers["tipo_anomalia"] = "outlier_iqr"
        outliers['table'] = table
        anomalias.append(outliers)

print("\n‚úÖ An√°lise conclu√≠da.")

# Consolidar anomalias de todas as tabelas
if anomalias:
    df_anomalias = pd.concat(anomalias, ignore_index=True)
    print(f"\nTotal de anomalias encontradas: {len(df_anomalias)}")
    display(df_anomalias.head(10))
else:
    print("Nenhuma anomalia detectada.")

engine.dispose()

Verificando anomalias em 'acucar_cristal_branco_cepea_esalq_sao_paulo' (a_vista_usd)...
Verificando anomalias em 'algodao_pluma_cepea_esalq_8_dias' (prazo_de_8_dias_usd)...
Verificando anomalias em 'indicador_acucar_cristal_santos_fob' (a_vista_usd)...
Verificando anomalias em 'indicador_arroz_casca_cepea_irga_rs' (a_vista_usd)...
Verificando anomalias em 'indicador_cafe_robusta_cepea_esalq' (a_vista_usd)...
Verificando anomalias em 'indicador_cafe_arabica_cepea_esalq' (a_vista_usd)...
Verificando anomalias em 'indicador_semanal_etanol_anidro_cepea_esalq_sao_paulo' (a_vista_usd)...
Verificando anomalias em 'indicador_semanal_etanol_hidratado_outros_fins_cepea_esalq_s' (a_vista_usd)...
Verificando anomalias em 'indicador_semanal_etanol_hidratado_combustivel_cepea_esalq_s' (a_vista_usd)...
Verificando anomalias em 'indicador_soja_cepea_esalq_parana' (a_vista_usd)...
Verificando anomalias em 'indicador_soja_cepea_esalq_paranagua' (a_vista_usd)...
Verificando anomalias em 'preco_medio_trig

Unnamed: 0,id,date,price,region_id,tipo_anomalia,table
0,1832,2010-10-07,41.65,1,outlier_iqr,acucar_cristal_branco_cepea_esalq_sao_paulo
1,1833,2010-10-08,42.82,1,outlier_iqr,acucar_cristal_branco_cepea_esalq_sao_paulo
2,1834,2010-10-11,42.85,1,outlier_iqr,acucar_cristal_branco_cepea_esalq_sao_paulo
3,1835,2010-10-13,43.28,1,outlier_iqr,acucar_cristal_branco_cepea_esalq_sao_paulo
4,1836,2010-10-14,43.08,1,outlier_iqr,acucar_cristal_branco_cepea_esalq_sao_paulo
5,1837,2010-10-15,43.21,1,outlier_iqr,acucar_cristal_branco_cepea_esalq_sao_paulo
6,1838,2010-10-18,43.46,1,outlier_iqr,acucar_cristal_branco_cepea_esalq_sao_paulo
7,1839,2010-10-19,42.91,1,outlier_iqr,acucar_cristal_branco_cepea_esalq_sao_paulo
8,1840,2010-10-20,43.27,1,outlier_iqr,acucar_cristal_branco_cepea_esalq_sao_paulo
9,1841,2010-10-21,42.86,1,outlier_iqr,acucar_cristal_branco_cepea_esalq_sao_paulo
