# Projeto Prático — Web Mining & Crawler Scraping
## Pipeline de Web Scraping para Banco Analítico Financeiro

## Contexto
Você foi contratado como **Engenheiro de Dados** por uma **fintech de investimentos** que precisa enriquecer sua base analítica com informações externas do mercado.  
A diretoria solicitou a construção de um **pipeline de dados** que colete informações públicas, as organize e as disponibilize em um **banco analítico local** para posterior exploração via SQL e dashboards.

O desafio deve ser resolvido **individualmente**, simulando uma entrega profissional para a empresa.

---

## Objetivo
Construir um **pipeline de coleta, transformação e carga (ETL)** que una **web scraping** (obrigatório) e, opcionalmente, **API pública** para compor uma base analítica com **múltiplos tipos de dados**, incluindo **séries históricas** e **notícias**.  

O pipeline deve ser implementado em **Python 3.9+**, rodar em **Jupyter Notebook** e persistir os dados em um **banco analítico local** (DuckDB).

---

## Stack obrigatória
- **Linguagem:** Python 3.9+  
- **Coleta:** `requests` + `BeautifulSoup` (HTML) e **Selenium** (quando necessário para páginas dinâmicas)  
- **Banco analítico:** DuckDB (`.duckdb`), SQLite (`.sqlite`) e/ou parquet.  
- **Ambiente/execução:** Jupyter Notebook como entrega principal, `requirements.txt` com versões fixas  

---

## Escopo mínimo dos dados
- **Notícias**: coletar pelo menos **100 notícias válidas** (título, data/hora, URL, lead/primeiro parágrafo).  
- **Séries históricas**: coletar pelo menos **6 meses contínuos** de dados (preços, câmbio, juros, commodities ou indicadores macro).  
- **Banco**: criar e armazenar em **≥ 3 tabelas** (exemplo: `instruments`, `prices`, `news`).  
- **Fontes**: é permitido usar API pública como complemento, mas **não pode ser apenas API**. Pelo menos **um scraper HTML** deve ser desenvolvido.  

---

## Entregáveis
- **Jupyter Notebook** executável com todas as etapas do pipeline (coleta → transformação → carga).  
- **Arquivos auxiliares**: banco gerado (`.duckdb` ou `.sqlite`) e/ou extratos em `.parquet`.  
- **requirements.txt** com versões fixas e, se necessário, `.env` para variáveis de ambiente.  
- Logs de execução no notebook, mostrando contagem de itens coletados e status das etapas.  
- Breve explicação inicial no notebook, em markdown, descrevendo objetivo, fontes e estrutura do banco.  
- **Execução reprodutível** – notebook funcional com `requirements.txt`.  
- **Entrega organizada e no prazo** – notebook + banco `.duckdb`/`.sqlite` (ou `.parquet`), logs e explicação inicial.  

---

## Critérios de Avaliação — 8 pontos

#### Etapa 1 – Coleta (4 pontos)
1. **Scraper de notícias (2 pontos)** – coleta de ≥ 100 notícias válidas.  
2. **Dados estruturados e séries históricas (2 pontos)** – ≥ 3 meses de dados contínuos coletados.  

#### Etapa 2 – Transformação (2 pontos)
4. **Validações de dados (1 ponto)** – padronização de tipos, datas válidas, valores consistentes, URLs corretas.  
5. **Deduplicação (1 ponto)** – regra de dedupe implementada (hash, chave composta ou unique key).  

#### Etapa 3 – Carga (2 pontos)
6. **Modelagem em banco analítico (3 pontos)** – uso de DuckDB ou SQLite com ≥ 3 tabelas relacionadas.  

---
### Prazo
 - **Prazo para submissão**:24/10/2025
 - **Tolerância:**:26/10/2025 com penalidade de -2 pontos.

