# Projeto Pr√°tico ‚Äî Web Mining & Crawler Scraping
## Pipeline de Web Scraping para Banco Anal√≠tico Financeiro

---

### üìò Tema: Movimenta√ß√µes da Berkshire Hathaway e o impacto das decis√µes de Warren Buffett no mercado financeiro

Este projeto teve como objetivo desenvolver um pipeline de **coleta, transforma√ß√£o e carga (ETL)** voltado √† an√°lise de informa√ß√µes sobre as **movimenta√ß√µes de portf√≥lio da Berkshire Hathaway**, conglomerado de investimentos liderado por **Warren Buffett**, e o impacto dessas decis√µes no comportamento de mercado.

A escolha desse tema se justifica por sua relev√¢ncia e atualidade: Warren Buffett √© amplamente reconhecido como um dos maiores investidores do mundo, e suas decis√µes frequentemente influenciam o valor das empresas nas quais investe ou vende participa√ß√£o. Assim, o estudo dessas movimenta√ß√µes, aliado a dados hist√≥ricos de mercado e not√≠cias relacionadas, permite observar padr√µes e rea√ß√µes econ√¥micas reais.

---

## üß† Objetivo Geral

Construir um **pipeline ETL completo** que:
- Coleta dados de **tr√™s fontes distintas** (duas via scraping e uma via API);
- Realiza o tratamento e padroniza√ß√£o dos dados obtidos;
- Gera arquivos estruturados no formato **Parquet**, simulando um **banco anal√≠tico local**;
- Permite a explora√ß√£o futura dos dados em ferramentas SQL e dashboards anal√≠ticos.

---

## ‚öôÔ∏è Ferramentas e Tecnologias Utilizadas

- **Linguagem:** Python 3.9+
- **Ambiente de desenvolvimento:** VSCode com extens√£o Jupyter Notebook (`.ipynb`)
- **Bibliotecas principais:**
  - `requests` e `BeautifulSoup` para Web Scraping
  - `selenium` para scraping din√¢mico (se necess√°rio)
  - `pandas` e `pyarrow` para manipula√ß√£o e exporta√ß√£o de dados
  - `datetime` e `os` para controle de execu√ß√£o e estrutura√ß√£o de arquivos

- **Formato de sa√≠da dos dados:** `.parquet`

---

## üß© Estrutura Geral do Pipeline ETL

1. **Coleta de Dados**
   - 1.1 S√©ries hist√≥ricas (via API ‚Äî *Alpha vantage*)
   - 1.2 Movimenta√ß√µes da Berkshire Hathaway (via Web Scraping)
   - 1.3 Not√≠cias sobre Warren Buffett e empresas relacionadas (via Web Scraping)
2. **Transforma√ß√£o de Dados**
   - Padroniza√ß√£o, limpeza, deduplica√ß√£o e ajustes de tipos.
3. **Carga de Dados**
   - Exporta√ß√£o dos resultados tratados para arquivos `.parquet`.

---

# 1Ô∏è‚É£ Coleta de Dados

---

## 1.1 Sistema de Logs

M√≥dulo respons√°vel por registrar eventos e informa√ß√µes importantes do sistema, facilitando o monitoramento e a depura√ß√£o durante a execu√ß√£o do c√≥digo.


In [None]:
import os
import sys
import logging
from datetime import datetime


# Criar pastas logs/ e outputs/ se n√£o existirem
os.makedirs("logs", exist_ok=True)
os.makedirs("outputs", exist_ok=True)

# Configura√ß√£o de logging
log_filename = datetime.now().strftime("logs/log_%Y-%m-%d_%H-%M-%S.log")
logging.basicConfig(
    level=logging.INFO,
    format="%(asctime)s [%(levelname)s] %(message)s",
    handlers=[
        logging.FileHandler(log_filename, encoding="utf-8"),
        logging.StreamHandler(sys.stdout)
    ]
)

# Classe para redirecionar print() para arquivo tamb√©m
class TeeOutput:
    """Redireciona tudo que seria printado para o terminal e tamb√©m para um arquivo."""
    def __init__(self, filepath):
        self.file = open(filepath, "a", encoding="utf-8")
        self.terminal = sys.stdout

    def write(self, message):
        self.terminal.write(message)
        self.file.write(message)

    def flush(self):
        self.terminal.flush()
        self.file.flush()

# Redirecionar todos os prints para outputs/
output_filename = datetime.now().strftime("outputs/output_%Y-%m-%d_%H-%M-%S.txt")
sys.stdout = TeeOutput(output_filename)

logging.info("üöÄ Logging inicializado com sucesso!")


## 1.2 S√©ries Hist√≥ricas ‚Äî API 

Foram coletadas s√©ries hist√≥ricas de 6 meses das a√ß√µes de empresas com participa√ß√£o relevante da Berkshire Hathaway.  
Foram inclu√≠das as a√ß√µes: **Apple (AAPL)**, **Occidental Petroleum (OXY)** e **Coca-Cola (KO)**.  
Esses dados incluem pre√ßo de abertura, fechamento, volume e varia√ß√£o di√°ria.

In [None]:
import requests 
import pandas as pd 
import time 
from datetime import datetime 

API_KEY = os.getenv("ALPHAVANTAGE_API_KEY")
TICKERS = ["AAPL", "OXY", "KO"] 
dfs = [] 

logging.info("Iniciando coleta de dados da Alpha Vantage...") 

for ticker in TICKERS: 
    url = f"https://www.alphavantage.co/query?function=TIME_SERIES_DAILY&symbol={ticker}&outputsize=full&apikey={API_KEY}" 
    logging.info(f"Buscando dados para {ticker}...") 
    r = requests.get(url) 
    time.sleep(10)
    
    try: 
        data = r.json().get("Time Series (Daily)", {}) 
    except Exception as e: 
        logging.error(f"Erro ao decodificar JSON para {ticker}: {e}") 
        print("Resposta da API:", r.text[:300]) 
        time.sleep(20) 
        continue 
    
    if not data: 
        logging.warning(f"Nenhum dado retornado para {ticker}.") 
        continue 
    
    df = pd.DataFrame(data).T 
    df.columns = ["abertura", "maxima", "minima", "fechamento", "volume"] 
    df.index = pd.to_datetime(df.index) 
    df = df[df.index >= pd.Timestamp.today() - pd.DateOffset(months=6)]
    df = df.reset_index().rename(columns={"index": "data"}) 
    df["ticker"] = ticker 
    dfs.append(df) 
    logging.info(f"‚úÖ Dados coletados com sucesso para {ticker} ({len(df)} linhas).") 
    time.sleep(15)  
    
    
# Combinar tudo e salvar 
df_final = pd.concat(dfs, ignore_index=True) 
df_final.to_parquet("data_raw/stock_prices_raw.parquet", index=False) 
logging.info("üíæ Dados salvos em data_raw/stock_prices_raw.parquet") 
print("‚úÖ Coleta conclu√≠da com sucesso!") 
df_final.head()

## 1.3 Movimenta√ß√µes da Berkshire Hathaway ‚Äî Web Scraping (WhaleWisdom)

Foi desenvolvido um scraper para coletar informa√ß√µes das movimenta√ß√µes trimestrais da Berkshire Hathaway a partir do site WhaleWisdom.       
Foram extra√≠dos dados como:

- Nome da empresa,

- C√≥digo do ativo (Ticker),

- Tipo de movimenta√ß√£o (compra/venda),

- Percentual de varia√ß√£o na posi√ß√£o,

- Data de atualiza√ß√£o.

In [25]:
from selenium import webdriver
from selenium.webdriver.edge.service import Service
from selenium.webdriver.edge.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
import bs4 as BeautifulSoup
import pandas as pd

In [None]:
logging.info("üîπ Iniciando o Edge WebDriver...")

path = r"C:\WebDrivers\msedgedriver.exe"
options = Options()
options.add_argument("--start-maximized")
options.add_argument("--disable-gpu")
options.add_argument("--inprivate")

service = Service(executable_path=path)
driver = webdriver.Edge(service=service, options=options)

url = "https://whalewisdom.com/filer/berkshire-hathaway-inc"
driver.get(url)
logging.info(f"Acessando p√°gina: {url}")

time.sleep(10)
driver.execute_script("window.scrollBy(0, 500);")
holdings = driver.find_element(By.XPATH, '//*[@id="app"]/div/main/div/div/div/div[2]/div/div[1]/div/div[2]/div/div[3]')
holdings.click()
print("‚úÖ Entrei no holdings")

In [None]:
driver.execute_script("window.scrollBy(0, 200);")
print("Scroll inicial realizado para localizar footer...")

footer = WebDriverWait(driver, 10).until(
    EC.presence_of_element_located((By.CLASS_NAME, "v-data-footer"))
)
itens_per_page = footer.find_element(By.CLASS_NAME, 'v-icon__svg')
itens_per_page.click()
print("Cliquei no seletor de itens por p√°gina")

driver.execute_script("window.scrollBy(0, 100);")
cem_input = WebDriverWait(driver, 10).until(
    EC.element_to_be_clickable(
        (By.XPATH, "//div[contains(@class, 'v-list-item__title') and normalize-space(text())='100']")
    )
)
driver.execute_script("arguments[0].click();", cem_input)
print("‚úÖ Selecionado 100 itens por p√°gina")


In [None]:
tables = driver.find_elements(By.TAG_NAME, "table")
print(f"Quantidade de tabelas encontradas: {len(tables)}")

# Pegando a tabela espec√≠fica
try:
    html = tables[4].get_attribute("outerHTML")
    df = pd.read_html(html)[0]
    df.head()
    df.to_parquet("data_raw/Movimenta√ß√µesBerkshireHathaway_raw.parquet", index=False)
    logging.info("üíæ Dados salvos em data_raw/Movimenta√ß√µesBerkshireHathaway_raw.parquet")
except Exception as e:
    logging.error(f"Erro ao processar ou salvar a tabela: {e}")

driver.quit()
print("üëã WebDriver finalizado")


## 1.4 Not√≠cias sobre Warren Buffett e empresas investidas ‚Äî Web Scraping 

Foi desenvolvido um segundo scraper para coletar not√≠cias do site investing.com, relacionadas a Warren Buffett e suas empresas investidas.  
Foram extra√≠dos, no m√≠nimo, 100 not√≠cias v√°lidas contendo:

- T√≠tulo da not√≠cia,

- Data/hora de publica√ß√£o,

- URL da mat√©ria original,

- Primeiro par√°grafo (lead).

In [29]:
import pandas as pd
from selenium import webdriver
from selenium.webdriver.edge.service import Service as EdgeService
from selenium.webdriver.common.by import By
from selenium.webdriver.edge.options import Options
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time, random
import psutil

In [30]:
# ====== CONFIGURA√á√ïES ======
search_terms = ["Warren Buffett", "Apple", "Coca-Cola", "Occidental Petroleum"]  # "Berkshire Hathaway"
NEWS_PER_TERM = 25

logging.info("üîß Configura√ß√µes carregadas:")
logging.info(f"   - Termos de busca: {search_terms}")
logging.info(f"   - Not√≠cias por termo: {NEWS_PER_TERM}")


In [None]:
def coletar_noticias(term, driver):
    logging.info(f"üì∞ Iniciando coleta de not√≠cias para '{term}'")

    urls = {
        "Warren Buffett": "https://www.investing.com/search/?q=Warren+Buffett&tab=news",
        "Apple": "https://www.investing.com/search/?q=Apple&tab=news",
        "Coca-Cola": "https://www.investing.com/search/?q=Coca-cola&tab=news",
        "Occidental Petroleum": "https://www.investing.com/search/?q=Occidental%20Petroleum&tab=news"
    }

    # Fecha o driver atual e reabre um novo
    try:
        pid = driver.service.process.pid
        driver.quit()
        time.sleep(1)
        psutil.Process(pid).kill()
        print("üßπ Processo do driver encerrado com seguran√ßa.")
    except Exception as e:
        logging.warning(f"‚ö†Ô∏è Erro ao encerrar driver: {e}")

    EDGE_DRIVER_PATH = r"C:\WebDrivers\msedgedriver.exe"

    edge_options = Options()
    edge_options.add_argument("--start-maximized")
    edge_options.add_argument("--disable-gpu")
    edge_options.add_argument("--inprivate")

    service = EdgeService(executable_path=EDGE_DRIVER_PATH)
    driver = webdriver.Edge(service=service, options=edge_options)

    # Abre a URL referente ao termo
    if term in urls:
        url = urls[term]
        logging.info(f"üåê Acessando URL de busca: {url}")
        driver.get(url)
    else:
        logging.warning(f"‚ö†Ô∏è Termo '{term}' n√£o encontrado. Usando URL padr√£o (Occidental Petroleum).")
        driver.get(urls["Occidental Petroleum"])

    time.sleep(10)

    # Fecha pop-up de cookies
    try:
        cookie_btn = WebDriverWait(driver, 10).until(
            EC.element_to_be_clickable((By.XPATH, '//*[@id="onetrust-close-btn-container"]/button'))
        )
        cookie_btn.click()
        print("üç™ Cookies aceitos com sucesso.")
    except Exception:
        logging.debug("Nenhum pop-up de cookies detectado.")

    news_list = []
    collected = 0
    last_height = driver.execute_script("return document.body.scrollHeight")

    # Coleta de not√≠cias com logs
    while collected < NEWS_PER_TERM:
        articles = driver.find_elements(By.CLASS_NAME, 'articleItem')
        for art in articles[collected:]:
            try:
                titulo = art.find_element(By.CLASS_NAME, 'title').text.strip()
                url = art.find_element(By.CLASS_NAME, 'title').get_attribute("href")
                data = art.find_element(By.CLASS_NAME, 'date').text.strip()
                lead = art.find_element(By.CLASS_NAME, 'js-news-item-content').text.strip() 
                
                news_list.append({
                    "termo": term,
                    "titulo": titulo,
                    "url": url,
                    "data": data,
                    "lead": lead
                })
                collected += 1

                if collected % 5 == 0:
                    print(f"üóûÔ∏è {collected} not√≠cias coletadas at√© agora para '{term}'")

                if collected >= NEWS_PER_TERM:
                    break
            except Exception:
                continue

        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
        time.sleep(2)

        new_height = driver.execute_script("return document.body.scrollHeight")
        if new_height == last_height:
            print("üîö Fim da p√°gina atingido ‚Äî nenhuma nova not√≠cia carregada.")
            break
        last_height = new_height

    logging.info(f"‚úÖ {len(news_list)} not√≠cias coletadas para '{term}'.")
    return news_list, driver

In [None]:
# ====== EXECU√á√ÉO ======
logging.info("üöÄ Iniciando processo de coleta de not√≠cias para todos os termos...")
todas_noticias = []

for term in search_terms:
    noticias, driver = coletar_noticias(term, driver)
    todas_noticias.extend(noticias)
    logging.info(f"üì¶ {len(noticias)} not√≠cias adicionadas para '{term}'")

driver.quit()
logging.info("üß© WebDriver encerrado ap√≥s coleta de todas as not√≠cias.")

df_news = pd.DataFrame(todas_noticias)
file_path = "data_raw/news_buffett_raw.parquet"
df_news.to_parquet(file_path, index=False)

logging.info(f"üíæ Total de {len(df_news)} not√≠cias salvas em {file_path}")


# 2Ô∏è‚É£ Transforma√ß√£o dos Dados

Ap√≥s a coleta, foi realizada a padroniza√ß√£o e limpeza dos dados para garantir consist√™ncia e integridade.    
As principais etapas inclu√≠ram:

- Normaliza√ß√£o de formatos de data e hora;

- Convers√£o de tipos num√©ricos e textuais;

- Remo√ß√£o de registros duplicados;

- Tratamento de valores ausentes;

- Gera√ß√£o de chaves √∫nicas para integra√ß√£o entre datasets.

In [33]:
# Transforma√ß√£o e limpeza dos dados coletados
colunas_desejadas = {
    "Stock",
    "Shares Held or Principal Amt",
    "Market Value",
    "% of Portfolio",
    "Previous % of Portfolio",
    "Rank",
    "Change in Shares",
    "% Change",
    "Qtr 1st Owned",
    "Source Date",
    "Date Reported"
}



# 3Ô∏è‚É£ Carga dos Dados

Todos os conjuntos de dados tratados foram armazenados em formato Parquet, simulando um ambiente de banco anal√≠tico local.    
Os arquivos finais gerados foram:

- stock_prices.parquet ‚Äî s√©ries hist√≥ricas das a√ß√µes;

- portfolio_movements.parquet ‚Äî movimenta√ß√µes da Berkshire Hathaway;

- news.parquet ‚Äî not√≠cias coletadas.

In [34]:
# Exporta√ß√£o dos DataFrames tratados para arquivos .parquet


# 4Ô∏è‚É£ Considera√ß√µes Finais

O pipeline desenvolvido demonstra a aplica√ß√£o pr√°tica de t√©cnicas de Web Mining e Web Scraping integradas a ETL anal√≠tico, proporcionando uma base consolidada para an√°lise de correla√ß√£o entre eventos do mercado financeiro e decis√µes de investimento da Berkshire Hathaway.

A coleta automatizada e o tratamento dos dados permitiram a gera√ß√£o de um banco anal√≠tico reproduz√≠vel, que pode ser facilmente explorado em ferramentas SQL ou visualizado em dashboards, possibilitando estudos mais profundos sobre o comportamento do mercado diante das decis√µes de grandes investidores.

---

# ‚úÖ Arquivos Entregues

- Notebook: pipeline_warren_buffett.ipynb

- Dados tratados:

    - stock_prices.parquet

    - portfolio_movements.parquet

    - news.parquet

- Arquivo de depend√™ncias: requirements.txt