# üìä Exemplo de Coleta de Dados - Big Data Finance

Este notebook demonstra como usar os m√≥dulos de coleta de dados do projeto Big Data Finance.

## Objetivos
- Coletar dados financeiros do Yahoo Finance
- Coletar not√≠cias e eventos mundiais
- Salvar dados em diferentes formatos
- Demonstrar rate limiting e tratamento de erros

**Autor:** Felipe Martins (APIs e Coleta de Dados) & Equipe Big Data Finance  
**Gest√£o:** Fabio  
**Infraestrutura:** Ana Luiza Pazze  
**Data:** 2024

In [None]:
# Imports necess√°rios
import sys
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime, timedelta
import warnings
warnings.filterwarnings('ignore')

# Adicionar src ao path
sys.path.append('../src')

# Imports dos m√≥dulos do projeto
from data_collection.yahoo_finance_collector import YahooFinanceCollector
from data_collection.news_collector import NewsCollector

print("‚úÖ Imports realizados com sucesso!")

## 1. üìà Coleta de Dados Financeiros

Vamos come√ßar coletando dados financeiros usando o Yahoo Finance API.

In [None]:
# Inicializar o coletor Yahoo Finance
yahoo_collector = YahooFinanceCollector(rate_limit=1.0)

# Definir per√≠odo de an√°lise
end_date = datetime.now().strftime('%Y-%m-%d')
start_date = (datetime.now() - timedelta(days=365)).strftime('%Y-%m-%d')

print(f"üìÖ Per√≠odo de an√°lise: {start_date} at√© {end_date}")
print(f"üîß Rate limit configurado: {yahoo_collector.rate_limit} segundos")

### 1.1 Coleta de Dados de A√ß√µes

In [None]:
# S√≠mbolos de a√ß√µes para an√°lise
stock_symbols = ['AAPL', 'GOOGL', 'MSFT', 'TSLA', 'AMZN']

print(f"üìä Coletando dados para: {', '.join(stock_symbols)}")
print("‚è≥ Aguarde... (pode levar alguns minutos devido ao rate limiting)")

# Coletar dados de a√ß√µes
stock_data = yahoo_collector.collect_stock_data(
    symbols=stock_symbols,
    start_date=start_date,
    end_date=end_date
)

print(f"‚úÖ Dados coletados: {len(stock_data)} registros")
print(f"üìã Colunas dispon√≠veis: {list(stock_data.columns)}")

# Visualizar primeiros registros
display(stock_data.head())

### 1.2 Coleta de Dados de √çndices

In [None]:
# √çndices principais
index_symbols = ['^GSPC', '^DJI', '^IXIC', '^RUT']
index_names = ['S&P 500', 'Dow Jones', 'NASDAQ', 'Russell 2000']

print(f"üìà Coletando dados de √≠ndices: {', '.join(index_names)}")

# Coletar dados de √≠ndices
index_data = yahoo_collector.collect_index_data(
    symbols=index_symbols,
    start_date=start_date,
    end_date=end_date
)

print(f"‚úÖ Dados de √≠ndices coletados: {len(index_data)} registros")

# Visualizar dados
display(index_data.head())

### 1.3 Informa√ß√µes das Empresas

In [None]:
# Coletar informa√ß√µes detalhadas das empresas
company_info = {}

for symbol in stock_symbols[:3]:  # Apenas 3 para exemplo
    print(f"üè¢ Coletando informa√ß√µes de {symbol}...")
    info = yahoo_collector.collect_company_info(symbol)
    company_info[symbol] = info

# Criar DataFrame com informa√ß√µes principais
info_df = pd.DataFrame({
    symbol: {
        'Nome': info.get('longName', 'N/A'),
        'Setor': info.get('sector', 'N/A'),
        'Ind√∫stria': info.get('industry', 'N/A'),
        'Market Cap': info.get('marketCap', 'N/A'),
        'P/E Ratio': info.get('trailingPE', 'N/A')
    } for symbol, info in company_info.items()
}).T

print("üìã Informa√ß√µes das empresas:")
display(info_df)

## 2. üì∞ Coleta de Not√≠cias e Eventos

Agora vamos coletar not√≠cias e eventos mundiais que podem impactar os mercados.

In [None]:
# Inicializar coletor de not√≠cias
news_collector = NewsCollector()

# Palavras-chave para eventos relevantes
keywords = [
    'Federal Reserve', 'inflation', 'GDP', 'unemployment',
    'trade war', 'COVID', 'recession', 'interest rates'
]

print(f"üì∞ Coletando eventos com palavras-chave: {', '.join(keywords)}")
print("‚è≥ Aguarde... (pode levar alguns minutos)")

In [None]:
# Coletar eventos hist√≥ricos
events_data = news_collector.collect_historical_events(
    start_date=start_date,
    end_date=end_date,
    keywords=keywords
)

print(f"‚úÖ Eventos coletados: {len(events_data)} registros")
print(f"üìã Colunas dispon√≠veis: {list(events_data.columns)}")

# Visualizar eventos
if not events_data.empty:
    display(events_data.head())
else:
    print("‚ö†Ô∏è Nenhum evento encontrado (pode ser devido a limita√ß√µes da API)")

## 3. üìä An√°lise Explorat√≥ria dos Dados Coletados

Vamos fazer uma an√°lise inicial dos dados coletados.

### 3.1 An√°lise dos Dados Financeiros

In [None]:
# Estat√≠sticas descritivas
print("üìä Estat√≠sticas Descritivas dos Pre√ßos de Fechamento:")
print("=" * 60)

# Filtrar apenas pre√ßos de fechamento
close_prices = stock_data.pivot_table(
    index='date', 
    columns='symbol', 
    values='close'
)

display(close_prices.describe())

In [None]:
# Gr√°fico de pre√ßos normalizados
plt.figure(figsize=(12, 8))

# Normalizar pre√ßos para base 100
normalized_prices = close_prices.div(close_prices.iloc[0]) * 100

for symbol in normalized_prices.columns:
    plt.plot(normalized_prices.index, normalized_prices[symbol], 
             label=symbol, linewidth=2)

plt.title('üìà Performance Normalizada das A√ß√µes (Base 100)', fontsize=16, fontweight='bold')
plt.xlabel('Data', fontsize=12)
plt.ylabel('Pre√ßo Normalizado', fontsize=12)
plt.legend()
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# Performance no per√≠odo
performance = ((close_prices.iloc[-1] / close_prices.iloc[0]) - 1) * 100
print("\nüéØ Performance no Per√≠odo (%)")
print("=" * 30)
for symbol, perf in performance.items():
    print(f"{symbol}: {perf:+.2f}%")

### 3.2 An√°lise de Volume

In [None]:
# An√°lise de volume
volume_data = stock_data.pivot_table(
    index='date', 
    columns='symbol', 
    values='volume'
)

plt.figure(figsize=(12, 6))

# Volume m√©dio por a√ß√£o
avg_volume = volume_data.mean()
avg_volume.plot(kind='bar', color='skyblue', alpha=0.7)

plt.title('üìä Volume M√©dio de Negocia√ß√£o por A√ß√£o', fontsize=16, fontweight='bold')
plt.xlabel('S√≠mbolo', fontsize=12)
plt.ylabel('Volume M√©dio', fontsize=12)
plt.xticks(rotation=45)
plt.grid(True, alpha=0.3)

# Adicionar valores nas barras
for i, v in enumerate(avg_volume):
    plt.text(i, v + v*0.01, f'{v:,.0f}', ha='center', va='bottom')

plt.tight_layout()
plt.show()

### 3.3 An√°lise de Volatilidade

In [None]:
# Calcular retornos di√°rios
returns = close_prices.pct_change().dropna()

# Volatilidade (desvio padr√£o anualizado)
volatility = returns.std() * np.sqrt(252) * 100

plt.figure(figsize=(10, 6))
volatility.plot(kind='bar', color='coral', alpha=0.7)

plt.title('üìà Volatilidade Anualizada por A√ß√£o (%)', fontsize=16, fontweight='bold')
plt.xlabel('S√≠mbolo', fontsize=12)
plt.ylabel('Volatilidade (%)', fontsize=12)
plt.xticks(rotation=45)
plt.grid(True, alpha=0.3)

# Adicionar valores nas barras
for i, v in enumerate(volatility):
    plt.text(i, v + v*0.01, f'{v:.1f}%', ha='center', va='bottom')

plt.tight_layout()
plt.show()

print("\nüìä Ranking de Volatilidade:")
print("=" * 30)
for i, (symbol, vol) in enumerate(volatility.sort_values(ascending=False).items(), 1):
    print(f"{i}. {symbol}: {vol:.2f}%")

### 3.4 Matriz de Correla√ß√£o

In [None]:
# Matriz de correla√ß√£o dos retornos
correlation_matrix = returns.corr()

plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, 
            annot=True, 
            cmap='RdBu_r', 
            center=0,
            square=True, 
            linewidths=0.5,
            fmt='.3f')

plt.title('üîó Matriz de Correla√ß√£o dos Retornos', fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

# Pares mais correlacionados
print("\nüîó Pares Mais Correlacionados:")
print("=" * 35)

# Extrair correla√ß√µes (excluindo diagonal)
corr_pairs = []
for i in range(len(correlation_matrix.columns)):
    for j in range(i+1, len(correlation_matrix.columns)):
        symbol1 = correlation_matrix.columns[i]
        symbol2 = correlation_matrix.columns[j]
        corr_value = correlation_matrix.iloc[i, j]
        corr_pairs.append((symbol1, symbol2, corr_value))

# Ordenar por correla√ß√£o
corr_pairs.sort(key=lambda x: abs(x[2]), reverse=True)

for symbol1, symbol2, corr in corr_pairs[:5]:
    print(f"{symbol1} - {symbol2}: {corr:.3f}")

## 4. üíæ Salvamento dos Dados

Vamos salvar os dados coletados em diferentes formatos para uso posterior.

In [None]:
# Criar diret√≥rio de dados se n√£o existir
data_dir = '../data/raw'
os.makedirs(data_dir, exist_ok=True)

# Salvar dados de a√ß√µes
stock_file = f"{data_dir}/stock_data_{datetime.now().strftime('%Y%m%d')}.csv"
stock_data.to_csv(stock_file, index=False)
print(f"‚úÖ Dados de a√ß√µes salvos: {stock_file}")

# Salvar dados de √≠ndices
index_file = f"{data_dir}/index_data_{datetime.now().strftime('%Y%m%d')}.csv"
index_data.to_csv(index_file, index=False)
print(f"‚úÖ Dados de √≠ndices salvos: {index_file}")

# Salvar informa√ß√µes das empresas
info_file = f"{data_dir}/company_info_{datetime.now().strftime('%Y%m%d')}.csv"
info_df.to_csv(info_file)
print(f"‚úÖ Informa√ß√µes das empresas salvas: {info_file}")

# Salvar eventos (se houver)
if not events_data.empty:
    events_file = f"{data_dir}/events_data_{datetime.now().strftime('%Y%m%d')}.csv"
    events_data.to_csv(events_file, index=False)
    print(f"‚úÖ Dados de eventos salvos: {events_file}")

print(f"\nüìÅ Todos os dados salvos em: {os.path.abspath(data_dir)}")

## 5. üìã Resumo e Pr√≥ximos Passos

### ‚úÖ O que foi realizado:
1. **Coleta de dados financeiros** usando Yahoo Finance API
2. **Coleta de informa√ß√µes de empresas** (setor, ind√∫stria, m√©tricas)
3. **Coleta de dados de √≠ndices** principais do mercado
4. **Tentativa de coleta de eventos** (limitada por APIs)
5. **An√°lise explorat√≥ria** dos dados coletados
6. **Salvamento dos dados** em formato CSV

### üìä Estat√≠sticas da coleta:

In [None]:
# Resumo estat√≠stico
print("üìä RESUMO DA COLETA DE DADOS")
print("=" * 50)
print(f"üìà A√ß√µes coletadas: {len(stock_symbols)} s√≠mbolos")
print(f"üìä Registros de a√ß√µes: {len(stock_data):,}")
print(f"üìà √çndices coletados: {len(index_symbols)} s√≠mbolos")
print(f"üìä Registros de √≠ndices: {len(index_data):,}")
print(f"üè¢ Empresas analisadas: {len(company_info)}")
print(f"üì∞ Eventos coletados: {len(events_data) if not events_data.empty else 0}")
print(f"üìÖ Per√≠odo analisado: {start_date} a {end_date}")
print(f"üìÅ Arquivos salvos: {4 if not events_data.empty else 3}")

print("\nüéØ PR√ìXIMOS PASSOS:")
print("=" * 30)
print("1. üîÑ Processar dados com Apache Spark")
print("2. üìä An√°lise estat√≠stica avan√ßada")
print("3. ü§ñ Aplicar modelos de Machine Learning")
print("4. üí≠ An√°lise de sentimentos das not√≠cias")
print("5. üìà Criar visualiza√ß√µes interativas")
print("6. üîó Analisar correla√ß√µes com eventos")

print("\n‚ú® Notebook conclu√≠do com sucesso!")

---

## üìö Refer√™ncias e Links √öteis

- **Yahoo Finance API**: [yfinance documentation](https://pypi.org/project/yfinance/)
- **Pandas**: [pandas.pydata.org](https://pandas.pydata.org/)
- **Matplotlib**: [matplotlib.org](https://matplotlib.org/)
- **Seaborn**: [seaborn.pydata.org](https://seaborn.pydata.org/)

---

**Desenvolvido pela Equipe Big Data Finance**  
**Notebook:** 01_data_collection_example.ipynb  
**Vers√£o:** 1.0