# Yfinance

### 1. Importacao das bibliotecas

In [1]:
import yfinance as yf
import pandas as pd
import finnhub
ticker = yf.Ticker("AAPL")


### 2. Historico de preços

In [2]:
# Histórico de preços (último mês)
historico = ticker.history(period="1mo")
print("Histórico de preços (head):")
display(historico.head())

print("\nTipos de dados:")
print(historico.dtypes)


Histórico de preços (head):


Unnamed: 0_level_0,Open,High,Low,Close,Volume,Dividends,Stock Splits
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2025-08-11 00:00:00-04:00,227.919998,229.559998,224.759995,227.179993,61806100,0.26,0.0
2025-08-12 00:00:00-04:00,228.009995,230.800003,227.070007,229.649994,55626200,0.0,0.0
2025-08-13 00:00:00-04:00,231.070007,235.0,230.429993,233.330002,69878500,0.0,0.0
2025-08-14 00:00:00-04:00,234.059998,235.119995,230.850006,232.779999,51916300,0.0,0.0
2025-08-15 00:00:00-04:00,234.0,234.279999,229.339996,231.589996,56038700,0.0,0.0



Tipos de dados:
Open            float64
High            float64
Low             float64
Close           float64
Volume            int64
Dividends       float64
Stock Splits    float64
dtype: object


### 3. Informacoes gerais

In [3]:
info = ticker.info

# Mostrar apenas algumas chaves para não poluir
print("Exemplo de dados do .info:\n")
for k, v in list(info.items())[:15]:
    print(f"{k}: {v} -> {type(v)}")


Exemplo de dados do .info:

address1: One Apple Park Way -> <class 'str'>
city: Cupertino -> <class 'str'>
state: CA -> <class 'str'>
zip: 95014 -> <class 'str'>
country: United States -> <class 'str'>
phone: (408) 996-1010 -> <class 'str'>
website: https://www.apple.com -> <class 'str'>
industry: Consumer Electronics -> <class 'str'>
industryKey: consumer-electronics -> <class 'str'>
industryDisp: Consumer Electronics -> <class 'str'>
sector: Technology -> <class 'str'>
sectorKey: technology -> <class 'str'>
sectorDisp: Technology -> <class 'str'>
longBusinessSummary: Apple Inc. designs, manufactures, and markets smartphones, personal computers, tablets, wearables, and accessories worldwide. The company offers iPhone, a line of smartphones; Mac, a line of personal computers; iPad, a line of multi-purpose tablets; and wearables, home, and accessories comprising AirPods, Apple TV, Apple Watch, Beats products, and HomePod. It also provides AppleCare support and cloud services; and operat

### 4. Dividendos e Splits

In [4]:
print("Dividendos:")
display(ticker.dividends.head())
print("Tipos:", ticker.dividends.dtypes)

print("\nSplits:")
display(ticker.splits.head())
print("Tipos:", ticker.splits.dtypes)


Dividendos:


Date
1987-05-11 00:00:00-04:00    0.000536
1987-08-10 00:00:00-04:00    0.000536
1987-11-17 00:00:00-05:00    0.000714
1988-02-12 00:00:00-05:00    0.000714
1988-05-16 00:00:00-04:00    0.000714
Name: Dividends, dtype: float64

Tipos: float64

Splits:


Date
1987-06-16 00:00:00-04:00    2.0
2000-06-21 00:00:00-04:00    2.0
2005-02-28 00:00:00-05:00    2.0
2014-06-09 00:00:00-04:00    7.0
2020-08-31 00:00:00-04:00    4.0
Name: Stock Splits, dtype: float64

Tipos: float64


### 5. Calendario de Eventos

In [5]:
print("Calendário de eventos:")

calendar = ticker.calendar

if isinstance(calendar, dict):
    calendar = pd.DataFrame(calendar)

display(calendar)

print("\nTipos de dados:")
print(calendar.dtypes)


Calendário de eventos:


Unnamed: 0,Dividend Date,Ex-Dividend Date,Earnings Date,Earnings High,Earnings Low,Earnings Average,Revenue High,Revenue Low,Revenue Average
0,2025-08-13,2025-08-10,2025-10-30,1.82,1.65,1.76302,103345000000,96379000000,101505054360



Tipos de dados:
Dividend Date        object
Ex-Dividend Date     object
Earnings Date        object
Earnings High       float64
Earnings Low        float64
Earnings Average    float64
Revenue High          int64
Revenue Low           int64
Revenue Average       int64
dtype: object


### 6. Recomendacao de analistas

In [6]:
print("Recomendações de analistas:")
display(ticker.recommendations.tail())
print("\nTipos de dados:")
print(ticker.recommendations.dtypes)


Recomendações de analistas:


Unnamed: 0,period,strongBuy,buy,hold,sell,strongSell
0,0m,5,23,14,1,2
1,-1m,5,22,15,1,1
2,-2m,5,23,15,1,1
3,-3m,6,22,16,2,1



Tipos de dados:
period        object
strongBuy      int64
buy            int64
hold           int64
sell           int64
strongSell     int64
dtype: object


### 7. Dados Financeiros

In [7]:
print("Lucros anuais (financials):")
display(ticker.financials.head())

print("\nTipos de dados:")
print(ticker.financials.dtypes)


Lucros anuais (financials):


Unnamed: 0,2024-09-30,2023-09-30,2022-09-30,2021-09-30,2020-09-30
Tax Effect Of Unusual Items,0.0,0.0,0.0,0.0,
Tax Rate For Calcs,0.241,0.147,0.162,0.133,
Normalized EBITDA,134661000000.0,125820000000.0,130541000000.0,123136000000.0,
Net Income From Continuing Operation Net Minority Interest,93736000000.0,96995000000.0,99803000000.0,94680000000.0,
Reconciled Depreciation,11445000000.0,11519000000.0,11104000000.0,11284000000.0,



Tipos de dados:
2024-09-30    float64
2023-09-30    float64
2022-09-30    float64
2021-09-30    float64
2020-09-30    float64
dtype: object


### 8. Resumo dos dados

In [8]:
resumo = pd.DataFrame({
    "Origem": [
        "history", "info", "dividends", "splits", "calendar", "recommendations", "financials"
    ],
    "Retorno Principal": [
        "DataFrame", "dict", "Series", "Series", "DataFrame", "DataFrame", "DataFrame"
    ],
    "Tipos de dados": [
        "float64, int64, datetime64",
        "str, float, int, bool, None",
        "float64, datetime64",
        "int64, datetime64",
        "datetime64",
        "str, datetime64",
        "float64, datetime64"
    ]
})

print("Resumo dos tipos de dados no yfinance:")
display(resumo)


Resumo dos tipos de dados no yfinance:


Unnamed: 0,Origem,Retorno Principal,Tipos de dados
0,history,DataFrame,"float64, int64, datetime64"
1,info,dict,"str, float, int, bool, None"
2,dividends,Series,"float64, datetime64"
3,splits,Series,"int64, datetime64"
4,calendar,DataFrame,datetime64
5,recommendations,DataFrame,"str, datetime64"
6,financials,DataFrame,"float64, datetime64"


| Tipo (`dtype`) | Onde aparece no yfinance    | Exemplo                        | Uso no ML               |
| -------------- | --------------------------- | ------------------------------ | ----------------------- |
| `float64`      | Preços, indicadores, lucros | `Close`, `PE ratio`, `Revenue` | Direto                  |
| `int64`        | Volumes, contagens          | `Volume`, `marketCap`          | Direto                  |
| `object`       | Texto, categorias           | `sector`, `currency`           | Codificar ou descartar  |
| `datetime64`   | Índice de séries temporais  | Datas do histórico de preços   | Criar features de tempo |


# Finnhub

In [9]:
finnhub_client = finnhub.Client(api_key="d2t41lhr01qkuv3j7b3gd2t41lhr01qkuv3j7b40")

### 1. Cotacao de dados em tempo real

In [10]:
# Cotação da Apple
quote = finnhub_client.quote("AAPL")
df_quote = pd.DataFrame([quote])

print("Cotação (AAPL):")
print(df_quote.head())
print("\nTipos de dados:")
print(df_quote.dtypes)


Cotação (AAPL):
        c     d      dp         h       l    o      pc           t
0  234.35 -3.53 -1.4839  238.7805  233.36  237  237.88  1757448000

Tipos de dados:
c     float64
d     float64
dp    float64
h     float64
l     float64
o       int64
pc    float64
t       int64
dtype: object


### 2. perfil da empresa 

In [11]:
profile = finnhub_client.company_profile2(symbol="AAPL")
df_profile = pd.DataFrame([profile])

print("\nPerfil da empresa (AAPL):")
print(df_profile.head())
print("\nTipos de dados:")
print(df_profile.dtypes)



Perfil da empresa (AAPL):
  country currency estimateCurrency                    exchange  \
0      US      USD              USD  NASDAQ NMS - GLOBAL MARKET   

  finnhubIndustry         ipo  \
0      Technology  1980-12-12   

                                                logo  marketCapitalization  \
0  https://static2.finnhub.io/file/publicdatany/f...          3.477845e+06   

        name        phone  shareOutstanding ticker                  weburl  
0  Apple Inc  14089961010          14840.39   AAPL  https://www.apple.com/  

Tipos de dados:
country                  object
currency                 object
estimateCurrency         object
exchange                 object
finnhubIndustry          object
ipo                      object
logo                     object
marketCapitalization    float64
name                     object
phone                    object
shareOutstanding        float64
ticker                   object
weburl                   object
dtype: object


### 3. Noticias

In [12]:
news = finnhub_client.general_news("general", min_id=0)

df_news = pd.DataFrame(news[:5])

print("\nNotícias gerais (amostra):")
print(df_news.head())
print("\nTipos de dados:")
print(df_news.dtypes)



Notícias gerais (amostra):
   category    datetime                                           headline  \
0  top news  1757464740  Klarna prices IPO well above expected range, r...   
1  top news  1757459520  Trump aims to curb direct-to-consumer ads for ...   
2  top news  1757458563  Aggressive buybacks are giving some companies ...   
3  top news  1757453864  Apple's iPhone 17 lineup has enough spark to b...   
4  top news  1757453100  OpenAI CFO says companies who are not embracin...   

        id                                              image related  \
0  7514826  https://static2.finnhub.io/file/publicdatany/f...           
1  7514820  https://static2.finnhub.io/file/publicdatany/f...           
2  7514822  https://image.cnbcfm.com/api/v1/image/10602222...           
3  7514803  https://image.cnbcfm.com/api/v1/image/10819642...           
4  7514802  https://image.cnbcfm.com/api/v1/image/10818849...           

        source                                            summar

### Tipos de Dados - Finnhub (Plano Free)

- **Float64**  
  - Preços e variações em endpoints como `quote` e `candles`.  
  - Exemplo: `c` (current price), `h` (high price), `l` (low price).

- **Int64**  
  - Alguns identificadores numéricos ou timestamps em segundos.  
  - Exemplo: `t` em `candles` (tempo).

- **Object (strings/texto)**  
  - **Maioria dos dados no plano free.**  
  - Inclui: nome da empresa, país, moeda, setor, URL de site, manchetes de notícias.  
  - Exemplo: `name`, `ticker`, `exchange`, `industry`, `headline`, `url`.

### Observação
O Finnhub fornece mais **metadados e informações contextuais** do que séries numéricas.  
Portanto, o tratamento de strings e categorização é essencial antes de aplicar modelos de machine learning.


# Comparacao dos tipos de dados Yfinance X Finnhub 

| Fonte        | Float64                                                          | Int64                                                     | Object (string/texto)                                                            |
| ------------ | ---------------------------------------------------------------- | --------------------------------------------------------- | -------------------------------------------------------------------------------- |
| **yfinance** | Maioria absoluta (preços, volume, indicadores)                   | Menor quantidade (ex.: contagem de ações, volume inteiro) | Poucos (ex.: nomes de colunas, moeda)                                            |
| **finnhub**  | Menor quantidade (apenas em endpoints como `quote` ou `candles`) | Poucos (alguns IDs, timestamps)                           | **Maioria absoluta** (perfil da empresa, nomes, setores, países, URLs, notícias) |


- **yfinance** → Focado em séries históricas de preços (OHLCV).  
  - Dados numéricos → `float64` (preços) e `int64` (volume).  
  - Resultado: maioria dos dados em **float/int**.

- **finnhub** → Focado em metadados e contexto.  
  - Dados textuais → `object` (nome da empresa, setor, país, manchetes, URLs).  
  - Poucos dados numéricos (preços em `quote` ou `candles`).  
  - Resultado: maioria dos dados em **object**.


OBS1: plano pago do finnhub a partir de 50 dolares

OBS2: embora nao seja em tempo real, o atraso do Yfinance eh de apenas 15v minutos nas acoes.

## Mapeammento de dados uteis ao modelo

### 1. **yfinance**
Esses são essenciais porque o modelo vai precisar de séries temporais numéricas:

- OHLCV (Open, High, Low, Close, Volume) → base para prever preços.

- Adj Close (preço ajustado) → importante porque ajusta dividendos e splits.
Dividendos e Splits → ajudam a corrigir distorções no histórico.

- Returns (retornos percentuais) → derivados do preço, úteis como feature.

- Volatilidade (pode ser calculada a partir de std de preços) → indicador de risco.

### 2. **finnhub (free)**
Mesmo no plano gratuito, há dados de contexto que podem enriquecer:

- Quote (cotações atuais) → current price, high, low, change %.

- Company Profile → setor, indústria, país, moeda (categóricos úteis para clusterização ou comparação).

- News / Sentiment (limitado no free) → manchetes podem ser transformadas em features textuais (ex: NLP para sentimento).

- Earnings (lucros trimestrais) → se disponível no free, pode ajudar a contextualizar movimentos.

### 3. O que **NÃO** é tão útil agora
- URLs, descrições longas, manchetes cruas → só valem se forem tratados via NLP (senão viram ruído).

- Identificadores internos da API → não têm valor preditivo.

- Campos muito esparsos no free plan (como dados fundamentalistas incompletos).

### 4. Exemplo de Estrutura de Dados para o Modelo(mais completo)

| Date       | Open  | High  | Low   | Close | Volume | Adj Close | Sector     | Country | Sentiment (notícia) |
| ---------- | ----- | ----- | ----- | ----- | ------ | --------- | ---------- | ------- | ------------------- |
| 2024-01-01 | 175.2 | 177.3 | 174.9 | 176.5 | 85M    | 176.4     | Technology | USA     | +0.2                |
| 2024-01-02 | 176.5 | 178.0 | 175.8 | 177.9 | 90M    | 177.8     | Technology | USA     | -0.1                |


### 5. Dados mais essenciais (mínimo viável)

1. Close (ou Adj Close)
O preço de fechamento é a referência clássica.
Adj Close é ainda melhor porque já corrige dividendos e splits.

2. Open, High, Low
Usados para entender a variação intraday.
Permitem calcular volatilidade, candles, etc.

3. Volume
Mede intensidade do mercado, ajuda a prever movimentos.

### 5.1. Exemplo Estrutura inicial (colunas mínimas)

| Date       | Open  | High  | Low   | Close | Adj Close | Volume |
| ---------- | ----- | ----- | ----- | ----- | --------- | ------ |
| 2024-01-01 | 175.2 | 177.3 | 174.9 | 176.5 | 176.4     | 85M    |
| 2024-01-02 | 176.5 | 178.0 | 175.8 | 177.9 | 177.8     | 90M    |


**Resumo:**

- Para o primeiro modelo de ML, basta OHLCV (Open, High, Low, Close, Volume), usando de preferência o Adj Close.

- Mais tarde, se pode enriquecer com dados do Finnhub (setor, notícias, earnings), mas não é necessário no início.

## Estrategias de Integracao

### 1. Fase Inicial (Protótipo / MVP)
Objetivo: Testar modelo de ML com histórico de dados, entender padrões, validar pipeline.

Estratégia recomendada: Batch Processing diário (via cron job).

Por que recomendada:
- Simples de implementar.
- Baixo custo de API (yfinance gratuito já atende).
- Dados suficientes para treinar o modelo inicial (OHLCV + features derivadas).

Como funciona:
- Roda script uma vez ao dia (ex: após fechamento do mercado).

- Atualiza histórico completo + calcula features derivadas.

Outras não recomendadas nesta fase:

- Streaming: Desnecessário, complexidade alta sem benefício real (não precisa de dados intraday).

- Event-driven: API free não envia eventos; implementação complexa sem vantagem.
Micro-batch: Overkill para um modelo que ainda não precisa de intraday.

### 2. Fase Média (Validação / Testes mais frequentes)
Objetivo: Começar a testar o modelo com dados quase em tempo real ou mais frequentes.

Estratégia recomendada: Micro-batch / Mini-batch (ex: atualização a cada 30min ou 1h).

Por que recomendada:
 - Mantém o modelo mais atualizado sem exigir streaming contínuo.
 - Permite testar se features intraday trazem ganho de performance.
 - Continua usando APIs gratuitas (limitadas por número de requisições).

Como funciona:

- Agendamento automático de script a cada X minutos.

- Atualiza dataset parcial (somente dados novos) + recalcula features.

Outras não recomendadas nesta fase:

- Streaming completo: Muito complexo e exige APIs pagas ou infrastructure robusta.
Event-driven: Pode ser útil, mas APIs gratuitas não suportam triggers confiáveis.

### 3. Fase Avançada (Produção / Modelo pronto para trading ou alertas)
Objetivo: Modelo em produção, com dados quase em tempo real, para decisões rápidas ou alertas automáticos.

Estratégia recomendada: Hybrid (Batch diário + Micro-batch ou Event-driven)

Por que recomendada:
 - Batch diário: garante histórico completo atualizado.
 - Micro-batch ou Event-driven: captura movimentos intraday ou notícias críticas.
 - Combina confiabilidade do histórico + agilidade do tempo real.

Como funciona:

 - Batch diário roda à noite.

 - Micro-batch ou event-driven roda durante o dia (dependendo da API paga ou webhook).

Outras não recomendadas nesta fase:

 - Somente Batch: modelo ficaria atrasado, não capturaria movimentos intraday importantes.

 - Somente Streaming: custo alto, manutenção complexa, e histórico completo precisaria de backup.

### 4. Resumo visual

| Fase do projeto     | Estratégia recomendada       | Por que                                    | Outras estratégias não recomendadas                                |
| ------------------- | ---------------------------- | ------------------------------------------ | ------------------------------------------------------------------ |
| Inicial (protótipo) | Batch diário                 | Simples, barato, suficiente para histórico | Streaming/Evento/Micro-batch → complexidade desnecessária          |
| Média (validação)   | Micro-batch (30min–1h)       | Mais frequência, quase em tempo real       | Streaming completo → caro/complexo; Event → APIs free não suportam |
| Avançada (produção) | Hybrid (Batch + Micro/Event) | Histórico confiável + alertas rápidos      | Apenas Batch → atrasado; Apenas Streaming → manutenção cara        |
