# Semana 06 - Obtendo Dados

Nesta semana, você irá explorar a importância dos dados financeiros no mercado, desde a tomada de decisões informadas até a previsão de movimentos de mercado. Descobrirá como os dados impulsionam estratégias, gerenciam riscos e impulsionam inovações financeiras. Além disso, explorará o papel do *big data*, sua capacidade de lidar com volumes imensos e a necessidade de abordagens avançadas para processar e extrair *insights*. Por fim, você praticará utilizando os principais pacotes Python de acesso à dados de várias fontes financeiras, aprimorando suas habilidades de captura de dados para o mercado financeiro.



---



## Importância dos dados financeiros

🎲 Os dados desempenham um papel absolutamente crucial no mercado financeiro, desencadeando mudanças significativas na forma como as instituições financeiras, investidores e operadores tomam decisões e conduzem suas atividades. A crescente disponibilidade de dados e os avanços tecnológicos na análise de dados têm revolucionado a indústria financeira de várias maneiras. Aqui estão alguns pontos-chave que destacam a importância dos dados no mercado financeiro:

1.   **Tomada de Decisões Informadas:** Os dados fornecem informações valiosas que permitem que investidores, traders e gestores tomem decisões informadas e embasadas. Isso inclui desde a avaliação de riscos até a identificação de oportunidades de investimento.

2.   **Modelagem e Previsão:** Os dados são usados para desenvolver modelos estatísticos e algoritmos de previsão que auxiliam na previsão de movimentos de mercado, preços de ativos e tendências econômicas. Isso permite que os participantes do mercado antecipem cenários futuros e ajustem suas estratégias em conformidade.

3.   **Algoritmos de Negociação:** As instituições financeiras utilizam algoritmos de negociação baseados em dados para executar transações de forma rápida e eficiente, tirando proveito de oportunidades de curto prazo que podem ser difíceis de detectar manualmente.

4.   **Gestão de Riscos:** Os dados ajudam na avaliação e mitigação de riscos financeiros. Os modelos de análise de risco utilizam dados históricos para prever possíveis perdas e a volatilidade dos mercados.

5.   **Análise Fundamental e Técnica:** Tanto a análise fundamental quanto a técnica dependem fortemente de dados. A análise fundamental envolve a avaliação de dados financeiros de empresas para determinar seu valor intrínseco, enquanto a análise técnica utiliza padrões gráficos e indicadores derivados de dados de preços para prever movimentos futuros.

6.   **Personalização de Investimentos:** Com o uso de dados, os investidores podem criar portfólios mais personalizados e adaptados aos seus objetivos e apetite por risco. Isso é especialmente relevante com o crescimento da gestão de ativos automatizada.

7.   **Detecção de Fraudes e Compliance:** As instituições financeiras usam análise de dados para detectar atividades suspeitas e prevenir fraudes financeiras. Também auxilia no cumprimento de regulamentações e padrões de conformidade.

8.   **Aprendizado de Máquina e Inteligência Artificial:** Tecnologias como aprendizado de máquina e inteligência artificial são aplicadas para analisar grandes volumes de dados de maneira mais rápida e precisa, identificando padrões e tendências que podem ser difíceis de serem identificados por métodos tradicionais.

9.   **Investimento Quantitativo:** Estratégias de investimento quantitativo se baseiam em análises estatísticas e matemáticas de dados para tomar decisões de investimento. Essas estratégias são amplamente automatizadas e dependem de modelos baseados em dados.

10.   **Inovação Financeira:** A crescente disponibilidade de dados tem impulsionado a inovação na indústria financeira, dando origem a produtos e serviços financeiros mais sofisticados e personalizados, como fintechs e criptomoedas.



> 🔎 Os dados transformaram o mercado financeiro, capacitando os participantes a tomar decisões mais informadas, reduzir riscos, identificar oportunidades e inovar em uma indústria que está em constante evolução. A capacidade de coletar, analisar e interpretar dados é um diferencial competitivo crucial no cenário financeiro moderno.



---



##  Tipos de dados financeiros

📈 No mercado financeiro, uma ampla variedade de dados é utilizada para análise, tomada de decisões, modelagem e previsão. Esses dados podem ser classificados em várias categorias, cada uma desempenhando um papel específico no funcionamento do mercado. Aqui estão alguns dos principais tipos de dados no mercado financeiro:

1.   **Dados de Mercado (Market Data):** Esses dados incluem informações em tempo real sobre preços, volumes e negociações de ativos financeiros, como ações, títulos, commodities, moedas e índices. Os dados de mercado são essenciais para traders, investidores e instituições financeiras que buscam acompanhar a evolução dos preços e identificar padrões de negociação.

2.   **Dados de Transações (Transaction Data):** Esses dados registram as transações individuais realizadas no mercado, detalhando informações como preço, quantidade e horário de execução. Esses dados podem ser usados para análises de volume, liquidez e identificação de tendências de curto prazo.

3.   **Dados Financeiros e Contábeis:** Incluem informações sobre demonstrações financeiras, balanços patrimoniais, demonstrativos de resultados e fluxos de caixa de empresas. Esses dados são vitais para a análise fundamental, que avalia a saúde financeira e o desempenho das empresas.

4.   **Dados Macroeconômicos:** São dados que refletem a saúde econômica de um país ou região, como taxas de juros, inflação, PIB, desemprego e indicadores de confiança do consumidor. Esses dados ajudam a compreender o contexto econômico em que os mercados estão operando.

5.   **Dados de Sentimento do Mercado:** Refletem as opiniões e percepções dos participantes do mercado em relação às condições atuais e futuras. Esses dados podem incluir pesquisas de opinião, análise de mídia social e índices de confiança do mercado.

6.   **Dados de Volatilidade e Risco:** Englobam métricas que medem a volatilidade esperada ou histórica dos ativos financeiros, bem como dados relacionados a riscos, como *Value at Risk* (VaR), que estimam perdas potenciais em cenários de mercado adversos.

7.   **Dados de Fluxo de Ordens (Order Flow Data):** São dados que rastreiam o fluxo de ordens de compra e venda em um mercado. Esses dados podem fornecer *insights* sobre a direção dos preços, a pressão de compra/venda e a dinâmica do mercado.

8.   **Dados de Juros Abertos:** Referem-se ao número total de contratos de derivativos (como futuros e opções) em aberto em um mercado. Esses dados podem indicar o interesse dos investidores em posições futuras e são frequentemente usados para analisar o sentimento do mercado.

9.   **Dados de Notícias e Eventos:** Informações sobre eventos econômicos, políticos e corporativos que podem afetar os mercados. A análise de como os preços dos ativos reagem a esses eventos é fundamental para entender a interação entre notícias e movimentos de mercado.

10.   **Dados de Redes Sociais e Mídia:** A análise de dados de redes sociais e mídia pode ajudar a identificar tendências emergentes, avaliar o sentimento do mercado e entender como as notícias e eventos estão sendo percebidos pelos investidores.

> 🔭 A combinação e análise desses diferentes tipos de dados permitem que os participantes tomem decisões mais informadas e eficazes, antecipem tendências e se adaptem às condições em constante mudança dos mercados.

---

## Big Data no Mercado Financeiro

### Introdução

👩‍💻 *Big data* é um termo que se refere a conjuntos de dados extremamente volumosos, complexos e variados, que excedem a capacidade das ferramentas tradicionais de processamento e análise de dados para capturar, gerenciar e extrair informações significativas. O conceito de *big data* envolve três principais características conhecidas como os *'Três Vs'*:

*   **Volume:** Refere-se à enorme quantidade de dados gerados e acumulados continuamente. Esses dados podem ser gerados de fontes diversas, como transações, sensores, dispositivos móveis, redes sociais, sistemas empresariais e muito mais.

*   **Variedade:** Diz respeito à diversidade de tipos de dados que estão disponíveis. Isso inclui dados estruturados (como tabelas de banco de dados), dados semiestruturados (como documentos XML) e dados não estruturados (como texto, imagens, áudio e vídeo).

*   **Velocidade:** Refere-se à taxa de geração e processamento dos dados em tempo real. Muitos dados são gerados a uma velocidade muito alta e precisam ser processados e analisados em tempo real para obter *insights* relevantes.

> 🗃️ *Big data* representa a enorme quantidade e diversidade de dados gerados em diferentes contextos, incluindo o mercado financeiro, e a necessidade de usar abordagens avançadas para extrair informações significativas e tomar decisões informadas a partir desses dados.

---


### Aplicação

💸 No contexto financeiro, o *big data* tem transformado a forma como os participantes do mercado abordam a tomada de decisões, o desenvolvimento de estratégias e a compreensão das dinâmicas do mercado. Aqui estão alguns aspectos relevantes sobre o uso de *big data* no mercado financeiro:

1.   **Volume Avassalador:** O mercado financeiro gera quantidades enormes de dados todos os dias, incluindo dados de mercado, transações, notícias, informações corporativas e muito mais. Esses volumes estão além da capacidade de processamento das abordagens tradicionais.

2.   **Velocidade em Tempo Real:** Muitos desses dados são gerados e atualizados em tempo real, exigindo que as análises sejam igualmente rápidas e ágeis. Isso é especialmente crucial para traders e instituições que buscam reagir rapidamente a eventos de mercado.

3.   **Variedade de Fontes e Tipos de Dados:** A variedade dos dados financeiros inclui informações estruturadas (como preços de ações e dados financeiros), dados não estruturados (como notícias e mídias sociais) e dados de fluxo de ordens, entre outros. A combinação desses tipos de dados amplia as possibilidades de *insights*.

4.   **Impacto nas Estratégias de Investimento:** O uso de *big data* permitiu o desenvolvimento de estratégias de investimento mais sofisticadas e personalizadas. Algoritmos e modelos analisam enormes conjuntos de dados para identificar padrões, tendências e oportunidades de negociação.

5.   **Análise de Sentimento do Mercado:** A análise de *big data* pode ser usada para avaliar o sentimento do mercado, medindo como as notícias, as redes sociais e outros dados não estruturados afetam as percepções dos investidores e influenciam os preços dos ativos.

6.   **Detecção de Fraudes e Riscos:** O *big data* é valioso para identificar padrões de fraude e risco em meio ao grande fluxo de transações financeiras. Modelos analíticos podem identificar anomalias e atividades suspeitas.

7.   **Previsões e Modelos Quantitativos:** Os modelos quantitativos usados para prever preços de ativos e movimentos de mercado são beneficiados pelo uso de *big data*. Quanto mais dados disponíveis, mais preciso e confiável pode ser o modelo.

8.   **Personalização de Serviços Financeiros:** As instituições financeiras podem usar *big data* para personalizar os serviços oferecidos aos clientes. Por exemplo, fornecer recomendações de investimento com base no perfil e nas preferências do cliente.

9.   **Desafios de Armazenamento e Processamento:** Lidar com *big data* exige infraestrutura de TI avançada para armazenamento, processamento e análise eficientes. Muitas vezes, isso envolve a adoção de tecnologias de computação em nuvem e sistemas escaláveis.

10.   **Ética e Privacidade:** O uso de *big data* no mercado financeiro também levanta questões éticas e de privacidade, especialmente quando se trata de dados pessoais e confidenciais dos clientes.

> 💡 O uso estratégico do *big data* pode gerar *insights* valiosos e vantagens competitivas para os participantes do mercado que conseguem extrair informações significativas a partir desse vasto conjunto de dados.

---

> #### Velocidade

🚀 A velocidade dos dados no mercado financeiro é um aspecto crítico devido à natureza dinâmica e em tempo real das atividades de negociação, investimento e tomada de decisões. A rapidez com que os dados são coletados, processados e disponibilizados pode fazer a diferença entre aproveitar uma oportunidade de mercado ou perder uma janela de negociação vantajosa.

> #### Volume

💥 O volume dos dados no mercado financeiro se refere à quantidade de informações geradas, coletadas e processadas diariamente pelas várias fontes e participantes desse ambiente. O volume de dados no mercado financeiro é imenso e tem aumentado exponencialmente com o avanço da tecnologia e a disponibilidade de fontes de dados diversificadas.

> #### Variedade

🌈 A variedade dos dados no mercado financeiro se refere à ampla gama de tipos e fontes de informações que estão disponíveis para análise e tomada de decisões. Essa diversidade abrange desde dados estruturados e padronizados até dados não estruturados e mais complexos. A variedade dos dados no mercado financeiro desafia a capacidade de processamento e análise, mas também oferece a oportunidade de obter *insights* mais profundos e abrangentes.

---

## Pacotes Python

📦 Existem vários pacotes em Python que são úteis para obter dados financeiros. Aqui estão alguns populares:

### yfinance

💲 O Yahoo Finanças (https://br.financas.yahoo.com/) é um site que oferece uma ampla gama de informações financeiras, incluindo cotações de ações, gráficos de preços, notícias de mercado, dados econômicos e outras análises relacionadas ao mundo financeiro. É uma plataforma popular para investidores, *traders* e qualquer pessoa interessada em acompanhar os mercados financeiros.

> 🛠️ *Exemplo prático 1:* Obtendo valores da ação da Petrobras

In [None]:
# Carregando pacote
import yfinance as yf

In [None]:
# Definindo abreviação (ticker)
acao_ticker = ["PETR4.SA"]  # Petrobras

# Obtendo dados
df_acao = yf.download(acao_ticker,           # Ação
                      start="2023-01-01",    # Data inicial AAAA-MM-DD
                      end="2023-08-01")      # Data final AAAA-MM-DD

# Resultado (tabela)
df_acao

> 🛠️ *Exemplo prático 2:* Obtendo valores das ações de grandes bancos

In [None]:
# Definindo abreviação (ticker)
bancos_tickers = ["ITUB4.SA",   # Itau
                  "BBDC4.SA",   # Bradesco
                  "SANB11.SA"]  # Santander

# Obtendo dados
df_bancos = yf.download(bancos_tickers,       # Ações
                        start="2023-01-01",   # Data inicial AAAA-MM-DD
                        end="2023-08-01")     # Data final AAAA-MM-DD

# Resultado (tabela)
df_bancos

---

### alpha_vantage

📊 A *Alpha Vantage* (https://www.alphavantage.co/) é uma empresa que oferece uma plataforma de dados financeiros e análises de mercado por meio de uma API (Interface de Programação de Aplicativos). Ela disponibiliza uma ampla gama de informações, incluindo cotações de ações, dados de mercado, indicadores técnicos, informações sobre moedas e criptomoedas, entre outros.

> **É necessário utilizar uma chave de cadastro (API key)**

---

### quandl

🧮 O *Quandl* (https://demo.quandl.com/) é uma plataforma popular de distribuição e acesso a dados financeiros e econômicos. Ele fornece uma ampla gama de conjuntos de dados, incluindo informações sobre ações, commodities, índices, taxas de juros e dados macroeconômicos. A plataforma é amplamente utilizada por investidores, analistas e pesquisadores para obter dados para análise e pesquisa.

> **É necessário utilizar uma chave de cadastro (API key)**

---

### sgs

📉 O Sistema Gerenciador de Séries Temporais (SGS, https://www3.bcb.gov.br/sgspub/localizarseries/localizarSeries.do?method=prepararTelaLocalizarSeries) é uma plataforma fornecida pelo Banco Central do Brasil para disponibilizar dados econômicos e financeiros em formato de séries temporais. O SGS permite acesso a uma ampla gama de informações, como indicadores econômicos, taxas de juros, câmbio, inflação, atividade econômica e muito mais.

Através do SGS, usuários podem acessar, visualizar e baixar dados históricos e em tempo real, muitas vezes utilizados para análises econômicas, modelagem, tomada de decisões e pesquisa. A plataforma é valiosa para economistas, pesquisadores, analistas de mercado e qualquer pessoa interessada em monitorar e compreender a evolução econômica do Brasil

> 🛠️ *Exemplo prático 3:* Obtendo série histórica do custo da cesta básica

In [None]:
# Instalando o pacote (necessario neste pacote)
!pip install sgs

# Carregando pacote
import sgs

In [None]:
# Definindo código
codigo_sgs = [7491,  # Custo da cesta básica - RJ (capital)
              7493,  # Custo da cesta básica - SP (capital)
              7482]  # Custo da cesta básica - Brasília (capital)

# Obtendo dados
df_cesta = sgs.dataframe(codigo_sgs,            # Codigo SGS
                         start = '01/01/2023',  # Data inicial DD/MM/AAAA
                         end = '01/08/2023')    # Data final   DD/MM/AAAA

# Resultado (tabela)
df_cesta

---

### pandas_datareader

🐼📖 O `pandas-datareader` (https://pandas-datareader.readthedocs.io/en/latest/index.html) é uma biblioteca de código aberto em Python que fornece uma maneira fácil e conveniente de extrair dados financeiros e econômicos diretamente de várias fontes da web.

Dentre eles, podemos citar 2 importantes fontes de dados:

*   **FRED:** O Federal Reserve Economic Data (FRED, https://fred.stlouisfed.org/) é um banco de dados online mantido pelo Federal Reserve Bank of St. Louis, nos Estados Unidos. Ele oferece uma vasta coleção de dados econômicos e financeiros, incluindo séries temporais de indicadores econômicos, taxas de juros, preços, emprego, inflação e outros dados relevantes.

*   **Banco Mundial:** O Banco Mundial (World Bank, https://data.worldbank.org/) é uma instituição financeira internacional que tem como objetivo principal promover o desenvolvimento econômico e a redução da pobreza em países ao redor do mundo. Ele fornece financiamento, assistência técnica e conhecimento para projetos que visam melhorar as condições de vida e estimular o crescimento econômico em nações em desenvolvimento.

> 🛠️ *Exemplo prático 4:* Obtendo séries sócioecômicas do Brasil (Fonte: FRED)
*   Inflação - Brasil: https://fred.stlouisfed.org/series/FPCPITOTLZGBRA
*   Taxa de desemprego entre jovens - Brasil: https://fred.stlouisfed.org/series/SLUEM1524ZSBRA



In [None]:
# Carregando pacote
import pandas_datareader.data as web
import datetime

In [None]:
# Definindo código
codigo_fred = ['FPCPITOTLZGBRA',   # Inflação - Brasil
               'SLUEM1524ZSBRA']   # Taxa de desemprego entre jovens - Brasil

# Definindo data: datetime.datetime(AAAA, MM, DD)
inicio = datetime.datetime(2010, 1, 1)
fim = datetime.datetime(2023, 1, 1)

# Obtendo dados
df_fred = web.DataReader(codigo_fred, 'fred', inicio, fim)

# Resultado (tabela)
df_fred

> 🛠️ *Exemplo prático 5:* Obtendo séries sócioecômicas do Brasil (Fonte: Banco Mundial)
*   Expectativa de vida ao nascer - Brasil: https://data.worldbank.org/indicator/SP.DYN.LE00.IN?locations=BR
*   Emissão de CO2 (toneladas per capita) - Brasil: https://data.worldbank.org/indicator/EN.ATM.CO2E.PC?locations=BR
*   Acesso à eletricidade - Brasil: https://data.worldbank.org/indicator/EG.ELC.ACCS.ZS?locations=BR


In [None]:
# Carregando módulo (parte do pacote)
from pandas_datareader import wb

In [None]:
# Definindo código
codigo_wb = ['SP.DYN.LE00.IN',   # Expectativa de vida ao nascer (anos)
             'EN.ATM.CO2E.PC',   # Emissão de CO2 (toneladas per capita)
             'EG.ELC.ACCS.ZS']   # Acesso à eletricidade (% da população)

# Obtendo dados
df_wb = wb.download(indicator = codigo_wb,  # Lista de indicadores
                    country = ['BR'],       # Lista de países
                    start = 2010,           # Data início AAAA
                    end = 2023)             # Data fim AAAA

# Resultado (tabela)
df_wb

---

### pandas

🐼 O `pandas` (https://pandas.pydata.org/) é uma biblioteca de código aberto muito popular em Python, projetada para análise e manipulação de dados de forma eficiente e flexível. Ela oferece estruturas de dados poderosas que permitem aos desenvolvedores realizar tarefas como limpeza, transformação, agregação e visualização de dados de maneira mais simples e eficaz.

> 🛠️ *Exemplo prático 6:* Lendo um arquivo `.csv` direto da web
>
> A B3 divulga periodicamente a planilha 'Dados de Mercado' (https://www.b3.com.br/pt_br/market-data-e-indices/servicos-de-dados/market-data/consultas/mercado-a-vista/dados-de-mercado/) da qual apresenta as informações:
*   Volume financeiro médio diário e total
*   Número médio diário e total de negócios
*   Participação por tipo de investidor
*   Movimentação dos investidores estrangeiros
>
> sobre as negociações nos mercados de ações à vista e fracionário, ETF de Renda Fixa, Leilões, Termo e Opções.

In [None]:
# Carregando pacote
import pandas as pd

In [None]:
# Definindo URL
url = "https://sistemaswebb3-listados.b3.com.br/marketDataProxy/MarketDataCall/GetDownloadMarketData/RELATORIO_DADOS_DE_MERCADO.csv"

# Obtendo dados
df_relatorio = pd.read_csv(url,                      # URL ou caminho do arquivo .csv
                           sep = ";",                # Separador de tabulação
                           decimal = ",",            # Símbolo de decimal
                           encoding = "ISO-8859-1",  # Codificação (específico em cada caso)
                           skiprows = 4,             # Pulando as primeiras x linhas
                           nrows = 10)                # Considerando apenas até a linha y

# Resultado (tabela)
df_relatorio

---

## Dicas

**PACOTES:**
> 📄 Lembre-se de verificar a documentação de cada pacote para entender como usá-lo adequadamente e se familiarizar com suas funcionalidades. Além disso, esteja ciente das restrições e políticas de uso dos serviços que fornecem os dados financeiros, como limites de acesso, termos de serviço e possíveis custos.

**VALORES FALTANTES**:
> 👻 O Python utiliza `NaN` para representar um **valor faltante**.
>
> Grande parte do tempo você irá se deparar com este tipo de ocorrência.

**CAMINHO DOS ARQUIVOS**:
> 🛣️ Tenha sempre cuidado no preenchimento do endereço e a extensão do arquivo. Na grande maioria dos casos, o caminho será especificado da seguinte forma:
>
> `pasta_onde_o_arquivo_se_encontra/nome_do_arquivo.csv`

**ÍNDICE (pandas.DataFrame)**:
> 🔢 Note que o índice da primeira linha de `df_relatorio` é **zero**.
>
> -   Esse é o padrão do `Python` e `pandas.DataFrame`!

**SEPARADORES, DECIMAIS E CODIFICAÇÃO (pandas.read_csv)**:
> 🌐 Por uma questão regional, eventualmente utilizamos arquivos deste tipo com separadores, decimais e codificação diferentes.
> *   Arquivos com extensão `.csv` tem padrões diferentes.