<a href="https://colab.research.google.com/github/daniel-usp/PYTHON-LABDATA/blob/main/An%C3%A1lise_Explorat%C3%B3ria_de_Dados_AED.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Análise Exploratória de Dados em Finanças**

## **Sumário**

1. [Introdução](#introducao)
2. [Estatísticas Descritivas](#estatisticas-descritivas)
   - [Média](#media)
   - [Mediana](#mediana)
   - [Desvio Padrão e Variância](#desvio-padrao-variancia)
   - [Quartis e Boxplot](#quartis-boxplot)
3. [Visualização de Dados](#visualizacao-dados)
   - [Gráfico de Dispersão](#grafico-dispersao)
   - [Boxplot](#boxplot)
   - [Mapa de Calor de Correlação](#mapa-calor)
4. [Exemplo Prático Completo](#exemplo-pratico)
5. [Conclusão](#conclusao)


---

<a name="introducao"></a>
## **1. Introdução**

A **Análise Exploratória de Dados (AED)** é uma etapa essencial no processo de análise de dados que busca resumir e entender as principais características de um conjunto de dados antes da aplicação de técnicas de modelagem ou inferência estatística. Conforme descrito por Tukey (1977), a AED envolve métodos gráficos e numéricos para revelar padrões, detectar anomalias, testar hipóteses e verificar suposições. Em finanças, a AED desempenha um papel crucial na compreensão do comportamento dos ativos financeiros, na avaliação de riscos e no suporte à tomada de decisões de investimento.

### **Importância da AED em Finanças**

No contexto financeiro, a AED permite aos analistas e investidores:

- **Identificar Tendências e Padrões:** Compreender como os preços dos ativos evoluem ao longo do tempo.
- **Avaliar a Volatilidade:** Medir a variabilidade dos retornos para avaliar o risco associado a um ativo.
- **Detectar Outliers:** Identificar eventos extremos que podem indicar riscos ou oportunidades excepcionais.
- **Compreender Relações entre Variáveis:** Avaliar como diferentes indicadores financeiros estão inter-relacionados, o que é fundamental para a diversificação de portfólios e estratégias de hedge.

A aplicação adequada da AED facilita a construção de modelos financeiros mais robustos e informados, aumentando a eficácia das estratégias de investimento e gestão de riscos [1][2].

---

<a name="estatisticas-descritivas"></a>
## **2. Estatísticas Descritivas**

As **estatísticas descritivas** são ferramentas fundamentais na AED, proporcionando uma visão resumida das características principais de um conjunto de dados. Elas são divididas em três categorias principais: medidas de tendência central, medidas de dispersão e medidas de forma.

### **Importância das Estatísticas Descritivas**

Em finanças, entender as estatísticas descritivas de um ativo ou portfólio permite:

- **Avaliar o Desempenho Médio:** Compreender o retorno médio pode indicar a rentabilidade esperada.
- **Medir o Risco:** A variabilidade dos retornos (dispersão) é uma medida direta de risco.
- **Comparar Ativos:** Facilita a comparação entre diferentes ativos ou portfólios.
- **Informar Decisões de Investimento:** Fornece uma base para a construção de modelos preditivos e estratégias de investimento.

As estatísticas descritivas fornecem, assim, uma base sólida para análises mais complexas e modelagens financeiras [3].


<a name="media"></a>
### **Média**

A **média aritmética** é uma das medidas de tendência central mais utilizadas e representa o valor central de um conjunto de dados. Em finanças, a média pode ser utilizada para calcular o retorno médio de um ativo, fornecendo uma estimativa do retorno esperado ao longo de um período.

#### **Fórmula da Média Aritmética**

$$
\text{Média} = \frac{\sum_{i=1}^{n} x_i}{n}
$$

onde:
- $(x_i)$ = cada valor individual
- $(n)$ = número total de observações

#### **Propriedades da Média**

- **Sensibilidade a Outliers:** A média é afetada por valores extremos, o que pode distorcer a percepção central dos dados.
- **Uso em Modelos Lineares:** A média é fundamental em modelos de regressão e outras análises estatísticas.

#### **Aplicação em Finanças**

Calcular a média dos preços de fechamento de uma ação fornece uma visão geral do comportamento do ativo ao longo do tempo, sendo útil para identificar tendências de longo prazo e comparar com a média do mercado.


In [None]:
import pandas as pd
import yfinance as yf

# Baixando dados históricos da ação da Apple
dados = yf.download('AAPL', start='2020-01-01', end='2023-01-01')

# Calculando a média dos preços de fechamento
media_fechamento = dados['Close'].mean()
print(f"Média do preço de fechamento: ${media_fechamento:.2f}")

<a name="mediana"></a>
### **Mediana**

A **mediana** é o valor que separa a metade superior da metade inferior de um conjunto de dados ordenados. Diferentemente da média, a mediana não é influenciada por outliers, tornando-a uma medida mais robusta de tendência central em dados assimétricos ou com valores extremos.

#### **Cálculo da Mediana**

Para um conjunto de dados ordenados:

- **Número Ímpar de Observações:** A mediana é o valor central.
- **Número Par de Observações:** A mediana é a média dos dois valores centrais.

#### **Propriedades da Mediana**

- **Robustez:** Menos sensível a valores extremos, proporcionando uma representação mais fiel do centro dos dados em distribuições assimétricas.
- **Utilidade em Dados Não Simétricos:** Preferida quando os dados não seguem uma distribuição normal.

#### **Aplicação em Finanças**

A mediana dos preços de fechamento pode fornecer uma visão mais representativa do comportamento típico de um ativo, especialmente em mercados voláteis onde preços extremos são comuns.




In [None]:
# Calculando a mediana dos preços de fechamento
mediana_fechamento = dados['Close'].median()
print(f"Mediana do preço de fechamento: ${mediana_fechamento:.2f}")

<a name="desvio-padrao-variancia"></a>
### **Desvio Padrão e Variância**

O **desvio padrão** e a **variância** são medidas de dispersão que quantificam a variabilidade dos dados em relação à média. Em finanças, essas medidas são fundamentais para avaliar o risco associado a um ativo ou portfólio.

#### **Desvio Padrão**

O desvio padrão é a raiz quadrada da variância e fornece uma medida da dispersão dos dados em unidades originais.

$$
\text{Desvio Padrão} = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}}
$$

onde:
- \( x_i \) = cada valor individual
- \( \bar{x} \) = média dos valores
- \( n \) = número total de observações

#### **Variância**

A variância é o quadrado do desvio padrão e mede a dispersão dos dados em unidades ao quadrado.

$$
\text{Variância} = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}
$$

#### **Propriedades**

- **Desvio Padrão:** Fornece uma medida intuitiva da variabilidade dos dados, expressa nas mesmas unidades dos dados originais.
- **Variância:** Útil em cálculos estatísticos e modelagens que envolvem somas de quadrados, mas menos intuitiva devido às suas unidades ao quadrado.

#### **Aplicação em Finanças**

O desvio padrão dos retornos de um ativo é frequentemente utilizado como uma medida de risco, indicando quanta variabilidade ou volatilidade os investidores podem esperar nos retornos desse ativo. Um desvio padrão mais alto implica maior risco.


In [None]:
# Calculando o desvio padrão dos preços de fechamento
desvio_padrao = dados['Close'].std()
print(f"Desvio padrão do preço de fechamento: ${desvio_padrao:.2f}")

<a name="quartis-boxplot"></a>
### **Quartis e Boxplot**

Os **quartis** são medidas de posição que dividem os dados ordenados em quatro partes iguais. Eles são fundamentais para entender a distribuição dos dados, especialmente em relação à dispersão e presença de outliers.

#### **Definição de Quartis**

- **Primeiro Quartil (Q1):** 25% dos dados estão abaixo deste valor.
- **Segundo Quartil (Q2) ou Mediana:** 50% dos dados estão abaixo deste valor.
- **Terceiro Quartil (Q3):** 75% dos dados estão abaixo deste valor.

#### **Intervalo Interquartil (IQR)**

$$
\text{IQR} = Q3 - Q1
$$

O IQR é uma medida da dispersão dos dados, representando a faixa central onde está a metade dos dados.

#### **Boxplot**

O **boxplot** é uma representação gráfica que utiliza os quartis para mostrar a distribuição dos dados. Ele destaca a mediana, os quartis, os valores mínimo e máximo (sem considerar outliers), e identifica possíveis outliers.

#### **Propriedades do Boxplot**

- **Simetria:** A posição da mediana dentro da caixa indica a simetria dos dados.
- **Outliers:** Pontos que estão além de 1,5 vezes o IQR acima do Q3 ou abaixo do Q1 são considerados outliers.
- **Comparação de Distribuições:** Facilita a comparação entre múltiplos conjuntos de dados.

#### **Aplicação em Finanças**

O boxplot dos preços de fechamento permite visualizar a dispersão e identificar períodos de alta volatilidade ou preços atípicos, que podem indicar eventos de mercado significativos ou erros de dados.




In [None]:
# Calculando os quartis
quartis = dados['Close'].quantile([0.25, 0.5, 0.75])
print("Quartis do preço de fechamento:")
print(quartis)

In [None]:
# Boxplot do preço de fechamento
plt.figure(figsize=(6,8))
plt.boxplot(dados['Close'], vert=True)
plt.title('Boxplot do Preço de Fechamento')
plt.ylabel('Preço de Fechamento')
plt.show()

<a name="visualizacao-dados"></a>

## **3. Visualização de Dados**

A **visualização de dados** é uma parte integral da AED, permitindo que informações complexas sejam apresentadas de maneira intuitiva e acessível. Gráficos e diagramas ajudam a identificar padrões, tendências e relações entre variáveis que podem não ser evidentes apenas com análises numéricas.

### **Importância da Visualização de Dados**

- **Comunicação Eficaz:** Facilita a comunicação de insights para stakeholders que podem não ter conhecimento técnico aprofundado.
- **Identificação de Padrões:** Ajuda a revelar tendências e relações que podem orientar decisões estratégicas.
- **Detecção de Anomalias:** Torna mais fácil identificar outliers ou comportamentos incomuns nos dados.

### **Principais Tipos de Visualizações em Finanças**

- **Gráficos de Linha:** Utilizados para mostrar a evolução de preços ou índices ao longo do tempo.
- **Gráficos de Barras:** Úteis para comparar volumes de negociação ou retornos entre diferentes ativos.
- **Histogramas:** Mostram a distribuição de frequências de retornos ou outros indicadores financeiros.
- **Boxplots:** Representam a dispersão dos dados e identificam outliers.
- **Mapas de Calor:** Visualizam a correlação entre múltiplas variáveis financeiras.
- **Gráficos de Dispersão:** Exibem a relação entre duas variáveis quantitativas, como volume e preço.

---

<a name="grafico-dispersao"></a>
### **Gráfico de Dispersão**

O **gráfico de dispersão** é uma ferramenta visual que exibe a relação entre duas variáveis quantitativas. Cada ponto no gráfico representa uma observação, permitindo identificar possíveis correlações, tendências ou agrupamentos nos dados.

#### **Interpretação**

- **Correlação Positiva:** Quando os pontos tendem a subir juntos, indicando que, à medida que uma variável aumenta, a outra também tende a aumentar.
- **Correlação Negativa:** Quando uma variável aumenta enquanto a outra tende a diminuir.
- **Ausência de Correlação:** Quando não há um padrão discernível na disposição dos pontos.

#### **Aplicação em Finanças**

Em finanças, um gráfico de dispersão pode ser utilizado para analisar a relação entre o volume de negociação de uma ação e seu preço de fechamento. Isso pode ajudar a entender se há uma tendência de que aumentos no volume estão associados a aumentos ou diminuições no preço.



In [None]:
import matplotlib.pyplot as plt

# Gráfico de dispersão entre Volume e Preço de Fechamento
plt.figure(figsize=(10,6))
plt.scatter(dados['Volume'], dados['Close'], alpha=0.5)
plt.title('Preço de Fechamento vs Volume')
plt.xlabel('Volume')
plt.ylabel('Preço de Fechamento')
plt.show()

<a name="boxplot"></a>
### **Boxplot**

O **boxplot** é uma representação gráfica que utiliza os quartis para mostrar a distribuição dos dados. Ele fornece uma visão clara da mediana, da dispersão e dos outliers presentes no conjunto de dados.

#### **Componentes do Boxplot**

- **Caixa (Box):** Representa o IQR, delimitado pelo Q1 e Q3.
- **Linha Dentro da Caixa:** Indica a mediana (Q2).
- **"Bigodes" (Whiskers):** Estendem-se até os valores mínimo e máximo que não são considerados outliers.
- **Outliers:** Pontos que estão além dos bigodes são representados individualmente.

#### **Interpretação**

- **Simetria:** Se a mediana estiver centralizada na caixa, a distribuição é simétrica. Deslocamentos indicam assimetria.
- **Dispersão:** A largura da caixa e a extensão dos bigodes indicam a variabilidade dos dados.
- **Presença de Outliers:** Identifica valores atípicos que podem exigir investigação adicional.

#### **Aplicação em Finanças**

O boxplot do preço de fechamento de uma ação permite visualizar a variabilidade dos preços, identificar períodos de alta volatilidade e detectar preços atípicos que podem estar relacionados a eventos de mercado específicos.





In [None]:
# Boxplot do preço de fechamento
plt.figure(figsize=(6,8))
plt.boxplot(dados['Close'], vert=True)
plt.title('Boxplot do Preço de Fechamento')
plt.ylabel('Preço de Fechamento')
plt.show()

<a name="mapa-calor"></a>
### **Mapa de Calor de Correlação**

O **mapa de calor de correlação** é uma visualização que mostra a correlação entre múltiplas variáveis em uma matriz, utilizando cores para representar a intensidade e a direção das correlações.

#### **Interpretação**

- **Cores Quentes (e.g., Vermelho):** Indicam correlações positivas fortes.
- **Cores Frias (e.g., Azul):** Indicam correlações negativas fortes.
- **Cores Neutras (e.g., Branco ou Cinza):** Indicam pouca ou nenhuma correlação.

#### **Aplicação em Finanças**

Em finanças, mapas de calor de correlação são amplamente utilizados para analisar a relação entre diferentes ativos financeiros, indicadores econômicos ou setores de mercado. Isso é essencial para a diversificação de portfólios, pois permite identificar ativos que se comportam de maneira semelhante ou inversa, ajudando a mitigar riscos.




In [None]:
import seaborn as sns

# Selecionando variáveis de interesse
dados_interesse = dados[['Open', 'High', 'Low', 'Close', 'Volume']]

# Calculando a matriz de correlação
matriz_correlacao = dados_interesse.corr()

# Plotando o mapa de calor
plt.figure(figsize=(8,6))
sns.heatmap(matriz_correlacao, annot=True, cmap='coolwarm')
plt.title('Mapa de Calor da Correlação entre Variáveis Financeiras')
plt.show()

<a name="exemplo-pratico"></a>
## **4. Exemplo Prático Completo**

Neste exemplo prático, vamos aplicar as técnicas de AED discutidas anteriormente para analisar os **retornos diários** da ação da Microsoft (MSFT). Este processo envolve o cálculo de retornos, a análise estatística dos mesmos e a visualização dos resultados para obter informações sobre o desempenho e o risco do ativo.

### **Passo 1: Coleta e Preparação dos Dados**

Primeiramente, coletamos os dados históricos da ação da Apple utilizando a biblioteca `yfinance`. Em seguida, calculamos os retornos diários com base nos preços de fechamento.





In [None]:
import pandas as pd
import yfinance as yf

# Baixando dados históricos da ação da Apple
dados = yf.download('MSFT', start='2020-01-01', end='2023-01-01')

# Calculando os retornos diários
dados['Retorno'] = dados['Close'].pct_change()

# Removendo valores NaN iniciais
dados = dados.dropna()

### **Passo 2: Estatísticas Descritivas dos Retornos**

As estatísticas descritivas dos retornos fornecem uma visão geral do desempenho do ativo, incluindo medidas de tendência central, dispersão e forma da distribuição.


In [None]:
# Estatísticas descritivas dos retornos
estatisticas_retorno = dados['Retorno'].describe()
print("Estatísticas descritivas dos retornos diários:")
print(estatisticas_retorno)

### **Passo 3: Visualização dos Retornos**

#### **Histograma dos Retornos**

O histograma permite visualizar a distribuição dos retornos, identificando se a distribuição é normal, assimétrica ou apresenta caudas pesadas.





In [None]:
# Histograma dos retornos
import matplotlib.pyplot as plt

plt.figure(figsize=(10,6))
plt.hist(dados['Retorno'], bins=50, edgecolor='k', alpha=0.7)
plt.title('Histograma dos Retornos Diários')
plt.xlabel('Retorno Diário')
plt.ylabel('Frequência')
plt.show()

### **Passo 4: Análise de Assimetria e Curtose**

A **assimetria** e a **curtose** são medidas que descrevem a forma da distribuição dos retornos, fornecendo insights adicionais sobre o comportamento do ativo.

#### **Definições**

- **Assimetria (Skewness):** Mede a simetria da distribuição dos dados.
  - **Positiva:** Indica que a cauda à direita é mais longa ou que há mais retornos positivos extremos.
  - **Negativa:** Indica que a cauda à esquerda é mais longa ou que há mais retornos negativos extremos.
- **Curtose:** Mede a "altura" das caudas da distribuição em relação a uma distribuição normal.
  - **Alta Curtose (>3):** Indica caudas mais pesadas e uma maior probabilidade de retornos extremos.
  - **Baixa Curtose (<3):** Indica caudas mais leves e menos probabilidade de retornos extremos.

In [None]:
from scipy.stats import skew, kurtosis

# Calculando a assimetria e a curtose dos retornos
assimetria = skew(dados['Retorno'])
curtose = kurtosis(dados['Retorno'], fisher=False)  # fisher=False para curtose "clássica"

print(f"Assimetria dos retornos: {assimetria:.2f}")
print(f"Curtose dos retornos: {curtose:.2f}")

<a name="conclusao"></a>
### **Passo 5: Conclusão**

A **Análise Exploratória de Dados (AED)** é uma ferramenta indispensável no mercado financeiro, pois fornece uma compreensão profunda do comportamento dos ativos e auxilia na gestão de riscos. Através de estatísticas descritivas e visualizações gráficas, é possível identificar padrões, tendências e anomalias que informam decisões de investimento mais embasadas e estratégicas.

#### **Principais Aprendizados**

- **Estatísticas Descritivas:** Fornecem uma visão geral do desempenho e da volatilidade dos ativos.
- **Visualização de Dados:** Facilita a identificação de relações e padrões complexos nos dados financeiros.
- **Análise de Distribuição:** A assimetria e a curtose dos retornos auxiliam na avaliação do risco e na previsão de eventos extremos.

#### **Aplicações Práticas**

- A AED melhora a compreensão dos dados financeiros e serve como base para modelos preditivos e estratégias de investimento avançadas, como a otimização de portfólios e a análise de risco.
- Identificar a forma da distribuição dos retornos (assimetria e curtose) ajuda os investidores a se preparar para cenários extremos e gerenciar melhor o risco.

### **Próximos Passos**

- **Explorar Correlações entre Diferentes Ativos:** Analisar como diferentes ativos se relacionam pode auxiliar na diversificação de portfólios.
- **Aplicar Técnicas de Modelagem Preditiva:** Utilizar métodos como regressão linear para prever retornos futuros.
- **Utilizar Outras Visualizações Avançadas:** Implementar mapas de calor e gráficos de superfície para análises mais complexas.
- **Análise de Séries Temporais:** Investigar padrões temporais nos retornos para identificar tendências sazonais ou ciclos de mercado.
- **Avaliação de Risco com Value at Risk (VaR):** Implementar modelos de VaR para quantificar o risco de perda em investimentos.

A AED, quando aplicada corretamente, fornece as bases para uma tomada de decisão financeira mais informada e eficiente, ajudando os investidores a minimizar riscos e maximizar retornos.
