## Visualização de Dados Financeiros

O mercado financeiro é um grande campo de atuação da Ciência de Dados, sendo possível ser realizada a previsão do preço de ações, clusterização de empresas similares, análise de sentimentos de textos, entre outros trabalhos utilizando algoritmos supervisionados e não supervisionados.

Neste notebook, serão importadas e exibidas em séries temporais as ações de 5 empresas brasileiras e também o [Índice Bovespa (Ibovespa B3)](https://www.b3.com.br/pt_br/market-data-e-indices/indices/indices-amplos/ibovespa.htm) utilizando como fonte o [Yahoo Finanças](https://br.financas.yahoo.com).

### 1. Importando as bibliotecas e criando o dataset

Nessa primeira etapa, importaremos as bibliotecas python bastante utilizadas na análise de dados. O pandas, para a manipulação; numpy, para cálculos matemáticos; matplotlib, seaborn e plotly para a visualização; e, por fim, o datareader, para trazer os dados das ações da web.
- [*pandas*](https://pandas.pydata.org) is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool,
built on top of the Python programming language.
- [*NumPy*](https://numpy.org) is the fundamental package for scientific computing in Python.
- [*Matplotlib*](https://matplotlib.org) is a comprehensive library for creating static, animated, and interactive visualizations in Python. Matplotlib makes easy things easy and hard things possible.
- [*Seaborn*](https://seaborn.pydata.org) is a Python data visualization library based on matplotlib. It provides a high-level interface for drawing attractive and informative statistical graphics.
- [*Plotly*](https://plotly.com/python/) is a Python graphing library makes interactive, publication-quality graphs.

In [44]:
!pip install pandas



In [45]:
!pip install pandas_datareader 



In [46]:
!pip install matplotlib



In [47]:
!pip install seaborn



In [48]:
!pip install plotly



In [49]:
import pandas as pd

In [50]:
import numpy as np

In [77]:
from pandas_datareader import data as pdr

In [52]:
import matplotlib.pyplot as mpl

In [53]:
import seaborn as sb

In [54]:
import plotly.express as px

In [55]:
print(f'{pd.__name__} {pd.__version__}')

pandas 1.4.2


In [56]:
print(f'{np.__name__} {np.__version__}')

numpy 1.22.3


In [57]:
%matplotlib inline

In [58]:
# Activate seaborn’s “default” theme.
sb.set_theme()

Nosso objetivo é coletar os dados das ações de algumas empresas. Para isso, utilizaremos o datareader, já importado anteriormente, e também o Yahoo! Finanças como nossa fonte web.

#### Carregando dados do Yahoo Finanças 

Carregando os dados da empres Magazine Luiza S.A. (MGLU3.SA).

In [63]:
START = '1994-07-01'

In [78]:
vale_df = pdr.DataReader(name='MGLU3.SA', data_source='yahoo', start=START)

In [79]:
vale_df.head()

Unnamed: 0_level_0,High,Low,Open,Close,Volume,Adj Close
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2011-05-02,0.51875,0.503125,0.503125,0.514062,280003200.0,0.463173
2011-05-03,0.521562,0.50625,0.515625,0.509375,33670400.0,0.45895
2011-05-04,0.515,0.51,0.51,0.515,39203200.0,0.464018
2011-05-05,0.512812,0.51,0.512812,0.511875,35097600.0,0.461202
2011-05-06,0.511875,0.5,0.510937,0.508125,38672000.0,0.457824


In [80]:
vale_df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 2724 entries, 2011-05-02 to 2022-04-22
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   High       2724 non-null   float64
 1   Low        2724 non-null   float64
 2   Open       2724 non-null   float64
 3   Close      2724 non-null   float64
 4   Volume     2724 non-null   float64
 5   Adj Close  2724 non-null   float64
dtypes: float64(6)
memory usage: 149.0 KB


Carregando dados de uma carteira de ações de forma automática.

Precisamos definir as ações de quais empresas desejamos importar, colocando seus nomes em uma lista. Esses nomes podem ser encontrados no Yahoo Finanças, ao selecionar a empresa é importante atendar ao qual bolsa ela é comercializada, visto que uma mesma empresa pode ter suas ações comercializadas em mercados de vários países, nesse teste analisaremos as ações comerciaalizadas na *B3* a bolsa de valores brasileira. As empeesas selecionadas foram:
- Americanas S.A. (AMER3.SA)
- Banco Bradesco S.A. (BBDC4.SA)
- Braskem S.A. (BRKM5.SA)
- BR Malls Participações S.A. (BRML3.SA)
- Companhia Siderúrgica Nacional (CSNA3.SA)
- JHSF Participações S.A. (JHSF3.SA)
- Marfrig Global Foods S.A. (MRFG3.SA)
- Companhia Brasileira de Distribuição (PCAR3.SA)
- SLC Agrícola S.A. (SLCE3.SA)
- Vale S.A. (VALE3.SA)
- iShares Ibovespa Index Fund (BOVA11.SA)

In [71]:
carteira = ['AMER3.SA', 'BBDC4.SA', 'BRKM5.SA', 'BRML3.SA', 'CSNA3.SA', 'JHSF3.SA', 'MRFG3.SA', 'PCAR3.SA', 'SLCE3.SA', 'VALE3.SA', 'BOVA11.SA']

Definidas as ações que queremos analisar, vamos criar um dataframe vazio e utilziando um laço de repetição _for_ percoreremos as ações da nossa carteira, coletando as cotações do Yahoo Finanças e armazenando no dataframe.

In [72]:
carteira_df = pd.DataFrame()

In [81]:
for acao in carteira:
    carteira_df[acao] = pdr.DataReader(name=acao, data_source='yahoo', start=START)['Close']

Repare que dentro da função do datareader, passamos o nome da ação, a fonte, a data de início e, fora dos parênteses, frisamos se tratar de dados do fechamento diário da bolsa. Vamos visualizar como ficou nosso dataset.

In [82]:
carteira_df

Unnamed: 0_level_0,AMER3.SA,BBDC4.SA,BRKM5.SA,BRML3.SA,CSNA3.SA,JHSF3.SA,MRFG3.SA,PCAR3.SA,SLCE3.SA,VALE3.SA,BOVA11.SA
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2005-03-30,19.093649,,26.562500,,10.300000,,,60.117096,,20.677500,
2005-03-31,19.093649,,27.072500,,10.550000,,,60.117096,,21.250000,
2005-04-01,18.546097,,27.850000,,10.741666,,,60.117096,,21.125000,
2005-04-04,17.450994,,27.247499,,10.516666,,,60.117096,,20.525000,
2005-04-05,17.194881,,26.500000,,10.116666,,,60.117096,,20.299999,
...,...,...,...,...,...,...,...,...,...,...,...
2022-04-14,28.150000,19.481817,43.630001,8.72,25.440001,6.18,19.760000,23.860001,48.119999,92.089996,111.650002
2022-04-18,28.360001,19.827272,43.849998,8.75,24.750000,6.28,19.280001,23.780001,49.919998,90.570000,111.459999
2022-04-19,28.010000,19.570000,43.799999,9.42,24.860001,6.67,19.360001,23.760000,50.040001,87.680000,110.919998
2022-04-20,27.240000,19.500000,41.389999,9.55,23.840000,6.62,19.250000,23.420000,50.720001,85.400002,110.050003


In [84]:
carteira_df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 4242 entries, 2005-03-30 to 2022-04-22
Data columns (total 11 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   AMER3.SA   4242 non-null   float64
 1   BBDC4.SA   3548 non-null   float64
 2   BRKM5.SA   4242 non-null   float64
 3   BRML3.SA   3729 non-null   float64
 4   CSNA3.SA   4232 non-null   float64
 5   JHSF3.SA   3725 non-null   float64
 6   MRFG3.SA   3671 non-null   float64
 7   PCAR3.SA   4242 non-null   float64
 8   SLCE3.SA   3681 non-null   float64
 9   VALE3.SA   4242 non-null   float64
 10  BOVA11.SA  3320 non-null   float64
dtypes: float64(11)
memory usage: 397.7 KB


Para facilitar a utilização desses dados, podemos renomear as colunas, fazendo com que fiquem mais intuitivo para quem está lendo.

In [85]:
carteira_df = carteira_df.rename(columns={'AMER3.SA':'AMER3','BBDC4.SA':'BBDC4','BRKM5.SA':'BRKM5',
                                    'BRML3.SA':'BRML3','CSNA3.SA':'JHSF3','MRFG3.SA':'MRFG3',
                                    'PCAR3.SA':'PCAR3','SLCE3.SA':'SLCE3','VALE3.SA':'BOVA11'
                                    })

In [86]:
carteira_df.head()

Unnamed: 0_level_0,AMER3,BBDC4,BRKM5,BRML3,JHSF3,JHSF3.SA,MRFG3,PCAR3,SLCE3,BOVA11,BOVA11.SA
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2005-03-30,19.093649,,26.5625,,10.3,,,60.117096,,20.6775,
2005-03-31,19.093649,,27.0725,,10.55,,,60.117096,,21.25,
2005-04-01,18.546097,,27.85,,10.741666,,,60.117096,,21.125,
2005-04-04,17.450994,,27.247499,,10.516666,,,60.117096,,20.525,
2005-04-05,17.194881,,26.5,,10.116666,,,60.117096,,20.299999,


In [87]:
carteira_df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 4242 entries, 2005-03-30 to 2022-04-22
Data columns (total 11 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   AMER3      4242 non-null   float64
 1   BBDC4      3548 non-null   float64
 2   BRKM5      4242 non-null   float64
 3   BRML3      3729 non-null   float64
 4   JHSF3      4232 non-null   float64
 5   JHSF3.SA   3725 non-null   float64
 6   MRFG3      3671 non-null   float64
 7   PCAR3      4242 non-null   float64
 8   SLCE3      3681 non-null   float64
 9   BOVA11     4242 non-null   float64
 10  BOVA11.SA  3320 non-null   float64
dtypes: float64(11)
memory usage: 397.7 KB
