<a href="https://colab.research.google.com/github/manoelpajr/projeto_data_science/blob/master/projeto_dol_fut.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Exploração Inicial dos dados referentes ao do Dólar Futuro (DOLFUT)**

A [B3](http://www.b3.com.br/pt_br/) - Brasil, Bolsa, Balcão - situada na cidade de São Paulo, é uma das principais bolsa de valores do mundo. Nela são negociados contratos de ativos de diversas natureza, como, ações de empresas, *commodities*, juros, câmbio, dentre outros. 

Nesse rol de ativos negociados encontra-se o *Dólar Futuro*, indentificado pela sigla - **DOLFUT**. Esse ativo tem uma elevada liquidez e são negociados diariamente centenas de milhares de contratos.

Muitos utilizam esse ativo como forma de especulação, principalmente os *traders* que operam na modalidade *Day trade*. Porém, pode ser utilizado como forma de proteção cambial, conhecido como *Hedge*, onde, principalmente, empresas exportadoras e importadoras definem um determinado valor que querem pagar no dólar futuramente. 

Esse ativo tem vencimento mensal, por isso, ao longo do ano, as letras finais de identificação vão mudando. Observem a tabela abaixo.

<img alt="Tabela_Dolar_Futuro" width="50%" src="https://www.operefuturos.com.br/wp-content/uploads/2019/03/Cod-d%C3%B3lar.png">

Sobre o *Dataset* utilizado nesse trabalho ele foi retirado da plataforma [ProfitChart Pro](https://www.nelogica.com.br/produtos/profit-pro) e contém um conjunto de entradas e variáveis que serão explorados e analisados nesse trabalho.




## **Importação das bibliotecas**

Para a exploração e analise dos dados utilizaremos a biblioteca *Pandas*. A seguir faremos a importação da mesma.

In [1]:
#importação das bibliotecas

import pandas as pd

##**Importação do *dataframe***

Como dito anteriormente o banco de dados foi retirado de uma plataforma para pessoas que operam na bolsa de valores chamada - **Profitchart Pro**. Nela, é possível baixar os dados em formato `csv`.

Os dados está disponível no repositório do *Github* e pode ser acessado através desse [link](https://raw.githubusercontent.com/manoelpajr/dataframes/master/DOLFUT_Diario.csv).

Obs.: Nosso *dataset* tem como delimitador o `;` por isso será necessário, no momento da importação, informar qual será o delimitador das colunas.

In [2]:
#realizando a importação o dataframe

df = pd.read_csv("https://raw.githubusercontent.com/manoelpajr/dataframes/master/DOLFUT_Diario.csv", sep=";")

##**Verificar o tipo e a dimensão do nosso banco de dados**

Após a importação dos dados é importante saber o tipo e a dimensão do nosso banco de dados. Para descobrir essas informações utilizaremos as funções `type` e `shape`.

In [3]:
# ver o tipo do banco de dados
type(df)

pandas.core.frame.DataFrame

In [4]:
# verificar o tipo das colunas
type(df['Fechamento'])

pandas.core.series.Series

In [5]:
#verificar as dimensões do banco de dados
df.shape

(494, 7)

Verificamos que o nosso banco de dados é um `DataFrame`, que as nossas colunas são `Series` e a dimensão é de 7 colunas e 494 linhas. 

##**Iniciando a observação dos dados**

Após levantarmos algumas informações sobre o nosso banco de dados, torna-se importante visualizarmos os dados e como eles estão sendo apresentados em nosso *dataset*. Para termos uma noção inicial, iremos utilizar as funções `head`e `tail`. Essas funções nos permite visualizar as cinco primeiras e últimas linhas do banco de dados, respectivamente.

Além disso, é importante verificarmos os nomes das colunas - `columns`, o tipo da variáve de cada coluna - `dtypes` e a existência de valores nulos - `info`. Observem os passos a seguir:

In [6]:
#verificando as cinco primeira linhas
df.head()

Unnamed: 0,Data,Abertura,Maximo,Minimo,Fechamento,Volume,Quantidade
0,01/07/2020,"5.472,50","5.482,00","5.305,50","5.324,50",7548255737500,281.19
1,30/06/2020,"5.430,00","5.513,50","5.410,50","5.463,00",8962980712500,327.865
2,29/06/2020,"5.457,98","5.470,98","5.388,01","5.407,00",7350269937500,270.445
3,26/06/2020,"5.379,51","5.491,47","5.366,52","5.482,97",9154720462500,335.75
4,25/06/2020,"5.380,01","5.386,01","5.266,05","5.354,52",9269360350000,347.475


In [7]:
#verificando as cinco últimas linhas
df.tail()

Unnamed: 0,Data,Abertura,Maximo,Minimo,Fechamento,Volume,Quantidade
489,06/07/2018,"4.230,47","4.241,17","4.141,65","4.145,39",5797551312500,295.26
490,05/07/2018,"4.181,24","4.229,94","4.170,01","4.219,77",5530159375000,281.415
491,04/07/2018,"4.184,99","4.205,86","4.170,01","4.198,90",2338593175000,119.425
492,03/07/2018,"4.168,40","4.187,13","4.156,09","4.182,85",4468800225000,229.095
493,02/07/2018,"4.178,57","4.206,39","4.165,19","4.200,51",5117804562500,261.37


Temos uma tabela então com sete colunas diferentes, com diferentes tipos de variáveis.  

In [8]:
#verificando o nome das colunas
df.columns

Index(['Data', 'Abertura', 'Maximo', 'Minimo', 'Fechamento', 'Volume',
       'Quantidade'],
      dtype='object')

In [9]:
#verificando o tipo das variáveis de cada coluna
df.dtypes

Data           object
Abertura       object
Maximo         object
Minimo         object
Fechamento     object
Volume         object
Quantidade    float64
dtype: object

In [10]:
#verificando o tipo das variáveis e quantidade de valores nulos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 494 entries, 0 to 493
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Data        494 non-null    object 
 1   Abertura    494 non-null    object 
 2   Maximo      494 non-null    object 
 3   Minimo      494 non-null    object 
 4   Fechamento  494 non-null    object 
 5   Volume      494 non-null    object 
 6   Quantidade  494 non-null    float64
dtypes: float64(1), object(6)
memory usage: 27.1+ KB


Aqui encontramos algumas informações muito importantes para o andamento do trabalho. Observem que não existem valores nulos (`non-null`) em nenhuma das colunas.

Outro ponto imporante é observar que as varíaveis, com exceção da `Quantidade`, são do tipo `Object`. No entanto, possuímos uma variável `Data` e as outras são numéricas; logo, será necessário realizar a conversão dessas variáveis para do tipo `Datetime` para a coluna Data e `Float` para as colunas com valores numéricos. 

## **Conversão dos dados**

A partir da observação dos tipos das variáveis nota-se que alguns dados estão em um formato que dificultará a exploração e analise. Por exemplo, a data é um `Object` e deveria ser do tipo `Date`; a abertura, a máxima, a mínima e o fechamento também estão aparecendo como `Object` e deveriam ser do tipo `float`. 

Faremos essas alterações utilizando a função `to_datetime` para data e o método `apply` para os dados numéricos.

### Transformando a coluna Data

In [11]:
#como está apresentado nossa coluna data
df.Data

0      01/07/2020
1      30/06/2020
2      29/06/2020
3      26/06/2020
4      25/06/2020
          ...    
489    06/07/2018
490    05/07/2018
491    04/07/2018
492    03/07/2018
493    02/07/2018
Name: Data, Length: 494, dtype: object

In [12]:
#realizando a transformação da nossa coluna data para o formato datetime
df.Data = pd.to_datetime(df.Data, format="%d/%m/%Y")

In [13]:
#após a alteração dos valores veremos como ficou a nossa coluna
df.Data

0     2020-07-01
1     2020-06-30
2     2020-06-29
3     2020-06-26
4     2020-06-25
         ...    
489   2018-07-06
490   2018-07-05
491   2018-07-04
492   2018-07-03
493   2018-07-02
Name: Data, Length: 494, dtype: datetime64[ns]

### Transformando as colunas numéricas

As colunas com valores numéricos teve a necessidade de um conjunto maior de transformação por conta da forma como os valores estavam sendo representados. Se observarmos a visualização das primeiras linhas veremos dados com valores assim: '5.230,00'. 

Para realizar a transformação para `float64` será necessário então transformar esses valores para o padrão americano de numeração e depois transformá-lo no formato desejado.

Para isso, utilizaremos os métodos `apply` e `replace`, e a função `lambda`.

In [14]:
#mudando o formato da coluna Abertura
df['Abertura'] = df['Abertura'].apply(lambda x: float(x.replace('.','').replace(',','.')))

In [15]:
# mudando o formato da coluna Maximo
df['Maximo'] = df['Maximo'].apply(lambda x: float(x.replace('.','').replace(',','.')))

In [16]:
#mudando o formato da coluna Minimo
df['Minimo'] = df['Minimo'].apply(lambda x: float(x.replace('.','').replace(',','.')))

In [17]:
#mudando o formato da coluna Fechamento
df['Fechamento'] = df['Fechamento'].apply(lambda x: float(x.replace('.','').replace(',','.')))

In [18]:
#mudando o formato da coluna Volume
df['Volume'] = df['Volume'].apply(lambda x: float(x.replace(',','.')))

In [19]:
# agora vamos ver como ficou os nossos dados na tabela
df.head()

Unnamed: 0,Data,Abertura,Maximo,Minimo,Fechamento,Volume,Quantidade
0,2020-07-01,5472.5,5482.0,5305.5,5324.5,75482560000.0,281.19
1,2020-06-30,5430.0,5513.5,5410.5,5463.0,89629810000.0,327.865
2,2020-06-29,5457.98,5470.98,5388.01,5407.0,73502700000.0,270.445
3,2020-06-26,5379.51,5491.47,5366.52,5482.97,91547200000.0,335.75
4,2020-06-25,5380.01,5386.01,5266.05,5354.52,92693600000.0,347.475


In [20]:
#confirmação das alterações para os tipos
df.dtypes

Data          datetime64[ns]
Abertura             float64
Maximo               float64
Minimo               float64
Fechamento           float64
Volume               float64
Quantidade           float64
dtype: object

Bingo! Conseguimos então modificar os valores para os formatos corretos. Isso possibilita que possamos explorar e analisar esses dados, a partir de agora, de maneira mais acertiva. 

## Resumo estatístico das nossas variáveis numéricas

Para sabermos mais informações sobre os valores encontrados no nosso banco de dados veremos um resumo estatístico das nossas variáveis numéricas usando o método `describe`.

In [22]:
# ver o resumo estatístico das variáveis
df[['Abertura','Maximo', 'Minimo', 'Fechamento', 'Volume', 'Quantidade']].describe()

Unnamed: 0,Abertura,Maximo,Minimo,Fechamento,Volume,Quantidade
count,494.0,494.0,494.0,494.0,494.0,494.0
mean,4297.933462,4330.364757,4268.200769,4300.094069,76714770000.0,367.728917
std,478.479249,490.848797,466.079956,479.409671,20730240000.0,91.180761
min,3784.8,3857.41,3781.1,3818.71,23385930000.0,118.285
25%,4007.4775,4029.55,3988.0275,4012.575,63294300000.0,307.08375
50%,4129.81,4161.6,4102.205,4135.32,74077280000.0,359.4325
75%,4298.4125,4324.1275,4270.7425,4301.145,87698180000.0,412.435
max,5936.77,5986.34,5832.61,5903.72,161800700000.0,754.215


O resumo estatístico nos permite afirmar que os dados estão bem qualibrados, ou seja, não existem valores *outliers* para serem tratados.