<a href="https://colab.research.google.com/github/wesengin/ML-Finance/blob/main/Visualiza%C3%A7%C3%A3o_e_an%C3%A1lise_dos_dados_bases_de_dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Bibliotecas

In [None]:
# a biblioteca yfinance não vem por default no Colab, então instalar antes
!pip install -q yfinance  

[K     |████████████████████████████████| 6.3 MB 9.4 MB/s 
[?25h  Building wheel for yfinance (setup.py) ... [?25l[?25hdone


In [None]:
import pandas as pd # para trabalhar com dataframes, que são como tabelas em memória onde podemos acessar as informações e gerar estatísticas, pd é um nome de atalho
import numpy as np # biblioteca científica que possuí funções matemáticas, média, desvio padrão, manipulação de matrizes, vetores...
from pandas_datareader import data # função para carregar dados financeiros online, uma das maneiras mais utilizadas no python para buscar dados da Internet
import matplotlib.pyplot as plt # visualização, gráficos
import seaborn as sns # gráficos mais avançados com uma visualização mais atraente 
import plotly.express as px # gerar gráficos interativos 
import yfinance as yf # carregar dados online do yahoo finance

# Ações

## Forma de uso

https://br.financas.yahoo.com/

In [None]:
gol_df = yf.download("GOLL4.SA", start='2015-01-01') # ações GOLL4 de 2015 até a data atual

[*********************100%***********************]  1 of 1 completed


In [None]:
gol_df

# open: valor de abertura quando a bolsa de valores abriu
# close: como fechou no final do dia 
# high e low: maior e menor valor no dia
# adj close: preço ajustado, preço real de quanto a ação vale no final do dia, e pode levar em consideração dividendos também... pode ter também desdobramento de ações

# Dividendos: são uma parte dos lucros de uma empresa que são distribuídos aos seus acionistas como forma de remuneração. 
# Desdobramento: consiste em dividir as ações existentes, sem alterar o valor do investimento, também conhecido como "Split".

Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2015-01-02,14.970000,15.200000,14.610000,14.990000,14.990000,901900
2015-01-05,14.900000,15.010000,14.410000,14.850000,14.850000,1272500
2015-01-06,14.750000,15.210000,14.650000,15.210000,15.210000,2183500
2015-01-07,15.150000,15.330000,14.550000,14.550000,14.550000,1846900
2015-01-08,14.410000,14.650000,14.200000,14.270000,14.270000,1569500
...,...,...,...,...,...,...
2021-10-08,20.170000,20.770000,20.030001,20.080000,20.080000,4996100
2021-10-11,20.150000,20.260000,19.600000,20.010000,20.010000,5326300
2021-10-13,20.030001,20.320000,19.870001,20.010000,20.010000,4429800
2021-10-14,20.180000,20.549999,19.950001,20.059999,20.059999,3460800


In [None]:
# bolsa de valores não opera em finais de semana e feriados

In [None]:
# informações
gol_df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 1682 entries, 2015-01-02 to 2021-10-15
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Open       1682 non-null   float64
 1   High       1682 non-null   float64
 2   Low        1682 non-null   float64
 3   Close      1682 non-null   float64
 4   Adj Close  1682 non-null   float64
 5   Volume     1682 non-null   int64  
dtypes: float64(5), int64(1)
memory usage: 92.0 KB


In [None]:
# estatísticas 
gol_df.describe()

# count: total registros
# mean: média
# std: desvio padrão (variação pra cima ou pra baixa em relação a média)
# min: valor mínimo
# 25%: primeiro quartil
# 50%: mediana / segundo quartil
# 75%: terceiro quartil
# max: valor máximo

Unnamed: 0,Open,High,Low,Close,Adj Close,Volume
count,1682.0,1682.0,1682.0,1682.0,1682.0,1682.0
mean,15.738383,16.121153,15.335809,15.702622,15.702622,4985195.0
std,9.95042,10.134438,9.760751,9.945127,9.945127,4798933.0
min,1.16,1.18,1.13,1.16,1.16,0.0
25%,7.65,7.78,7.46,7.63,7.63,1936750.0
50%,14.0,14.45,13.665,14.045,14.045,3398150.0
75%,22.5725,23.202499,22.049999,22.622499,22.622499,6325175.0
max,43.669998,44.619999,41.310001,43.790001,43.790001,43680500.0


In [None]:
# achar a data de quando teve o valor max no Close
gol_df[gol_df['Close'] == gol_df['Close'].max(axis = 0)]

Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2019-08-01,41.25,44.619999,41.25,43.790001,43.790001,6664200


In [None]:
# valor min no Close
gol_df[gol_df['Close'] == gol_df['Close'].min(axis = 0)]

Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2016-01-22,1.2,1.26,1.14,1.16,1.16,3830600


In [None]:
# salvar essa base de dados em um csv

gol_df.to_csv('gol.csv')

In [None]:
# ler o csv salvo para dataframe

gol_df2 = pd.read_csv('/content/gol.csv', index_col=0)
gol_df2

Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2015-01-02,14.970000,15.200000,14.610000,14.990000,14.990000,901900
2015-01-05,14.900000,15.010000,14.410000,14.850000,14.850000,1272500
2015-01-06,14.750000,15.210000,14.650000,15.210000,15.210000,2183500
2015-01-07,15.150000,15.330000,14.550000,14.550000,14.550000,1846900
2015-01-08,14.410000,14.650000,14.200000,14.270000,14.270000,1569500
...,...,...,...,...,...,...
2021-10-08,20.170000,20.770000,20.030001,20.080000,20.080000,4996100
2021-10-11,20.150000,20.260000,19.600000,20.010000,20.010000,5326300
2021-10-13,20.030001,20.320000,19.870001,20.010000,20.010000,4429800
2021-10-14,20.180000,20.549999,19.950001,20.059999,20.059999,3460800


## Criando nossa base

## Visualizações

# Características 

# Textos