# Planejamento do projeto

## Resultado final
    - Uma classe em linguagem python em que o usuário digita o símbolo da ação (stock ticker) e recebe uma série 
    de gráficos e análises da empresa selecionada.
    - Quais análises serão entregues?
        . Gráfico interativo com o comportamento das ações no tempo;
        . Relatório com os principais indicadores;
        . Avaliação de investimento, favorável ou desvaforável?
        . Previsão de comportamento?

## Ferramental
    - Utilizar o Jupyter Notebook para a escrita e interpretação do código;
    - Utilizar a biblioteca Selenium ou urllib.request para analisar conteudos de páginas;
    - Utilizar a biblioteca Beautiful Soup (ou lXml e Scrapy) que torna possível ler o conteúdo das páginas HTML;
    - Utilizar a biblioteca Pandas para armazenar o conteúdo das páginas em DataFrames;
    - Utilizar a biblioteca Numpy para realização de operações;
    - Utilizar a biblioteca Plotly para desenhar gráficos interativos;
    - Utilizar a biblioetca pyplot da matplotlib para criação de gráficos e dashboards;
    - Utilizar a biblioteca sklearn para a adaptação de um modelo de previsão de preço de ação.
    
## Processo de desenvolvimento
    - Coletar os dados das páginas que contêm informações sobre ações: https://finance.yahoo.com/ 
    - Organizar os dados em DataFrames
    - Tratar os dados, isto é, retirar dados duplicados, tratar dados faltantes, ajustar indices e headers
    - Gerar as análises dos dados

In [None]:
# Imports para o desenvolvimento do projeto
import pandas as pd
import numpy as np
from bs4 import BeautifulSoup
import urllib.request as ur
import requests

In [None]:
# Endereço de uma das páginas a qual fornecerá informações para a análise
url = "https://br.financas.yahoo.com/quote/{}/history?period1={}&period2={}&interval=1d&filter=history&frequency=1d&includeAdjustedClose=true"

# Tratar condições de erro

## Como tratar possíveis condições de erro? 
    - Colocando try except 
    - Colocando assert
    

In [None]:
# Inserir o nome empresa
ticker = input()

# Selecionado a data do horizonte de busca de 5 anos 
date2 = np.timedelta64(np.datetime64('today') - np.datetime64('1969-12-31'), 's').astype(int)
date1 = date2 - 86400 * 365 * 5

# Formatando o url 
url = url.format(ticker, date1, date2)
print(url)

In [None]:
# Adicionar cabeçalho para passar informações adicionais. Deve-se identificar o erro retornado pelo navegador (401 por exemplo
# é um exemplo de permissão negada) e adicionar o cabeçalho correspondente, no caso o site necessitava de alguma identificação 
# para concretizar a requisição, essa informação pode ser o tipo de aplicação o sistema operacional, fornecedores, a versão 
# de agente de usuário requisitante e outros. "Mozilla/5.0" é o token geral que diz que o navegador é compatível com Mozilla.
# Por razões históricas, quase todo navegador envia isso hoje. 
# Fonte: https://developer.mozilla.org/pt-BR/docs/Web/HTTP/Headers/User-Agent
headers = {"User-Agent":"Mozilla/5.0"}
response = requests.get(url, headers=headers) #baixa o conteúdo de uma página na web
status = response.raise_for_status()

# Retorna um objeto BeautifulSoup que permite manipular o data structure com mais facilidade
soup = BeautifulSoup(response.text, 'html.parser')

# O título da página HTML
print(soup.title.string)

linhas = [] #lista para armazenar os dados retirados do HTML
for element in soup.find_all(['th', 'td', 'strong']):
    linhas.append(element.string) #retira os strings que acompanham as classes selecionadas
    
# Tratando os strings para obter o dado desejado
linhas = [e for e in linhas if e not in ('Operating Expenses','Non-recurring Events')]
new_lista = list(filter(None,linhas)) #retira os Nones

dado = list(zip(*[iter(new_lista)]*7))
df_dado = pd.DataFrame(dado)

# Utilizando o Selenium

In [2]:
# Imports
import time
import requests
import pandas as pd 
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
import numpy as np

In [24]:
# Ajuste do url
# inserir o nome empresa
ticker = "SULA4.SA"

# selecionado a data do horizonte de busca de 5 anos 
date2 = np.timedelta64(np.datetime64('today') - np.datetime64('1969-12-31'), 's').astype(int)
date1 = date2 - 86400 * 365 * 5

url = "https://br.financas.yahoo.com/quote/{}/history?period1={}&period2={}&interval=1d&filter=history&frequency=1d&includeAdjustedClose=true"

# formatando o url da página que será acessada
url = url.format(ticker, date1, date2)

# Instância do navegador
opt = webdriver.ChromeOptions()
opt.headless = True #não mostrar a ação em andamento 
ser = Service(r'C:\Program Files (x86)\Google\Chrome\Application\97.0.4692.99\chromedriver.exe')
driver = webdriver.Chrome(service=ser, options=opt)

driver.get(url)

time.sleep(5)

html = driver.find_element(By.TAG_NAME, 'html')

# posição do inicial do scroll
last_height = driver.execute_script("return document.body.scrollHeight")
print("last_height: {}".format(last_height))

while (True):
    # posiciona o scroll no final da página
    html.send_keys(Keys.END)
    
    # pausa para carregar a página
    time.sleep(1)

    # atualiza a posição do scroll 
    new_height = driver.execute_script("return document.documentElement.scrollHeight")
    print("new_height: {}".format(new_height))
    
    # verifica se houve movimento da página 
    if (new_height == last_height):
        # termina o loop
        break
    else:
        # atualiza o último valor 
        last_height = new_height         

element = driver.find_element(By.TAG_NAME, 'table')
html_content = element.get_attribute('outerHTML')

driver.quit()

# Código HTML da tabela
soup = BeautifulSoup(html_content, 'html.parser')

# Tratando o HTML para gerar a tabela de hostórico do preço da ação
# lista para armazenar o dados que não sejam relacionados com o preço da ação (dividendo e desdobramento)
list_not_related = [] #lista com conteúdo não relacionado com o preço das ações
tuplas_eventos = [] #tuplas data, valor, ocorrencia (dividendo e desdobramento)
for element in soup.find_all('td',"Ta(start) Py(10px)"):
    list_not_related.append(element)
    tuplas_eventos.append((element.previous_element, element.find('strong').string, element.find('span').string))

linhas_tab = [] #lista para armazenar os dados das linhas da tebela
# retira os strings que acompanham as classes selecionadas e filtra os casos não queridos
for element in soup.find_all(['td', 'th']):
    if element in list_not_related:
        del(linhas_tab[-1]) #deleta o elemento anterior
    else:
        linhas_tab.append(element.string)
        
new_lista = list(filter(None, linhas_tab)) #retira os Nones se existirem
stock_data = list(zip(*[iter(new_lista)]*7)) #empacota 
df_data_stocks = pd.DataFrame(stock_data[1:], columns=stock_data[0][0:7])
df_not_related = pd.DataFrame(tuplas_eventos, columns=['Data', 'Valor', 'Tipo'])

df_data

last_height: 583
new_height: 8292
new_height: 12081
new_height: 15870
new_height: 19659
new_height: 23448
new_height: 27237
new_height: 31026
new_height: 34816
new_height: 38605
new_height: 42394
new_height: 46183
new_height: 46686
new_height: 46686


Unnamed: 0,Data,Abrir,Alto,Baixo,Fechamento*,Fechamento ajustado**,Volume
0,20 de jan. de 2022,794,810,784,810,810,21.700
1,19 de jan. de 2022,749,793,749,791,791,42.600
2,18 de jan. de 2022,769,772,733,747,747,64.600
3,17 de jan. de 2022,769,771,756,770,770,14.300
4,14 de jan. de 2022,777,777,751,767,767,22.100
...,...,...,...,...,...,...,...
1189,10 de abr. de 2017,926,926,926,926,778,-
1190,07 de abr. de 2017,926,926,926,926,778,-
1191,06 de abr. de 2017,926,926,926,926,778,-
1192,05 de abr. de 2017,926,926,926,926,778,-
