<h1 id='parte-3'>7. Web Crawling - Aplicações</h1>

<p>Aprendemos o básico de como interagir com uma página de forma básica, como apertar um botão, preencher um formulário, ativar um <b>script</b>, entrar num <b>iframe</b> ou selecionar um elemento de uma lista. Com essas funcionalidades podemos fazer aplicações mais elaboradas e complexas, de forma a otimizar processos criando um robô/bot.</p>

<p>É importante sempre estar atento a todos os detalhes, principalmente naqueles que podem fazer nosso código quebrar. Problemas com uma mudança repentina no código fonte da página ou com internet são comuns, então devemos nos certificar que todo o processo vai conseguir continuar independente disso ou estar ciente que nosso robô precisa de mudanças no código para continuar. Devemos fazer bastante o uso do <b>try</b>.</p>

In [2]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.options import Options 
from selenium.webdriver.support.ui import Select

from bs4 import BeautifulSoup
import numpy as np
import pandas as pd

import time

<h2 id='parte-3a' style="color:blue;">a. Atualizando uma tabela de valores</h2>

<p>Como primeiro case, o mais simples possível, vamos coletar de tempos em tempos uma tabela de valores na seção de cotações do site da <b>B3</b>, mais especificamente a tabela de <b>Maiores Altas</b>.</p>

In [3]:
driver = webdriver.Chrome('./driver/chromedriver.exe')

url = 'http://www.b3.com.br/pt_br/market-data-e-indices/servicos-de-dados/market-data/cotacoes/acoes.htm'
driver.get(url)

<p>Analisando o que queremos coletar, é possível ver que ele está dentro de um <b>&lt;iframe&gt;...&lt;/iframe&gt;</b>. Ao mudarmos nosso driver para o <b>iframe</b>, queremos pegar o <b>&lt;table&gt;...&lt;/table&gt;</b> para organizar numa tabela com o <b>Pandas</b>

<p>Primeiro procuramos pelo <b>&lt;div&gt;...&lt;/div&gt;</b> que contém o <b>&lt;iframe&gt;...&lt;/iframe&gt;</b>:</p>

In [4]:
div = driver.find_element_by_id('tv-small-widget-altas')

<p>Agora selecionamos o <b>&lt;iframe&gt;...&lt;/iframe&gt;</b> dentro e mudamos nosso <b>driver</b> para ele:</p>

In [5]:
ifrm = div.find_element_by_tag_name('iframe')
driver.switch_to.frame(ifrm)

<p>Pegamos o código fonte e depois com o <b>BeautifulSoup</b> extraimos <b>&lt;table&gt;...&lt;/table&gt;</b>:</p>

In [6]:
pags = driver.page_source
html = BeautifulSoup(pags, "html.parser")
table = html.findAll('table')

<p>Por fim, usando o <b>Pandas</b>, transformamos nosso <b>&lt;table&gt;...&lt;/table&gt;</b> em um <b>DataFrame</b>:</p>

In [7]:
df = pd.read_html(str(table[0]))[0]

df = df.drop(0)

df

Unnamed: 0,Symbol,Last,Change,(%)
1,GERDAU PN N1,19.15,0.88,(+4.82%)
2,TIM PART S/AON NM,15.28,0.58,(+3.95%)
3,GERDAU MET PN N1,8.93,0.23,(+2.64%)
4,EMBRAER ON NM,19.65,0.36,(+1.87%)
5,IRBBRASIL REON NM,38.95,0.7,(+1.83%)


<p>É recomendável que o código final seja usado em um script <b>.py</b> e não num <b>Jupyter Notebook</b>, pois caso precisemos parar o script para modificar algo, não teremos tantos problemas.</p>

<p>Código final:</p>

In [8]:
from IPython.display import clear_output

In [9]:
driver = webdriver.Chrome('./driver/chromedriver.exe')

url = 'http://www.b3.com.br/pt_br/market-data-e-indices/servicos-de-dados/market-data/cotacoes/acoes.htm'
driver.get(url)

div = driver.find_element_by_id('tv-small-widget-altas')
ifrm = div.find_element_by_tag_name('iframe')
driver.switch_to.frame(ifrm)

while 1:
    pags = driver.page_source
    html = BeautifulSoup(pags, "html.parser")
    table = html.findAll('table')

    df = pd.read_html(str(table[0]))[0]
    df = df.drop(0)
    
    clear_output()
    print(df)
    
    time.sleep(5)

              Symbol   Last  Change       (%)
1       GERDAU PN N1  19.15    0.88  (+4.82%)
2  TIM PART S/AON NM  15.28    0.58  (+3.95%)
3   GERDAU MET PN N1   8.93    0.23  (+2.64%)
4      EMBRAER ON NM  19.65    0.36  (+1.87%)
5  IRBBRASIL REON NM  38.95    0.70  (+1.83%)


KeyboardInterrupt: 