# <a>JORNADA CIENTISTA DE DADOS - Automação com Selenium</a>



In [None]:
# Se estiver fora do notebook. Instalar também "notebook"
# !pip install selenium notebook pandas lxml

# Preparação

Para que o selenium funcione, ele precisa de um driver de algum navegador. Lembrando que ele simula um usuário navegando na página e você pode até visualizar o funcionamento!

A aplicação prática é muito grande! Principalmente quando não conseguimos simular as requsições como fazemos com beautiful soup (se não viu a aula, corre pra ver depois dessa que tem informações importantes sobre webscraping!)

Vamos utilizar nesse tutorial o Microsoft Edge. Para baixar os drivers do Edge basta acessar essa [página](https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/#downloads), mas normalmente já funciona porque o driver está no PATH do Windows.

Tem drivers também pra outros navegadores, escolha o que tiver mais fácil pra você utilizar.

## Com o driver no PATH não tem muita preparação, chama o driver do browser e bora navegar!

In [1]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By

In [2]:
navegador_robozao_master_plus = webdriver.Edge()

In [3]:
navegador_robozao_master_plus.get('http://letsdata.ai')

## Vamos simular downloads e buscas de indicadores no site do IBGE

In [4]:
from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC


navegador_robozao_master_plus.get('https://www.ibge.gov.br/pt/inicio.html')

# Algumas páginas ficar em carregamento infinito! Para evitar isso, coloque um timeout até
# que alguma condição aconteça (expected condition)
# No nosso caso, se vier "IBGE" no título já será suficiente
espera = WebDriverWait(navegador_robozao_master_plus, 15)
carregou_pagina = espera.until(EC.title_contains("IBGE"))

In [5]:
carregou_pagina

True

In [6]:
# Testa se carregou a página
if carregou_pagina:
    botao_outros_indicadores = navegador_robozao_master_plus.find_element(By.CLASS_NAME, 'btn-outros-indicadores')
else:
    print("Página não carregou!")

In [7]:
botao_outros_indicadores

<selenium.webdriver.remote.webelement.WebElement (session="bb4546c8f61966a33f170856119d0f70", element="3fd24c3c-48f7-4fa3-954d-7ba19065dc33")>

In [13]:
# Scroll, só porque... é legal (e pq o Michael pediu)
navegador_robozao_master_plus.execute_script('window.scrollBy(0,250)')

In [14]:
botao_outros_indicadores.send_keys(Keys.RETURN)

In [None]:
espera = WebDriverWait(navegador_robozao_master_plus, 5)
carregou_pagina = espera.until(EC.title_contains("Painel de Indicadores"))

In [21]:
# Verificar se está na página certa
assert "Painel de Indicadores" in navegador_robozao_master_plus.title

In [22]:
# Buscar o HTML da tabela de indicadores para jogar no pandas!
tabela_indicadores = navegador_robozao_master_plus.find_element(By.CLASS_NAME, "indicadores-tabela")

tabela_indicadores


<selenium.webdriver.remote.webelement.WebElement (session="bb4546c8f61966a33f170856119d0f70", element="fa2dfa6c-27ad-4152-8c40-1321523bf97e")>

In [23]:
# Buscando HTML da tabela. Ainda estamos no selenium
html_tabela = tabela_indicadores.get_attribute('outerHTML')

html_tabela

'<table data-group="indicadores-economicos" class="indicadores-tabela indicadores-economicos">\n                        <thead>\n                            <tr>\n                                <th class="ultimo">Indicadores econômicos</th>\n                                <th>Último</th>\n                                <th class="desktop-tablet-only anterior">Anterior</th>\n                                <th class="desktop-tablet-only dozemeses">12 meses</th>\n                                <th class="desktop-tablet-only ano">No ano</th>\n                            </tr>\n                        </thead>\n                        <tbody>\n                                    \n                    <tr id="indicador-ipca" class="table-accordion ipca" data-loaded="false" data-function="loadIndicadorData" data-tabela="1737" data-args="ipca" data-categoria="63" data-divulgacao="9256" data-sidra="https://servicodados.ibge.gov.br/api/v3/agregados/1737/periodos/-12/variaveis/63?&amp;locali

In [24]:
import pandas as pd

dataframes_html = pd.read_html(html_tabela)

In [25]:
len(dataframes_html)

1

In [33]:
df_indicadores = dataframes_html[0]

df_indicadores

Unnamed: 0,Indicadores econômicos,Último,Anterior,12 meses,No ano
0,IPCA (%),"Último 0,47 mai 2022","Anterior 1,06 abr 2022","12 meses 11,73","No ano 4,78"
1,"Periodicidade: Mensal Abrangência: Brasil, R...","Periodicidade: Mensal Abrangência: Brasil, R...","Periodicidade: Mensal Abrangência: Brasil, R...","Periodicidade: Mensal Abrangência: Brasil, R...","Periodicidade: Mensal Abrangência: Brasil, R..."
2,INPC (%),"Último 0,45 mai 2022","Anterior 1,04 abr 2022","12 meses 11,90","No ano 4,96"
3,"Periodicidade: Mensal Abrangência: Brasil, R...","Periodicidade: Mensal Abrangência: Brasil, R...","Periodicidade: Mensal Abrangência: Brasil, R...","Periodicidade: Mensal Abrangência: Brasil, R...","Periodicidade: Mensal Abrangência: Brasil, R..."
4,IPCA-15 (%),"Último 0,69 jun 2022","Anterior 0,59 mai 2022","12 meses 12,04","No ano 5,65"
5,"Periodicidade: Mensal Abrangência: Brasil, R...","Periodicidade: Mensal Abrangência: Brasil, R...","Periodicidade: Mensal Abrangência: Brasil, R...","Periodicidade: Mensal Abrangência: Brasil, R...","Periodicidade: Mensal Abrangência: Brasil, R..."
6,IPP (%),"Último 1,83 mai 2022","Anterior 2,08 abr 2022","12 meses 19,15","No ano 9,06"
7,Periodicidade: Mensal Abrangência: Brasil O...,Periodicidade: Mensal Abrangência: Brasil O...,Periodicidade: Mensal Abrangência: Brasil O...,Periodicidade: Mensal Abrangência: Brasil O...,Periodicidade: Mensal Abrangência: Brasil O...
8,Custo do m² (%),"Último 2,17 mai 2022","Anterior 1,21 abr 2022","12 meses 15,44","No ano 5,77"
9,"Periodicidade: Mensal Abrangência: Brasil, G...","Periodicidade: Mensal Abrangência: Brasil, G...","Periodicidade: Mensal Abrangência: Brasil, G...","Periodicidade: Mensal Abrangência: Brasil, G...","Periodicidade: Mensal Abrangência: Brasil, G..."


In [34]:
df_indicadores.iloc[1:20:2]

Unnamed: 0,Indicadores econômicos,Último,Anterior,12 meses,No ano
1,"Periodicidade: Mensal Abrangência: Brasil, R...","Periodicidade: Mensal Abrangência: Brasil, R...","Periodicidade: Mensal Abrangência: Brasil, R...","Periodicidade: Mensal Abrangência: Brasil, R...","Periodicidade: Mensal Abrangência: Brasil, R..."
3,"Periodicidade: Mensal Abrangência: Brasil, R...","Periodicidade: Mensal Abrangência: Brasil, R...","Periodicidade: Mensal Abrangência: Brasil, R...","Periodicidade: Mensal Abrangência: Brasil, R...","Periodicidade: Mensal Abrangência: Brasil, R..."
5,"Periodicidade: Mensal Abrangência: Brasil, R...","Periodicidade: Mensal Abrangência: Brasil, R...","Periodicidade: Mensal Abrangência: Brasil, R...","Periodicidade: Mensal Abrangência: Brasil, R...","Periodicidade: Mensal Abrangência: Brasil, R..."
7,Periodicidade: Mensal Abrangência: Brasil O...,Periodicidade: Mensal Abrangência: Brasil O...,Periodicidade: Mensal Abrangência: Brasil O...,Periodicidade: Mensal Abrangência: Brasil O...,Periodicidade: Mensal Abrangência: Brasil O...
9,"Periodicidade: Mensal Abrangência: Brasil, G...","Periodicidade: Mensal Abrangência: Brasil, G...","Periodicidade: Mensal Abrangência: Brasil, G...","Periodicidade: Mensal Abrangência: Brasil, G...","Periodicidade: Mensal Abrangência: Brasil, G..."
11,Periodicidade: Trimestral Abrangência: Brasi...,Periodicidade: Trimestral Abrangência: Brasi...,Periodicidade: Trimestral Abrangência: Brasi...,Periodicidade: Trimestral Abrangência: Brasi...,Periodicidade: Trimestral Abrangência: Brasi...
13,Periodicidade: Anual Abrangência: Brasil O ...,Periodicidade: Anual Abrangência: Brasil O ...,Periodicidade: Anual Abrangência: Brasil O ...,Periodicidade: Anual Abrangência: Brasil O ...,Periodicidade: Anual Abrangência: Brasil O ...
15,"Periodicidade: Mensal Abrangência: Brasil, N...","Periodicidade: Mensal Abrangência: Brasil, N...","Periodicidade: Mensal Abrangência: Brasil, N...","Periodicidade: Mensal Abrangência: Brasil, N...","Periodicidade: Mensal Abrangência: Brasil, N..."
17,Periodicidade: Mensal Abrangência: Brasil e ...,Periodicidade: Mensal Abrangência: Brasil e ...,Periodicidade: Mensal Abrangência: Brasil e ...,Periodicidade: Mensal Abrangência: Brasil e ...,Periodicidade: Mensal Abrangência: Brasil e ...
19,Periodicidade: Mensal Abrangência: Brasil e ...,Periodicidade: Mensal Abrangência: Brasil e ...,Periodicidade: Mensal Abrangência: Brasil e ...,Periodicidade: Mensal Abrangência: Brasil e ...,Periodicidade: Mensal Abrangência: Brasil e ...


In [35]:
df_indicadores.iloc[1:20:2].index

RangeIndex(start=1, stop=20, step=2)

In [36]:
df_indicadores.drop(df_indicadores.iloc[1:20:2].index)

Unnamed: 0,Indicadores econômicos,Último,Anterior,12 meses,No ano
0,IPCA (%),"Último 0,47 mai 2022","Anterior 1,06 abr 2022","12 meses 11,73","No ano 4,78"
2,INPC (%),"Último 0,45 mai 2022","Anterior 1,04 abr 2022","12 meses 11,90","No ano 4,96"
4,IPCA-15 (%),"Último 0,69 jun 2022","Anterior 0,59 mai 2022","12 meses 12,04","No ano 5,65"
6,IPP (%),"Último 1,83 mai 2022","Anterior 2,08 abr 2022","12 meses 19,15","No ano 9,06"
8,Custo do m² (%),"Último 2,17 mai 2022","Anterior 1,21 abr 2022","12 meses 15,44","No ano 5,77"
10,Variação do PIB (%),"Último 1,7 1º tri 2022","Anterior 1,6 4º tri 2021","12 meses 4,7","No ano 1,7"
12,PIB per capita (R$),"Último 35.161,70 2019","Anterior 33.593,82 2018",12 meses -,No ano -
14,Indústria (%),"Último 0,3 mai 2022","Anterior 0,2 abr 2022","12 meses -1,9","No ano -2,6"
16,Comércio (%),"Último 0,9 abr 2022","Anterior 1,4 mar 2022","12 meses 0,8","No ano 2,3"
18,Serviços (%),"Último 0,2 abr 2022","Anterior 1,4 mar 2022","12 meses 12,8","No ano 9,5"


In [37]:
df_indicadores = df_indicadores.drop(df_indicadores.iloc[1:20:2].index)

df_indicadores

Unnamed: 0,Indicadores econômicos,Último,Anterior,12 meses,No ano
0,IPCA (%),"Último 0,47 mai 2022","Anterior 1,06 abr 2022","12 meses 11,73","No ano 4,78"
2,INPC (%),"Último 0,45 mai 2022","Anterior 1,04 abr 2022","12 meses 11,90","No ano 4,96"
4,IPCA-15 (%),"Último 0,69 jun 2022","Anterior 0,59 mai 2022","12 meses 12,04","No ano 5,65"
6,IPP (%),"Último 1,83 mai 2022","Anterior 2,08 abr 2022","12 meses 19,15","No ano 9,06"
8,Custo do m² (%),"Último 2,17 mai 2022","Anterior 1,21 abr 2022","12 meses 15,44","No ano 5,77"
10,Variação do PIB (%),"Último 1,7 1º tri 2022","Anterior 1,6 4º tri 2021","12 meses 4,7","No ano 1,7"
12,PIB per capita (R$),"Último 35.161,70 2019","Anterior 33.593,82 2018",12 meses -,No ano -
14,Indústria (%),"Último 0,3 mai 2022","Anterior 0,2 abr 2022","12 meses -1,9","No ano -2,6"
16,Comércio (%),"Último 0,9 abr 2022","Anterior 1,4 mar 2022","12 meses 0,8","No ano 2,3"
18,Serviços (%),"Último 0,2 abr 2022","Anterior 1,4 mar 2022","12 meses 12,8","No ano 9,5"


In [38]:
df_indicadores = df_indicadores.reset_index(drop=True)
df_indicadores

Unnamed: 0,Indicadores econômicos,Último,Anterior,12 meses,No ano
0,IPCA (%),"Último 0,47 mai 2022","Anterior 1,06 abr 2022","12 meses 11,73","No ano 4,78"
1,INPC (%),"Último 0,45 mai 2022","Anterior 1,04 abr 2022","12 meses 11,90","No ano 4,96"
2,IPCA-15 (%),"Último 0,69 jun 2022","Anterior 0,59 mai 2022","12 meses 12,04","No ano 5,65"
3,IPP (%),"Último 1,83 mai 2022","Anterior 2,08 abr 2022","12 meses 19,15","No ano 9,06"
4,Custo do m² (%),"Último 2,17 mai 2022","Anterior 1,21 abr 2022","12 meses 15,44","No ano 5,77"
5,Variação do PIB (%),"Último 1,7 1º tri 2022","Anterior 1,6 4º tri 2021","12 meses 4,7","No ano 1,7"
6,PIB per capita (R$),"Último 35.161,70 2019","Anterior 33.593,82 2018",12 meses -,No ano -
7,Indústria (%),"Último 0,3 mai 2022","Anterior 0,2 abr 2022","12 meses -1,9","No ano -2,6"
8,Comércio (%),"Último 0,9 abr 2022","Anterior 1,4 mar 2022","12 meses 0,8","No ano 2,3"
9,Serviços (%),"Último 0,2 abr 2022","Anterior 1,4 mar 2022","12 meses 12,8","No ano 9,5"


In [39]:
# Buscar mais detalhes do IPCA-15
elementos_non_sprite = navegador_robozao_master_plus.find_elements(By.CLASS_NAME, 'nonsprite')

len(elementos_non_sprite)

27

In [42]:
elementos_non_sprite[2].get_attribute('innerHTML')

'\n                                IPCA-15 <small>(%)</small>\n                            '

In [43]:
for elemento in elementos_non_sprite:
    if "IPCA-15" in elemento.get_attribute("innerHTML"):
        break

elemento.get_attribute('innerHTML')    

'\n                                IPCA-15 <small>(%)</small>\n                            '

In [44]:
# Simulando um clique no elemento!
elemento.click()

In [45]:
link_sidra = navegador_robozao_master_plus.find_element(By.PARTIAL_LINK_TEXT, "Sidra - Tabelas de resultados")

link_sidra

<selenium.webdriver.remote.webelement.WebElement (session="bb4546c8f61966a33f170856119d0f70", element="942d5e73-0f5e-46ec-ad4d-6208991e68ec")>

In [46]:
link_sidra.click()

In [47]:
# Verificar se está na página certa
assert "SIDRA" in navegador_robozao_master_plus.title

In [48]:
seta = navegador_robozao_master_plus.find_element(By.CLASS_NAME, "glyphicon-download")

seta

<selenium.webdriver.remote.webelement.WebElement (session="bb4546c8f61966a33f170856119d0f70", element="29fbc5d6-4eb5-4395-963b-064bb889bc4e")>

In [49]:
seta.click()

In [50]:
link_xlsx = navegador_robozao_master_plus.find_element(By.XPATH, "//a[@title='Exportar em XLSX']")

link_xlsx

<selenium.webdriver.remote.webelement.WebElement (session="bb4546c8f61966a33f170856119d0f70", element="51ed06bb-1af0-4a79-ac70-891290e52cfe")>

In [51]:
link_xlsx.click()

In [56]:
navegador_robozao_master_plus.back()

In [58]:
# Vamos fazer uma pesquisa textual no site
caixa_pesquisa = navegador_robozao_master_plus.find_element(By.NAME, 'searchword')

caixa_pesquisa

<selenium.webdriver.remote.webelement.WebElement (session="bb4546c8f61966a33f170856119d0f70", element="7e80bc23-e150-44a4-8165-a837597abe14")>

In [67]:
caixa_pesquisa.send_keys("IGPM")

In [68]:
caixa_pesquisa.send_keys(Keys.RETURN)