# Integração Python e Web

### Objetivo

- Quando integramos o Python com a Web temos 2 objetivos:
    1. Automatizar algum processo que seja feito no seu navegador
    
    2. Puxar informações de sites automaticamente 

Dependendo do seu objetivo, podem existir outras formas de puxar informações de sites diferentes, como APIs, Bibliotecas prontas, etc. Mas o Selenium vai ser sempre uma opção para a gente e por isso é muito bom ter essa carta na manga.

### O que vamos usar

- Selenium -> uma das bibliotecas mais usadas para web-scraping -> navegar na web com código e fazer alguma coisa ou pegar alguma informação.

- Essa é uma biblioteca diferente, porque ela precisa de um driver no seu computador para funcionar. No caso, usaremos o ChromeDriver (disponível para download abaixo da aula)

Como tudo no Python, existem outras bibliotecas como a BeautifulSoup que podem ajudar em tarefas específicas também, mas vamos focar no Selenium por ser a mais usada e ser muito versátil.


Obs: Caso esteja usando o Google Colab, o navegador não vai abrir ativamente no seu computador, ele vai ficar escondido porque abre no computador onde está rodando o código. Para então fazer tudo funcionar, eu gravei um vídeo para você que está na plataforma que repliquei esse passo a passo que encontrei na internet: https://www.it-swarm-pt.tech/pt/selenium/como-podemos-usar-o-selenium-webdriver-em-colab.research.google.com/806263350/

### Projeto Completo

Vamos fazer aqui nesse módulo uma introdução para você entender como funciona e resolver um desafio, mas vamos usar mais e de forma mais completa na Aplicação de Mercado de Trabalho de Automações

### Abrindo um navegador

In [2]:
from selenium import webdriver

driver = webdriver.Chrome()
driver.get("http://www.hashtagtreinamentos.com")
print(driver.title)

Hashtag Treinamentos Aprenda TUDO de Excel, VBA e Power BI Aqui!


# Uma Dica Rápida - Abrir navegador sem mostrar

In [6]:
from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('headless')

driver = webdriver.Chrome(options = chrome_options)
driver.get('http://hashtagtreinamentos.com')

print(driver.title)

Hashtag Treinamentos Aprenda TUDO de Excel, VBA e Power BI Aqui!


https: site tem certificado de segurança
http: não tem o certificado de segurança


# Como funciona "navegar" na Web -> Web-Scraping

- Parâmetros de URL 
- Páginas e Código dos Sites

In [2]:
from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
driver = webdriver.Chrome()
driver.get('http://google.com/search?q=hashtag+treinamentos') # O site da google usa o parâmetro 'q=busca'

# Métodos Úteis para Selenium

1. Apesar de não ser do selenium, a biblioteca time vai ajudar muito a gente, para esperar a página carregar ou esperar algo acontecer.

In [None]:
import time

time.sleep(2) -> espera 2 segundos

2. Para selecionar elementos teremos os find_element e find_elements -> a biblioteca tem vários exemplos disso aqui: https://selenium-python.readthedocs.io/locating-elements.html

3. Clicar em um elemento

4. Para preencher um formulário, usaremos o send_keys. A biblioteca do selenium tem o KEYS que vamos importar porque isso pode ajudar

5. Para selecionar um objeto pelo css dele, podemos usar o css_selector

Podemos seguir a ordem para tentarmos achar:
id -> class -> combinar tag com class usando css_selector('tag.classe')

In [None]:
from selenium import webdriver
import time
# ACESSANDO O SITE, abrindo um novo navegador no chrome:
driver = webdriver.Chrome()
driver.get('https:hashtagtreinamentos.com')
time.sleep(3) #Aguardando o site carregar

# PROCURANDO ELEMENTOS E EDITANDO ELES:
#driver.find_element_by_css_selector('a.btn-laranja').click()

# INSERINDO O NOME NO CAMPO 'fullname'
elementos = driver.find_elements_by_name('fullname')
## podemos descobrir a quantidade de nomes 'fullname' utilizando len(elementos) -> elementos é uma lista!
## ao descobrirmos qual o elemento, podemos utilizar [i] para determinar sua posição na lista
elementos[0].send_keys('Lira')
## ou driver.find_elements_by_name('fullname')[0].send_keys('Lucas')

# INSERINDO O E-MAIL NO CAMPO 'email'
elementos = driver.find_elements_by_name('email')
elementos[0].send_keys('joaoprlira@gmail.com')

# CLICANDO NO BOTÃO
## podemos usar: driver.find_element_by_id('ID formulario').submit() , se não funcionar, usar o .click():
driver.find_element_by_id('_form_173_submit').click()

### XPath

- Vantagem: Serve para qualquer elemento e é fácil de aplicar
- Desvantagem: Dependendo do XPath, alterações mais simples no site podem fazer ele parar de funcionar (coisa que com id e classe é mais difícil de acontecer)

In [5]:
# Vamos preencher o mesmo formulário da última aula e enviar as informações, no site da hashtag
from selenium import webdriver

driver = webdriver.Chrome()

driver.get("https://hashtagtreinamentos.com")

# obs: utilizar aspas simples pois aspas duplas pode confundir o código do xpath
# entrar no site, inspecionar elemento, copiar xpath do elemento e colar aqui:
driver.find_element_by_xpath('//*[@id="fullname"]').send_keys('Lucas')
driver.find_element_by_xpath('////*[@id="email"]"]').send_keys('testeguaragna@gmail.com')
driver.find_element_by_xpath('//*[@id="_form_173_submit"]').click()

NoSuchElementException: Message: no such element: Unable to locate element: {"method":"xpath","selector":"//*[@id="fullname"]"}
  (Session info: chrome=94.0.4606.81)


### Esperar o Elemento carregar

2 métodos:

- WebDriverWait + ExpectedConditions (EC)
    - Nativo do Selenium, menos linhas de código
    - Já vi dar bug e mais chatinho de lembrar
- Loop de espera
    - Criação de uma espera "manual"
    - Nunca abandona

In [6]:
from selenium import webdriver
import time
driver = webdriver.Chrome()
driver.get("https://hashtagtreinamentos.com")
time.sleep(15)
driver.find_element_by_css_selector('i.eicon-close').click()
print('fechou')
# funciona, mas não é o mais eficiente

fechou


In [7]:
# WebDriverWait e EC
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome()
driver.get("https://hashtagtreinamentos.com")

# elemento = WebDriverWait(driver, tempo máximo).until(ExpectedConditions.condição)
elemento = WebDriverWait(driver, 30).until(EC.presence_of_element_located((By.CLASS_NAME, "eicon-close")))

time.sleep(1) # para que não dê tanto erro

elemento.click()
print('fechou')


fechou


In [32]:
# loop
driver = webdriver.Chrome()
driver.get("https://hashtagtreinamentos.com")

while len(driver.find_elements_by_class_name("eicon-close")) == 0:
    time.sleep(1)
time.sleep(1)
driver.find_element_by_class_name('eicon-close').click()

# Desafio - Rotina de Baixar uma Planilha da Web

- Imagine que você trabalhe no Mercado Financeiro e tem que todo dia/semana baixar uma planilha com as cotações do dólar
- Usaremos o site investing.com para baixar esses dados
- O link onde ficam esses dados é: https://br.investing.com/currencies/usd-brl-historical-data
- Escolhemos o site investing.com porque ele é cheio de coisinha chata que vai obrigar a gente a fazer um código completo
- Crie uma conta no site antes de começar, é gratuito

In [12]:
from selenium import webdriver
import time

# Abrindo o Site
##chrome_options = webdriver.ChromeOptions()
##chrome_options.add_argument('headless') # sem abrir o site fica muito mais rápido
##driver = webdriver.Chrome(options=chrome_options)
driver = webdriver.Chrome()
driver.get("https://br.investing.com/currencies/usd-brl-historical-data")
time.sleep(5)

# Aceitando o Pop-up
driver.find_element_by_id('onetrust-accept-btn-handler').click()

# Fechando segundo Pop-up - ele aparece às vezes só...
try:
    driver.find_element_by_class_name('largeBannerCloser').click()
except:
    pass

time.sleep(5)

# Clicando no botão de Download
driver.find_element_by_class_name('downloadBlueIcon').click()

# Preenchendo o E-mail
driver.find_element_by_id("loginFormUser_email").send_keys("lucasguaragna99@gmail.com")

# Preenchendo a senha
driver.find_element_by_id("loginForm_password").send_keys("11721ebi005")

# Clicando para entrar
##driver.find_element_by_id('loginPopupform').submit()  -> nesse caso não funciona
elementos = driver.find_elements_by_css_selector('a.orange')
elementos[-1].click()

# Clicando novamente para baixar a planilha
driver.find_element_by_class_name('downloadBlueIcon').click()

# Desafio Whatsapp: automatizando envio de mensagens

## Cuidados:
- Whatsapp não gosta de nenhum tipo de automatização
- Isso pode dar merda
- Isso não é o uso da API oficial do WPP, o própio WPP tem uma API oficial. Se seu objetivo é enviar mensagens em massa ou criar um robô, use a API do wpp
- Objetivo 100% educacional

## Dito isso, bora automatizar o WhatsApp:
- Vamos usar o Selenium:
    - 2 alternativas: usar o wa.me (mais fácil, mais seguro, mas mais demorado)

In [1]:
import pandas as pd

contatos_df = pd.read_excel('Enviar.xlsx')
display(contatos_df)

Unnamed: 0,Pessoa,Número,Mensagem
0,Diego,PREENCHA SEU NUMERO AQUI,"Coe, ta doidao?"
1,Alon,PREENCHA SEU NUMERO AQUI,"E aí, tudo bem?"
2,Julia,PREENCHA SEU NUMERO AQUI,Oi sumida


In [2]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

navegador = webdriver.Chrome()
navegador.get("https://web.whatsapp.com")

In [3]:
import time
import urllib

# Esperando o login
while len(navegador.find_elements_by_id("side")) < 1:
    time.sleep(1)

# Com o login já feito, bora percorrer o excel:
for i, mensagem in enumerate(contatos_df['Mensagem']):
    pessoa = contatos_df.loc[i, "Pessoa"]
    numero = contatos_df.loc[i, "Número"]
    texto = urllib.parse.quote(f"Oi, {pessoa}! {mensagem}") # precisamos codificar a mensagem antes de enviar no link
    link = f"https://web.whatsapp.com/send?phone={numero}&text={texto}"
    navegador.get(link)
    while len(navegador.find_elements_by_id("side")) < 1:
        time.sleep(1)
    navegador.find_element_by_xpath('').send_keys(Keys.ENTER) # PREENCHER O XPATH DO CAMPO DE ENVIAR MENSAGEM
    time.sleep(10) # pra o wpp não bloquear seu número

# Executando Scripts em Javascript pelo Selenium (Scroll na tela)

- Você consegue, por meio do Selenium, executar comandos javascript no seu navegador

- Isso é essencial para dar scroll na tela, por exemplo, caso seja necessário, como no youtube

In [28]:
# quero pegar uma lista de pelo menos 50 vídeos de Python no Youtube

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

driver = webdriver.Chrome()
driver.get("https://youtube.com")
driver.find_element_by_name("search_query").send_keys("Python")
time.sleep(1)
driver.find_element_by_name("search_query").send_keys(Keys.ENTER)
time.sleep(2)


# Scroll na tela é algo mais fácil, quando temos um scroll na tela toda. Esse caso a parte será ensinado mais a frente (iFrames)
for i in range(20):
    scroll = 10000 * i
    driver.execute_script(f"window.scroll(0, {scroll});") #escrever javascript
    time.sleep(2)

lista_videos = driver.find_elements_by_id('thumbnail')
for video in lista_videos:
    print(video.get_attribute("href")) # pegue o atributo 'href'. Isso nos dará o link dos vídeos

None
https://www.youtube.com/watch?v=-6J3HfX4sbg
https://www.youtube.com/watch?v=vMeKR9Od-N8
https://www.youtube.com/watch?v=zKAAFsovtM4
https://www.youtube.com/watch?v=9PbMX0l9t84
https://www.youtube.com/watch?v=LxetLBCnQis
https://www.youtube.com/watch?v=j7n1xkeUDHA
https://www.youtube.com/watch?v=g36jg5hEYo8
https://www.youtube.com/watch?v=U872VWMv4C0
https://www.youtube.com/watch?v=OzdNh5NrWEc
https://www.youtube.com/watch?v=SvaDIf6uTAc
https://www.youtube.com/watch?v=DsTvT_Fq-Ig
https://www.youtube.com/watch?v=VbBIsoEEs2c
https://www.youtube.com/watch?v=hR1Y9ygkwyM
https://www.youtube.com/watch?v=5D8jYXnend4
https://www.youtube.com/watch?v=U3ASj1L6_sY
https://www.youtube.com/watch?v=jzyF8Z6YYuM
https://www.youtube.com/watch?v=YjtddurtZUU
https://www.youtube.com/watch?v=yBfamIFpucw
https://www.youtube.com/watch?v=iwCcNeHqQv4
https://www.youtube.com/watch?v=cC9aarA1Mhg
https://www.youtube.com/watch?v=jyFqlWOVOC0
https://www.youtube.com/watch?v=PzXZx4rtHeM
https://www.youtube.com/wat

### iFrames - Páginas dentro de Páginas

- Às vezes, você vai fazer tudo certo no Selenium e aparentemente não vai funcionar o seu código

- Possivelmente o elemento que você está tentando selecionar está dentro de um iframe

In [7]:
# Queremos pegar o pontos por jogo mandante da 1ª linha da tabela

link = "https://pbdatatrader.com.br/jogosdodia"

# Normalmente:
from selenium import webdriver
import time

driver = webdriver.Chrome()

driver.get(link)
time.sleep(7)

# Entrar nos iFrames
## Primeiro iFrame
iframe = driver.find_element_by_tag_name("iframe")
driver.switch_to.frame(iframe)
## Segundo iFrame
iframe = driver.find_element_by_tag_name("iframe")
driver.switch_to.frame(iframe)

texto = driver.find_element_by_xpath(r'//*[@id="pvExplorationHost"]/div/div/exploration/div/explore-canvas/div/div[2]/div/div[2]/div[2]/visual-container-repeat/visual-container[19]/transform/div/div[3]/div/visual-modern/div/div/div[2]/div[1]/div[4]/div/div[1]/div[5]/div[1]').text
print(texto)

Étoile du Congo


In [None]:
# Se quisermos voltar para a página principal:
driver.switch_to_default_content()


# Desafio: Caos com o Selenium

### Entrando no site

In [25]:
from selenium import webdriver 
import time

link = "https://pbdatatrader.com.br/jogosdodia"
driver = webdriver.Chrome()
driver.get(link)

### Esperando a página carregar e entrando nos iFrames

In [26]:
# Esperando a página carregar
while len(driver.find_elements_by_tag_name("iframe")) == 0:
    time.sleep(1)

# Entrando nos iframes
iframe = driver.find_element_by_tag_name("iframe")
driver.switch_to_frame(iframe)
iframe = driver.find_element_by_tag_name('iframe')
driver.switch_to_frame(iframe)


  driver.switch_to_frame(iframe)
  driver.switch_to_frame(iframe)


In [10]:
tabela = driver.find_element_by_class_name("innerContainer")
texto = tabela.text

Data
Hora
País
Campeonato
Mandante
Visitante
Pontos por Jogo Mandante
Pontos por Jogo Visitante
Média de Gols do Confronto
% BTTS
% Over 0.5 FT
16/10/2021
16/10/2021
17/10/2021
17/10/2021
17/10/2021
17/10/2021
17/10/2021
18/10/2021
18/10/2021
17/10/2021
18/10/2021
15/10/2021
15/10/2021
15/10/2021
15/10/2021
16/10/2021
16/10/2021
16/10/2021
16/10/2021
16/10/2021
15:00
15:00
15:00
10:30
16:00
18:15
01:00
20:00
13:30
15:00
20:00
14:00
19:10
19:00
07:00
15:00
15:45
15:00
12:15
13:00
Argentina
Argentina
Argentina
South Africa
Brazil
Brazil
Japan
Brazil
Greece
Argentina
Brazil
Africa
Argentina
Brazil
Kenya
Argentina
Argentina
Chile
Greece
Poland
Prim B Metro
Prim B Metro
Prim B Metro
Premier Soccer League
Serie A
Serie A
J2 League
Serie A
Super League
Prim B Metro
Serie B
CAF Confederations Cup
Prim B Nacional
Serie B
Kenyan Premier League
Prim B Metro
Prim B Metro
Primera División
Super League
1. Liga
Acassuso
San Miguel
Cañuelas
Moroka Swallows
Atlético PR
Grêmio
Fagiano Okayama
São Paulo


In [17]:
# Formatando em lista
lista_texto = texto.split("\n")

colunas = lista_texto[:11]
valores = lista_texto[11:] # separados em blocos de 20

# formando um dicionário
dic = {} #{"data": [lista de data], 'hora': [lista de horas] }

for coluna in colunas:
    dic[coluna] = []
    for i in range(20):
        dic[coluna].append(valores[i])
    valores = valores[20:] # jogando fora os 20 primeiros índices


import pandas as pd
tabela_df = pd.DataFrame.from_dict(dic)

Unnamed: 0,Data,Hora,País,Campeonato,Mandante,Visitante,Pontos por Jogo Mandante,Pontos por Jogo Visitante,Média de Gols do Confronto,% BTTS,% Over 0.5 FT
0,16/10/2021,15:00,Argentina,Prim B Metro,Acassuso,Argentino Quilmes,164,97,250,61,90
1,16/10/2021,15:00,Argentina,Prim B Metro,San Miguel,Defensores Unidos,171,150,211,47,97
2,17/10/2021,15:00,Argentina,Prim B Metro,Cañuelas,Los Andes,157,171,211,40,90
3,17/10/2021,10:30,South Africa,Premier Soccer League,Moroka Swallows,Stellenbosch,133,200,204,38,84
4,17/10/2021,16:00,Brazil,Serie A,Atlético PR,Fluminense,175,132,250,59,92
5,17/10/2021,18:15,Brazil,Serie A,Grêmio,Juventude,117,108,212,56,88
6,17/10/2021,01:00,Japan,J2 League,Fagiano Okayama,Matsumoto Yamaga,94,94,191,28,82
7,18/10/2021,20:00,Brazil,Serie A,São Paulo,Corinthians,131,154,154,46,77
8,18/10/2021,13:30,Greece,Super League,Lamia,Aris,50,160,300,75,100
9,17/10/2021,15:00,Argentina,Prim B Metro,Talleres Remedios,Villa San Carlos,150,100,239,57,97


### Implementando o scroll

#### descobrindo qual elemento que daremos o scroll:
#### devemos colocar o código abaixo no console:

##### Código para dar descobrir qual div tem scroll: # lembrar de clicar no local que queremos
var elements = document.getElementsByTagName("div");

for (var i = 0; i < elements.length; i++) { if (elements[i].scrollHeight > document.getElementsByTagName("body")[0].scrollHeight) {
console.log(elements[i]);
console.log(elements[i].scrollHeight);
}}

In [27]:
# Executando o scroll no site

for i in range(200):
    posicao_scroll = 250 * i
    driver.execute_script(f"document.getElementsByClassName('bodyCells')[0].scroll(0, {posicao_scroll})")

    tabela = driver.find_element_by_class_name("innerContainer")
    texto = tabela.text

    # Formatando em lista
    lista_texto = texto.split("\n")

    colunas = lista_texto[:11]
    valores = lista_texto[11:] # separados em blocos de 20

    # formando um dicionário
    dic = {} #{"data": [lista de data], 'hora': [lista de horas] }

    for coluna in colunas:
        dic[coluna] = []
        for i in range(20):
            dic[coluna].append(valores[i])
        valores = valores[20:] # jogando fora os 20 primeiros índices

    tabela_temporaria = pd.DataFrame.from_dict(dic)
    tabela_df = tabela_df.append(tabela_temporaria, ignore_index= True) #ignorar índices

# remover duplicatas
tabela_df = tabela_df.drop_duplicates()
# exibir a minha tabela_df / armazenar tabela df em excel
display(tabela_df)

Unnamed: 0,Data,Hora,País,Campeonato,Mandante,Visitante,Pontos por Jogo Mandante,Pontos por Jogo Visitante,Média de Gols do Confronto,% BTTS,% Over 0.5 FT
0,16/10/2021,15:00,Argentina,Prim B Metro,Acassuso,Argentino Quilmes,164,097,250,61,90
1,16/10/2021,15:00,Argentina,Prim B Metro,San Miguel,Defensores Unidos,171,150,211,47,97
2,17/10/2021,15:00,Argentina,Prim B Metro,Cañuelas,Los Andes,157,171,211,40,90
3,17/10/2021,10:30,South Africa,Premier Soccer League,Moroka Swallows,Stellenbosch,133,200,204,38,84
4,17/10/2021,16:00,Brazil,Serie A,Atlético PR,Fluminense,175,132,250,59,92
...,...,...,...,...,...,...,...,...,...,...,...
4015,17/10/2021,10:00,Africa,CAF Confederations Cup,CFFA,Interclube,200,300,175,25,50
4016,17/10/2021,09:00,Albania,First Division,Besa Kavajë,Lushnja,200,100,225,50,100
4017,17/10/2021,09:00,Albania,First Division,Besëlidhja Lezhë,Burreli,050,125,175,25,75
4018,17/10/2021,09:00,Albania,First Division,Butrinti Sarandë,Vora,300,100,150,25,100


# Gravação Mentoria Automação de Processos com Selenium
Caso queira continuar no tema de Python e Selenium, fizemos há um tempo uma mentoria de cerca de 2hrs focada exclusivamente nisso.

Nessa mentoria eu uso também a parte de automação de envio de e-mails que ensinamos em módulos anteriores, então é uma automação bem completa mesmo, como exercício e desafio para praticarmos.

Essa aula está no Módulo "Gravação dos Encontros ao Vivo", mas vou deixar o link aqui caso queira acessar agora.

Link da Gravação: https://hashtag.eadplataforma.com/lesson/detail/15/3036/

Depois de assistir a aula, você pode voltar aqui e continuar o ritmo normal do curso.

# Gravação Mentoria Introdução a HTML - AULA OPCIONAL
Caso tenha dificuldade em entender a estrutura das páginas/sites que o selenium usa (essa lógica de classes, ids, div, etc.), fizemos há um tempo uma mentoria de cerca de 2hrs focada exclusivamente na explicação de como as páginas da internet são construídas, com HTML.

Essa aula está no Módulo "Gravação dos Encontros ao Vivo", mas vou deixar o link aqui caso queira acessar agora para matar essas dúvidas.

Caso você se sinta confortável até agora com o Selenium, pode pular essa aula, ela é opcional.

Link da Gravação: https://hashtag.eadplataforma.com/lesson/detail/15/3860/

Depois de assistir a aula, você pode voltar aqui e continuar o ritmo normal do curso.