<a href="https://colab.research.google.com/github/lauraemmanuella/DataScience/blob/main/2_Web_Scraping_com_Selenium.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Selenium

> **O Selenium (http://www.seleniumhq.org/) é uma ferramenta eficaz para web scraping, desenvolvida originalmente para teste de sites**. Atualmente, é usado também quando se precisa de uma imagem exata dos sites – conforme são apresentados em um navegador. O Selenium funciona fazendo os navegadores carregarem o site de modo automático, obtendo os dados necessários e até mesmo capturando imagens de tela ou verificando se determinadas ações ocorrem no site.

Mitchell, Ryan. Web Scraping com Python (p. 206). Novatec Editora. Edição do Kindle. 

https://www.letscode.com.br/blog/aprenda-a-utilizar-o-selenium-para-web-scraping


> "**O Selenium é um webdriver, ou seja, uma ferramenta  que permite simular um usuário real utilizando um navegador**. Desde a sua criação, ele é usado como uma ferramenta de testes automatizados. Ou seja, **pode-se acionar uma ferramenta para rodar, capaz de simular a entrada de um usuário no site e verificar o seu funcionamento corretamente**. No entanto, hoje, ele se tornou uma ferramenta geral de manipulação de sites e também é utilizado para web scraping"

## Porque usar o Selenium para web scraping

>"Por exemplo, se utilizarmos a biblioteca requests do Python para obter o código de 2 sites, a definição de Python na Wikipedia e o site do framework de javascript React, o resultado será diferente. **O primeiro retorna o site já montado, exatamente como vemos ao abrir o site pelo navegador. Já no segundo caso, temos um site que é gerado dinamicamente e que, portanto, ainda não contém os dados que queremos obter no meio do HTML**. Logo, esse é um dos motivos para utilizar o Selenium, **pois precisamos aguardar que todo esse processamento seja feito pelo navegador, para depois buscarmos os dados na página**"


**Documentação**

https://selenium-python.readthedocs.io/locating-elements.html

https://selenium-python.readthedocs.io/api.html

In [None]:
import requests as rq

resposta_python = rq.get("https://pt.wikipedia.org/wiki/Python")
texto_python = resposta_python.text

In [None]:
print(texto_python)

In [None]:
resposta_react = rq.get("https://pt-br.reactjs.org")
texto_react = resposta_react.text

In [None]:
print(texto_react)

> "O Selenium disponibiliza uma maneira simplificada de se interagir com browsers como o Google Chrome, Mozilla Firefox e Internet Explorer, fazendo com que ao explorar o conteúdo das páginas você tenha uma experiência bem próxima da qual um usuário teria"

> Quando o usa, você pode especificar qual Webdriver você vai utilizar. Aqui vamos utilizar o ChromeDriver, uma ferramenta de código aberto que possibilita a comunicação do selenium com o Google Chrome

https://medium.com/nexoos/usando-selenium-chrome-driver-e-capybara-para-automatizar-relat%C3%B3rios-web-459f949c75e5


## Instalações

In [None]:
!pip install -U selenium
!apt-get update #atualiza a lista das versões dos pacotes disponíveis
!apt install chromium-chromedriver

### Importa e instancia webdriver Chrome 

In [None]:
from selenium import webdriver

options = webdriver.ChromeOptions()
options.add_argument('--headless') # não renderiza parte gráfica
options.add_argument('--no-sandbox') #obrigatório, caso contrário gera erro, pois está abrindo como root e exige --no-sandbox

#Veja mais opções aqui:
#https://peter.sh/experiments/chromium-command-line-switches/

driver = webdriver.Chrome(options = options)

## Exemplo 1

https://www.youtube.com/watch?v=eHZ_d0bINkM

In [None]:
url = 'https://covid.saude.gov.br/'
driver.get(url)

In [None]:
print(driver.current_url)

https://covid.saude.gov.br/


In [None]:
csv_button = driver.find_element_by_xpath('/html/body/app-root/ion-app/ion-router-outlet/app-home/ion-content/div[1]/div[2]/ion-button')

In [None]:
csv_button.click()

Comandos selenium de busca (retornam WebElements ou Exceção noSuchElementException):

URL: https://selenium-python.readthedocs.io/locating-elements.html#locating-elements

* find_element_by_class_name(className)
* find_element_by_id
* find_element_by_css_selector
* find_element_by_link_text (por texto de href)
* find_element_by_partial_link_text (por pedaço de texto de href)
* find_element_by_tag_name
* find_element_by_xpath
    
Estes comandos retornam a primeira ocorrência. Para encontrar todas, as funções acima possuem a versão que retorna lista trocando _element por _elements

* find_elements_by_id etc.

## Exemplo 2

In [None]:
driver.get('https://www.infomoney.com.br/')

driver.implicitly_wait(3) # espera alguns segundos para a página carregar

dados1 = driver.find_element_by_id('high').text
dados2 = driver.find_elements_by_id('high')[0].text

print(dados1)
print("-----")
print(dados2)

CSNA3 +7.97% R$ 21,39
VIVT3 +6.81% R$ 53,00
TIMS3 +5.14% R$ 13,48
BIDI11 +4.77% R$ 40,81
CYRE3 +4.06% R$ 15,12
-----
CSNA3 +7.97% R$ 21,39
VIVT3 +6.81% R$ 53,00
TIMS3 +5.14% R$ 13,48
BIDI11 +4.77% R$ 40,81
CYRE3 +4.06% R$ 15,12


  """
  


## Exemplo 3

https://medium.com/data-hackers/web-scraping-com-python-para-pregui%C3%A7osos-unindo-beautifulsoup-e-selenium-parte-2-8cfebf4f34e

In [None]:
import requests as rq
from bs4 import BeautifulSoup

In [None]:
url = 'https://www.telelistas.net/rn/natal'

response = rq.get(url) 
bs = BeautifulSoup(response.text,'html.parser') #Cria objeto BeautifulSoup com analisador de HTML (parser)

In [None]:
links = bs.find_all('a', href=True)[1:] #pega do segundo em diante, pq o primeiro é a logo
print(len(links))
print(links[0].get_text())
print(links[0]['href']) #pega o href

195
Academias Desportivas
/rn/natal/academias+desportivas


In [None]:
setores=[]
contagem = []
i = 0
for a in bs.find_all('a', href=True)[1:]:
  setores.append(a.text)
  print(a.text)
  print('https://www.telelistas.net'+a['href'])
  driver.get('https://www.telelistas.net'+a['href'])
  driver.implicitly_wait(5) 
  con = driver.find_element_by_xpath("//div[contains(text(),'Pág')]") #https://www.codegrepper.com/code-examples/whatever/xpath+contains%28text%29

  contagem.append(con.text)  
  print(con.text)
  print("##")
  i+=1
  if i == 10:
    break
        


Academias Desportivas
https://www.telelistas.net/rn/natal/academias+desportivas


  # Remove the CWD from sys.path while we load stuff.


Página 1 de 5
##
Acessórios para Automóveis
https://www.telelistas.net/rn/natal/acessorios+para+automoveis
Página 1 de 7
##
Advogado
https://www.telelistas.net/rn/natal/advogado
Página 1 de 21
##
Agências de Turismo
https://www.telelistas.net/rn/natal/agencias+de+turismo
Página 1 de 10
##
Alarmes
https://www.telelistas.net/rn/natal/alarmes
Página 1 de 2
##
Aluguel de Automóveis
https://www.telelistas.net/rn/natal/aluguel+de+automoveis
Página 1 de 8
##
Aluguel de Brinquedos
https://www.telelistas.net/rn/natal/aluguel+de+brinquedos
Página 1 de 1
##
Aluguel de Casas de Festas
https://www.telelistas.net/rn/natal/aluguel+de+casas+de+festas
Página 1 de 1
##
Aluguel de Equipamento de Som e Iluminação
https://www.telelistas.net/rn/natal/aluguel+de+equipamento+de+som+e+iluminacao
Página 1 de 2
##
Aluguel de Ônibus
https://www.telelistas.net/rn/natal/aluguel+de+onibus
Página 1 de 2
##


In [None]:
setores

['Academias Desportivas',
 'Acessórios para Automóveis',
 'Advogado',
 'Agências de Turismo',
 'Alarmes',
 'Aluguel de Automóveis',
 'Aluguel de Brinquedos',
 'Aluguel de Casas de Festas',
 'Aluguel de Equipamento de Som e Iluminação',
 'Aluguel de Ônibus']

In [None]:
contagem

['Página 1 de 5',
 'Página 1 de 7',
 'Página 1 de 21',
 'Página 1 de 10',
 'Página 1 de 2',
 'Página 1 de 8',
 'Página 1 de 1',
 'Página 1 de 1',
 'Página 1 de 2',
 'Página 1 de 2']

In [None]:
for count, i in enumerate(contagem):
  if len(i)>1:
    contagem[count] = i.split('de ')[1]
print(len(contagem))

10


In [None]:
contagem

['5', '7', '21', '10', '2', '8', '1', '1', '2', '2']