# Teoria

## O que é

A coleta de dados web, ou raspagem web, é uma forma de mineração que permite a extração de dados de sites da web convertendo-os em informação estruturada para posterior análise. O tipo mais básico de coleta é o download manual das páginas, copiando e colando o conteúdo, e isso pode ser feito por qualquer pessoa. Contudo, essa técnica geralmente é feita através de um software que simula uma navegação humana por diversos sites, extraindo informações específicas. É um campo com ativa evolução que compartilha um objetivo comum com a visão da web semântica, uma iniciativa ambiciosa que ainda requer avanços no processamento de texto, compreensão semantical, inteligência artificial e interação homem-computador. A coleta de dados web é muito semelhante à indexação web (utilizado pela maioria dos motores de busca), mas a motivação final é muito diferente. A indexação web é usada para ajudar a tornar os motores de busca mais eficientes, já a coleta de dados é tipicamente usada para diferentes razões, como comparação de preços online, monitoramentos meteorológicos, pesquisas de mercado, coleta de dados governamentais, monitoramento de dados e, em alguns casos, roubo.

https://pt.wikipedia.org/wiki/Coleta_de_dados_web

<img src='./img/alternativas.png'>

<img src='./img/tecnicas.png'>

## Cases

<b> Disputa envolvendo empresas de recolocação profissional </b>

Em 2003, Gelre Informática S/C Ltda. ajuizou ação de indenização contra Catho On Line S/C Ltda alegando que a Catho acessou de forma anormal o sítio eletrônico da Gelre com o objetivo de capturar dados que não estariam disponíveis da mesma forma se o acesso tivesse ocorrido como um cliente-usuário.

Nesse contexto, a Catho foi condenada a pagar R$ 13,6 milhões à concorrente Gelre por ter se apropriado de quase 300 mil currículos entre 2001 e 2002 com o objetivo de oferecer os seus serviços a quem procurava emprego.

De acordo com a sentença do então juiz de Direito, e atual desembargador, Luís Mario Galbetti, na época da 33ª Vara Cível de São Paulo, as principais provas contra a Catho foram encontradas em computadores da própria empresa apreendidos após determinação da Justiça. Segundo o juiz, funcionários da Catho se cadastraram no site da Gelre e passaram a usar programas para capturar currículos da concorrente.

O esquema começou a ser descoberto quando a Gelre identificou uma movimentação atípica em seus bancos de dados. Um rastreamento dos acessos aos currículos levou os peritos a computadores em escritórios da Catho, que foram apreendidos sob determinação judicial.

A perícia realizada neste processo indicou que, na comparação dos bancos de dados da Catho e da Gelre foram encontrados 272.479 currículos exatamente iguais, razão pela qual a Catho foi condenada ao pagamento de indenização no valor de R$ 13,6 milhões. Observando que no confronto dos 3,8 milhões de endereços da Catho com os 499 mil da Gelre foram encontrados 272.479 endereços eletrônicos coincidentes, o Juiz arbitrou como valor indenizatório devido á Gelre o montante de BRL 13.623.950,00. Para encontrar este valor este magistrado levou em conta o valor cobrado pela Catho de BRL 50,00 por mês por currículo inserido.

https://www.ldsoft.com.br/blogs/riscos-envolvendo-a-pratica-de-scraping-a-luz-do-ordenamento-juridico-nacional/

<b> Alguns outros casos </b>
https://jaxenter.com/data-scraping-cases-165385.html

## Provedores de serviço

<table>
<tr>
    <td align='center'><b>Octoparse</b></td>
    <td align='center'><b>80Legs</b></td>
    <td align='center'><b>Mozenda</b></td>
    <td align='center'><b>Import.io</b></td>
<tr>
    <td>
        <img src="./img/octoparse.jpg">Octoparse
    </td>
    <td>
        <img src="./img/mozenda.jpg">Mozenda
    </td>
    <td>
        <img src="./img/80legs.png">80Legs
    </td>
    <td>
        <img src="./img/import.io.jpg">Import.io
    </td>

</table>

https://elemento.ag/blog/ferramentas-web-scrapping-para-2020/

## HTML

<img src='https://cdn-images-1.medium.com/max/1000/0*ETFzXPCNHkPpqNv_.png'>

Referência: https://www.w3schools.com/

# Prática

## Páginas estáticas

Referência: https://www.w3schools.com/

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.DataFrame.from_dict({'a':[1,2,3],'b':[4,5,6]})
df

Unnamed: 0,a,b
0,1,4
1,2,5
2,3,6


In [3]:
print(df.to_html())

<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>a</th>
      <th>b</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>1</td>
      <td>4</td>
    </tr>
    <tr>
      <th>1</th>
      <td>2</td>
      <td>5</td>
    </tr>
    <tr>
      <th>2</th>
      <td>3</td>
      <td>6</td>
    </tr>
  </tbody>
</table>


In [4]:
#f = open('aula.html', 'x') # x -> create, w -> write, r -> read, a -> append (escreve no final)
f = open('aula.html', 'w')
f.write(df.to_html())
f.close()
f = open('aula.html', 'r')
f.read()

'<table border="1" class="dataframe">\n  <thead>\n    <tr style="text-align: right;">\n      <th></th>\n      <th>a</th>\n      <th>b</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>0</th>\n      <td>1</td>\n      <td>4</td>\n    </tr>\n    <tr>\n      <th>1</th>\n      <td>2</td>\n      <td>5</td>\n    </tr>\n    <tr>\n      <th>2</th>\n      <td>3</td>\n      <td>6</td>\n    </tr>\n  </tbody>\n</table>'

In [5]:
type(f)

_io.TextIOWrapper

In [6]:
f = open('aula.html', 'r')
print(f.read())

<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>a</th>
      <th>b</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>1</td>
      <td>4</td>
    </tr>
    <tr>
      <th>1</th>
      <td>2</td>
      <td>5</td>
    </tr>
    <tr>
      <th>2</th>
      <td>3</td>
      <td>6</td>
    </tr>
  </tbody>
</table>


----
<font color='red' size=5> Abrindo o arquivo gerado ('aula.html') no navegador (comando a seguir ou através do windows explorer).</font>

----


In [7]:
!aula.html

/bin/bash: aula.html: comando não encontrado


### Beautiful Soup
Referência: https://www.crummy.com/software/BeautifulSoup/bs4/doc/

In [8]:
from bs4 import BeautifulSoup
f = open('aula.html', 'r')
soup = BeautifulSoup(f, 'html.parser')
soup

<table border="1" class="dataframe">
<thead>
<tr style="text-align: right;">
<th></th>
<th>a</th>
<th>b</th>
</tr>
</thead>
<tbody>
<tr>
<th>0</th>
<td>1</td>
<td>4</td>
</tr>
<tr>
<th>1</th>
<td>2</td>
<td>5</td>
</tr>
<tr>
<th>2</th>
<td>3</td>
<td>6</td>
</tr>
</tbody>
</table>

In [9]:
tr = soup.find_all('tr')
print(len(tr))
tr

4


[<tr style="text-align: right;">
 <th></th>
 <th>a</th>
 <th>b</th>
 </tr>,
 <tr>
 <th>0</th>
 <td>1</td>
 <td>4</td>
 </tr>,
 <tr>
 <th>1</th>
 <td>2</td>
 <td>5</td>
 </tr>,
 <tr>
 <th>2</th>
 <td>3</td>
 <td>6</td>
 </tr>]

In [10]:
tr[0]

<tr style="text-align: right;">
<th></th>
<th>a</th>
<th>b</th>
</tr>

In [11]:
tr[1]

<tr>
<th>0</th>
<td>1</td>
<td>4</td>
</tr>

In [12]:
tr[1].td

<td>1</td>

In [13]:
td = tr[1].find_all('td')
td

[<td>1</td>, <td>4</td>]

In [14]:
td[0]

<td>1</td>

In [15]:
td[0].text

'1'

In [16]:
f = open('aula.html', 'a')
df = pd.DataFrame.from_dict({'a':[2,4,6],'b':[8,10,12]})
f.write(df.to_html(border=5, classes='exemplo'))
f.close()

In [17]:
from bs4 import BeautifulSoup
f = open('aula.html', 'r')
soup = BeautifulSoup(f, 'html.parser')
table = soup.find_all('table', border = '5')

In [18]:
table

[<table border="5" class="dataframe exemplo">
 <thead>
 <tr style="text-align: right;">
 <th></th>
 <th>a</th>
 <th>b</th>
 </tr>
 </thead>
 <tbody>
 <tr>
 <th>0</th>
 <td>2</td>
 <td>8</td>
 </tr>
 <tr>
 <th>1</th>
 <td>4</td>
 <td>10</td>
 </tr>
 <tr>
 <th>2</th>
 <td>6</td>
 <td>12</td>
 </tr>
 </tbody>
 </table>]

In [19]:
f = open('aula.html', 'r')
print(f.read())
f.close()

<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>a</th>
      <th>b</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>1</td>
      <td>4</td>
    </tr>
    <tr>
      <th>1</th>
      <td>2</td>
      <td>5</td>
    </tr>
    <tr>
      <th>2</th>
      <td>3</td>
      <td>6</td>
    </tr>
  </tbody>
</table><table border="5" class="dataframe exemplo">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>a</th>
      <th>b</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>2</td>
      <td>8</td>
    </tr>
    <tr>
      <th>1</th>
      <td>4</td>
      <td>10</td>
    </tr>
    <tr>
      <th>2</th>
      <td>6</td>
      <td>12</td>
    </tr>
  </tbody>
</table>


#### Exercício (tempo previsto: <10 min)

- A partir do arquivo 'exercicio01.html', construa um código que imprima os seguintes valores:
  - Célula que está na 1a COLUNA da 2a LINHA da tabela com id 1
  - Última célula da tabela da classe exemplo
  - Título da 1a coluna 


In [20]:
!exercicio01.html

/bin/bash: exercicio01.html: comando não encontrado


In [21]:
f = open('exercicio01.html', 'r')
soup = BeautifulSoup(f, 'html.parser')
soup

FileNotFoundError: [Errno 2] No such file or directory: 'exercicio01.html'

In [None]:
table = soup.find_all('table', id = '1')
table

In [None]:
type(table)

In [None]:
rows = table[0].find_all('tr')
rows

In [None]:
values = rows[2].find_all('td')
values[0].text

In [None]:
%load solucao_1.py

In [None]:
f = open('exercicio01.html', 'r')
soup = BeautifulSoup(f, 'html.parser')
table = soup.find_all('table', id = '1')
rows = table[0].find_all('tr')
values = rows[2].find_all('td')
values[0].text

In [None]:
f = open('exercicio01.html', 'r')
BeautifulSoup(f, 'html.parser').find_all('table', id = '1')[0].find_all('tr')[2].find_all('td')[0].text

### Extensão Selector Gadget
https://www.crummy.com/software/BeautifulSoup/bs4/doc/

In [None]:
import requests

pagina = requests.get('https://www.crummy.com/software/BeautifulSoup/bs4/doc/')

In [None]:
pagina.content

In [None]:
soup_2 = BeautifulSoup(pagina.content, 'html.parser')

In [None]:
table = soup_2.select('.sphinxsidebarwrapper .internal')
for i in table:
    print(i.text)

In [None]:
table[0].text

#### Exercício
Usando o selector gadget, imprima a lista da primeira página do site da Amazon com os livros de 'data science'

In [None]:
####### ----- Escreva seu código aqui ----- #######

In [None]:
# %load solucao_2.py
url = 'https://www.amazon.com.br/s?k=data+science&__mk_pt_BR=%C3%85M%C3%85%C5%BD%C3%95%C3%91&ref=nb_sb_noss_2'
pagina = requests.get(url)
soup_2 = BeautifulSoup(pagina.content, 'html.parser')
table = soup_2.select('.a-color-base.a-text-normal')
for i in table:
    print(i.text)

## Páginas dinâmicas

Em páginas dinâmicas, é necessário interagir com o site para que ele gere, dinamicamente, os dados de interesse.

In [None]:
f = open('aula.html', 'a')
f.write('<p></p>')
f.write('<p></p>')
f.write('<form oninput="x.value=parseInt(a.value)+parseInt(b.value)"><input type="range" id="a" value="50">+<input type="number" id="b" value="25">=<output name="x" for="a b"></output></form>')
f.close()

In [None]:
!aula.html

### Selenium

Refência: https://selenium-python.readthedocs.io/

In [None]:
from selenium import webdriver

# no WSL
# driver = webdriver.Chrome('/usr/bin/chromedriver')

# driver = webdriver.Chrome(executable_path='./chr_drv_84/chromedriver.exe')
driver = webdriver.Chrome(executable_path='./chromedriver.exe')



In [None]:
from requests import get
#url que iremos analisar
url = 'https://groceries.asda.com/cat/home-entertainment/_/102592'
response = get(url)

In [None]:
print(response.content)

In [None]:
# chamada da página, deve abrir também a página on browser controlado pelo Selenium
driver.get('https://groceries.asda.com/cat/home-entertainment/_/102592')

In [None]:
# utiliza o método que retorna uma lista com diversos elementos, através do nome da classe
produtosClass = driver.find_elements_by_class_name('co-product__anchor')
type(produtosClass)

In [None]:
print(len(produtosClass))
# imprime os elementos da lista
for i in range(len(produtosClass)):
    print(produtosClass[i].text)

In [None]:
"""
//*[@id="main-content"]/main/div[9]/div[1]/ul/li[3]/div/div[2]/div[1]/h3/a
//*[@id="main-content"]/main/div[9]/div[1]/ul/li[4]/div/div[2]/div[1]/h3/a
//*[@id="main-content"]/main/div[9]/div[1]/ul/li[19]/div/div[2]/div[1]/h3/a
"""


In [None]:
produtosXpath = driver.find_elements_by_xpath('//*[@id="main-content"]/main/div[9]/div[1]/ul/li[2]/div/div[2]/div[1]/h3/a')
print(len(produtosXpath), type(produtosXpath))
produtosXpath[0].text

In [None]:
#//*[@id="main-content"]/main/div[6]/div[1]/ul/li[3]/div/div[2]/div[1]/h3/a
produtosXpath = driver.find_elements_by_xpath('//*[@id="main-content"]/main/div[9]/div[1]/ul/li[3]/div/div[2]/div[1]/h3/a')
print(len(produtosXpath))
for i in range(len(produtosXpath)):
    print(produtosXpath[i].text)

In [None]:
#//*[@id="main-content"]/main/div[9]/div[1]/ul/li[2]/div/div[2]/div[1]/h3/a
#//*[@id="main-content"]/main/div[9]/div[1]/ul/li[3]/div/div[2]/div[1]/h3/a
#//*[@id="main-content"]/main/div[6]/div[1]/ul/li[5]/div/div[2]/div[1]/h3/a

produtosXpath = driver.find_elements_by_xpath('//*[@id="main-content"]/main/div[9]/div[1]/ul/li[*]/div/div[2]/div[1]/h3/a')
print(len(produtosXpath))
for i in range(len(produtosXpath)):
    print(produtosXpath[i].text)

#### Exercício (tempo previsto: <15 min)
- Imprima os preços dos produtos da 1a página

In [None]:
####### ----- Escreva seu código aqui ----- #######

In [None]:
price_class = driver.find_elements_by_class_name('co-product__price')
print(len(price_class))
for i in range(len(price_class)):
    print(price_class[i].text)

#### Exercício (tempo previsto: <10 min)
- Abra a página do Whiskas de 2 Kg

In [None]:
####### ----- Escreva seu código aqui ----- #######

In [None]:
# %load solucao_3.py
from selenium.webdriver.common.keys import Keys
driver.get('https://groceries.asda.com/cat/home-entertainment/_/102592')


In [None]:
search_term="whiskas"
# localizar a caixa de pesquisa
searchTextBox=driver.find_element_by_id("search")
# limpar a caixa de pesquisa
searchTextBox.clear()
# incluir o termo de pesquisa
searchTextBox.send_keys(search_term)

In [None]:
# buscar o termo no site
searchTextBox.send_keys(Keys.RETURN)

In [None]:
volume_class = driver.find_elements_by_class_name('co-product__volume')
index_list = []
print(len(volume_class))
for i in range(len(volume_class)):
    if volume_class[i].text == '2kg':
        index_list.append(i)
index_list

In [None]:
link_class = driver.find_elements_by_class_name('co-product__anchor')
for i in index_list:
    print(link_class[i].text)

In [None]:
element = link_class[0]
element.click()

In [None]:
driver.page_source

#### Exercício (tempo previsto: 30-60 min)

- Imprima o preço de qualquer veículo com suas informações a partir do site da FIPE

In [None]:
####### ----- Escreva seu código aqui ----- #######

In [None]:
from selenium import webdriver

driver = webdriver.Chrome(executable_path='./chr_drv_85/chromedriver.exe')

In [None]:
driver.get('https://veiculos.fipe.org.br/')

In [None]:
#front > div.content > div.tab.vertical.tab-veiculos > ul > li:nth-child(1) > a > div.title
driver.find_element_by_css_selector('#front > div.content > div.tab.vertical.tab-veiculos > ul > li:nth-child(1) > a > div.title').click()

In [None]:
driver.find_element_by_id('selectMarcacarro').click()

In [None]:
ordem = '4'
opcao_marca = '#selectMarcacarro > option:nth-child(' + ordem + ')'

In [None]:
opcao_marca

In [None]:
driver.find_element_by_css_selector(opcao_marca).click()

In [None]:
driver.find_element_by_id('selectAnoModelocarro').click()

In [None]:
ordem = '2'
opcao_modelo = '#selectAnoModelocarro > option:nth-child('+ ordem + ')'
driver.find_element_by_css_selector(opcao_modelo).click()

In [None]:
#selectAnocarro
driver.find_element_by_id('selectAnocarro').click()

In [None]:
ordem = '1'

opcao_ano = '#selectAnocarro > option:nth-child('+ ordem + ')'
#elemento = driver.find_element_by_css_selector(opcao_ano)
driver.find_element_by_xpath("/html/body/div[1]/section[2]/div[1]/div[2]/ul/li[1]/div/article[1]/div[2]/div[2]/div[2]/select/option[2]").click()

In [None]:
driver.find_element_by_css_selector('#buttonPesquisarcarro').click()

In [None]:
preco = driver.find_element_by_css_selector('#resultadoConsultacarroFiltros > table > tbody > tr.last > td:nth-child(2) > p')
preco.text

In [None]:
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.common.exceptions import NoSuchElementException

driver = webdriver.Chrome(executable_path='./chr_drv_85/chromedriver.exe')
driver.get('https://veiculos.fipe.org.br/')
driver.find_element_by_css_selector('#front > div.content > div.tab.vertical.tab-veiculos > ul > li:nth-child(1) > a > div.title').click()

# Para configurar uma espera condicional, utilizar o bloco abaixo. O código a seguir aguarda até que o elemento com css_selector 
# 'selectMarcacarro_chosen' seja clicável
lista_marcas = WebDriverWait(driver, 2).until(EC.element_to_be_clickable((By.CSS_SELECTOR,'#selectMarcacarro_chosen')))
lista_marcas.click()

# Tambem podemos configurar um código para exibir uma mensagem em caso de erro
try:
    ordem = '3'
    opcao_marca = '#selectMarcacarro > div > ul > li:nth-child('+ ordem + ')'
    driver.find_element_by_css_selector(opcao_marca).click()
except NoSuchElementException:
    print('elemento - ', opcao_marca, ' - não encontrado')

lista_marcas.click()
ordem = '3'
opcao_marca = '#selectMarcacarro_chosen > div > ul > li:nth-child('+ ordem + ')'
driver.find_element_by_css_selector(opcao_marca).click()

driver.find_element_by_id('selectAnoModelocarro_chosen').click()
ordem = '2'
opcao_modelo = '#selectAnoModelocarro_chosen > div > ul > li:nth-child('+ ordem + ')'
driver.find_element_by_css_selector(opcao_modelo).click()

driver.find_element_by_id('selectAnocarro_chosen').click()
ordem = '2'
opcao_ano = '#selectAnocarro_chosen > div > ul > li:nth-child('+ ordem + ')'
driver.find_element_by_css_selector(opcao_ano).click()

driver.find_element_by_css_selector('#buttonPesquisarcarro').click()

preco = driver.find_element_by_css_selector('#resultadoConsultacarroFiltros > table > tbody > tr.last > td:nth-child(2) > p')
print(preco.text)

driver.quit()

### Selenium IDE


![Selenium](./img/seleniumIDE.png)

https://www.seleniumhq.org/selenium-ide/

In [None]:
# executable_path='./chromedriver_win32/chromedriver.exe'
# %load test_scrapping.py
# Generated by Selenium IDE
import pytest
import time
import json
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.support import expected_conditions
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
"""
======================================= LER COM ATENÇÃO =======================================
1. O arquivo cria uma classe 'TestScrapping'. Portanto, para ser utilizada, precisa ser criada uma instância dessa classe. Por isso a célula 
> teste = TestScrapping()

2 A classe possui um método "setup_method" que nada mais faz do que inicializar um webdriver. Por isso a célula
> teste.setup_method()
obs. O código que vem do gravador não inclui o path. É preciso ajustar isso antes de usar.

3 A função 'test_scrapping' é um método da classe 'TestScrapping',  que é a parte do código que efetivamente executa o teste. Por isso a célula 
> teste.test_scrapping()

4. Não consegui extrair do gravador um código que funcionasse exatamente como na gravação. Copiei o código que utilizei no exercício. Curiosamente, quando dentro da classe, foi necessário utilizar a funcionalidade da espera condicional para o primeiro elemento do processo. Sem isso não funcionava.
======================================= LER COM ATENÇÃO =======================================
"""
class TestScrapping():
  def setup_method(self, method):
    self.driver = webdriver.Chrome(executable_path='./chromedriver_win32/chromedriver.exe')
    self.vars = {}
  
  def teardown_method(self, method):
    self.driver.quit()
  
  def test_scrapping(self):
    self.driver.get("https://veiculos.fipe.org.br/")
#    self.driver.find_element_by_css_selector('#front > div.content > div.tab.vertical.tab-veiculos > ul > li:nth-child(1) > a > div.title').click()

    try:
        element = WebDriverWait(self.driver, 10).until(EC.element_to_be_clickable((By.CSS_SELECTOR,'#front > div.content > div.tab.vertical.tab-veiculos > ul > li:nth-child(1) > a > div.title')))
        element.click()
        print('ok')
    except:
        print('elemento não encontrado')
        driver.quit()


    try:
        element = WebDriverWait(self.driver, 10).until(EC.element_to_be_clickable((By.CSS_SELECTOR,'#selectMarcacarro')))
        element.click()
        print('ok')
    except:
        print('elemento não encontrado')
        driver.quit()


    #driver.find_element_by_id('selectMarcacarro').click()
    ordem = '10'
    opcao_marca = '#selectMarcacarro > option:nth-child('+ ordem + ')'
    self.driver.find_element_by_css_selector(opcao_marca).click()

    self.driver.find_element_by_id('selectAnoModelocarro').click()
    ordem = '2'
    opcao_modelo = '#selectAnoModelocarro > option:nth-child('+ ordem + ')'
    self.driver.find_element_by_css_selector(opcao_modelo).click()

    self.driver.find_element_by_id('selectAnocarro').click()
    ordem = '2'
    opcao_ano = '#selectAnocarro > option:nth-child('+ ordem + ')'
    self.driver.find_element_by_css_selector(opcao_ano).click()

    self.driver.find_element_by_css_selector('#buttonPesquisarcarro').click()

    preco = self.driver.find_element_by_css_selector('#resultadoConsultacarroFiltros > table > tbody > tr.last > td:nth-child(2) > p')
    preco.text    

        
        

In [None]:
teste = TestScrapping()

In [None]:
teste.setup_method(method=None)

In [None]:
teste.test_scrapping3()

# Próximos Passos


![Next Steps](./img/next_steps.png)
https://elemento.ag/blog/ferramentas-web-scrapping-para-2020/