# Teoria

## O que é

A coleta de dados web, ou raspagem web, é uma forma de mineração que permite a extração de dados de sites da web convertendo-os em informação estruturada para posterior análise. O tipo mais básico de coleta é o download manual das páginas, copiando e colando o conteúdo, e isso pode ser feito por qualquer pessoa. Contudo, essa técnica geralmente é feita através de um software que simula uma navegação humana por diversos sites, extraindo informações específicas. É um campo com ativa evolução que compartilha um objetivo comum com a visão da web semântica, uma iniciativa ambiciosa que ainda requer avanços no processamento de texto, compreensão semantical, inteligência artificial e interação homem-computador. A coleta de dados web é muito semelhante à indexação web (utilizado pela maioria dos motores de busca), mas a motivação final é muito diferente. A indexação web é usada para ajudar a tornar os motores de busca mais eficientes, já a coleta de dados é tipicamente usada para diferentes razões, como comparação de preços online, monitoramentos meteorológicos, pesquisas de mercado, coleta de dados governamentais, monitoramento de dados e, em alguns casos, roubo.

https://pt.wikipedia.org/wiki/Coleta_de_dados_web

<img src='./img/alternativas.png'>

<img src='./img/tecnicas.png'>

## Cases

<b> Disputa envolvendo empresas de recolocação profissional </b>

Em 2003, Gelre Informática S/C Ltda. ajuizou ação de indenização contra Catho On Line S/C Ltda alegando que a Catho acessou de forma anormal o sítio eletrônico da Gelre com o objetivo de capturar dados que não estariam disponíveis da mesma forma se o acesso tivesse ocorrido como um cliente-usuário.

Nesse contexto, a Catho foi condenada a pagar R$ 13,6 milhões à concorrente Gelre por ter se apropriado de quase 300 mil currículos entre 2001 e 2002 com o objetivo de oferecer os seus serviços a quem procurava emprego.

De acordo com a sentença do então juiz de Direito, e atual desembargador, Luís Mario Galbetti, na época da 33ª Vara Cível de São Paulo, as principais provas contra a Catho foram encontradas em computadores da própria empresa apreendidos após determinação da Justiça. Segundo o juiz, funcionários da Catho se cadastraram no site da Gelre e passaram a usar programas para capturar currículos da concorrente.

O esquema começou a ser descoberto quando a Gelre identificou uma movimentação atípica em seus bancos de dados. Um rastreamento dos acessos aos currículos levou os peritos a computadores em escritórios da Catho, que foram apreendidos sob determinação judicial.

A perícia realizada neste processo indicou que, na comparação dos bancos de dados da Catho e da Gelre foram encontrados 272.479 currículos exatamente iguais, razão pela qual a Catho foi condenada ao pagamento de indenização no valor de R$ 13,6 milhões. Observando que no confronto dos 3,8 milhões de endereços da Catho com os 499 mil da Gelre foram encontrados 272.479 endereços eletrônicos coincidentes, o Juiz arbitrou como valor indenizatório devido á Gelre o montante de BRL 13.623.950,00. Para encontrar este valor este magistrado levou em conta o valor cobrado pela Catho de BRL 50,00 por mês por currículo inserido.

https://www.ldsoft.com.br/blogs/riscos-envolvendo-a-pratica-de-scraping-a-luz-do-ordenamento-juridico-nacional/

<b> Alguns outros casos </b>
https://jaxenter.com/data-scraping-cases-165385.html

## Provedores de serviço

<table>
<tr>
    <td align='center'><b>Octoparse</b></td>
    <td align='center'><b>80Legs</b></td>
    <td align='center'><b>Mozenda</b></td>
    <td align='center'><b>Import.io</b></td>
<tr>
    <td>
        <img src="./img/octoparse.jpg">Octoparse
    </td>
    <td>
        <img src="./img/mozenda.jpg">Mozenda
    </td>
    <td>
        <img src="./img/80legs.png">80Legs
    </td>
    <td>
        <img src="./img/import.io.jpg">Import.io
    </td>

</table>

https://elemento.ag/blog/ferramentas-web-scrapping-para-2020/

## HTML

<img src='https://cdn-images-1.medium.com/max/1000/0*ETFzXPCNHkPpqNv_.png'>

Referência: https://www.w3schools.com/

# Prática

## Páginas estáticas

Referência: https://www.w3schools.com/

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.DataFrame.from_dict({'a':[1,2,3],'b':[4,5,6]})
df

Unnamed: 0,a,b
0,1,4
1,2,5
2,3,6


In [4]:
print(df.to_html())

<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>a</th>
      <th>b</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>1</td>
      <td>4</td>
    </tr>
    <tr>
      <th>1</th>
      <td>2</td>
      <td>5</td>
    </tr>
    <tr>
      <th>2</th>
      <td>3</td>
      <td>6</td>
    </tr>
  </tbody>
</table>


In [5]:
#f = open('aula.html', 'x') # x -> create, w -> write, r -> read, a -> append (escreve no final)
f = open('aula.html', 'w')
f.write(df.to_html())
f.close()
f = open('aula.html', 'r')
f.read()

'<table border="1" class="dataframe">\n  <thead>\n    <tr style="text-align: right;">\n      <th></th>\n      <th>a</th>\n      <th>b</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>0</th>\n      <td>1</td>\n      <td>4</td>\n    </tr>\n    <tr>\n      <th>1</th>\n      <td>2</td>\n      <td>5</td>\n    </tr>\n    <tr>\n      <th>2</th>\n      <td>3</td>\n      <td>6</td>\n    </tr>\n  </tbody>\n</table>'

In [6]:
type(f)

_io.TextIOWrapper

In [7]:
f = open('aula.html', 'r')
print(f.read())

<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>a</th>
      <th>b</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>1</td>
      <td>4</td>
    </tr>
    <tr>
      <th>1</th>
      <td>2</td>
      <td>5</td>
    </tr>
    <tr>
      <th>2</th>
      <td>3</td>
      <td>6</td>
    </tr>
  </tbody>
</table>


----
<font color='red' size=5> Abrindo o arquivo gerado ('aula.html') no navegador (comando a seguir ou através do windows explorer).</font>

----


In [8]:
!aula.html

### Beautiful Soup
Referência: https://www.crummy.com/software/BeautifulSoup/bs4/doc/

In [10]:
from bs4 import BeautifulSoup
f = open('aula.html', 'r')
soup = BeautifulSoup(f, 'html.parser')
soup

<table border="1" class="dataframe">
<thead>
<tr style="text-align: right;">
<th></th>
<th>a</th>
<th>b</th>
</tr>
</thead>
<tbody>
<tr>
<th>0</th>
<td>1</td>
<td>4</td>
</tr>
<tr>
<th>1</th>
<td>2</td>
<td>5</td>
</tr>
<tr>
<th>2</th>
<td>3</td>
<td>6</td>
</tr>
</tbody>
</table>

In [11]:
tr = soup.find_all('tr')
print(len(tr))
tr

4


[<tr style="text-align: right;">
 <th></th>
 <th>a</th>
 <th>b</th>
 </tr>,
 <tr>
 <th>0</th>
 <td>1</td>
 <td>4</td>
 </tr>,
 <tr>
 <th>1</th>
 <td>2</td>
 <td>5</td>
 </tr>,
 <tr>
 <th>2</th>
 <td>3</td>
 <td>6</td>
 </tr>]

In [12]:
tr[0]

<tr style="text-align: right;">
<th></th>
<th>a</th>
<th>b</th>
</tr>

In [13]:
tr[1]

<tr>
<th>0</th>
<td>1</td>
<td>4</td>
</tr>

In [18]:
tr[1].td

<td>1</td>

In [19]:
td = tr[1].find_all('td')
td

[<td>1</td>, <td>4</td>]

In [20]:
td[0]

<td>1</td>

In [21]:
td[0].text

'1'

In [22]:
f = open('aula.html', 'a')
df = pd.DataFrame.from_dict({'a':[2,4,6],'b':[8,10,12]})
f.write(df.to_html(border=5, classes='exemplo'))
f.close()

In [23]:
from bs4 import BeautifulSoup
f = open('aula.html', 'r')
soup = BeautifulSoup(f, 'html.parser')
table = soup.find_all('table', border = '5')

In [24]:
table

[<table border="5" class="dataframe exemplo">
 <thead>
 <tr style="text-align: right;">
 <th></th>
 <th>a</th>
 <th>b</th>
 </tr>
 </thead>
 <tbody>
 <tr>
 <th>0</th>
 <td>2</td>
 <td>8</td>
 </tr>
 <tr>
 <th>1</th>
 <td>4</td>
 <td>10</td>
 </tr>
 <tr>
 <th>2</th>
 <td>6</td>
 <td>12</td>
 </tr>
 </tbody>
 </table>]

In [25]:
f = open('aula.html', 'r')
print(f.read())
f.close()

<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>a</th>
      <th>b</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>1</td>
      <td>4</td>
    </tr>
    <tr>
      <th>1</th>
      <td>2</td>
      <td>5</td>
    </tr>
    <tr>
      <th>2</th>
      <td>3</td>
      <td>6</td>
    </tr>
  </tbody>
</table><table border="5" class="dataframe exemplo">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>a</th>
      <th>b</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>2</td>
      <td>8</td>
    </tr>
    <tr>
      <th>1</th>
      <td>4</td>
      <td>10</td>
    </tr>
    <tr>
      <th>2</th>
      <td>6</td>
      <td>12</td>
    </tr>
  </tbody>
</table>


#### Exercício (tempo previsto: <10 min)

- A partir do arquivo 'exercicio01.html', construa um código que imprima os seguintes valores:
  - Célula que está na 1a COLUNA da 2a LINHA da tabela com id 1
  - Última célula da tabela da classe exemplo
  - Título da 1a coluna 


In [26]:
!exercicio01.html

In [27]:
f = open('exercicio01.html', 'r')
soup = BeautifulSoup(f, 'html.parser')
soup

<p></p><table border="1" class="dataframe">
<thead>
<tr style="text-align: right;">
<th style="min-width: 50px;"></th>
<th style="min-width: 50px;">a</th>
<th style="min-width: 50px;">b</th>
</tr>
</thead>
<tbody>
<tr>
<th>0</th>
<td>7</td>
<td>10</td>
</tr>
<tr>
<th>1</th>
<td>8</td>
<td>11</td>
</tr>
<tr>
<th>2</th>
<td>9</td>
<td>12</td>
</tr>
</tbody>
</table><p></p><table border="1" class="dataframe" id="1">
<thead>
<tr style="text-align: right;">
<th></th>
<th>a</th>
<th>b</th>
</tr>
</thead>
<tbody>
<tr>
<th>0</th>
<td>13</td>
<td>16</td>
</tr>
<tr>
<th>1</th>
<td>14</td>
<td>17</td>
</tr>
<tr>
<th>2</th>
<td>15</td>
<td>18</td>
</tr>
</tbody>
</table><p></p><table border="1" class="dataframe exemplo">
<thead>
<tr style="text-align: right;">
<th></th>
<th>fica</th>
<th>esperto</th>
</tr>
</thead>
<tbody>
<tr>
<th>0</th>
<td>19</td>
<td>22</td>
</tr>
<tr>
<th>1</th>
<td>20</td>
<td>23</td>
</tr>
<tr>
<th>2</th>
<td>21</td>
<td>24</td>
</tr>
</tbody>
</table>

In [35]:
table = soup.find_all('table', id = '1')
table

[<table border="1" class="dataframe" id="1">
 <thead>
 <tr style="text-align: right;">
 <th></th>
 <th>a</th>
 <th>b</th>
 </tr>
 </thead>
 <tbody>
 <tr>
 <th>0</th>
 <td>13</td>
 <td>16</td>
 </tr>
 <tr>
 <th>1</th>
 <td>14</td>
 <td>17</td>
 </tr>
 <tr>
 <th>2</th>
 <td>15</td>
 <td>18</td>
 </tr>
 </tbody>
 </table>]

In [40]:
type(table)

bs4.element.ResultSet

In [41]:
rows = table[0].find_all('tr')
rows

[<tr style="text-align: right;">
 <th></th>
 <th>a</th>
 <th>b</th>
 </tr>,
 <tr>
 <th>0</th>
 <td>13</td>
 <td>16</td>
 </tr>,
 <tr>
 <th>1</th>
 <td>14</td>
 <td>17</td>
 </tr>,
 <tr>
 <th>2</th>
 <td>15</td>
 <td>18</td>
 </tr>]

In [42]:
values = rows[2].find_all('td')
values[0].text

'14'

In [44]:
%load solucao_1.py

In [44]:
f = open('exercicio01.html', 'r')
soup = BeautifulSoup(f, 'html.parser')
table = soup.find_all('table', id = '1')
rows = table[0].find_all('tr')
values = rows[2].find_all('td')
values[0].text

In [49]:
f = open('exercicio01.html', 'r')
BeautifulSoup(f, 'html.parser').find_all('table', id = '1')[0].find_all('tr')[2].find_all('td')[0].text

'14'

### Extensão Selector Gadget
https://www.crummy.com/software/BeautifulSoup/bs4/doc/

In [50]:
import requests

pagina = requests.get('https://www.crummy.com/software/BeautifulSoup/bs4/doc/')

In [51]:
pagina.content

b'\n<!DOCTYPE html>\n\n<html>\n  <head>\n    <meta charset="utf-8" />\n    <meta name="viewport" content="width=device-width, initial-scale=1.0">\n    <title>Beautiful Soup Documentation &#8212; Beautiful Soup 4.9.0 documentation</title>\n    <link rel="stylesheet" href="_static/classic.css" type="text/css" />\n    <link rel="stylesheet" href="_static/pygments.css" type="text/css" />\n    \n    <script id="documentation_options" data-url_root="./" src="_static/documentation_options.js"></script>\n    <script src="_static/jquery.js"></script>\n    <script src="_static/underscore.js"></script>\n    <script src="_static/doctools.js"></script>\n    <script src="_static/language_data.js"></script>\n    \n    <link rel="index" title="Index" href="genindex.html" />\n    <link rel="search" title="Search" href="search.html" /> \n  </head><body>\n    <div class="related" role="navigation" aria-label="related navigation">\n      <h3>Navigation</h3>\n      <ul>\n        <li class="right" style="ma

In [53]:
soup_2 = BeautifulSoup(pagina.content, 'html.parser')

In [58]:
table = soup_2.select('.sphinxsidebarwrapper .internal')
for i in table:
    print(i.text)

Beautiful Soup Documentation
Getting help
Quick Start
Installing Beautiful Soup
Problems after installation
Installing a parser
Making the soup
Kinds of objects
Tag
Name
Attributes
Multi-valued attributes
NavigableString
BeautifulSoup
Comments and other special strings
Navigating the tree
Going down
Navigating using tag names
.contents and .children
.descendants
.string
.strings and stripped_strings
Going up
.parent
.parents
Going sideways
.next_sibling and .previous_sibling
.next_siblings and .previous_siblings
Going back and forth
.next_element and .previous_element
.next_elements and .previous_elements
Searching the tree
Kinds of filters
A string
A regular expression
A list
True
A function
find_all()
The name argument
The keyword arguments
Searching by CSS class
The string argument
The limit argument
The recursive argument
Calling a tag is like calling find_all()
find()
find_parents() and find_parent()
find_next_siblings() and find_next_sibling()
find_previous_siblings() and find_pr

In [55]:
table[0].text

'Problems after installation'

#### Exercício
Usando o selector gadget, imprima a lista da primeira página do site da Amazon com os livros de 'data science'

In [None]:
####### ----- Escreva seu código aqui ----- #######

In [61]:
# %load solucao_2.py
url = 'https://www.amazon.com.br/s?k=data+science&__mk_pt_BR=%C3%85M%C3%85%C5%BD%C3%95%C3%91&ref=nb_sb_noss_2'
pagina = requests.get(url)
soup_2 = BeautifulSoup(pagina.content, 'html.parser')
table = soup_2.select('.a-color-base.a-text-normal')
for i in table:
    print(i.text)

Data Science do Zero: Primeiras Regras com o Python
Data Science para Negócios: O que você precisa saber sobre mineração de dados e pensamento analítico de dados
Python Para Análise de Dados: Tratamento de Dados com Pandas, NumPy e IPython
R Para Data Science
Data Science from Scratch 2e: First Principles with Python
Data Science Para Leigos
Dataland
MACHINE LEARNING WITH PYTHON: Learn the art of Programming with a complete crash course for beginners. Strategies to Master Data Science, Numpy, Keras, ... like a Pro in 7 days (English Edition)
Introdução a Data Science: Algoritmos de Machine Learning e métodos de análise
Python Para Data Science Para Leigos
Mãos à Obra: Aprendizado de Máquina com Scikit-Learn & TensorFlow
Essential Math for Data Science: Take Control of Your Data with Fundamental Calculus, Linear Algebra, Probability, and Statistics
Data Smart: Usando Data Science Para Transformar Informação em Insight
Machine Learning: 3 Books in 1: Master the Mathematics of Applied Art

## Páginas dinâmicas

Em páginas dinâmicas, é necessário interagir com o site para que ele gere, dinamicamente, os dados de interesse.

In [63]:
f = open('aula.html', 'a')
f.write('<p></p>')
f.write('<p></p>')
f.write('<form oninput="x.value=parseInt(a.value)+parseInt(b.value)"><input type="range" id="a" value="50">+<input type="number" id="b" value="25">=<output name="x" for="a b"></output></form>')
f.close()

In [64]:
!aula.html

### Selenium

Refência: https://selenium-python.readthedocs.io/

In [2]:
from selenium import webdriver

# no WSL
# driver = webdriver.Chrome('/usr/bin/chromedriver')

# driver = webdriver.Chrome(executable_path='./chr_drv_84/chromedriver.exe')
driver = webdriver.Chrome(executable_path='./chr_drv_85/chromedriver.exe')



In [3]:
from requests import get
#url que iremos analisar
url = 'https://groceries.asda.com/cat/home-entertainment/_/102592'
response = get(url)

In [3]:
print(response.content)

b'<!DOCTYPE html><html lang="en" data-appversion="v883"><head><script type="application/ld+json">{\n      "@context": "https://schema.org",\n      "@type": "WebSite",\n      "url": "https://groceries.asda.com",\n      "potentialAction": {\n        "@type": "SearchAction",\n        "target": "https://groceries.asda.com/search/{search_term_string}",\n        "query-input": "required name=search_term_string"\n      }\n    }</script><script>var performance_standalone = \'https://www.gstatic.com/firebasejs/7.17.2/firebase-performance-standalone.js\'\n    var firebaseConfig\n    if (location.host === \'groceries.asda.com\') {\n      firebaseConfig = {\n        apiKey: \'AIzaSyAOQBkGSppLN_LEiyD5sUokU-JBN43wOks\',\n        authDomain: \'asda-web-prod.firebaseapp.com\',\n        databaseURL: \'https://asda-web-prod.firebaseio.com\',\n        projectId: \'asda-web-prod\',\n        storageBucket: \'asda-web-prod.appspot.com\',\n        messagingSenderId: \'396075037548\',\n        appId: \'1:3960

In [5]:
# chamada da página, deve abrir também a página on browser controlado pelo Selenium
driver.get('https://groceries.asda.com/cat/home-entertainment/_/102592')

In [6]:
# utiliza o método que retorna uma lista com diversos elementos, através do nome da classe
produtosClass = driver.find_elements_by_class_name('co-product__anchor')
type(produtosClass)

list

In [7]:
print(len(produtosClass))
# imprime os elementos da lista
for i in range(len(produtosClass)):
    print(produtosClass[i].text)

28
Minecraft Green Bottle & Lunch Bag Bundle
George Home Unicorn Bottle & Lunch Bag Bundle
Disney Pixar Blue Toy Story 4 Bottle & Lunch Bag Bundle
George Home Blue Bottle
Fortnite Blue Lunch Bag
Smash Flamingo Lunch Bag & Bottle Set
George Home Purple Bottle
George Home Unicorn 4 Pack Snack Boxes
George Home Grey Felt Spot Print Cushion
George Home Grey Bear Print Reversible Duvet Set
George Home Yellow Giraffe Super Soft Throw
George Home Black Round Mirror
George Home Cream Bambi Cushion
George Home Circular Bamboo Mirror
George Home Matte Black Tea Pot
George Home Timeless Gin Glass
George Home Faux Fern In Grey Pot
George Home Pink Mongolian Faux Fur Cushion
George Home Pink Microfibre Throw
George Home Green Animals Tumbler
George Home Green Animals Dispenser
George Home Chunky Stemmed Gin Glass
George Home Conical Glass Jug
Roku Express Streaming Player
ASDA  Air Circulation Fan
Scoville Neverstick 5 Piece Cookware & Pan Set
Brita Marella XL Water Filter Jug Blue
Google Chromecas

In [8]:
"""
//*[@id="main-content"]/main/div[9]/div[1]/ul/li[3]/div/div[2]/div[1]/h3/a
//*[@id="main-content"]/main/div[9]/div[1]/ul/li[4]/div/div[2]/div[1]/h3/a
//*[@id="main-content"]/main/div[9]/div[1]/ul/li[19]/div/div[2]/div[1]/h3/a
"""


'\n//*[@id="main-content"]/main/div[9]/div[1]/ul/li[3]/div/div[2]/div[1]/h3/a\n//*[@id="main-content"]/main/div[9]/div[1]/ul/li[4]/div/div[2]/div[1]/h3/a\n//*[@id="main-content"]/main/div[9]/div[1]/ul/li[19]/div/div[2]/div[1]/h3/a\n'

In [9]:
produtosXpath = driver.find_elements_by_xpath('//*[@id="main-content"]/main/div[9]/div[1]/ul/li[2]/div/div[2]/div[1]/h3/a')
print(len(produtosXpath), type(produtosXpath))
produtosXpath[0].text

1 <class 'list'>


'George Home Grey Bear Print Reversible Duvet Set'

In [10]:
#//*[@id="main-content"]/main/div[6]/div[1]/ul/li[3]/div/div[2]/div[1]/h3/a
produtosXpath = driver.find_elements_by_xpath('//*[@id="main-content"]/main/div[9]/div[1]/ul/li[3]/div/div[2]/div[1]/h3/a')
print(len(produtosXpath))
for i in range(len(produtosXpath)):
    print(produtosXpath[i].text)

1
George Home Yellow Giraffe Super Soft Throw


In [11]:
#//*[@id="main-content"]/main/div[9]/div[1]/ul/li[2]/div/div[2]/div[1]/h3/a
#//*[@id="main-content"]/main/div[9]/div[1]/ul/li[3]/div/div[2]/div[1]/h3/a
#//*[@id="main-content"]/main/div[6]/div[1]/ul/li[5]/div/div[2]/div[1]/h3/a

produtosXpath = driver.find_elements_by_xpath('//*[@id="main-content"]/main/div[9]/div[1]/ul/li[*]/div/div[2]/div[1]/h3/a')
print(len(produtosXpath))
for i in range(len(produtosXpath)):
    print(produtosXpath[i].text)

15
George Home Grey Felt Spot Print Cushion
George Home Grey Bear Print Reversible Duvet Set
George Home Yellow Giraffe Super Soft Throw
George Home Black Round Mirror
George Home Cream Bambi Cushion
George Home Circular Bamboo Mirror
George Home Matte Black Tea Pot
George Home Timeless Gin Glass
George Home Faux Fern In Grey Pot
George Home Pink Mongolian Faux Fur Cushion
George Home Pink Microfibre Throw
George Home Green Animals Tumbler
George Home Green Animals Dispenser
George Home Chunky Stemmed Gin Glass
George Home Conical Glass Jug


#### Exercício (tempo previsto: <15 min)
- Imprima os preços dos produtos da 1a página

In [12]:
####### ----- Escreva seu código aqui ----- #######

In [13]:
price_class = driver.find_elements_by_class_name('co-product__price')
print(len(price_class))
for i in range(len(price_class)):
    print(price_class[i].text)

28
£9.00
£7.50
£9.00
£2.00
£6.00
£7.00
£2.00
£3.00
£5.00
£8.00
£6.00
£5.00
£7.00
£8.00
£7.00
£3.00
£8.00
£7.00
£20.00
£3.00
£5.00
£8.00
£4.00
£25.00
£35.00
£65.00
£20.00
£25.00


#### Exercício (tempo previsto: <10 min)
- Abra a página do Whiskas de 2 Kg

In [14]:
####### ----- Escreva seu código aqui ----- #######

In [35]:
# %load solucao_3.py
from selenium.webdriver.common.keys import Keys
driver.get('https://groceries.asda.com/cat/home-entertainment/_/102592')

In [36]:
search_term="whiskas"
# localizar a caixa de pesquisa
searchTextBox=driver.find_element_by_id("search")
# limpar a caixa de pesquisa
searchTextBox.clear()
# incluir o termo de pesquisa
searchTextBox.send_keys(search_term)

In [37]:
# buscar o termo no site
searchTextBox.send_keys(Keys.RETURN)

In [39]:
volume_class = driver.find_elements_by_class_name('co-product__volume')
index_list = []
print(len(volume_class))
for i in range(len(volume_class)):
    if volume_class[i].text == '2kg':
        index_list.append(i)
index_list

59


[5, 19, 27, 30, 54, 55]

In [43]:
link_class = driver.find_elements_by_class_name('co-product__anchor')
for i in index_list:
    print(link_class[i].text)

Whiskas Chicken Dry Adult Cat Food
Whiskas Tuna Dry Adult Cat Food
Whiskas Duck & Turkey Dry Adult Cat Food
Whiskas Chicken Dry Kitten Food
Go-Cat Chicken & Duck Dry Adult Cat Food
Go-Cat Tuna, Herring & Veg Dry Adult Cat Food


In [44]:
element = link_class[0]
element.click()

In [31]:
driver.page_source



#### Exercício (tempo previsto: 30-60 min)

- Imprima o preço de qualquer veículo com suas informações a partir do site da FIPE

In [None]:
####### ----- Escreva seu código aqui ----- #######

In [106]:
from selenium import webdriver

driver = webdriver.Chrome(executable_path='./chr_drv_85/chromedriver.exe')

In [107]:
driver.get('https://veiculos.fipe.org.br/')

In [83]:
#front > div.content > div.tab.vertical.tab-veiculos > ul > li:nth-child(1) > a > div.title
driver.find_element_by_css_selector('#front > div.content > div.tab.vertical.tab-veiculos > ul > li:nth-child(1) > a > div.title').click()

In [84]:
driver.find_element_by_id('selectMarcacarro').click()

In [104]:
ordem = '4'
opcao_marca = '#selectMarcacarro > option:nth-child(' + ordem + ')'

In [105]:
opcao_marca

'#selectMarcacarro > option:nth-child(4)'

In [85]:
driver.find_element_by_css_selector(opcao_marca).click()

In [86]:
driver.find_element_by_id('selectAnoModelocarro').click()

In [91]:
ordem = '2'
opcao_modelo = '#selectAnoModelocarro > option:nth-child('+ ordem + ')'
driver.find_element_by_css_selector(opcao_modelo).click()

In [96]:
#selectAnocarro
driver.find_element_by_id('selectAnocarro').click()

In [100]:
ordem = '1'

opcao_ano = '#selectAnocarro > option:nth-child('+ ordem + ')'
#elemento = driver.find_element_by_css_selector(opcao_ano)
driver.find_element_by_xpath("/html/body/div[1]/section[2]/div[1]/div[2]/ul/li[1]/div/article[1]/div[2]/div[2]/div[2]/select/option[2]").click()

In [101]:
driver.find_element_by_css_selector('#buttonPesquisarcarro').click()

In [102]:
preco = driver.find_element_by_css_selector('#resultadoConsultacarroFiltros > table > tbody > tr.last > td:nth-child(2) > p')
preco.text

'R$ 45.748,00'

In [86]:
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.common.exceptions import NoSuchElementException

driver = webdriver.Chrome(executable_path='./chr_drv_85/chromedriver.exe')
driver.get('https://veiculos.fipe.org.br/')
driver.find_element_by_css_selector('#front > div.content > div.tab.vertical.tab-veiculos > ul > li:nth-child(1) > a > div.title').click()

# Para configurar uma espera condicional, utilizar o bloco abaixo. O código a seguir aguarda até que o elemento com css_selector 
# 'selectMarcacarro_chosen' seja clicável
lista_marcas = WebDriverWait(driver, 2).until(EC.element_to_be_clickable((By.CSS_SELECTOR,'#selectMarcacarro_chosen')))
lista_marcas.click()

# Tambem podemos configurar um código para exibir uma mensagem em caso de erro
try:
    ordem = '3'
    opcao_marca = '#selectMarcacarro > div > ul > li:nth-child('+ ordem + ')'
    driver.find_element_by_css_selector(opcao_marca).click()
except NoSuchElementException:
    print('elemento - ', opcao_marca, ' - não encontrado')

lista_marcas.click()
ordem = '3'
opcao_marca = '#selectMarcacarro_chosen > div > ul > li:nth-child('+ ordem + ')'
driver.find_element_by_css_selector(opcao_marca).click()

driver.find_element_by_id('selectAnoModelocarro_chosen').click()
ordem = '2'
opcao_modelo = '#selectAnoModelocarro_chosen > div > ul > li:nth-child('+ ordem + ')'
driver.find_element_by_css_selector(opcao_modelo).click()

driver.find_element_by_id('selectAnocarro_chosen').click()
ordem = '2'
opcao_ano = '#selectAnocarro_chosen > div > ul > li:nth-child('+ ordem + ')'
driver.find_element_by_css_selector(opcao_ano).click()

driver.find_element_by_css_selector('#buttonPesquisarcarro').click()

preco = driver.find_element_by_css_selector('#resultadoConsultacarroFiltros > table > tbody > tr.last > td:nth-child(2) > p')
print(preco.text)

driver.quit()

elemento -  #selectMarcacarro > div > ul > li:nth-child(3)  - não encontrado


### Selenium IDE


![Selenium](./img/seleniumIDE.png)

https://www.seleniumhq.org/selenium-ide/

In [None]:
# executable_path='./chromedriver_win32/chromedriver.exe'
# %load test_scrapping.py
# Generated by Selenium IDE
import pytest
import time
import json
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.support import expected_conditions
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
"""
======================================= LER COM ATENÇÃO =======================================
1. O arquivo cria uma classe 'TestScrapping'. Portanto, para ser utilizada, precisa ser criada uma instância dessa classe. Por isso a célula 
> teste = TestScrapping()

2 A classe possui um método "setup_method" que nada mais faz do que inicializar um webdriver. Por isso a célula
> teste.setup_method()
obs. O código que vem do gravador não inclui o path. É preciso ajustar isso antes de usar.

3 A função 'test_scrapping' é um método da classe 'TestScrapping',  que é a parte do código que efetivamente executa o teste. Por isso a célula 
> teste.test_scrapping()

4. Não consegui extrair do gravador um código que funcionasse exatamente como na gravação. Copiei o código que utilizei no exercício. Curiosamente, quando dentro da classe, foi necessário utilizar a funcionalidade da espera condicional para o primeiro elemento do processo. Sem isso não funcionava.
======================================= LER COM ATENÇÃO =======================================
"""
class TestScrapping():
  def setup_method(self, method):
    self.driver = webdriver.Chrome(executable_path='./chromedriver_win32/chromedriver.exe')
    self.vars = {}
  
  def teardown_method(self, method):
    self.driver.quit()
  
  def test_scrapping(self):
    self.driver.get("https://veiculos.fipe.org.br/")
#    self.driver.find_element_by_css_selector('#front > div.content > div.tab.vertical.tab-veiculos > ul > li:nth-child(1) > a > div.title').click()

    try:
        element = WebDriverWait(self.driver, 10).until(EC.element_to_be_clickable((By.CSS_SELECTOR,'#front > div.content > div.tab.vertical.tab-veiculos > ul > li:nth-child(1) > a > div.title')))
        element.click()
        print('ok')
    except:
        print('elemento não encontrado')
        driver.quit()


    try:
        element = WebDriverWait(self.driver, 10).until(EC.element_to_be_clickable((By.CSS_SELECTOR,'#selectMarcacarro')))
        element.click()
        print('ok')
    except:
        print('elemento não encontrado')
        driver.quit()


    #driver.find_element_by_id('selectMarcacarro').click()
    ordem = '10'
    opcao_marca = '#selectMarcacarro > option:nth-child('+ ordem + ')'
    self.driver.find_element_by_css_selector(opcao_marca).click()

    self.driver.find_element_by_id('selectAnoModelocarro').click()
    ordem = '2'
    opcao_modelo = '#selectAnoModelocarro > option:nth-child('+ ordem + ')'
    self.driver.find_element_by_css_selector(opcao_modelo).click()

    self.driver.find_element_by_id('selectAnocarro').click()
    ordem = '2'
    opcao_ano = '#selectAnocarro > option:nth-child('+ ordem + ')'
    self.driver.find_element_by_css_selector(opcao_ano).click()

    self.driver.find_element_by_css_selector('#buttonPesquisarcarro').click()

    preco = self.driver.find_element_by_css_selector('#resultadoConsultacarroFiltros > table > tbody > tr.last > td:nth-child(2) > p')
    preco.text    

        
        

In [None]:
teste = TestScrapping()

In [None]:
teste.setup_method(method=None)

In [None]:
teste.test_scrapping3()

# Próximos Passos


![Next Steps](./img/next_steps.png)
https://elemento.ag/blog/ferramentas-web-scrapping-para-2020/