# Teoria

## O que é

A coleta de dados web, ou raspagem web, é uma forma de mineração que permite a extração de dados de sites da web convertendo-os em informação estruturada para posterior análise. O tipo mais básico de coleta é o download manual das páginas, copiando e colando o conteúdo, e isso pode ser feito por qualquer pessoa. Contudo, essa técnica geralmente é feita através de um software que simula uma navegação humana por diversos sites, extraindo informações específicas. É um campo com ativa evolução que compartilha um objetivo comum com a visão da web semântica, uma iniciativa ambiciosa que ainda requer avanços no processamento de texto, compreensão semantical, inteligência artificial e interação homem-computador. A coleta de dados web é muito semelhante à indexação web (utilizado pela maioria dos motores de busca), mas a motivação final é muito diferente. A indexação web é usada para ajudar a tornar os motores de busca mais eficientes, já a coleta de dados é tipicamente usada para diferentes razões, como comparação de preços online, monitoramentos meteorológicos, pesquisas de mercado, coleta de dados governamentais, monitoramento de dados e, em alguns casos, roubo.

https://pt.wikipedia.org/wiki/Coleta_de_dados_web

<img src='./img/alternativas.png'>

<img src='./img/tecnicas.png'>

## Cases

<b> Disputa envolvendo empresas de recolocação profissional </b>

Em 2003, Gelre Informática S/C Ltda. ajuizou ação de indenização contra Catho On Line S/C Ltda alegando que a Catho acessou de forma anormal o sítio eletrônico da Gelre com o objetivo de capturar dados que não estariam disponíveis da mesma forma se o acesso tivesse ocorrido como um cliente-usuário.

Nesse contexto, a Catho foi condenada a pagar R$ 13,6 milhões à concorrente Gelre por ter se apropriado de quase 300 mil currículos entre 2001 e 2002 com o objetivo de oferecer os seus serviços a quem procurava emprego.

De acordo com a sentença do então juiz de Direito, e atual desembargador, Luís Mario Galbetti, na época da 33ª Vara Cível de São Paulo, as principais provas contra a Catho foram encontradas em computadores da própria empresa apreendidos após determinação da Justiça. Segundo o juiz, funcionários da Catho se cadastraram no site da Gelre e passaram a usar programas para capturar currículos da concorrente.

O esquema começou a ser descoberto quando a Gelre identificou uma movimentação atípica em seus bancos de dados. Um rastreamento dos acessos aos currículos levou os peritos a computadores em escritórios da Catho, que foram apreendidos sob determinação judicial.

A perícia realizada neste processo indicou que, na comparação dos bancos de dados da Catho e da Gelre foram encontrados 272.479 currículos exatamente iguais, razão pela qual a Catho foi condenada ao pagamento de indenização no valor de R$ 13,6 milhões. Observando que no confronto dos 3,8 milhões de endereços da Catho com os 499 mil da Gelre foram encontrados 272.479 endereços eletrônicos coincidentes, o Juiz arbitrou como valor indenizatório devido á Gelre o montante de BRL 13.623.950,00. Para encontrar este valor este magistrado levou em conta o valor cobrado pela Catho de BRL 50,00 por mês por currículo inserido.

https://www.ldsoft.com.br/blogs/riscos-envolvendo-a-pratica-de-scraping-a-luz-do-ordenamento-juridico-nacional/

<b> Alguns outros casos </b>
https://jaxenter.com/data-scraping-cases-165385.html

## HTML

<img src='https://cdn-images-1.medium.com/max/1000/0*ETFzXPCNHkPpqNv_.png'>

# Prática

## Páginas Estáticas

Referência: https://www.w3schools.com/

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.DataFrame.from_dict({'a':[1,2,3],'b':[4,5,6]})
df

Unnamed: 0,a,b
0,1,4
1,2,5
2,3,6


In [7]:
print(df.to_html())

<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>a</th>
      <th>b</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>1</td>
      <td>4</td>
    </tr>
    <tr>
      <th>1</th>
      <td>2</td>
      <td>5</td>
    </tr>
    <tr>
      <th>2</th>
      <td>3</td>
      <td>6</td>
    </tr>
  </tbody>
</table>


In [10]:
#f = open('aula.html', 'x') # x -> create, w -> write, r -> read, a -> append (escreve no final)
f = open('aula.html', 'w')
f.write(df.to_html())
f.close() #  ele permite que eu consiga acessar este arquivo em outro lugar -ele sempre tera que ser usado\
#quando estiver usando  open.
f = open('aula.html', 'r')
f.read()

'<table border="1" class="dataframe">\n  <thead>\n    <tr style="text-align: right;">\n      <th></th>\n      <th>a</th>\n      <th>b</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>0</th>\n      <td>1</td>\n      <td>4</td>\n    </tr>\n    <tr>\n      <th>1</th>\n      <td>2</td>\n      <td>5</td>\n    </tr>\n    <tr>\n      <th>2</th>\n      <td>3</td>\n      <td>6</td>\n    </tr>\n  </tbody>\n</table>'

In [2]:
f = open('aula.html', 'r')
print(f.read())

<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>a</th>
      <th>b</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>1</td>
      <td>4</td>
    </tr>
    <tr>
      <th>1</th>
      <td>2</td>
      <td>5</td>
    </tr>
    <tr>
      <th>2</th>
      <td>3</td>
      <td>6</td>
    </tr>
  </tbody>
</table><table border="5" class="dataframe exemplo">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>a</th>
      <th>b</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>2</td>
      <td>8</td>
    </tr>
    <tr>
      <th>1</th>
      <td>4</td>
      <td>10</td>
    </tr>
    <tr>
      <th>2</th>
      <td>6</td>
      <td>12</td>
    </tr>
  </tbody>
</table><table border="5" class="dataframe exemplo">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>a</th>
      <th>b</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      

----
<font color='red' size=5> Abrindo o arquivo gerado ('aula.html') no navegador (comando a seguir ou através do windows explorer).</font>

----


In [3]:
 !aula.html # ! ele e o mesmo que estar usando o terminal anaconda shell

/bin/bash: aula.html: comando não encontrado


### Beautiful Soup
Referência: https://www.crummy.com/software/BeautifulSoup/bs4/doc/

In [4]:
from bs4 import BeautifulSoup # faz a leitura do arquivo para um formato mais amigavel
f = open('aula.html', 'r')
soup = BeautifulSoup(f, 'html.parser')
soup

<table border="1" class="dataframe">
<thead>
<tr style="text-align: right;">
<th></th>
<th>a</th>
<th>b</th>
</tr>
</thead>
<tbody>
<tr>
<th>0</th>
<td>1</td>
<td>4</td>
</tr>
<tr>
<th>1</th>
<td>2</td>
<td>5</td>
</tr>
<tr>
<th>2</th>
<td>3</td>
<td>6</td>
</tr>
</tbody>
</table><table border="5" class="dataframe exemplo">
<thead>
<tr style="text-align: right;">
<th></th>
<th>a</th>
<th>b</th>
</tr>
</thead>
<tbody>
<tr>
<th>0</th>
<td>2</td>
<td>8</td>
</tr>
<tr>
<th>1</th>
<td>4</td>
<td>10</td>
</tr>
<tr>
<th>2</th>
<td>6</td>
<td>12</td>
</tr>
</tbody>
</table><table border="5" class="dataframe exemplo">
<thead>
<tr style="text-align: right;">
<th></th>
<th>a</th>
<th>b</th>
</tr>
</thead>
<tbody>
<tr>
<th>0</th>
<td>2</td>
<td>8</td>
</tr>
<tr>
<th>1</th>
<td>4</td>
<td>10</td>
</tr>
<tr>
<th>2</th>
<td>6</td>
<td>12</td>
</tr>
</tbody>
</table>

In [29]:
tr = soup.find_all('tr')
print(len(tr)) # 
tr

4


[<tr style="text-align: right;">
 <th></th>
 <th>a</th>
 <th>b</th>
 </tr>,
 <tr>
 <th>0</th>
 <td>1</td>
 <td>4</td>
 </tr>,
 <tr>
 <th>1</th>
 <td>2</td>
 <td>5</td>
 </tr>,
 <tr>
 <th>2</th>
 <td>3</td>
 <td>6</td>
 </tr>]

In [None]:
tr[0]

In [None]:
tr[1]

In [None]:
tr[1].td

In [31]:
td = tr[1].find_all('td') # forma para que eu possa ler toda a estrtura do td
td

[<td>1</td>, <td>4</td>]

In [148]:
td[0]

<td>1</td>

In [32]:
td[0].text # le em formato de texto

'1'

In [34]:
f = open('aula.html', 'a')
df = pd.DataFrame.from_dict({'a':[2,4,6],'b':[8,10,12]})
f.write(df.to_html(border=5, classes='exemplo'))
f.close()
f

<_io.TextIOWrapper name='aula.html' mode='a' encoding='UTF-8'>

In [35]:
from bs4 import BeautifulSoup
f = open('aula.html', 'r')
soup = BeautifulSoup(f, 'html.parser')
table = soup.find_all('table', border = '5')

In [36]:
table

[<table border="5" class="dataframe exemplo">
 <thead>
 <tr style="text-align: right;">
 <th></th>
 <th>a</th>
 <th>b</th>
 </tr>
 </thead>
 <tbody>
 <tr>
 <th>0</th>
 <td>2</td>
 <td>8</td>
 </tr>
 <tr>
 <th>1</th>
 <td>4</td>
 <td>10</td>
 </tr>
 <tr>
 <th>2</th>
 <td>6</td>
 <td>12</td>
 </tr>
 </tbody>
 </table>,
 <table border="5" class="dataframe exemplo">
 <thead>
 <tr style="text-align: right;">
 <th></th>
 <th>a</th>
 <th>b</th>
 </tr>
 </thead>
 <tbody>
 <tr>
 <th>0</th>
 <td>2</td>
 <td>8</td>
 </tr>
 <tr>
 <th>1</th>
 <td>4</td>
 <td>10</td>
 </tr>
 <tr>
 <th>2</th>
 <td>6</td>
 <td>12</td>
 </tr>
 </tbody>
 </table>]

In [37]:
f = open('aula.html', 'r')
print(f.read())
f.close()

<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>a</th>
      <th>b</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>1</td>
      <td>4</td>
    </tr>
    <tr>
      <th>1</th>
      <td>2</td>
      <td>5</td>
    </tr>
    <tr>
      <th>2</th>
      <td>3</td>
      <td>6</td>
    </tr>
  </tbody>
</table><table border="5" class="dataframe exemplo">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>a</th>
      <th>b</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>2</td>
      <td>8</td>
    </tr>
    <tr>
      <th>1</th>
      <td>4</td>
      <td>10</td>
    </tr>
    <tr>
      <th>2</th>
      <td>6</td>
      <td>12</td>
    </tr>
  </tbody>
</table><table border="5" class="dataframe exemplo">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>a</th>
      <th>b</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      

#### Exercício (tempo previsto: <10 min)

- A partir do arquivo 'exercicio01.html', construa um código que imprima os seguintes valores:
  - Célula que está na 1a COLUNA da 2a LINHA da tabela com id 1
  - Última célula da tabela da classe exemplo
  - Título da 1a coluna 


In [68]:
#ABRINDO E LENDO O ARQUIVO HTML
f = open('exercicio01.html', 'r')
exercicio = BeautifulSoup(f, 'html.parser')
exercicio

<p></p><table border="1" class="dataframe">
<thead>
<tr style="text-align: right;">
<th style="min-width: 50px;"></th>
<th style="min-width: 50px;">a</th>
<th style="min-width: 50px;">b</th>
</tr>
</thead>
<tbody>
<tr>
<th>0</th>
<td>7</td>
<td>10</td>
</tr>
<tr>
<th>1</th>
<td>8</td>
<td>11</td>
</tr>
<tr>
<th>2</th>
<td>9</td>
<td>12</td>
</tr>
</tbody>
</table><p></p><table border="1" class="dataframe" id="1">
<thead>
<tr style="text-align: right;">
<th></th>
<th>a</th>
<th>b</th>
</tr>
</thead>
<tbody>
<tr>
<th>0</th>
<td>13</td>
<td>16</td>
</tr>
<tr>
<th>1</th>
<td>14</td>
<td>17</td>
</tr>
<tr>
<th>2</th>
<td>15</td>
<td>18</td>
</tr>
</tbody>
</table><p></p><table border="1" class="dataframe exemplo">
<thead>
<tr style="text-align: right;">
<th></th>
<th>fica</th>
<th>esperto</th>
</tr>
</thead>
<tbody>
<tr>
<th>0</th>
<td>19</td>
<td>22</td>
</tr>
<tr>
<th>1</th>
<td>20</td>
<td>23</td>
</tr>
<tr>
<th>2</th>
<td>21</td>
<td>24</td>
</tr>
</tbody>
</table>

In [72]:
# CRIANDO UMA TABELA SOMENTE COM ID=1
data = exercicio.find_all('table', id = '1')
data

[<table border="1" class="dataframe" id="1">
 <thead>
 <tr style="text-align: right;">
 <th></th>
 <th>a</th>
 <th>b</th>
 </tr>
 </thead>
 <tbody>
 <tr>
 <th>0</th>
 <td>13</td>
 <td>16</td>
 </tr>
 <tr>
 <th>1</th>
 <td>14</td>
 <td>17</td>
 </tr>
 <tr>
 <th>2</th>
 <td>15</td>
 <td>18</td>
 </tr>
 </tbody>
 </table>]

In [78]:
# PEGANDO SOMENTE os elememtos 1 COLUNA E 2 LINHA DA VARIAVEL DATA
priLinha_segLinha = data[0].find_all('tr')
priLinha_segLinha

[<tr style="text-align: right;">
 <th></th>
 <th>a</th>
 <th>b</th>
 </tr>,
 <tr>
 <th>0</th>
 <td>13</td>
 <td>16</td>
 </tr>,
 <tr>
 <th>1</th>
 <td>14</td>
 <td>17</td>
 </tr>,
 <tr>
 <th>2</th>
 <td>15</td>
 <td>18</td>
 </tr>]

In [99]:
# pegando o valor da segunda linha
valor = priLinha_segLinha[2].find('td')
valor.text


'14'

In [113]:
# LENDO A TABELA CLASSA EXEMPLO
exemplo = exercicio.find_all('table',  class="dataframe exemplo" )
exemplo

SyntaxError: invalid syntax (<ipython-input-113-3abc9a5e51c2>, line 2)

In [53]:
# %load solucao_1.py
f = open('exercicio01.html', 'r')
soup = BeautifulSoup(f, 'html.parser')
table = soup.find_all('table', id = '1')
rows = table[0].find_all('tr')
values = rows[2].find_all('td')
values[0].text

### Extensão Selector Gadget

In [7]:
# lendo  a pagina html
import requests

pagina = requests.get('https://www.crummy.com/software/BeautifulSoup/bs4/doc/')

In [116]:
# ANALISANDO O QUE CONTEM NA PAGINA 
pagina.content

b'\n<!DOCTYPE html>\n\n<html>\n  <head>\n    <meta charset="utf-8" />\n    <meta name="viewport" content="width=device-width, initial-scale=1.0">\n    <title>Beautiful Soup Documentation &#8212; Beautiful Soup 4.9.0 documentation</title>\n    <link rel="stylesheet" href="_static/classic.css" type="text/css" />\n    <link rel="stylesheet" href="_static/pygments.css" type="text/css" />\n    \n    <script id="documentation_options" data-url_root="./" src="_static/documentation_options.js"></script>\n    <script src="_static/jquery.js"></script>\n    <script src="_static/underscore.js"></script>\n    <script src="_static/doctools.js"></script>\n    <script src="_static/language_data.js"></script>\n    \n    <link rel="index" title="Index" href="genindex.html" />\n    <link rel="search" title="Search" href="search.html" /> \n  </head><body>\n    <div class="related" role="navigation" aria-label="related navigation">\n      <h3>Navigation</h3>\n      <ul>\n        <li class="right" style="ma

In [118]:
# ESTOU DIZENDO QUE ESTE E UM CONTEUDO DO TIPO HTML
soup_2 = BeautifulSoup(pagina.content, 'html.parser')

In [119]:
# DANDO UM SELECT PARA PEGAR EXATAMENTE O OBJETO DA PAGINA QUE DESEJO(INFORMACOES)
table = soup_2.select('h3+ ul li:nth-child(3) li:nth-child(1) .internal')
table

[<a class="reference internal" href="#problems-after-installation">Problems after installation</a>,
 <a class="reference internal" href="#next-sibling-and-previous-sibling"><code class="docutils literal notranslate"><span class="pre">.next_sibling</span></code> and <code class="docutils literal notranslate"><span class="pre">.previous_sibling</span></code></a>]

In [120]:
#CAPTANDO O TEXT0
table[0].text

'Problems after installation'

## Exercício
## Usando o selector gadget, imprima a lista da primeira página do site da Amazon com os livros de 'data science'

In [8]:
# lendo  a pagina html
amazon = requests.get('https://www.amazon.com.br/s?k=DATA+SCIENCE&i=stripbooks&__mk_pt_BR=%C3%85M%C3%85%C5%BD%C3%95%C3%91&ref=nb_sb_noss')

In [11]:
#Analisando o conteudo da pagina
amazon.content

b'<!doctype html><html lang="pt-br" class="a-no-js" data-19ax5a9jf="dingo"><!-- sp:feature:head-start -->\n<head><script>var aPageStart = (new Date()).getTime();</script><meta charset="utf-8"/>\n\n<!-- sp:feature:cs-optimization -->\n<meta http-equiv=\'x-dns-prefetch-control\' content=\'on\'>\n<link rel="dns-prefetch" href="https://images-na.ssl-images-amazon.com" crossorigin>\n<link rel="preconnect" href="https://images-na.ssl-images-amazon.com" crossorigin>\n<link rel="dns-prefetch" href="https://m.media-amazon.com" crossorigin>\n<link rel="preconnect" href="https://m.media-amazon.com" crossorigin>\n<link rel="dns-prefetch" href="https://completion.amazon.com" crossorigin>\n<link rel="preconnect" href="https://completion.amazon.com" crossorigin>\n\n<!-- sp:feature:aui-assets -->\n<link rel="stylesheet" href="https://images-na.ssl-images-amazon.com/images/I/11EIQ5IGqaL._RC|012LjolmrML.css,41-crZfIjzL.css,11cMnOipjJL.css,017DsKjNQJL.css,01Vctty9pOL.css,01HEsUOLYvL.css,41EWOOlBJ9L.css,1

In [12]:
# ESTOU DIZENDO QUE ESTE E UM CONTEUDO DO TIPO HTML
amazon_1 = BeautifulSoup(amazon.content, 'html.parser')

In [15]:
# DANDO UM SELECT PARA PEGAR EXATAMENTE O OBJETO DA PAGINA QUE DESEJO(INFORMACOES)
amazon_conteudo = amazon_1.select('.a-color-base.a-text-normal')
amazon_conteudo

[<span class="a-size-medium a-color-base a-text-normal" dir="auto">Data Science do Zero: Primeiras Regras com o Python</span>,
 <span class="a-size-medium a-color-base a-text-normal" dir="auto">Python Para Análise de Dados: Tratamento de Dados com Pandas, NumPy e IPython</span>,
 <span class="a-size-medium a-color-base a-text-normal" dir="auto">Data Science Para Negócios</span>,
 <span class="a-size-medium a-color-base a-text-normal" dir="auto">Data Science from Scratch 2e: First Principles with Python</span>,
 <span class="a-size-medium a-color-base a-text-normal" dir="auto">R Para Data Science</span>,
 <span class="a-size-medium a-color-base a-text-normal" dir="auto">Data Science Para Leigos</span>,
 <span class="a-size-medium a-color-base a-text-normal" dir="auto">Python Para Data Science Para Leigos</span>,
 <span class="a-size-medium a-color-base a-text-normal" dir="auto">Data Smart: Usando Data Science Para Transformar Informação em Insight</span>,
 <span class="a-size-medium a-c

In [17]:
#CAPTANDO O TEXT0
for i in amazon_conteudo:
    print(i.text) # mostra todos os textos  captados na pagina

Data Science do Zero: Primeiras Regras com o Python
Python Para Análise de Dados: Tratamento de Dados com Pandas, NumPy e IPython
Data Science Para Negócios
Data Science from Scratch 2e: First Principles with Python
R Para Data Science
Data Science Para Leigos
Python Para Data Science Para Leigos
Data Smart: Usando Data Science Para Transformar Informação em Insight
Mãos à Obra: Aprendizado de Máquina com Scikit-Learn & TensorFlow
Data Science: Simple and Effective Tips and Tricks to Learn Data Science
Essential Math for Data Science: Take Control of Your Data with Fundamental Calculus, Linear Algebra, Probability, and Statistics
Introdução a Data Science: Algoritmos de Machine Learning e métodos de análise
Data Science Para Profissionais. Utilizando R
Data Driven (English Edition)
Data Science na Prática: Teoria e Aplicações das principais técnicas de Inteligência Artificial
Storytelling com Dados: um Guia Sobre Visualização de Dados Para Profissionais de Negócios


In [158]:
# %load solucao_2.py
url = 'https://www.amazon.com.br/s?k=data+science&__mk_pt_BR=%C3%85M%C3%85%C5%BD%C3%95%C3%91&ref=nb_sb_noss_2'
amazon = requests.get(url)
soup_2 = BeautifulSoup(amazon.content, 'html.parser')
table = soup_2.select('.a-color-base.a-text-normal')
for i in table:
    print(i.text) # PEGO SOMENTE OS TEXTOS

Data Science do Zero: Primeiras Regras com o Python
Data Science para Negócios: O que você precisa saber sobre mineração de dados e pensamento analítico de dados
Python Para Análise de Dados: Tratamento de Dados com Pandas, NumPy e IPython
Data Science from Scratch 2e: First Principles with Python
R Para Data Science
Dataland
DATA SCIENCE: Simple and Effective Tips and Tricks to Learn Data Science (English Edition)
Python Para Data Science Para Leigos
Data Science Para Leigos
Data Smart: Usando Data Science Para Transformar Informação em Insight
Mãos à Obra: Aprendizado de Máquina com Scikit-Learn & TensorFlow
Introdução a Data Science: Algoritmos de Machine Learning e métodos de análise
Machine Learning: 3 Books in 1: Master the Mathematics of Applied Artificial Intelligence and Learn the Secrets of Python Programming, Data Science, and ... (Step-by-Step Guide) (English Edition)
Essential Math for Data Science: Take Control of Your Data with Fundamental Calculus, Linear Algebra, Proba

## Páginas dinâmicas

Em páginas dinâmicas, é necessário interagir com o site para que ele gere, dinamicamente, os dados de interesse.

In [None]:
f = open('aula.html', 'a')
f.write('<p></p>')
f.write('<p></p>')
f.write('<form oninput="x.value=parseInt(a.value)+parseInt(b.value)"><input type="range" id="a" value="50">+<input type="number" id="b" value="25">=<output name="x" for="a b"></output></form>')
f.close()

In [None]:
!aula.html

### Selenium

Refência: https://selenium-python.readthedocs.io/

In [21]:
#EXECUTANDO O WEBDRIVER
from selenium import webdriver

from webdriver_manager.chrome import ChromeDriverManager

driver = webdriver.Chrome(executable_path='chrome/chromedriver.exe')

In [22]:
from requests import get
#url que iremos analisar
url = 'https://groceries.asda.com/cat/home-entertainment/_/102592'
response = get(url)

In [4]:
#ANALISAR O QUE CONTEM A URL
print(response.content)

b'<!DOCTYPE html><html lang="en" data-appversion="v883"><head><script type="application/ld+json">{\n      "@context": "https://schema.org",\n      "@type": "WebSite",\n      "url": "https://groceries.asda.com",\n      "potentialAction": {\n        "@type": "SearchAction",\n        "target": "https://groceries.asda.com/search/{search_term_string}",\n        "query-input": "required name=search_term_string"\n      }\n    }</script><script>var performance_standalone = \'https://www.gstatic.com/firebasejs/7.17.2/firebase-performance-standalone.js\'\n    var firebaseConfig\n    if (location.host === \'groceries.asda.com\') {\n      firebaseConfig = {\n        apiKey: \'AIzaSyAOQBkGSppLN_LEiyD5sUokU-JBN43wOks\',\n        authDomain: \'asda-web-prod.firebaseapp.com\',\n        databaseURL: \'https://asda-web-prod.firebaseio.com\',\n        projectId: \'asda-web-prod\',\n        storageBucket: \'asda-web-prod.appspot.com\',\n        messagingSenderId: \'396075037548\',\n        appId: \'1:3960

In [23]:
# chamada da página, deve abrir também a página on browser controlado pelo Selenium
driver.get('https://groceries.asda.com/cat/home-entertainment/_/102592')

In [24]:
# utiliza o método que retorna uma lista com diversos elementos, através do nome da classe
produtosClass = driver.find_elements_by_class_name('co-product__anchor')
type(produtosClass)


list

In [25]:
print(len(produtosClass))
# imprime os elementos da lista
for i in range(len(produtosClass)):
    print(produtosClass[i].text)

28
Minecraft Green Bottle & Lunch Bag Bundle
George Home Unicorn Bottle & Lunch Bag Bundle
Disney Pixar Blue Toy Story 4 Bottle & Lunch Bag Bundle
George Home Blue Bottle
Fortnite Blue Lunch Bag
Smash Flamingo Lunch Bag & Bottle Set
George Home Purple Bottle
George Home Unicorn 4 Pack Snack Boxes
George Home Grey Felt Spot Print Cushion
George Home Grey Bear Print Reversible Duvet Set
George Home Yellow Giraffe Super Soft Throw
George Home Black Round Mirror
George Home Cream Bambi Cushion
George Home Circular Bamboo Mirror
George Home Matte Black Tea Pot
George Home Timeless Gin Glass
George Home Faux Fern In Grey Pot
George Home Pink Mongolian Faux Fur Cushion
George Home Pink Microfibre Throw
George Home Green Animals Tumbler
George Home Green Animals Dispenser
George Home Chunky Stemmed Gin Glass
George Home Conical Glass Jug
Roku Express Streaming Player
ASDA  Air Circulation Fan
Scoville Neverstick 5 Piece Cookware & Pan Set
Brita Marella XL Water Filter Jug Blue
Google Chromecas

In [38]:
produtosXpath = driver.find_elements_by_xpath('//*[@id="main-content"]/main/div[6]/div[1]/ul/li[3]/div/div[2]/div[1]/h3/a')
print(len(produtosXpath), type(produtosXpath))
produtosXpath[0].text

1 <class 'list'>


'Disney Pixar Blue Toy Story 4 Bottle & Lunch Bag Bundle'

In [41]:
#//*[@id="main-content"]/main/div[6]/div[1]/ul/li[3]/div/div[2]/div[1]/h3/a
produtosXpath = driver.find_elements_by_xpath('//*[@id="main-content"]/main/div[6]/div[1]/ul/li[*]/div/div[2]/div[1]/h3/a')
print(len(produtosXpath))
for i in range(len(produtosXpath)):
    print(produtosXpath[i].text)

8
Minecraft Green Bottle & Lunch Bag Bundle
George Home Unicorn Bottle & Lunch Bag Bundle
Disney Pixar Blue Toy Story 4 Bottle & Lunch Bag Bundle
George Home Blue Bottle
Fortnite Blue Lunch Bag
Smash Flamingo Lunch Bag & Bottle Set
George Home Purple Bottle
George Home Unicorn 4 Pack Snack Boxes


In [42]:
#//*[@id="main-content"]/main/div[6]/div[1]/ul/li[3]/div/div[2]/div[1]/h3/a
#//*[@id="main-content"]/main/div[6]/div[1]/ul/li[2]/div/div[2]/div[1]/h3/a

produtosXpath = driver.find_elements_by_xpath('//*[@id="main-content"]/main/div[6]/div[1]/ul/li[*]/div/div[2]/div[1]/h3/a')
print(len(produtosXpath))
for i in range(len(produtosXpath)):
    print(produtosXpath[i].text)

8
Minecraft Green Bottle & Lunch Bag Bundle
George Home Unicorn Bottle & Lunch Bag Bundle
Disney Pixar Blue Toy Story 4 Bottle & Lunch Bag Bundle
George Home Blue Bottle
Fortnite Blue Lunch Bag
Smash Flamingo Lunch Bag & Bottle Set
George Home Purple Bottle
George Home Unicorn 4 Pack Snack Boxes


#### Exercício (tempo previsto: <15 min)
- Imprima os preços dos produtos da 1a página

In [32]:
productPrice = driver.find_elements_by_class_name("co-product__price")


In [37]:
print(len(productPrice))
for i in range(len(productPrice)):
    print(productPrice[i].text)

27
£9.00
£9.00
£2.00
£6.00
£7.00
£2.00
£3.00
£5.00
£8.00
£6.00
£5.00
£7.00
£8.00
£7.00
£3.00
£8.00
£7.00
£20.00
£3.00
£5.00
£8.00
£4.00
£25.00
£35.00
£65.00
£20.00
£25.00


In [52]:
productPrice_1 = driver.find_elements_by_xpath('//*[@id="main-content"]/main/div[6]/div[1]/ul/li[*]/div/div[3]/div[1]/span/strong')
print(len(productPrice_1))
for i in range(len(productPrice_1)):
    print(productPrice_1[i].text)

3
£9.00
£9.00
£3.00


TypeError: object of type 'WebElement' has no len()

In [26]:
% load solucao_3.py

UsageError: Line magic function `%` not found.


#### Exercício (tempo previsto: <10 min)
- Abra a página do Whiskas de 2 Kg

In [None]:
####### ----- Escreva seu código aqui ----- #######

#### Exercício (tempo previsto: 30-60 min)

- Imprima uma lista de veículos com suas informações a partir do site da FIPE

In [None]:
####### ----- Escreva seu código aqui ----- #######

### Selenium IDE


![Selenium](./img/seleniumIDE.png)

https://www.seleniumhq.org/selenium-ide/

In [None]:
%load test_scrapping.py

# Próximos Passos


![Next Steps](./img/next_steps.png)
https://elemento.ag/blog/ferramentas-web-scrapping-para-2020/

## Provedores de serviço

<table>
<tr>
    <td align='center'><b>Octoparse</b></td>
    <td align='center'><b>80Legs</b></td>
    <td align='center'><b>Mozenda</b></td>
    <td align='center'><b>Import.io</b></td>
<tr>
    <td>
        <img src="./img/octoparse.jpg">Octoparse
    </td>
    <td>
        <img src="./img/mozenda.jpg">Mozenda
    </td>
    <td>
        <img src="./img/80legs.png">80Legs
    </td>
    <td>
        <img src="./img/import.io.jpg">Import.io
    </td>

</table>

https://elemento.ag/blog/ferramentas-web-scrapping-para-2020/