<p style="font-family: 'Meiryo UI'; font-size: 32px; padding: 25px; text-align: center; color: #ffffff; border-radius: 25px;  font-weight: bold; background-color: #005080;">Workshop: Web Scraping</p>

## Web Scraping

Web scraping é uma técnica usada para extrair grandes quantidades de dados de sites de forma rápida e eficiente. Este método permite que os usuários coletem informações específicas de páginas da web, como texto, imagens e outros tipos de conteúdo, automatizando o processo de visitar um site e analisar o HTML ou outro código subjacente para extrair os dados desejados.

<center><img src="https://www.datasciencecentral.com/wp-content/uploads/2021/10/web-scraping-introduction-1.jpg" /></center>

### Pontos Chave
- **Automação**: O web scraping utiliza scripts ou bots para visitar páginas da web e extrair informações automaticamente, em vez de copiar e colar manualmente
- **Aplicações**: O web scraping é amplamente utilizado em vários campos, como análise de dados, pesquisa de mercado, monitoramento de preços e análise competitiva.
- **Ferramentas e Bibliotecas**: Ferramentas e bibliotecas populares para web scraping em Python incluem BeautifulSoup, Requests e Selenium.

### Exemplo de Uso
Você comercializa um produto em diferentes ecommerce, exemplo: Magalu, Amazon, Polishop, etc. Você quer coletar revisões do seu produto em todos estes sites. É possível automatizar o processo de visitar os sites, navegar pelos anúncios e extrair informações como preços, descrições e avaliações. Esses dados podem então ser analisados para entender as tendências do mercado, estratégias de precificação e preferências dos clientes.

### Considerações Importantes
- **Questões Legais e Éticas**: Sempre verifique os termos de serviço do site que você está raspando. Alguns sites proíbem explicitamente o scraping, e ignorar essas regras pode levar a consequências legais.

- **Respeitando a Carga do Site**: O scraping pode sobrecarregar o servidor do site alvo. É essencial usar práticas de scraping respeitosas, como definir intervalos de tempo apropriados entre as solicitações e não sobrecarregar o servidor com muitas solicitações em um curto período de tempo.


<p style="font-family: 'Meiryo UI'; font-size: 30px; padding: 12px; text-align: center; color: #ffffff; border-radius: 15px;  font-weight: bold; background-color: #007040;">Tabela de Conteúdo</p>

Para visualizar o contéudo do Workshop, utilize alguma das opções:

1. Clique em `View`abaixo da logo do Jupyter e, em seguida, em `Table of Contents`.
2. Utilize o comando `CTRL + SHIFT + K`

<h1>Tabela de Conteúdo<span class="tocSkip"></span></h1>
<div class="toc">
  <ul class="toc-item">
    <li>
      <span><a href="#Web-Scraping" data-toc-modified-id="Web-Scraping-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Web Scraping</a></span>
      <ul class="toc-item">
        <li><span><a href="#Pontos-Chave" data-toc-modified-id="Pontos-Chave-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Pontos Chave</a></span></li>
        <li><span><a href="#Exemplo-de-Uso" data-toc-modified-id="Exemplo-de-Uso-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Exemplo de Uso</a></span></li>
        <li><span><a href="#Considerações-Importantes" data-toc-modified-id="Considerações-Importantes-1.3"><span class="toc-item-num">1.3&nbsp;&nbsp;</span>Considerações Importantes</a></span></li>
      </ul>
    </li>
    <li>
      <span><a href="#Requisições-HTTP" data-toc-modified-id="Requisições-HTTP-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Requisições HTTP</a></span>
      <ul class="toc-item">
        <li><span><a href="#Bibliotecas" data-toc-modified-id="Bibliotecas-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Bibliotecas</a></span></li>
        <li><span><a href="#Requests" data-toc-modified-id="Requests-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Requests</a></span></li>
        <li><span><a href="#BeautifulSoup" data-toc-modified-id="BeautifulSoup-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>BeautifulSoup</a></span></li>
        <li><span><a href="#Instalação" data-toc-modified-id="Instalação-2.4"><span class="toc-item-num">2.4&nbsp;&nbsp;</span>Instalação</a></span></li>
      </ul>
    </li>
    <li>
      <span><a href="#Requests" data-toc-modified-id="Requests-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Requests</a></span>
      <ul class="toc-item">
        <li><span><a href="#Session" data-toc-modified-id="Session-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Session</a></span></li>
        <li><span><a href="#Headers" data-toc-modified-id="Headers-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>Headers</a></span></li>
        <li><span><a href="#Exemplo-GET-com-a-biblioteca-Requests" data-toc-modified-id="Exemplo-GET-com-a-biblioteca-Requests-3.3"><span class="toc-item-num">3.3&nbsp;&nbsp;</span>Exemplo: GET com a biblioteca Requests</a></span></li>
        <li><span><a href="#Exemplo-POST-com-a-biblioteca-Requests" data-toc-modified-id="Exemplo-POST-com-a-biblioteca-Requests-3.4"><span class="toc-item-num">3.4&nbsp;&nbsp;</span>Exemplo: POST com a biblioteca Requests</a></span></li>
        <li><span><a href="#Compreendendo-os-Códigos-de-Status-HTTP" data-toc-modified-id="Compreendendo-os-Códigos-de-Status-HTTP-3.5"><span class="toc-item-num">3.5&nbsp;&nbsp;</span>Compreendendo os Códigos de Status HTTP</a></span></li>
      </ul>
    </li>
    <li>
      <span><a href="#BeautifulSoup" data-toc-modified-id="BeautifulSoup-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>BeautifulSoup</a></span>
      <ul class="toc-item">
        <li><span><a href="#Encontrando-o-título-da-página" data-toc-modified-id="Encontrando-o-título-da-página-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>Encontrando o título da página</a></span></li>
        <li><span><a href="#Encontrando-o-texto-da-página" data-toc-modified-id="Encontrando-o-texto-da-página-4.2"><span class="toc-item-num">4.2&nbsp;&nbsp;</span>Encontrando o texto da página</a></span>
          <ul class="toc-item">
            <li><span><a href="#Find" data-toc-modified-id="Find-4.2.1"><span class="toc-item-num">4.2.1&nbsp;&nbsp;</span>Find</a></span></li>
            <li><span><a href="#FindAll" data-toc-modified-id="FindAll-4.2.2"><span class="toc-item-num">4.2.2&nbsp;&nbsp;</span>FindAll</a></span></li>
            <li><span><a href="#Selecionando-uma-propriedade" data-toc-modified-id="Selecionando-uma-propriedade-4.2.3"><span class="toc-item-num">4.2.3&nbsp;&nbsp;</span>Selecionando uma propriedade</a></span></li>
          </ul>
        </li>
      </ul>
    </li>
    <li><span><a href="#Prática-1" data-toc-modified-id="Prática-1-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Prática #1</a></span></li>
    <li>
      <span><a href="#Prática-2" data-toc-modified-id="Prática-2-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Prática #2</a></span>
      <ul class="toc-item">
        <li><span><a href="#Limitações-e-definição-de-um-alvo" data-toc-modified-id="Limitações-e-definição-de-um-alvo-6.1"><span class="toc-item-num">6.1&nbsp;&nbsp;</span>Limitações e definição de um alvo</a></span></li>
        <li><span><a href="#Carregando-Informações" data-toc-modified-id="Carregando-Informações-6.2"><span class="toc-item-num">6.2&nbsp;&nbsp;</span>Carregando Informações</a></span></li>
        <li><span><a href="#Comprando-o-Produto" data-toc-modified-id="Comprando-o-Produto-6.3"><span class="toc-item-num">6.3&nbsp;&nbsp;</span>Comprando o Produto</a></span></li>
      </ul>
    </li>
    <li>
      <span><a href="#Bonus-Selenium-Requests" data-toc-modified-id="Bonus-Selenium-Requests-7"><span class="toc-item-num">7&nbsp;&nbsp;</span>Bonus: Selenium + Requests</a></span>
      <ul class="toc-item">
        <li><span><a href="#Importando-a-biblioteca" data-toc-modified-id="Importando-a-biblioteca-7.1"><span class="toc-item-num">7.1&nbsp;&nbsp;</span>Importando a biblioteca</a></span></li>
        <li><span><a href="#Iniciando-o-driver-do-Chrome" data-toc-modified-id="Iniciando-o-driver-do-Chrome-7.2"><span class="toc-item-num">7.2&nbsp;&nbsp;</span>Iniciando o driver do Chrome</a></span></li>
        <li><span><a href="#Acessando-uma-página-web-com-o-Driver" data-toc-modified-id="Acessando-uma-página-web-com-o-Driver-7.3"><span class="toc-item-num">7.3&nbsp;&nbsp;</span>Acessando uma página web com o Driver</a></span></li>
        <li><span><a href="#Aplicando-o-BeautifulSoup-no-HTML-do-Selenium" data-toc-modified-id="Aplicando-o-BeautifulSoup-no-HTML-do-Selenium-7.4"><span class="toc-item-num">7.4&nbsp;&nbsp;</span>Aplicando o BeautifulSoup no HTML do Selenium</a></span></li>
        <li><span><a href="#Transferindo-os-Cookies-do-Selenium-para-as-Requests" data-toc-modified-id="Transferindo-os-Cookies-do-Selenium-para-as-Requests-7.5"><span class="toc-item-num">7.5&nbsp;&nbsp;</span>Transferindo os Cookies do Selenium para as Requests</a></span></li>
        <li><span><a href="#Adicionando-o-produto-novamente" data-toc-modified-id="Adicionando-o-produto-novamente-7.6"><span class="toc-item-num">7.6&nbsp;&nbsp;</span>Adicionando o produto novamente</a></span></li>
        <li><span><a href="#Encerrando-o-Driver" data-toc-modified-id="Encerrando-o-Driver-7.7"><span class="toc-item-num">7.7&nbsp;&nbsp;</span>Encerrando o Driver</a></span></li>
      </ul>
    </li>
    <li><span><a href="#Conclusão" data-toc-modified-id="Conclusão-8"><span class="toc-item-num">8&nbsp;&nbsp;</span>Conclusão</a></span></li>
  </ul>
</div>


<p style="font-family: 'Meiryo UI'; font-size: 30px; padding: 12px; text-align: center; color: #ffffff; border-radius: 15px;  font-weight: bold; background-color: #007040;">Requisições HTTP</p>

## Requisições HTTP

As requisições HTTP (HyperText Transfer Protocol) são um método utilizado pelos navegadores web e outros programas para solicitar dados ou realizar operações em servidores. Existem vários tipos de requisições HTTP, sendo os mais comuns:

- **GET**: Usado para solicitar dados de um servidor. É a requisição mais comum e é utilizada para recuperar recursos, como páginas HTML, imagens, etc.
- **POST**: Utilizado para enviar dados ao servidor, geralmente para submeter formulários ou carregar arquivos.
- **PUT**: Usado para enviar dados ao servidor para criar ou substituir um recurso específico.
- **DELETE**: Utilizado para remover um recurso do servidor.
- **HEAD**: Similar ao GET, mas solicita apenas os cabeçalhos da resposta, sem o corpo.
- **OPTIONS**: Usado para descrever as opções de comunicação para o recurso de destino.
- **PATCH**: Utilizado para aplicar modificações parciais a um recurso.

Cada requisição HTTP consiste em:

1. **Linha de requisição**: Contém o método HTTP (GET, POST, etc.), o caminho do recurso, e a versão do protocolo HTTP.
2. **Cabeçalhos de requisição**: Informações adicionais enviadas com a requisição, como tipo de conteúdo, informações de autenticação, etc.
3. **Corpo da requisição**: Dados enviados com a requisição, geralmente usados com métodos POST e PUT.

<p style="font-family: 'Meiryo UI'; font-size: 30px; padding: 12px; text-align: center; color: #ffffff; border-radius: 15px;  font-weight: bold; background-color: #007040;">Bibliotecas Python</p>

### Bibliotecas

Estas são as bibliotecas necessárias para o desenvolvimento deste workshop.

### Requests

Requests é uma biblioteca Python simples para fazer solicitações HTTP. Com Requests, você pode enviar solicitações com métodos acima, adicionar cabeçalhos, enviar dados e muito mais.

### BeautifulSoup

BeautifulSoup é uma biblioteca Python para extrair dados de arquivos HTML e XML. Ela cria uma árvore de análise que pode ser usada para extrair e visualizar os dados.

### Instalação

No ambiente de desenvolvimento atual, as bibliotecas já estão instaladas. No seu ambiente de desenvolvimento pessoal, você precisa instalar estas bibliotecas. 

Antes de instalar as bibliotecas, você precisa de uma versão do Python e para isso podemos utilizar o Anaconda: [Anaconda no Windows](https://clouds.eos.ubc.ca/~phil/docs/problem_solving/01-Orientation/01.03-Installing-Anaconda-on-Windows.html).

Após instalar o Anaconda, os seguintes comandos são utilizados para instalar as bibliotecas deste workshop:

1. ```pip install requests``` 
2. ```pip install beautifulsoup4```

In [10]:
import requests

from bs4 import BeautifulSoup

<p style="font-family: 'Meiryo UI'; font-size: 30px; padding: 12px; text-align: center; color: #ffffff; border-radius: 15px;  font-weight: bold; background-color: #007040;">Requests</p>

## Requests

- A biblioteca requests permite o envio de requisições HTTP utilizando Python.
- A requisição retorna uma `Response` (Resposta) com o status e conteudo solicitado.

### Session

Uma _Session_ permite:

    - Utilizar parametros e cookies em múltiplas requisições.
    - Estabelecer e manter uma conexão ativa com o site.

A _Session_ é utilizada da seguinte forma:

In [11]:
session = requests.Session()

### Headers

Os _Headers_ permitem fornecer informações sobre o contexto da solicitação.

Por exemplo:

    O 'User-Agent' permite informar o sistema operacional, fornecedor e versão de quem está enviando a requisição.
 
 A nossa _Session_ tem um valor definido por padrão.

In [12]:
print(session.headers)

{'User-Agent': 'python-requests/2.31.0', 'Accept-Encoding': 'gzip, deflate, br, zstd', 'Accept': '*/*', 'Connection': 'keep-alive'}


#### Atualizando Headers

 **Para atualizar os _Headers_ da nossa _Session_, vamos utilizar o site**: [What is my user agent?](https://www.whatismybrowser.com/detect/what-is-my-user-agent/)

In [13]:
headers = {
    'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36 Edg/125.0.0.0'
}

session.headers.update(headers)

print(session.headers)

{'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36 Edg/125.0.0.0', 'Accept-Encoding': 'gzip, deflate, br, zstd', 'Accept': '*/*', 'Connection': 'keep-alive'}


### Exemplo: GET com a biblioteca Requests

In [14]:
url = 'https://example.com'

response = session.get(url)

print("Status HTTP:", response.status_code, end= "\n\n")
print(response.text)

Status HTTP: 200

<!doctype html>
<html>
<head>
    <title>Example Domain</title>

    <meta charset="utf-8" />
    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
    <style type="text/css">
    body {
        background-color: #f0f0f2;
        margin: 0;
        padding: 0;
        font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
        
    }
    div {
        width: 600px;
        margin: 5em auto;
        padding: 2em;
        background-color: #fdfdff;
        border-radius: 0.5em;
        box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);
    }
    a:link, a:visited {
        color: #38488f;
        text-decoration: none;
    }
    @media (max-width: 700px) {
        div {
            margin: 0 auto;
            width: auto;
        }
    }
    </style>    
</head>

<body>
<div>
    <h1>Example Domain</h1>

### Exemplo: POST com a biblioteca Requests

In [15]:
url = 'https://httpbin.org/anything'

data = {
    'Exemplo': 'Post',
    'Workshop': 'Web Scraping'
}

response = session.post(url, json=data)

print("Status HTTP:", response.status_code, end= "\n\n")

print(response.json())

Status HTTP: 200

{'args': {}, 'data': '{"Exemplo": "Post", "Workshop": "Web Scraping"}', 'files': {}, 'form': {}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate, br, zstd', 'Content-Length': '47', 'Content-Type': 'application/json', 'Host': 'httpbin.org', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36 Edg/125.0.0.0', 'X-Amzn-Trace-Id': 'Root=1-665f60dd-30900ee1038910c829df816b'}, 'json': {'Exemplo': 'Post', 'Workshop': 'Web Scraping'}, 'method': 'POST', 'origin': '131.255.64.129', 'url': 'https://httpbin.org/anything'}


### Compreendendo os Códigos de Status HTTP

Os códigos de status HTTP são emitidos pelo servidor em resposta a uma solicitação feita ao servidor. 

Aqui estão os códigos de status mais comuns e seus significados:

1. **1xx: Informativo**
    - **100 Continue:** O servidor recebeu a solicitação inicial e o cliente deve continuar com a solicitação.
    - **101 Switching Protocols:** O servidor aceita a solicitação do cliente para alterar o protocolo. 
    
    <br>

2. **2xx: Sucesso**
    - **200 OK:** A solicitação foi bem-sucedida e o servidor retornou os dados solicitados.
    - **201 Created:** A solicitação foi bem-sucedida e um novo recurso foi criado.
    - **204 No Content:** A solicitação foi bem-sucedida, mas não há conteúdo para enviar na resposta.
    
    <br>

3. **3xx: Redirecionamento**
    - **301 Moved Permanently:** O recurso solicitado foi movido permanentemente para uma nova URL.
    - **302 Found:** O recurso solicitado foi encontrado em uma URL diferente temporariamente.
    - **304 Not Modified:** O recurso não foi modificado desde a última solicitação.
    
    <br>

4. **4xx: Erro do Cliente**
    - **400 Bad Request:** A solicitação não pôde ser entendida pelo servidor devido à sintaxe incorreta.
    - **401 Unauthorized:** A solicitação requer autenticação do usuário.
    - **403 Forbidden:** O servidor entendeu a solicitação, mas se recusa a autorizá-la.
    - **404 Not Found:** O servidor não encontrou o recurso solicitado.
    
    <br>

5. **5xx: Erro do Servidor**
    - **500 Internal Server Error:** O servidor encontrou uma condição inesperada que o impediu de atender à solicitação.
    - **502 Bad Gateway:** O servidor recebeu uma resposta inválida do servidor upstream.
    - **503 Service Unavailable:** O servidor está indisponível no momento (por sobrecarga ou manutenção).

Esses códigos de status ajudam a identificar o estado da solicitação HTTP e fornecem informações úteis para depuração e solução de problemas.


In [16]:
url = 'https://httpbin.org/anything'

data = {
    'Exemplo': 'Post',
    'Workshop': 'Web Scraping'
}

response = session.post(url, json=data)

if(response.status_code == 200):
    print("Ok!")
else:
    print(f"Falha, Status: {response.status_code}") 

Ok!


<p style="font-family: 'Meiryo UI'; font-size: 30px; padding: 12px; text-align: center; color: #ffffff; border-radius: 15px;  font-weight: bold; background-color: #007040;">BeautifulSoup</p>

## BeautifulSoup

- BeautifulSoup é uma biblioteca de Python para analisar documentos HTML e XML. 
- A biblioteca cria caminhos que auxiliam a extração dos dados.

In [17]:
url = 'https://example.com'

response = session.get(url)

if(response.status_code == 200):
    soup = BeautifulSoup(response.text, 'html.parser')

### Encontrando o titulo da página

In [18]:
titulo_da_pagina = soup.title

print("Titulo da Página:", titulo_da_pagina)
print("Titulo da Página:", titulo_da_pagina.text)

Titulo da Página: <title>Example Domain</title>
Titulo da Página: Example Domain


### Encontrando o texto da página

#### Find

In [19]:
texto_da_pagina = soup.find('p')

print(texto_da_pagina)

<p>This domain is for use in illustrative examples in documents. You may use this
    domain in literature without prior coordination or asking for permission.</p>


#### FindAll

In [20]:
texto_da_pagina_2 = soup.findAll('p')

print(texto_da_pagina_2)

[<p>This domain is for use in illustrative examples in documents. You may use this
    domain in literature without prior coordination or asking for permission.</p>, <p><a href="https://www.iana.org/domains/example">More information...</a></p>]


In [21]:
for texto in texto_da_pagina_2:
    print(texto)
    print('-----')

<p>This domain is for use in illustrative examples in documents. You may use this
    domain in literature without prior coordination or asking for permission.</p>
-----
<p><a href="https://www.iana.org/domains/example">More information...</a></p>
-----


#### Selecionando uma propriedade

In [22]:
texto_com_link = texto_da_pagina_2[1]
tag_a = texto_com_link.find('a')
tag_a_url = tag_a.get('href')

print("Texto com link: ", texto_com_link)
print("Tag <a>: ", tag_a)
print("URL: ", tag_a_url)

Texto com link:  <p><a href="https://www.iana.org/domains/example">More information...</a></p>
Tag <a>:  <a href="https://www.iana.org/domains/example">More information...</a>
URL:  https://www.iana.org/domains/example


<p style="font-family: 'Meiryo UI'; font-size: 30px; padding: 12px; text-align: center; color: #ffffff; border-radius: 15px;  font-weight: bold; background-color: #007040;">Prática #1</p>

## Prática #1

Você foi contratado pela Zintendo, uma empresa renomada no mundo dos jogos. A sua chefe, Nelda, lhe informa que, para acessar os dados do servidor, você precisa fornecer o IP da sua máquina.

Para descobrir o IP da máquina, escreva um código que faz Web Scraping do site [Meu IP](https://www.meuip.com.br/) e retorna o IP da sua máquina.

**Uma ajudinha:**

1. Envie uma requisição GET para a 'url_meuip'
2. Verifique o status da requisição
3. Utilize o BeautifulSoup para analisar o HTML
4. No exemplo anterior, o texto estava na tag 'p', em que tag se encontra o IP?

In [23]:
url_meuip = "https://www.meuip.com.br/"



response = session.get(url_meuip)
if(response.status_code == 200):
    print('Ok!')
    soup = BeautifulSoup(response.text, 'html.parser')
    meu_ip = soup.findAll('h3')
    print(meu_ip)

Ok!
[<h3 class="m-0 font-weight-bold" style="color: #FF8000;">Meu ip é 131.255.64.129</h3>]


<p style="font-family: 'Meiryo UI'; font-size: 30px; padding: 12px; text-align: center; color: #ffffff; border-radius: 15px;  font-weight: bold; background-color: #007040;">Prática #2</p>

## Prática #2

Localizada no centro histórico da cidade do Porto, a Livraria Lello é um marco artístico e cultural com mais de 100 anos de história.

Existe um rumor que a escritora dos livros de Harry Potter se inspirou na livraria. Apesar de algumas semelhanças, essa informação foi desmentida em 2020. No entanto, a Livraria Lello continua a atrair inúmeros turistas e fãs da saga, que a visitam em busca de sua atmosfera encantadora.

<br>

<img src="https://i0.wp.com/turismo.eurodicas.com.br/wp-content/uploads/2018/07/interior-da-livraria-lello.jpg?w=1200&ssl=1" />

<br>

Vamos imaginar que o rumor ainda é verdadeiro. Ao preparar um café, o proprietário da livraria acidentalmente soltou uma magia, sujando todos os livros de Harry Potter. Que tragédia!

**Sua tarefa hoje é auxiliar o proprietário a comprar novos livros**. 

<br>

<img src="https://a-static.mlcdn.com.br/450x450/box-livros-harry-potter-tradicional-j-k-rowling/magazineluiza/236789300/7a83cac4fe23aed6be68865ec175b4a7.jpg" />

<br>

Antes de comprar novos livros, é necessário entender que a Livraria Lello precisa ter **lucro** ao vender estes livros, ou seja, você vai construir um sistema que:

- **Monitorar o preço dos livros**.
- **Compra o livro quando o preço estiver em promoção**.

### Limitações e definição de um alvo

Infelizmente, precisamos informar ao proprietário que, para evitar problemas com a rede da universidade, teremos que escolher apenas um livro desta vez. 

Ele é uma boa pessoa, entendeu o problema e ainda sugeriu os seguintes links:

[Harry Potter e a Pedra Filosofal](https://leitura.com.br/harry-potter-e-a-pedra-filosofal-L999-9788532511010) <br>
[Harry Potter e a Câmara Secreta](https://leitura.com.br/harry-potter-e-a-camara-secreta-L999-9788532511669?search=harry%20potter%20camara) <br>
[Harry Potter e o Prisineiro de Azkaban](https://leitura.com.br/harry-potter-e-o-prisioneiro-de-azkaban-L999-9788532512062) <br> 
[Harry Potter e o Cálice de Fogo](https://leitura.com.br/harry-potter-e-o-calice-de-fogo-L999-9788532512529) <br>
[Harry Potter e o Enigma do Príncipe](https://leitura.com.br/harry-potter-e-o-enigma-do-principe-L999-9788532519474) <br> 
[Harry Potter e as Relíquias da Morte](https://leitura.com.br/harry-potter-e-as-reliquias-da-morte-L037-9788532522610) <br>

Escolha um dos livros e insira o link abaixo!

In [27]:
url_livro_alvo = 'https://leitura.com.br/harry-potter-e-a-pedra-filosofal-L999-9788532511010'

### Carregando Informações

Vamos fazer Web Scraping na página do livro para obter as seguintes informações:

- O titulo
- A imagem
- O preço
- O product_id

**Mais uma ajudinha:**

1. Atualize o cabeçalho da _Session_
2. Utilize o método GET da _Session_ para obter o código HTML do livro
3. Utilize os métodos Find/FindAll para encontrar cada uma das informações
4. A 'imagem' é a URL da Imagem, você pode encontrar a URL na propriedade 'src'

In [28]:
session = requests.Session()
session.headers.update(headers)

In [29]:
response = session.get(url_livro_alvo)

if(response.status_code == 200):
    soup = BeautifulSoup(response.text, 'html.parser')

In [47]:
PRECO = soup.findAll('h2')[1].text
TITULO = soup.title.text
IMAGEM = soup.find('img', {'title': TITULO}).get('src')
PRODUCT_ID = soup.findAll('td')[1].text

print(f'Nome do Produto: {TITULO}')
print(f'Preço do Produto: {PRECO}')
print(f'Identificador do Produto: {PRODUCT_ID}')
print(f'URL da Imagem: {IMAGEM}')

Nome do Produto: Harry Potter e a Pedra Filosofal
Preço do Produto: R$37,74
Identificador do Produto: L999-9788532511010
URL da Imagem: https://leitura.com.br/image/cache/products/9788532511010-228x228.jpg


### Comprando o Produto

**O produto está em promoção e com um valor muito abaixo que o mercado, já está para esgotar, corra!!!**

<img src="https://thumbs.dreamstime.com/b/girl-running-shopping-cart-to-shop-supermarket-store-boutique-black-friday-vector-illustration-cartoon-crazy-241043020.jpg" />

**Vamos fazer um código para automatizar esse processo!**

In [None]:
url = ''

data = {}
headers = {}

session = None

## Bonus: Selenium + Requests

- Selenium é uma ferramenta poderosa para automação de navegadores web.
- É possível interagir com páginas da web da mesma forma que um usuário faria: clicando em botões, preenchendo formulários, navegando entre páginas, etc.
- O selenium ideal para scraping de páginas dinâmicas e interativas.

### Importando a biblioteca

- Nesta parte do Curso, utilizaremos apenas o Webdriver do Selenium.
- A biblioteca contém diversos métodos, classes e funções. Você pode conferir a documentação completa no [Selenium Docs](https://selenium-python.readthedocs.io/).

In [None]:
from selenium import webdriver

### Iniciando o driver do Chrome

- O driver é um tipo de instancia do Google Chrome, ele possibilita a conexão do Selenium com o Google Chrome, similar ao Chrome que é utilizado no dia-a-dia.

In [None]:
driver = webdriver.Chrome()

### Acessando uma página web com o Driver

- Vamos utilizar o método GET do WebDriver para acessar a nossa página alvo.

In [None]:
driver.get(url_livro_alvo)

### Aplicando o BeautifulSoup no HTML do Selenium

- Você lembra como utilizavamos o BeautifulSoup para analisar o HTML da nossas requisições?
- É o mesmo procedimento para o HTML do Selenium, com uma pequena diferença, o conteúdo do Selenium está no `driver.page_source`

In [None]:
soup = BeautifulSoup(driver.page_source, 'html.parser')

### Transferindo os Cookies do Selenium para as Requests

- Vamos compartilhar a conexão estabelecida com o Selenium para uma Sessão de requests!

In [None]:
session = requests.Session()
session.headers.update(headers)

for i in driver.get_cookies():
    nome = i['name']
    valor = i['value']

    print("Nome: ", nome)
    print("Valor: ", valor)
    print("-----")

    session.cookies.set(nome, valor)

session.cookies.get_dict()

### Adicionando o produto novamente

- Novamente estaremos adicionando o produto, porém, desta vez temos uma diferença, estamos com os cookies do Selenium!

In [None]:
url = "https://leitura.com.br/index.php?route=checkout/cart/add"

payload = {
    "quantity" : 1,
    "product_id" : 886413
}

r = session.post(url, data= payload)

if(r.status_code == 200):
    print("Ok!")
    print(r.json())
else:
    print(f"Status: {r.status_code}")

### Encerrando o Driver

- Apos encerrar as automações com o seu Driver, é possível encerrar com o comando driver.quit()

In [None]:
driver.quit()