# Análise de texto de fontes desestruturadas e Web

## Aula 07

## Importando as bibliotecas necessárias

In [None]:
# para trabalhar com diretórios / sistema operacional
import os

# para nos comunicarmos com a Web
import requests

# para extrair informações de páginas HTML
import bs4
from bs4 import BeautifulSoup

# utilizada para nos indicar o caminho do executável do Python
import sys

# Para criar um Data Frame
import pandas as pd

# Controlar espera entre requisições
import time

# Gerar valores aleatórios
import random

# Produto cartesiano
from sklearn.utils.extmath import cartesian

# Renderizar HTML
import IPython

# Paga digitar senha
import getpass

Caso obtenha algum erro, utilize o **!pip install** para instalar a biblioteca ausente!

Vamos conferir com qual versão da biblioteca **xxxx** estamos trabalhando?

In [None]:
print(bs4.__version__)

Você também pode conferir de onde está executando o Python e qual a versão

In [None]:
print('Executável:')
print(sys.executable)

print('\nVersão do Python:')
print(sys.version)

Vamos conferir em qual diretório iremos trabalhar (é o diretório do notebook)

In [None]:
print('O seu notebook está na pasta:')
print(os.getcwd())

## Relembrar

Para relembrar a aula passada, vamos fazer o scraping do nome de uma pessoa da página https://atd-insper.s3.us-east-2.amazonaws.com/aula07/mensagem.html

Clique no link para visualizar seu conteúdo.

Vamos utilizar `requests` para fazer uma requisição `GET` na página e instanciar um objeto `BeautifulSoup` para extrair os dados!

In [None]:
url = 'https://atd-insper.s3.us-east-2.amazonaws.com/aula07/mensagem.html'

pag_msg = # Seu código AQUI!

pag_msg.encoding = 'utf-8'

soup = # Seu código AQUI!

Agora, utilize `soup` para buscar o nome!

In [None]:
# Seu código AQUI!

Parece que não funcionou! Vamos tentar encontrar todos os parágrafos?!

In [None]:
# Seu código AQUI!

**Pergunta**: Você consegue explicar o que aconteceu?!

<div class="alert alert-success">

Sua resposta AQUI! Dê dois cliques e edite.

</div>

### HTML Retornado

Vamos verificar o HTML retornado em nossa requisição

In [None]:
print(pag_msg.text)

Observe a tag
```html
<span id="nome"></span>
```
Ela não contém o nome **Ana Maria**! Vá até o site e faça o **inspect** (com botão direito) e confira o HTML. Você verá que no navegador temos a informação do nome corretamente!

### Tipos de páginas Web

#### Páginas Estáticas

Uma página da Web estática é uma página da Web que é entregue ao navegador da Web do usuário exatamente como é armazenada, sem nenhum elemento **dinâmico** ou **interativo**. O conteúdo de uma página da Web estática geralmente é definido em um arquivo HTML fixo que é armazenado no servidor da Web e enviado ao navegador do usuário quando ele solicita a página (`GET`).

As páginas da Web estáticas geralmente têm uma estrutura simples e não requerem nenhum script do lado do servidor ou acesso ao banco de dados para gerar o conteúdo. Exemplos de páginas da Web estáticas incluem sites de folhetos que fornecem informações sobre uma empresa ou organização, portfólios, blogs pessoais e outros tipos de sites que não exigem atualizações frequentes ou funcionalidades complexas.

#### Páginas Dinâmicas

Páginas dinâmicas são páginas da Web capazes de exibir conteúdos diferentes cada vez que são carregadas ou acessadas. O conteúdo exibido nessas páginas geralmente é gerado dinamicamente a partir de um banco de dados ou sistema de gerenciamento de conteúdo (CMS), em vez de ser pré-escrito e armazenado como arquivos HTML estáticos.

As páginas dinâmicas podem ser criadas usando várias linguagens de programação, como PHP, Python, Ruby, JavaScript e outras. Eles também podem usar scripts do lado do servidor ou scripts do lado do cliente para manipular o conteúdo da página em resposta à interação do usuário ou outros eventos.

- **Client-side Scripting**: a página da Web muda em resposta a uma ação dentro dela (evento do lado do cliente) utilizando scripts que geram “conteúdo do lado do cliente” e no computador do cliente. Aqui, o principal recurso será **Javascript**, que visualizaremos embutido no código HTML!



- **Server-side Scripting**: uma página da Web que muda quando é carregada ou visitada, ou com base no que é enviado a ela, utilizando script do lado do servidor. Quando as páginas são carregadas, o conteúdo do lado do servidor é gerado. Exemplos incluem páginas de login, carrinhos de compras e formulários de envio.

### Exemplos sintéticos

Alguns outros exemplos de páginas que rodam Javascript:
- https://atd-insper.s3.us-east-2.amazonaws.com/aula07/horas.html
- https://atd-insper.s3.us-east-2.amazonaws.com/aula07/precos.html

**Exercício 1)** Faça o scraping das páginas de **horas** e **precos** utilizando `requests` e `BeautifulSoup`.
- Na página de horas, extraia a hora
- Na página de precos, extraia as informações de pelo menos um produto (título, descrição, preço)

Você conseguiu extrair as informações? Consegue explicar?!

In [None]:
# Seu código AQUI

<div class="alert alert-success">

Sua explicação AQUI! Dê dois cliques e edite.

</div>

### Exemplos

Diversas páginas utilizam de recursos que as tornam dinâmicas.

Acesse o site https://imgur.com/ e role a página até a sua parte inferior. Perceba que novas imagens e vídeos serão carregados. Isto ocorreu porque um script faz uma requisição de conteúdo extra assim que a barra de rolagem aproxima-se da parte inferior. Este conteúdo extra é acrescido ao HTML da página.

Quando utilizamos `requests` para requisitar conteúdos da Web, acessamos a versão inicial da página, antes que qualquer script seja executado, uma vez que a biblioteca `requests` não emula um navegador. Assim, precisamos de técnicas novas para trabalhar com páginas dinâmicas.

### Como resolver?

Páginas dinâmicas em muitos casos podem impedir o *scraping* com técnicas vistas até aqui na disciplina.

Mas existem algumas situações que podem ser contornadas!

- Procurar **API dos dados**: vimos a VIACep como exemplo de API para consulta de endereços. As páginas Web realizam diversas requisições por conteúdo (imagens, JS, HTML, JSON, etc.). Podemos inspecionar o site de nosso interesse e procurar pelas chamadas de API, verificando se alguma delas retorna o conteúdo de nosso interesse. Idealmente encontraremos uma que retorne os dados em formato bastante adequado (JSON), sonhar não custa nada!

In [None]:
url = # Seu código AQUI!

pag_msg = requests.get(url)

pag_msg.encoding = 'utf-8'

soup = BeautifulSoup(pag_msg.text, 'html.parser')
print(pag_msg.text)

In [None]:
soup.find_all('li')

- Procurar por **dados não renderizados**: em certas páginas, os dados estão disponíveis na resposta, mas não foram renderizados em suas devidas posições no HTML. Neste caso você pode encontrar os dados, mas não com o localizador identificado no navegador. 

## Selenium

<img src="https://atd-insper.s3.us-east-2.amazonaws.com/aula07/img/selenium.png">

O Selenium (https://www.selenium.dev/) é um conjunto de tecnologias focadas em automatização de navegadores Web. Para nós, será uma biblioteca Python que utilizaremos para simular um usuário navegando pela Web.

Vamos importar as bibliotecas, caso encontre problemas, descomente a linha e faça a instalação:

In [None]:
# !pip install selenium
# !pip install webdriver_manager

Se estiver no Google Colab, descomente e também rode:

In [None]:
# !sudo apt update
# !wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
# !dpkg -i google-chrome-stable_current_amd64.deb
# !apt-get -f install
# !google-chrome-stable --version

Vamos importar as bibliotecas:

In [None]:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By

In [None]:
!pip show webdriver_manager

### Criando um driver

Execute a linha abaixo. Você irá perceber que será criada uma janela do navegador Chrome. Deixe esta janela aberta.

In [None]:
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))
driver.set_page_load_timeout(60)

# Se estiver no Colab, comente o código acima e utilize como alternativa
# chrome_options = webdriver.ChromeOptions()
# chrome_options.add_argument('--headless') # ensure GUI is off
# chrome_options.add_argument('--no-sandbox')
# chrome_options.add_argument('--disable-dev-shm-usage')
# driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=chrome_options)
# driver.set_page_load_timeout(60)

### Navegação

Vamos abrir o nosso exemplo das horas no navegador

In [None]:
url = 'https://atd-insper.s3.us-east-2.amazonaws.com/aula07/horas.html'
driver.get(url)
driver.implicitly_wait(10)

Vamos recuperar a hora. Para encontrar o elemento, faremos uma busca pelo nome da tag (`div`)

In [None]:
horas = driver.find_element(By.TAG_NAME, 'div')

Ao acessar `horas.text`, podemos obter o conteúdo exibido em tempo real ao usuário do navegador!

Execute a próxima célula múltiplas vezes!

In [None]:
horas.text

Veja mais informações sobre a busca de elementos em https://www.selenium.dev/documentation/webdriver/elements/finders/ 

### Localizadores

Os localizadores/seletores do Selenium são ferramentas usadas para localizar elementos em uma página da Web para que possam interagir com eles usando a estrutura de automação do Selenium. Existem vários tipos de seletores que podem ser usados no Selenium, entre eles:

- **Seletor CSS**: Um seletor CSS é um padrão usado para selecionar elementos com base em seus atributos CSS, como classe, id, nome, etc.

- **Seletor XPath**: Os seletores XPath são usados para localizar elementos com base em sua posição no documento HTML, bem como em seus atributos.

- **Seletor de ID**: O seletor de ID é usado para localizar um elemento com base em seu identificador exclusivo.

- **Seletor de classe**: O seletor de classe é usado para localizar elementos com base em seu nome de classe.

- **Seletor de nome**: O seletor de nome é usado para localizar elementos com base em seu atributo de nome.

- **Seletor de tags**: O seletor de tags é usado para localizar elementos com base em seu nome de tag HTML.

Esses seletores podem ser usados em combinação com vários métodos fornecidos pela estrutura do Selenium para interagir com os elementos em uma página da Web, como clicar em botões, preencher formulários ou extrair informações da página. É importante escolher o seletor apropriado para cada elemento para garantir uma automação confiável e eficiente.

Veja mais em:
- Pergunte ao ChatGPT
- https://www.tutorialspoint.com/selenium/selenium_locators.htm
- https://www.browserstack.com/guide/locators-in-selenium

### Selenium + BeautifulSoup

Uma outra opção é utilizar o Selenium apenas como emulador de navegador, fazendo o scraping com `BeautifulSoup`.

Com `driver.page_source` podemos recuperar o HTML atual da página:

In [None]:
soup = BeautifulSoup(driver.page_source, 'html.parser')

soup.find('div').text

### Exemplo: Login no Blackboard com Selenium

Vamos utilizar Selenium para acessar e fazer login no Blackboard.

Acesso à URL:

In [None]:
url = 'https://insper.blackboard.com/'
driver.get(url)

Precisamos encontrar o campo de **Nome**

In [None]:
nome = # Seu código AQUI!
nome

E preencher com nossas informações de login

In [None]:
nome.send_keys('')# Seu usuário insper AQUI!

Vamos informar nossa senha aqui no notebook

In [None]:
# Digite sua senha, se não funcionar, comentee e use algo no estilo:
# senha_blackboard = '123x1456
senha_blackboard = getpass.getpass()

E então preencher na página!

In [None]:
senha = # Seu código AQUI!
senha.send_keys(senha_blackboard)

Em seguida encontraremos o botão de login

In [None]:
botao = driver.find_element(By.ID, '') # CAMPO AQUI!
botao

E enviar um click!

In [None]:
botao.click()

Vamos remover o aviso de privacidade

In [None]:
driver.find_element(By.CLASS_NAME, 'button-1').click()

Simular um scroll até uma posição fixa

In [None]:
driver.execute_script('window.scrollTo(0,250)')

Fazer scrolls sequenciais

In [None]:
for i in range(200, 1000, 100):
    driver.execute_script(f'window.scrollTo(0,{i})')
    time.sleep(abs(random.gauss(1.0, 0.2)))

Scroll até o final da página

In [None]:
driver.execute_script("window.scrollTo(0,document.body.scrollHeight)")

E scroll para tornar algum elemento visível

In [None]:
plataforma = driver.find_element(By.XPATH, '/html/body/div[5]/div/div/div/div/div[1]/div/div/div[3]/div[4]/div[2]/div/p/a/img')
driver.execute_script("arguments[0].scrollIntoView();", plataforma)

# Exercícios

**Exercício 2)** Consider a página de notícias https://www.moneytimes.com.br/ultimas-noticias/: 

Implemente uma solução de recuperação de notícias utilizando a API de paginação. Retorne notícias das primeiras 10 páginas pelo menos.

In [None]:
# Seu código AQUI!

**Exercício 3)** Escolha um site de seu interesse. Construa um script Python que faça coisas como:
- Login no site
- Click em botões
- Acesso a links
- Etc.

In [None]:
# Seu código AQUI!

**Exercício 4)** Na aula anterior fizemos a busca no site da Magalu. Agora, tente fazer o scraping de busca por produtos no site www.casasbahia.com.br

O preço do site é retornado de forma dinâmica ou estática?

Retorne um DataFrame com pelo menos:
- Termo de busca
- Descrição do produto
- Preço
- Link para o produto

In [None]:
# Seu código AQUI!

## Referências

- https://www.packetlabs.net/posts/dynamic-pages/
- ChatGPT
