# Análise de texto de fontes desestruturadas e Web

## Aula 05

Nesta aula iremos aprender como extrair informações de páginas Web!


A biblioteca utilizada será a **BeautifulSoup**, além da **requests** já vista na aula anterior.

Para conhecer mais sobre ela, acesse https://beautiful-soup-4.readthedocs.io/en/latest/

## HTML

As páginas Web são construídas utilizando uma linguagem de marcação, a **HyperText Markup Language**. Nela, são utilizadas *tags* para definir alterações em partes da página, como criação de imagens, *hyperlinks*, tabelas, listas, cabeçalhos, parágrafos, etc.

Muito do conteúdo produzido por empresas e clientes acabam sendo disponibilizados em páginas Web. Hoje podemos comprar, vender, interagir, etc utilizando navegadores, que interpretam páginas HTML.

Do ponto de vista dos programadores, queremos percorrer tais páginas e extrair conteúdos de interesse (notícia, preço de um produto, uma imagem, etc.). Estas informações de interesse estarão distribuídas em um emaranhado de *tags*, portanto, as páginas Web são consideradas como sendo semi-estruturadas ou desestruturadas.

Para acessar este conteúdo de interesse com facilidade, podemos utilizar ferramentas de *Web scraping* e *parsers*, que conseguem entender a estrutura da linguagem que define as páginas e possuem recursos que facilitam a extração de conteúdos específicos. Em nossa aula, utilizaremos o **BeautifulSoup** como ferramenta de *scraping*. Podemos personalizar o *parser* mas esta informação fica para depois!

## Instalando a biblioteca *BeautifulSoup*

Primeiro, vamos instalar a principal biblioteca de nossa aula!

In [1]:
!pip install BeautifulSoup4

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


Caso a biblioteca já esteja instalada, porém com uma versão antiga, podemos atualizá-la com:

In [2]:
!pip install -U BeautifulSoup4

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting BeautifulSoup4
  Downloading beautifulsoup4-4.11.2-py3-none-any.whl (129 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m129.4/129.4 KB[0m [31m3.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting soupsieve>1.2
  Downloading soupsieve-2.4-py3-none-any.whl (37 kB)
Installing collected packages: soupsieve, BeautifulSoup4
  Attempting uninstall: BeautifulSoup4
    Found existing installation: beautifulsoup4 4.6.3
    Uninstalling beautifulsoup4-4.6.3:
      Successfully uninstalled beautifulsoup4-4.6.3
Successfully installed BeautifulSoup4-4.11.2 soupsieve-2.4


## Importando as bibliotecas necessárias

Agora, vamos importar as bibliotecas necessárias:

In [3]:
# para trabalhar com diretórios / sistema operacional
import os

# para nos comunicarmos com a Web
import requests

# para extrair informações de páginas HTML
import bs4
from bs4 import BeautifulSoup

# utilizada para nos indicar o caminho do executável do Python
import sys

# Para criar um Data Frame
import pandas as pd

# Renderizar HTML
import IPython

Caso obtenha algum erro, utilize o **!pip install** para instalar a biblioteca ausente!

Vamos conferir com qual versão da biblioteca **xxxx** estamos trabalhando?

In [4]:
print(bs4.__version__)

4.11.2


Você também pode conferir de onde está executando o Python e qual a versão

In [5]:
print('Executável:')
print(sys.executable)

print('\nVersão do Python:')
print(sys.version)

Executável:
/usr/bin/python3

Versão do Python:
3.9.16 (main, Dec  7 2022, 01:11:51) 
[GCC 9.4.0]


Vamos conferir em qual diretório iremos trabalhar (é o diretório do notebook)

In [6]:
print('O seu notebook está na pasta:')
print(os.getcwd())

O seu notebook está na pasta:
/content


## Interagindo com HTML

Iremos utilizar o arquivo **amostra.html** para nos familiarizarmos com as *tags* HTML.

Primeiro, vamos baixar o arquivo amostra.html para a mesma pasta do nosso Jupyter notebook.

In [22]:
url = 'https://atd-insper.s3.us-east-2.amazonaws.com/aula04/amostra.html'

# Faça aqui o get da página!
req = requests.get(url)

req.encoding = 'utf-8'

Conferindo o código de resposta

In [23]:
# Seu código AQUI!
req.status_code

200

e o texto de resposta

In [24]:
# Seu código AQUI!
print(req.text)

<!DOCTYPE html>
<html>
    <head>
        <meta charset="UTF-8">
        <title>Este é o título da página!</title>
    </head>

    <body>

        <h1>Este é um exemplo de página Web!</h1>

        <p>Estamos utilizando HTML, que é uma linguagem de <b>Marcação</b> de <i>texto</i></p>

        <h2>Este é um cabeçalho</h2>

        <p>E este é um parágrafo.</p>

        <p>Link para o <a href="https://www.google.com">Google</a></p>
    </body>
</html>



In [25]:
IPython.display.HTML(req.text)

Agora, vamos salvar a resposta em um arquivo

In [27]:
# Seu código AQUI!
with open('amostra.html', 'w') as arq:
  arq.write(req.text)

Pronto! Confira se foi criado um arquivo **amostra.html** na pasta onde está o seu Jupyter notebook.

In [28]:
!dir #Para listar conteúdo na pasta atual

amostra.html  sample_data


In [29]:
!ls #Para listar conteúdo na pasta atual

amostra.html  sample_data


Agora você pode abrir este arquivo no navegador. Confira como a página é exibida.

Você também pode abrir o arquivo **amostra.html** em um editor de textos qualquer (bloco de notas, sublime, notepad++, vcode) para realizar alterações.

## Extraindo informações dos arquivos HTML

Vamos aprender como utilizar o **BeautifulSoup** para extrair informações de interesse dos arquivos HTML?

Para obter o código HTML, podemos abrir o arquivo **amostra.html** caso ele já esteja em nossa máquina:

In [30]:
# Seu código AQUI!
with open('amostra.html', 'r') as arq:
  amostra = arq.read()

Caso contrário, podemos fazer uma requisição para obter seu conteúdo:

In [32]:
url = 'https://atd-insper.s3.us-east-2.amazonaws.com/aula04/amostra.html'

# Seu código AQUI!
req = requests.get(url)
req.encoding = 'utf-8'

amostra = req.text

Agora, vamos configurar o BeautifulSoup para uso com o conteúdo da página de amostra. Precisamos informar a *string* contendo o código HTML e também o *parser*, que faz a separação dos *tags* de marcação utilizadas.

In [33]:
soup = BeautifulSoup(amostra, 'html.parser')

Agora, podemos encontrar uma tag qualquer, por exêmplo **\<h2\>**:

In [34]:
soup.find('h2')

<h2>Este é um cabeçalho</h2>

Caso queira exibir apenas o texto da tag encontrada, faça:

In [35]:
h2 = soup.find('h2')
print('O conteúdo do título é: {}'.format(h2.text))

O conteúdo do título é: Este é um cabeçalho


Podemos também procurar por todas as ocorrências de uma tag:

In [36]:
soup.find_all('p')

[<p>Estamos utilizando HTML, que é uma linguagem de <b>Marcação</b> de <i>texto</i></p>,
 <p>E este é um parágrafo.</p>,
 <p>Link para o <a href="https://www.google.com">Google</a></p>]

Agora, vamos encontrar um link:

In [39]:
link = soup.find('a')
link

<a href="https://www.google.com">Google</a>

Será que conseguimos extrair o texto que aparece para o usuário?

In [41]:
link.text

'Google'

E como fazemos para extrair a URL do link?

In [60]:
link['href']

'https://www.google.com'

## Exemplo de aplicação

Suponha que tenhamos uma página Web com diversos produtos listados.

Acesse https://atd-insper.s3.us-east-2.amazonaws.com/aula05/produtos.html

Vamos utilizar o BeautifulSoup para extrair as informações da página, construindo um **pandas DataFrame** contendo o **`produto`**, **`descrição`** e **`preço`**.

Primeiro, vamos extrair a página com o *requests*:

In [42]:
url = 'https://atd-insper.s3.us-east-2.amazonaws.com/aula05/produtos.html'
pag_prod = requests.get(url)

pag_prod.encoding = 'utf-8'

print(pag_prod.text)


<!DOCTYPE html>
<html>
	<head>
        <meta charset="UTF-8">
        <title>Exemplo Produtos</title>
    </head>
<body>

<div class="menu" id="my_menu" align="right">
	<a href="#">HOME</a> | <a href="macielcv@insper.edu.br">CONTATO</a> | <a href="https://www.google.com">GOOGLE</a>
</div>


<div class="produto" id="produto_1" align="left" style="width:600px;height:160px; background-color:rgb(115, 185, 174);">
	<h4>Notebook Dell Core i5-8265U 8GB 1TB Tela 15.6” Windows 10 Inspiron I15-3583-A3XP</h4>
	<p>Com o notebook Dell Inspiron I15-3583-A3XP você conta com todos os recursos essenciais para o seu dia a dia. Sua estrutura leve e fina garante a portabilidade ideal para levar aonde quiser.</p>
    <span class="preco_produto" id="preco_produto_1">R$&nbsp;4.299,00</span>
</div>


<div class="produto" id="produto_2" align="left" style="width:600px;height:160px; background-color:rgb(115, 185, 174);">
	<h4>Notebook Dell Core i7-8565U 8GB 2TB Placa de Vídeo 2GB Tela Full HD 15.6” Windows 10 

Podemos abrir diretamente a URL em um navegador para verificar seu conteúdo, ou então renderizar dentro do notebook com:

In [43]:
IPython.display.HTML(pag_prod.text)

Vamos utilizar o BeautifulSoup

In [44]:
soup = BeautifulSoup(pag_prod.content, 'html.parser')

E extrair a lista de produtos. Podemos perceber que os produtos estão separados em `div` com classe `produto`. Assim, podemos utilizar o método `find_all` para obter uma lista de *tags* encontradas no HTML.

In [46]:
lista_produto = soup.find_all('div', class_='produto')
lista_produto

[<div align="left" class="produto" id="produto_1" style="width:600px;height:160px; background-color:rgb(115, 185, 174);">
 <h4>Notebook Dell Core i5-8265U 8GB 1TB Tela 15.6” Windows 10 Inspiron I15-3583-A3XP</h4>
 <p>Com o notebook Dell Inspiron I15-3583-A3XP você conta com todos os recursos essenciais para o seu dia a dia. Sua estrutura leve e fina garante a portabilidade ideal para levar aonde quiser.</p>
 <span class="preco_produto" id="preco_produto_1">R$ 4.299,00</span>
 </div>,
 <div align="left" class="produto" id="produto_2" style="width:600px;height:160px; background-color:rgb(115, 185, 174);">
 <h4>Notebook Dell Core i7-8565U 8GB 2TB Placa de Vídeo 2GB Tela Full HD 15.6” Windows 10 Inspiron I15-3583-A40B</h4>
 <p>Intel® Core™ i7-8565U Quad Core 1.8 GHz com Turbo Max até 4.6 GHz. Windows 10 Home Single Language 64 bits.</p>
 <span class="preco_produto" id="preco_produto_2">R$ 5.499,00</span>
 </div>,
 <div align="left" class="produto" id="produto_3" style="width:600px;height:1

Podemos obter um produto qualquer da lista ao informar o índice:

In [47]:
produto = lista_produto[0]
produto

<div align="left" class="produto" id="produto_1" style="width:600px;height:160px; background-color:rgb(115, 185, 174);">
<h4>Notebook Dell Core i5-8265U 8GB 1TB Tela 15.6” Windows 10 Inspiron I15-3583-A3XP</h4>
<p>Com o notebook Dell Inspiron I15-3583-A3XP você conta com todos os recursos essenciais para o seu dia a dia. Sua estrutura leve e fina garante a portabilidade ideal para levar aonde quiser.</p>
<span class="preco_produto" id="preco_produto_1">R$ 4.299,00</span>
</div>

Então, podemos obter as informações de **PRODUTO**, **DESCRIÇÃO** e **PREÇO** ao procurar pelas *tags* que os identificam!

In [48]:
produto_titulo = produto.find('h4').text
descricao = produto.find('p').text
preco = produto.find('span', class_='preco_produto').text

print('Produto....: ', produto_titulo)
print('\nDescrição..: ', descricao)
print('\nPreço......: ', preco)

Produto....:  Notebook Dell Core i5-8265U 8GB 1TB Tela 15.6” Windows 10 Inspiron I15-3583-A3XP

Descrição..:  Com o notebook Dell Inspiron I15-3583-A3XP você conta com todos os recursos essenciais para o seu dia a dia. Sua estrutura leve e fina garante a portabilidade ideal para levar aonde quiser.

Preço......:  R$ 4.299,00


### Obter todos os produtos e construir o DataFrame!

Para obter as informações de todos os produtos de forma fácil, podemos iterar (laço, estrutura de repetição **for**) sobre as *divs* de todos os produtos e extrair as informações para cada uma delas.

Podemos guardar cada produto, descrição e preço em uma **lista**, o que facilitará a construção do DataFrame.

In [49]:
# Cria listas vazias.
lista_prod_titulo = []
lista_descricao = []
lista_preco = []

# Um laço FOR pela lista de produtos
for produto in soup.find_all('div', class_='produto'):
    
    # Extrai cada informação do produto
    produto_titulo = produto.find('h4').text
    descricao = produto.find('p').text
    preco = produto.find('span').text
    
    preco = preco.replace('R$\xa0', '')
    preco = float(preco.replace(".", "").replace(",", "."))

    
    lista_prod_titulo.append(produto_titulo)
    lista_descricao.append(descricao)
    lista_preco.append(preco)

Agora, com as listas de produto, descrição e preço, podemos construir o DataFrame!

In [50]:
df = pd.DataFrame({'Produto': lista_prod_titulo,
                   'Descrição': lista_descricao,
                   'Preço': lista_preco
                  })
df

Unnamed: 0,Produto,Descrição,Preço
0,Notebook Dell Core i5-8265U 8GB 1TB Tela 15.6”...,Com o notebook Dell Inspiron I15-3583-A3XP voc...,4299.0
1,Notebook Dell Core i7-8565U 8GB 2TB Placa de V...,Intel® Core™ i7-8565U Quad Core 1.8 GHz com Tu...,5499.0
2,Notebook Gamer Dell G3 3500-U10P,Sua EXPERIÊNCIA Gamer Ainda Mais Intensa E Rea...,6049.0
3,Notebook Lenovo Core i3-8130U 4GB 1TB Tela 15....,"Design sofisticado leve e compacto, possui tel...",3199.0
4,Notebook Lenovo BS145 Intel Core I5 4Gb 256Gb ...,O teclado numérico BS145 integrado garante uma...,6781.0


Você conseguiria pensar em alguma aplicação prática feita a partir deste exemplo?

R: Extração de informações. Ex: Informações de ações.

**Exercício 1)** Abra o arquivo **amostra.html** em um editor de textos de sua preferência:

**a)** altere o título da página.

**b)** Adicione, antes da seção de links, mais três subtítulos (todos nível 2, com a tag \<h2\>).

**c)** Adicione, ao final da página, link para três páginas quaisquer de seu interesse.

In [52]:
%pycat amostra.html

In [53]:
%%writefile amostra2.html
<!DOCTYPE html>
<html>
    <head>
        <meta charset="UTF-8">
        <title>Este é o título da página!</title>
    </head>

    <body>

        <h1>Este é um exemplo de página Web!</h1>

        <p>Estamos utilizando HTML, que é uma linguagem de <b>Marcação</b> de <i>texto</i></p>

        <h2>Este é um cabeçalho</h2>

        <p>E este é um parágrafo.</p>

        <p>Link para o <a href="https://www.google.com">Google</a></p>
    </body>
</html>

Writing amostra2.html


In [54]:
IPython.display.HTML(filename='amostra2.html')

**Exercício 2)** Crie um novo arquivo HTML chamado **noticia.html** no editor de textos.

**a)** Crie um título para a página.

**b)** Crie um cabeçalho no arquivo (título, tag \<h1\>), contendo o texto "**`A missão do século 19 que deu início à oceanografia`**".

**c)** Adicione parágrafos contendo os textos:

*`Ela já foi uma casa residencial, mas atualmente a imponente estrutura de pedra na Boswall Road, na costa sul de Edimburgo, na Escócia, faz parte de uma clínica de cuidados paliativos.`*

*`A construção tem o mesmo nome da parte mais profunda do oceano e de duas espaçonaves da Nasa, agência espacial americana. Uma era o módulo de comando da missão Apollo 17, enquanto a outra era um ônibus espacial, que explodiu em pleno ar após o lançamento — Challenger.`*

*`Challenger Lodge já foi propriedade de John Murray, célebre precursor da oceanografia, cujas expedições o levaram aos lugares mais longínquos de Edimburgo, mas ainda no planeta Terra.`*

*`A embarcação em que viveu por três anos na década de 1870 é o que une a casa na costa escocesa, a parte mais profunda do oceano e as espaçonaves da Nasa.`*

*`O HMS Challenger era um navio da Marinha Real Britânica construído na década de 1850. Ele entrou para a história não pelo histórico de combates, mas graças a uma reputação conquistada por algo muito mais minucioso.`*

**d)** Entre o texto e o cabeçalho, adicione uma imagem para a seguinte URL:
https://ichef.bbci.co.uk/news/800/cpsprodpb/12746/production/_117309557_foto_01.jpg

Dica: utilize a tag \<img src="URL_DA_IMAGEM"\>

**e)** escolha três palavras para deixar em negrito.

**f)** No texto, no último parágrafo, deixe "Marinha Real Britânica" em itálico. Ainda, deixe "Britânica" também em negrito.


In [65]:
%%writefile noticia.html
<!DOCTYPE html>
<html>
    <head>
        <meta charset="UTF-8">
        <title>Este é o título da página!</title>
    </head>

    <body>

        <h1>NOTÍCIAS</h1>

        <h2>A missão do século 19 que deu início à oceanografia</h2>

        <img src="https://ichef.bbci.co.uk/news/800/cpsprodpb/12746/production/_117309557_foto_01.jpg">

        <p>Ela já foi uma casa residencial, mas atualmente a imponente estrutura de pedra na Boswall Road, na costa sul de Edimburgo, na Escócia, faz parte de uma clínica de cuidados paliativos.

        A construção tem o mesmo nome da parte mais profunda do oceano e de duas espaçonaves da Nasa, agência espacial americana. Uma era o módulo de comando da missão Apollo 17, enquanto a outra era um ônibus espacial, que explodiu em pleno ar após o lançamento — Challenger.

        <b>Challenger</b> Lodge já foi propriedade de <b>John Murray</b>, célebre precursor da oceanografia, cujas expedições o levaram aos lugares mais longínquos de Edimburgo, mas ainda no planeta Terra.

        A embarcação em que viveu por três anos na década de 1870 é o que une a casa na costa escocesa, a parte mais profunda do oceano e as espaçonaves da Nasa.

        O <b>HMS Challenger</b> era um navio da <i>Marinha Real <b>Britânica</b></i> construído na década de 1850. Ele entrou para a história não pelo histórico de combates, mas graças a uma reputação conquistada por algo muito mais minucioso.</p>

    </body>
</html>

Overwriting noticia.html


In [66]:
IPython.display.HTML(filename='noticia.html')

### Exercícios com noticia.html

**Exercício 3)** Abra o arquivo **noticia.html** e exiba seu conteúdo:

In [67]:
# Seu código AQUI!
with open('noticia.html', 'r') as arq:
  noticia = arq.read()

print(noticia)

<!DOCTYPE html>
<html>
    <head>
        <meta charset="UTF-8">
        <title>Este é o título da página!</title>
    </head>

    <body>

        <h1>NOTÍCIAS</h1>

        <h2>A missão do século 19 que deu início à oceanografia</h2>

        <img src="https://ichef.bbci.co.uk/news/800/cpsprodpb/12746/production/_117309557_foto_01.jpg">

        <p>Ela já foi uma casa residencial, mas atualmente a imponente estrutura de pedra na Boswall Road, na costa sul de Edimburgo, na Escócia, faz parte de uma clínica de cuidados paliativos.

        A construção tem o mesmo nome da parte mais profunda do oceano e de duas espaçonaves da Nasa, agência espacial americana. Uma era o módulo de comando da missão Apollo 17, enquanto a outra era um ônibus espacial, que explodiu em pleno ar após o lançamento — Challenger.

        <b>Challenger</b> Lodge já foi propriedade de <b>John Murray</b>, célebre precursor da oceanografia, cujas expedições o levaram aos lugares mais longínquos de Edimburgo, mas ai

**Exercício 4)** Extraia a URL da imagem exibida na notícia:

In [68]:
soup = BeautifulSoup(noticia, 'html.parser')
link = soup.find('img')
link['src']

'https://ichef.bbci.co.uk/news/800/cpsprodpb/12746/production/_117309557_foto_01.jpg'

**Exercício 5)** Procure todas as ocorrências de negrito:

In [69]:
soup.find_all('b')

[<b>Challenger</b>,
 <b>John Murray</b>,
 <b>HMS Challenger</b>,
 <b>Britânica</b>]

**Exercício 6)** Procure todas as ocorrências de itálico. Dos termos em itálico, um também está em negrito. Extraia apenas a palavra em negrito desta ocorrência.

In [74]:
soup.find_all('i')[0].find('b')

<b>Britânica</b>

# Referências

O conteúdo para o exercício do arquivo noticia.html foi extraído de https://www.bbc.com/portuguese/vert-fut-56209925