# Análise de texto de fontes desestruturadas e Web

## Aula 05

Nesta aula iremos aprender como extrair informações de páginas Web!


A biblioteca utilizada será a **BeautifulSoup**, além da **requests** já vista na aula anterior.

Para conhecer mais sobre ela, acesse https://beautiful-soup-4.readthedocs.io/en/latest/

## HTML

As páginas Web são construídas utilizando uma linguagem de marcação, a **HyperText Markup Language**. Nela, são utilizadas *tags* para definir alterações em partes da página, como criação de imagens, *hyperlinks*, tabelas, listas, cabeçalhos, parágrafos, etc.

Muito do conteúdo produzido por empresas e clientes acabam sendo disponibilizados em páginas Web. Hoje podemos comprar, vender, interagir, etc utilizando navegadores, que interpretam páginas HTML.

Do ponto de vista dos programadores, queremos percorrer tais páginas e extrair conteúdos de interesse (notícia, preço de um produto, uma imagem, etc.). Estas informações de interesse estarão distribuídas em um emaranhado de *tags*, portanto, as páginas Web são consideradas como sendo semi-estruturadas ou desestruturadas.

Para acessar este conteúdo de interesse com facilidade, podemos utilizar ferramentas de *Web scraping* e *parsers*, que conseguem entender a estrutura da linguagem que define as páginas e possuem recursos que facilitam a extração de conteúdos específicos. Em nossa aula, utilizaremos o **BeautifulSoup** como ferramenta de *scraping*. Podemos personalizar o *parser* mas esta informação fica para depois!

## Instalando a biblioteca *BeautifulSoup*

Primeiro, vamos instalar a principal biblioteca de nossa aula!

In [None]:
!pip install BeautifulSoup4

Caso a biblioteca já esteja instalada, porém com uma versão antiga, podemos atualizá-la com:

In [None]:
!pip install -U BeautifulSoup4

## Importando as bibliotecas necessárias

Agora, vamos importar as bibliotecas necessárias:

In [None]:
# para trabalhar com diretórios / sistema operacional
import os

# para nos comunicarmos com a Web
import requests

# para extrair informações de páginas HTML
import bs4
from bs4 import BeautifulSoup

# utilizada para nos indicar o caminho do executável do Python
import sys

# Para criar um Data Frame
import pandas as pd

# Renderizar HTML
import IPython

Caso obtenha algum erro, utilize o **!pip install** para instalar a biblioteca ausente!

Vamos conferir com qual versão da biblioteca **xxxx** estamos trabalhando?

In [None]:
print(bs4.__version__)

Você também pode conferir de onde está executando o Python e qual a versão

In [None]:
print('Executável:')
print(sys.executable)

print('\nVersão do Python:')
print(sys.version)

Vamos conferir em qual diretório iremos trabalhar (é o diretório do notebook)

In [None]:
print('O seu notebook está na pasta:')
print(os.getcwd())

## Interagindo com HTML

Iremos utilizar o arquivo **amostra.html** para nos familiarizarmos com as *tags* HTML.

Primeiro, vamos baixar o arquivo amostra.html para a mesma pasta do nosso Jupyter notebook.

In [None]:
url = 'https://atd-insper.s3.us-east-2.amazonaws.com/aula04/amostra.html'

# Faça aqui o get da página!

Conferindo o código de resposta

In [None]:
# Seu código AQUI!

e o texto de resposta

In [None]:
# Seu código AQUI!

In [None]:
IPython.display.HTML(resposta.text)

Agora, vamos salvar a resposta em um arquivo

In [None]:
# Seu código AQUI!

Pronto! Confira se foi criado um arquivo **amostra.html** na pasta onde está o seu Jupyter notebook.

In [None]:
!dir #Para listar conteúdo na pasta atual

In [None]:
!ls #Para listar conteúdo na pasta atual

Agora você pode abrir este arquivo no navegador. Confira como a página é exibida.

Você também pode abrir o arquivo **amostra.html** em um editor de textos qualquer (bloco de notas, sublime, notepad++, vcode) para realizar alterações.

## Extraindo informações dos arquivos HTML

Vamos aprender como utilizar o **BeautifulSoup** para extrair informações de interesse dos arquivos HTML?

Para obter o código HTML, podemos abrir o arquivo **amostra.html** caso ele já esteja em nossa máquina:

In [None]:
# Seu código AQUI!

Caso contrário, podemos fazer uma requisição para obter seu conteúdo:

In [None]:
url = 'https://atd-insper.s3.us-east-2.amazonaws.com/aula04/amostra.html'

# Seu código AQUI!

Agora, vamos configurar o BeautifulSoup para uso com o conteúdo da página de amostra. Precisamos informar a *string* contendo o código HTML e também o *parser*, que faz a separação dos *tags* de marcação utilizadas.

In [None]:
soup = # Seu código AQUI!

Agora, podemos encontrar uma tag qualquer, por exêmplo **\<h2\>**:

In [None]:
# Seu código AQUI!

Caso queira exibir apenas o texto da tag encontrada, faça:

In [None]:
h2 = # Seu código AQUI!
print('O conteúdo do título é: {}'.format(h2.text))

Podemos também procurar por todas as ocorrências de uma tag:

In [None]:
# Seu código AQUI!

Agora, vamos encontrar um link:

In [None]:
link = # Seu código AQUI!
link

Será que conseguimos extrair o texto que aparece para o usuário?

In [None]:
# Seu código AQUI!

E como fazemos para extrair a URL do link?

In [None]:
# Seu código AQUI!

## Exemplo de aplicação

Suponha que tenhamos uma página Web com diversos produtos listados.

Acesse https://atd-insper.s3.us-east-2.amazonaws.com/aula05/produtos.html

Vamos utilizar o BeautifulSoup para extrair as informações da página, construindo um **pandas DataFrame** contendo o **`produto`**, **`descrição`** e **`preço`**.

Primeiro, vamos extrair a página com o *requests*:

In [None]:
url = 'https://atd-insper.s3.us-east-2.amazonaws.com/aula05/produtos.html'
pag_prod = requests.get(url)

pag_prod.encoding = 'utf-8'

print(pag_prod.text)

Podemos abrir diretamente a URL em um navegador para verificar seu conteúdo, ou então renderizar dentro do notebook com:

In [None]:
IPython.display.HTML(pag_prod.text)

Vamos utilizar o BeautifulSoup

In [None]:
soup = BeautifulSoup(pag_prod.content, 'html.parser')

E extrair a lista de produtos. Podemos perceber que os produtos estão separados em `div` com classe `produto`. Assim, podemos utilizar o método `find_all` para obter uma lista de *tags* encontradas no HTML.

In [None]:
lista_produto = # Seu código AQUI!
lista_produto

Podemos obter um produto qualquer da lista ao informar o índice:

In [None]:
produto = # Seu código AQUI!
produto

Então, podemos obter as informações de **PRODUTO**, **DESCRIÇÃO** e **PREÇO** ao procurar pelas *tags* que os identificam!

In [None]:
produto_titulo = # Seu código AQUI!
descricao = # Seu código AQUI!
preco = # Seu código AQUI!

print('Produto....: ', produto_titulo)
print('\nDescrição..: ', descricao)
print('\nPreço......: ', preco)

### Obter todos os produtos e construir o DataFrame!

Para obter as informações de todos os produtos de forma fácil, podemos iterar (laço, estrutura de repetição **for**) sobre as *divs* de todos os produtos e extrair as informações para cada uma delas.

Podemos guardar cada produto, descrição e preço em uma **lista**, o que facilitará a construção do DataFrame.

In [None]:
# Cria listas vazias.
lista_prod_titulo = []
lista_descricao = []
lista_preco = []

# Um laço FOR pela lista de produtos
for produto in soup.find_all('div', class_='produto'):
    
    # Extrai cada informação do produto
    produto_titulo = produto.find('h4').text
    descricao = produto.find('p').text
    preco = produto.find('span').text
    
    preco = preco.replace('R$\xa0', '')
    preco = float(preco.replace(".", "").replace(",", "."))

    
    lista_prod_titulo.append(produto_titulo)
    lista_descricao.append(descricao)
    lista_preco.append(preco)

Agora, com as listas de produto, descrição e preço, podemos construir o DataFrame!

In [None]:
df = pd.DataFrame({'Produto': lista_prod_titulo,
                   'Descrição': lista_descricao,
                   'Preço': lista_preco
                  })
df

Você conseguiria pensar em alguma aplicação prática feita a partir deste exemplo?

R:

**Exercício 1)** Abra o arquivo **amostra.html** em um editor de textos de sua preferência:

**a)** altere o título da página.

**b)** Adicione, antes da seção de links, mais três subtítulos (todos nível 2, com a tag \<h2\>).

**c)** Adicione, ao final da página, link para três páginas quaisquer de seu interesse.

In [None]:
%pycat amostra.html

In [None]:
%%writefile amostra2.html
# coloque aqui o conteúdo a ser salvo no novo arquivo

In [None]:
IPython.display.HTML(filename='amostra2.html')

**Exercício 2)** Crie um novo arquivo HTML chamado **noticia.html** no editor de textos.

**a)** Crie um título para a página.

**b)** Crie um cabeçalho no arquivo (título, tag \<h1\>), contendo o texto "**`A missão do século 19 que deu início à oceanografia`**".

**c)** Adicione parágrafos contendo os textos:

*`Ela já foi uma casa residencial, mas atualmente a imponente estrutura de pedra na Boswall Road, na costa sul de Edimburgo, na Escócia, faz parte de uma clínica de cuidados paliativos.`*

*`A construção tem o mesmo nome da parte mais profunda do oceano e de duas espaçonaves da Nasa, agência espacial americana. Uma era o módulo de comando da missão Apollo 17, enquanto a outra era um ônibus espacial, que explodiu em pleno ar após o lançamento — Challenger.`*

*`Challenger Lodge já foi propriedade de John Murray, célebre precursor da oceanografia, cujas expedições o levaram aos lugares mais longínquos de Edimburgo, mas ainda no planeta Terra.`*

*`A embarcação em que viveu por três anos na década de 1870 é o que une a casa na costa escocesa, a parte mais profunda do oceano e as espaçonaves da Nasa.`*

*`O HMS Challenger era um navio da Marinha Real Britânica construído na década de 1850. Ele entrou para a história não pelo histórico de combates, mas graças a uma reputação conquistada por algo muito mais minucioso.`*

**d)** Entre o texto e o cabeçalho, adicione uma imagem para a seguinte URL:
https://ichef.bbci.co.uk/news/800/cpsprodpb/12746/production/_117309557_foto_01.jpg

Dica: utilize a tag \<img src="URL_DA_IMAGEM"\>

**e)** escolha três palavras para deixar em negrito.

**f)** No texto, no último parágrafo, deixe "Marinha Real Britânica" em itálico. Ainda, deixe "Britânica" também em negrito.


In [None]:
%%writefile noticia.html
# coloque aqui o conteúdo a ser salvo no novo arquivo

In [None]:
IPython.display.HTML(filename='noticia.html')

### Exercícios com noticia.html

**Exercício 3)** Abra o arquivo **noticia.html** e exiba seu conteúdo:

In [None]:
# Seu código AQUI!

**Exercício 4)** Extraia a URL da imagem exibida na notícia:

In [None]:
# Seu código AQUI!

**Exercício 5)** Procure todas as ocorrências de negrito:

In [None]:
# Seu código AQUI!

**Exercício 6)** Procure todas as ocorrências de itálico. Dos termos em itálico, um também está em negrito. Extraia apenas a palavra em negrito desta ocorrência.

In [None]:
# Seu código AQUI!

# Referências

O conteúdo para o exercício do arquivo noticia.html foi extraído de https://www.bbc.com/portuguese/vert-fut-56209925