# Análise de texto de fontes desestruturadas e Web

## Aula 06

Nesta aula iremos continuar a extrair informações de páginas Web! Primeiro, iremos realizar a extração de informações de produtos de uma página sintética. Em seguida, realizaremos buscas nos sites do InstoÉDinheiro e Magazine Luiza e extrair informações dos resultados.

A biblioteca utilizada será a **BeautifulSoup**, além da **requests**.

Para conhecer mais sobre ela, acesse https://beautiful-soup-4.readthedocs.io/en/latest/

## Instalando a biblioteca *BeautifulSoup*

Primeiro, vamos instalar a principal biblioteca de nossa aula!

In [None]:
# !pip install BeautifulSoup4

Caso a biblioteca já esteja instalada, porém com uma versão antiga, podemos atualizá-la com:

In [None]:
# !pip install BeautifulSoup4 -U

## Importando as bibliotecas necessárias

Agora, vamos importar as bibliotecas necessárias:

In [None]:
# para trabalhar com diretórios / sistema operacional
import os

# para nos comunicarmos com a Web
import requests

# para extrair informações de páginas HTML
import bs4
from bs4 import BeautifulSoup

# utilizada para nos indicar o caminho do executável do Python
import sys

# Para criar um Data Frame
import pandas as pd

# Controlar espera entre requisições
import time

# Gerar valores aleatórios
import random

# Produto cartesiano
from sklearn.utils.extmath import cartesian

# Renderizar HTML
import IPython

Caso obtenha algum erro, utilize o **!pip install** para instalar a biblioteca ausente!

Vamos conferir com qual versão da biblioteca **xxxx** estamos trabalhando?

In [None]:
print(bs4.__version__)

Você também pode conferir de onde está executando o Python e qual a versão

In [None]:
print('Executável:')
print(sys.executable)

print('\nVersão do Python:')
print(sys.version)

Vamos conferir em qual diretório iremos trabalhar (é o diretório do notebook)

In [None]:
print('O seu notebook está na pasta:')
print(os.getcwd())

## Exemplo de aplicação

Suponha que tenhamos uma página Web com diversos produtos listados.

Acesse https://atd-insper.s3.us-east-2.amazonaws.com/aula05/produtos.html

Vamos utilizar o BeautifulSoup para extrair as informações da página, construindo um **pandas DataFrame** contendo o **`produto`**, **`descrição`** e **`preço`**.

Primeiro, vamos extrair a página com o *requests*:

In [None]:
url = 'https://atd-insper.s3.us-east-2.amazonaws.com/aula05/produtos.html'

pag_prod = requests.get(url)

pag_prod.encoding = 'utf-8'

print(pag_prod.text)

Podemos abrir diretamente a URL em um navegador para verificar seu conteúdo, ou então renderizar dentro do notebook com:

In [None]:
IPython.display.HTML(pag_prod.text)

Vamos utilizar o BeautifulSoup

In [None]:
soup = BeautifulSoup(pag_prod.text, 'html.parser')

E extrair a lista de produtos

In [None]:
lista_produto = soup.find_all('div', class_='produto')
lista_produto

Podemos obter um produto qualquer da lista, bastando informar o índice da lista

In [None]:
produto = lista_produto[0]
produto

Então, podemos obter as informações de **PRODUTO**, **DESCRIÇÃO** e **PREÇO**!

In [None]:
produto_titulo = produto.find('h4').text
descricao = produto.find('p').text
preco = produto.find('span').text

print('Produto....: ', produto_titulo)
print('\nDescrição..: ', descricao)
print('\nPreço......: ', preco)

### Obter todos os produtos e construir o DataFrame!

Para obter as informações de todos os produtos de forma fácil, podemos iterar (laço, estrutura de repetição **for**) sobre as *div*'s de todos os produtos e extrair as informações para cada uma delas.

Podemos guardar cada produto, descrição e preço em uma lista, o que facilitará a construção do DataFrame.

In [None]:
lista_prod_titulo = []
lista_descricao = []
lista_preco = []

for produto in soup.find_all('div', class_='produto'):
    produto_titulo = produto.find('h4').text
    descricao = produto.find('p').text
    preco = produto.find('span').text
    
    preco = preco.replace('R$\xa0', '')
    preco = float(preco.replace(".", "").replace(",", "."))

    
    lista_prod_titulo.append(produto_titulo)
    lista_descricao.append(descricao)
    lista_preco.append(preco)

Agora, com as listas de produto, descrição e preço, podemos construir o DataFrame!

In [None]:
df = pd.DataFrame({'Produto': lista_prod_titulo,
                   'Descrição': lista_descricao,
                   'Preço': lista_preco
                  })
df

Você conseguiria pensar em alguma aplicação prática feita a partir deste exemplo?

<div class="alert alert-success">

Sua resposta aqui! Dê dois cliques e edite.

</div>

## IstoÉDinheiro

Vamos utilizar `requests` para baixar (`get`) notícias do site da **IstoÉDinheiro** e `BeautifulSoup` para extrair informações e construir um Pandas `DataFrame` de títulos e descrições.

### Definindo qual página buscar

Faremos algumas configurações (cabeçalho, seção e URL):

In [None]:
headers = ({'User-Agent':
            'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36'})

secao = 'economia'

url = # SEU CÓDIGO AQUI

### Utilizando *requests* para baixar a página de notícias

E utilizar `requests` para baixar a página de notícias:

In [None]:
resposta = requests.get(url=url, headers=headers)

resposta.encoding = 'utf-8'

resposta.text

### Extraindo informações relevantes com *BeautifulSoup*
Perceba que o HTML inclui uma grande quantidade de tags, o que dificulta identificar informações relevantes de forma direta. Com o auxílio da biblioteca **BeautifulSoup** podemos extrair facilmente as informações que desejamos.

In [None]:
soup = BeautifulSoup(resposta.text, 'html.parser')

Então, vamos obter uma lista com todos os trechos HTML que contém uma **notícia**.

Para identificar as tags corretas, é preciso ir até a página Web que desejamos extrair informações, dar botão direito e ir em **inspecionar elemento**, navegando pelo HTML até identificar as tags necessárias

Ex: https://www.istoedinheiro.com.br/categoria/economia/

In [None]:
lista_tag_noticia = # SEU CÓDIGO AQUI!
lista_tag_noticia

Agora, podemos passar por cada uma das chamadas de notícias, extraindo informações de interesse, como o título, descrição e data.

In [None]:
lista_titulo = []
lista_desc = []
lista_data = []

for i in range(0, len(lista_tag_noticia)):
    
    tag_noticia = lista_tag_noticia[i]


    titulo = # SEU CÓDIGO AQUI!
    titulo = titulo.replace('\n', '') #limpa os ENTERS a esquerda e direita
    lista_titulo.append(titulo)

    descricao = # SEU CÓDIGO AQUI!
    lista_desc.append(descricao)
    
    data_hora = # SEU CÓDIGO AQUI!
    lista_data.append(data_hora)

## Criando um DataFrame

As informações que consideramos foram extraídas na repetição **for** e armazenadas em listas. Podemos utilizar estas listas para construir um Pandas DataFrame:

In [None]:
df = pd.DataFrame({'Secao': secao,
                   'Titulo': lista_titulo,
                   'Descrição': lista_desc,
                   'Data': lista_data
                  })
df

### Salvando o DataFrame em CSV

É interessante armazenar o Dataframe em **CSV** (ou **xlsx**) para que ele possa ser análisado em algum momento posterior. Você poderia, por exemplo, extrair as notícias todos os dias de uma semana e analisar somente após ter todos estes dados.

In [None]:
df.to_csv(f'noticias_{secao}_160323.csv', index=False)

# Exercícios


**Exercício 1)** Altere o código de extração das informações das notícias para trazer também o **link da notícia**. Rode todo o código novamente.

In [None]:
# SEU CÓDIGO AQUI!

**Exercício 2)** Crie um CSV (pesquise e salve) com as notícias das seções de **economia**, **política** e **finanças**.

Faça a pesquisa e gere o `DataFrame` e **CSV** com cada uma das seções. Observe como a IstoÉ as nomeia em seu site.

Em seguida, abra os três arquivos e os concatene, gerando apenas um DataFrame contendo todas as notícias das três seções (dica: pd.concat).

In [None]:
# SEU CÓDIGO AQUI!

**Exercício 3)** Crie uma solução em Python que faça o download de várias páginas (1, 2, 3, ...) de notícias do IstoÉDinheiro. Defina no inicio do código variáveis de **página inicial** e **página** final.

Como resultado, produza um `DataFrame` contendo todas as notícias. Adicione uma coluna com o número da página onde a notícia aparece.

In [None]:
# SEU CÓDIGO AQUI!

## Magazine Luiza

Iremos utilizar o BeautifulSoup para extrair informações sobre produtos de um site do varejo brasileiro!

Vamos descobrir como funciona o site da Magazine Luiza? Iremos acessar https://www.magazineluiza.com.br. Após acessar o site, clique com o botão direito do mouse e selecione **Inspecionar Elemento**.

Faça uma busca no site utilizando algum termo como **'smartphone 128gb'**.

Tente inspecionar vários elementos até encontrar padrões:
- Onde está a **lista de produtos** retornada pela busca?
- Como obter do produto:
    - A **descrição**
    - O **preço**
    - A URL da **imagem**
    - Etc.

### Arquivos `robots.txt`

Os sites costumam deixar no arquivo robots.txt as informações de boas práticas de web **crawling** e **scraping**.

Vamos conferir o robots.txt da Magazine Luiza?

Acesse https://www.magazineluiza.com.br/robots.txt ou faça um requests.

Acesse https://developers.google.com/search/docs/advanced/robots/create-robots-txt?hl=pt-br para saber mais.

### User-agent

Alguns sites bloqueiam requisições identificadas como não realizadas por usuários em navegadores. Para prevenir bloqueios e extrair informações destes sites, uma prática é criar um cabeçalho com **User-Agent**.

In [None]:
# headers = ({'User-Agent':
#             'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36'})

headers = {
     'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.35 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.35'
}

Você também pode alterar o **User-Agent** a cada nova requisição. O cabeçalho também pode ter informações de login por exemplo, mas isso foge do escopo da disciplina!

### Buscando um produto

Vamos acessar o site https://www.magazineluiza.com.br e realizar a busca manual por algum produto.

Digite algo no campo de busca e realize a busca. Observe que a URL irá ser alterada e conter os seus termos de busca.

Edite a URL diretamente para realizar a busca por outros produtos (direto na barra de endereços do navegador ao invés de utilizar o campo de buscas do site).

Alguns exemplos de busca:

- https://www.magazineluiza.com.br/busca/smartphone+128gb/
- https://www.magazineluiza.com.br/busca/smartphone+256gb/

In [None]:
busca = 'smarpthone 256GB'
busca = busca.replace(' ', '+')

url = f'https://www.magazineluiza.com.br/busca/{busca}/'

resposta = requests.get(url=url, headers=headers)

resposta.encoding = 'utf-8'

resposta.text

In [None]:
resposta.request.headers

Conferindo o código de resposta

In [None]:
print('Código de status da resposta: {}'.format(resposta.status_code))

e o texto de resposta

In [None]:
print('Texto de resposta:')
print(resposta.text)

Podemos verificar se a o texto de resposta possui algum termo com

In [None]:
'128GB' in resposta.text

Vamos criar um soup para conseguir extrair informações a partir do HTML

In [None]:
soup = BeautifulSoup(resposta.text, 'html.parser')

Qual a tag que identifica um produto? Vamos procurar o primeiro produto da lista

In [None]:
lista_prod = soup.find('div', attrs={'data-testid': 'mod-productlist'})
lista_prod

In [None]:
tag_produto = lista_prod.find('li')
tag_produto

Como podemos extrair a Descrição?

In [None]:
desc_produto = tag_produto.find(#SEU CODIGO AQUI!)
desc_produto.text

E para extrair o Preço?

In [None]:
preco_produto = tag_produto.find(#SEU CODIGO AQUI!)
print(preco_produto.text)

### Procurando por todos os produtos

Vamos extrair a lista de produtos (suas tags) e iterar sobre elas para extrair informações de vários produtos. Por enquanto, considere a extração das duas primeiras linhas de informação no site (oito produtos).

In [None]:
lista_prod = soup.find('div', attrs={'data-testid': 'mod-productlist'})
lista_tag_produto = lista_prod.find_all('li')

In [None]:
qt_prod = len(lista_tag_produto)
qt_prod

In [None]:
lista_desc = []
lista_preco = []
for i in range(8):
    tag_produto = lista_tag_produto[i]

    desc_produto = tag_produto.#SEU CODIGO AQUI!
    lista_desc.append(desc_produto.text)

    preco_produto = tag_produto.#SEU CODIGO AQUI!

    if preco_produto == None:
        preco_produto = None
    else:    
        preco_clean = preco_produto.text.replace('\n', '')
        preco_clean = preco_clean.strip()
        preco_clean = preco_clean.replace('R$', '')
        preco_clean = preco_clean.replace(".", "").replace(",", ".")
        preco_clean = float(preco_clean)
    
    lista_preco.append(preco_clean)

    
lista_preco

In [None]:
tag_produto

In [None]:
lista_desc

#### Criar DataFrame

Então, podemos facilmente transformar as listas extraídas em um DataFrame do pandas

In [None]:
busca = 'smarpthone 64GB'
df = pd.DataFrame({'Busca': busca,
                   'Descrição': lista_desc,
                   'Preço': lista_preco
                  })
df

## Criando funções

Vamos criar funções para fazer uma busca, tratar os dados obter um DataFrame.

Função que pesquisa por um termo no site e retorna o HTML como um texto

In [None]:


def pesquisa(termo):
    
    s1 = random.randint(1,40)
    s2 = random.randint(1,140)
    
    headers = {
         'user-agent': f'Mozilla/5.0  (Windows NT 10.0; Win64; x64) AppleWebKit/537.{s1} (KHTML, like Gecko) Chrome/75.0.3770.{s2} Safari/537.{s1}'
    }
    
    url = f'https://www.magazineluiza.com.br/busca/smartphone+{termo}/'
    
    time.sleep(abs(random.gauss(2,1)))

    resposta = requests.get(url = url, headers=headers)

    resposta.encoding = 'utf-8'

    return resposta.text

Função que processa o HTML e extrai a descrição, preço e demais informações necessárias

In [None]:
def processa(resposta, qtde_produto):
    
    soup = BeautifulSoup(resposta, 'html.parser')
    
    lista_prod = #SEU CODIGO AQUI!
    lista_tag_produto = lista_prod.find_all('li')
    
    lista_desc = []
    lista_preco = []
    lista_ranking = []
    
    for i in range(qtde_produto):
        tag_produto = lista_tag_produto[i]
        desc_produto = #SEU CODIGO AQUI!
        lista_desc.append(desc_produto.text)

        preco_produto = #SEU CODIGO AQUI!

        if preco_produto == None:
            preco_produto = None
        else:    
            preco_clean = preco_produto.text.replace('\n', '')
            preco_clean = preco_clean.strip()
            preco_clean = preco_clean.replace('R$', '')
            preco_clean = preco_clean.replace(".", "").replace(",", ".")
            preco_clean = float(preco_clean)

        lista_preco.append(preco_clean)
        
        lista_ranking.append(i+1)
        
    return lista_desc, lista_preco, lista_ranking

Função que gera um DataFrame a partir de listas de informações dos produtos

In [None]:
def gera_df(termo, lista_desc, lista_preco, lista_ranking):
    df = pd.DataFrame({'Pesquisa': termo,
                       'Ranking': lista_ranking,
                       'Descrição': lista_desc,
                       'Preço': lista_preco
                      })
    return df

Função para chamar as demais funções e retornar um DataFrame

In [None]:
def pesquisa_estruturada(termo, qtde_produto):
    texto = pesquisa(termo)
    lista_desc, lista_preco, lista_ranking = processa(texto, qtde_produto)
    return gera_df(termo, lista_desc, lista_preco, lista_ranking)

In [None]:
df = pesquisa_estruturada('64gb', 8)
df

Como concatenar DataFrames para juntar o resultado de diversas buscas?

In [None]:
pd.concat([pesquisa_estruturada('64gb', 4), pesquisa_estruturada('128gb', 4)])

Então, podemos criar uma função que recebe uma lista de termos de busca, efetua a pesquisa de cada termo e junta os DataFrames ao final!

In [None]:
def multi_pesquisa(lista_busca, qtde_produto):
    time.sleep(random.randint(3,6))
    lista_df = []
    for termo in lista_busca:
        df = pesquisa_estruturada(termo, qtde_produto)
        lista_df.append(df)
        time.sleep(0.5)
    df_full = pd.concat(lista_df)
    return df_full.reset_index(drop=True)

In [None]:
# Termos a serem pesquisados
lista_busca = ['32Gb', '64Gb', '128Gb', '256Gb']

df = multi_pesquisa(lista_busca, 50)
df.head()

In [None]:
df.tail()

In [None]:
df

# Exercícios

Utilizando os dados obtidos no Magalu:

**Exercício 4)** Calcule o preço médio produtos:

a) Geral

In [None]:
#SEU CODIGO AQUI!

b) Por termo de busca

Dica: groupby

In [None]:
#SEU CODIGO AQUI!

a) Os preços médios obtidos fazem sentido?

R:

b) Produza um gráfico de barras com os preços médios

In [None]:
#SEU CODIGO AQUI!

**Exercício 5)** Crie uma coluna que informe se o produto é de cor discreta ou não.

Dica: pesquise pelos termos *black*, *preto*, *gray*, *branco*, etc.

In [None]:
#SEU CODIGO AQUI!

a) Compare o preço médio dos produtos que são e não são de cor discreta.

In [None]:
#SEU CODIGO AQUI!

**Exercício 6)** Conte quantos produtos são das marcas **Samsung**, **Motorola** e **LG**.

In [None]:
#SEU CODIGO AQUI!

**Exercício 7)** Crie uma coluna de Marca no DataFrame, informando se é **Samsung**, **Motorola**, **LG** ou **Outra**.

In [None]:
#SEU CODIGO AQUI!

**Exercício 8)** Altere o código que processa os dados de resposta para retornar também (até o DataFrame) uma coluna de **ranking**, informando se o produto aparece na primeira, segunda, n-ésima posição da busca.

a) Calcule o preço médio dos produtos das primeiras quatro posições de busca.

In [None]:
#SEU CODIGO AQUI!

b) Calcule a probabilidade de cada Marca aparecer em cada uma das quatro primeiras posições de busca.

Dica: você precisa de uma tabela cruzada normalizada

In [None]:
#SEU CODIGO AQUI!

c) Exiba a informação anterior em um mapa de calor.

Dica: utilize a função **heatmap** da biblioteca **seaborn**, ou a função **imshow** da biblioteca **plotly.express**.

In [None]:
#SEU CODIGO AQUI!

d) Calcule o preço médio cruzando ranking e marca.

Dica: você precisa de uma pivot_table

In [None]:
#SEU CODIGO AQUI!

**Exercício 9)** Escolha um site de seu interesse e tente fazer o Web scraping dos seus dados. Gere e exporte para CSV um `DataFrame` contendo informações de interesse do site.

In [None]:
#SEU CODIGO AQUI!

## Combinando termos de busca

Uma outra abordagem de busca poderia ser pesquisar utilizando diversas características.

Tendo os termos separados em listas, existe uma forma de combinar todos eles de forma fácil (produto cartesiano)

In [None]:
# !pip install sklearn

In [None]:
lista_marca = ['Samsung', 'Motorola', 'LG', 'Xiaomi', 'Apple']
lista_mem = ['64Gb', '128Gb', '256Gb']
lista_cor = ['Gold', 'Preto', 'Azul']

df_busca = pd.DataFrame(cartesian((lista_marca, lista_mem, lista_cor)), columns=['Marca', 'Memória', 'Cor'])
df_busca

Seria necessário alterar o código de pesquisa para concatenar os termos de busca e retorná-los também no DataFrame. Não precisa fazer! Esta é apenas uma sugestão.