### Web Scraping com BeautifulSoup

Raspando os dados da internet para projetos de ciência de dados.



In [9]:
import requests
page = requests.get("https://arnaldojr.github.io/web-scraping/")

#resposta do servidor
page



<Response [200]>

In [10]:
#conteúdo da página
page.content

b'<!DOCTYPE html>\n<html>\n    <head>\n        <title>titulo de uma pagina html</title>\n    </head>\n    <body>\n        <p>Conte\xc3\xbado de uma pagina.</p>\n        <BODY BGCOLOR="FFFFFF">\n        <HR>\n        <a href="https://arnaldojr.github.io/web-scraping/">Home</a>\n        Link deste site.\n        <H1>Cabe\xc3\xa7alho grande H1 </H1>\n        <H2>Cabe\xc3\xa7alho m\xc3\xa9dio H2 </H2>\n        Envie-me um e-mail para <a href="mailto:email@semail.com">\n        email@email.com</a>.  \n        <P> Isto \xc3\xa9 um novo par\xc3\xa1grafo!\n            <P> <B>Este \xc3\xa9 um par\xc3\xa1grafo novo!</B>  \n        <HR>    \n        <table>\n          <tr>\n            <th>Nome</th>\n            <th>Sobrenome</th>\n            <th>idade</th>\n          </tr>\n          <tr>\n            <td>Arnaldo</td>\n            <td>Viana</td>\n            <td>33</td>\n          </tr>\n          <tr>\n            <td>Peter</td>\n            <td>parker</td>\n            <td>16</td>\n          

Não está muito organizado, vamos melhorar isso usando a biblioteca `BeautifulSoup`

Para instalar use:

```bash
pip install beautifulsoup4
```

In [11]:
from bs4 import BeautifulSoup

# O objeto soup contem toda a pagina
soup = BeautifulSoup(page.content, 'html.parser')

In [12]:
# visualizando de forma organizada e com identações
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   titulo de uma pagina html
  </title>
 </head>
 <body>
  <p>
   Conteúdo de uma pagina.
  </p>
  <body bgcolor="FFFFFF">
   <hr/>
   <a href="https://arnaldojr.github.io/web-scraping/">
    Home
   </a>
   Link deste site.
   <h1>
    Cabeçalho grande H1
   </h1>
   <h2>
    Cabeçalho médio H2
   </h2>
   Envie-me um e-mail para
   <a href="mailto:email@semail.com">
    email@email.com
   </a>
   .
   <p>
    Isto é um novo parágrafo!
    <p>
     <b>
      Este é um parágrafo novo!
     </b>
     <hr/>
     <table>
      <tr>
       <th>
        Nome
       </th>
       <th>
        Sobrenome
       </th>
       <th>
        idade
       </th>
      </tr>
      <tr>
       <td>
        Arnaldo
       </td>
       <td>
        Viana
       </td>
       <td>
        33
       </td>
      </tr>
      <tr>
       <td>
        Peter
       </td>
       <td>
        parker
       </td>
       <td>
        16
       </td>
      </tr>
     </table>
 

In [13]:
#visualizando os item

print(list(soup.li))
print(soup.head)
print(list(soup.p))
print(list(soup.title))


['Café']
<head>
<title>titulo de uma pagina html</title>
</head>
['Conteúdo de uma pagina.']
['titulo de uma pagina html']


In [6]:
#buscando itens de forma errada
for item in list(soup.li):
    print(item)

Café


In [14]:
#buscando itens de forma correta
lista = soup.find_all('li')
for li in lista:
    print(li.text)

Café
Cerveja
água
suco
chá
vodka


In [8]:
# busca todos os links
links = soup.find_all('a')
#print(links, "\n")
for link in links:
    print(link.get('href'))

https://arnaldojr.github.io/web-scraping/
mailto:email@semail.com


## Capturando texto de um site de notícias

Vamos fazer a requisição da url:

`https://economia.uol.com.br/noticias/redacao/2022/03/10/petrobras-anuncia-aumento-nos-precos-de-gasolina-diesel-e-gas-de-cozinha.htm`

Na inspeção da pagina, note onde está a tag que contem o conteúdo. 

Encontrada o conteúdo `div:image-content-pad`

![](site1.png)

In [9]:
import requests
from bs4 import BeautifulSoup

# URL
url = 'https://economia.uol.com.br/noticias/redacao/2022/03/10/petrobras-anuncia-aumento-nos-precos-de-gasolina-diesel-e-gas-de-cozinha.htm'

page = requests.get(url)
soup = BeautifulSoup(page.content, 'html.parser')

# sempre que buscar um elemento em uma class, é necessário usar o underline `class_`.
# pois class é uma palavra reservada do python, e o underline é usado para diferenciar a palavra reservada do atributo class do html 
noticia = soup.find('div', class_="image-content-pad")


# outra forma de usar `class`` é usar o dicionário
# noticia = soup.find('div', {'class': 'image-content-pad'})




# pode conter mais de um paragrafo, por isso find_all e não find. 
# find_all retorna uma lista com todos os paragrafos
# com o for, podemos percorrer cada paragrafo e exibir o texto
paragrafos = noticia.find_all('p')
for paragrafo in paragrafos:
  print (paragrafo.text)

Do UOL, em São Paulo
10/03/2022 10h20Atualizada em 10/03/2022 18h05 
A Petrobras anunciou hoje reajustes nos preços da gasolina, diesel e GLP, o gás de cozinha. O aumento vale para as distribuidoras e entra em vigor a partir de amanhã. O repasse para o consumidor final, afetando diretamente os preços das bombas e do botijão de gás, ainda não está definido se e quando irá ocorrer, porque depende de cada revendedor.
Nas distribuidoras, o preço médio da gasolina passará de R$ 3,25 para R$ 3,86 o litro, um aumento de 18,77%. Para o diesel, o valor irá de R$ 3,61 a R$ 4,51, alta de 24,9%. O gás de cozinha passará de R$ 3,86 para R$ 4,48 por quilo, um reajuste de 16%. A última alteração no preço dos combustíveis foi há quase dois meses, em 11 de janeiro. Já o GLP foi reajustado em outubro do ano passado, há 152 dias.
Com isso, a estimativa é que o preço médio da gasolina nas bombas passe de R$ 6,57 o litro para R$ 7,02. Já o diesel pode ir dos atuais R$ 5,60 para R$ 6,48 o litro. O cálculo é

### Vamos tentar com uma pagina diferente

url: `https://www.uol.com.br/carros/avaliacao/avaliacao-audi-q8-e-tron.htm`

o conteudo pode estar em: `div:col-xs-8 col-sm-21 col-md-21`


In [10]:
import requests
from bs4 import BeautifulSoup 

# URL
url = 'https://www.uol.com.br/carros/avaliacao/avaliacao-audi-q8-e-tron.htm'

page = requests.get(url)
soup = BeautifulSoup(page.content, 'html.parser')


# noticia = soup.find('div', class_="mt-100 container grid")

noticia = soup.find('div', class_="col-xs-8 col-sm-21 col-md-21")

paragrafos = noticia.find_all('p')

for paragrafo in paragrafos:
  print (paragrafo.text)

Daniel Neves
Do UOL, em São Paulo
12/04/2024 04h00 
Ele mudou de nome, mas não de essência. O Audi e-tron, que inaugurou a linha de elétricos da montadora alemã, agora se chama Q8 e-tron e ganhou discretas alterações em sua nova linha. A principal novidade está na bateria, que apresenta uma melhora na eficiência que garante maior autonomia ao SUV.
Com preços que variam entre R$ 699.990 (Performance Black) a R$ 711.990 (Launch Edition - testada pela reportagem), o utilitário-esportivo ainda é uma boa opção para quem tem esse valor para gastar? É o que o UOL Carros mostra na avaliação abaixo.
Design: discreta atualização no visual futurista trouxe novo para-choque, com grade mais destacada e luz indireta na parte superior. Ele também estreia o novo logotipo da Audi, sem relevos. O que chama mais atenção, porém, são as câmeras no lugar do retrovisor - opcional de R$ 15 mil que demanda certa adaptação do motorista. Porta-malas é generoso, oferecendo 569 litros.
Equipamentos: destaque para 

### podemos melhorar um pouco mais essa captura de conteúdo

Vamos inspecionar e tentar capturar apenas os dados da tabela.

![](site2.png)


Perceba que:

- Podemos buscar todos os elementos `ul` com a classe `table-line`, que contêm os dados.
    
    - Para cada `ul`, localizar os elementos `li` para `label-spec` e `desc-spec` ou `desc-spec check`.

    - Extrair o texto de cada `li`, remover espaços extras com `strip()`, e imprime em formato de chave-valor.

In [1]:
import requests
from bs4 import BeautifulSoup 

# URL
url = 'https://www.uol.com.br/carros/avaliacao/avaliacao-audi-q8-e-tron.htm'

page = requests.get(url)
soup = BeautifulSoup(page.content, 'html.parser')


# Encontrar todos os 'ul' que contêm as especificações do carro
spec_list = soup.find_all('ul', class_='table-line')

# Iterar sobre cada 'ul' e extrair os pares de label e descrição
for spec in spec_list:
    label = spec.find('li', class_='label-spec').text.strip()
    descricao = spec.find('li', class_='desc-spec') or spec.find('li', class_='desc-spec check')
    
    # Verificar se o item é um check
    if 'check' in descricao['class']:
        descricao = "Sim"
    else:
        descricao = descricao.text.strip()
    print(f'{label}: {descricao}')



Motorização: Elétrico (2 motores)
Potência (cv): 408
Torque (kgf.m): 67,7
Aceleração de 0 a 100 (segundos) (km/h): 5,6
Velocidade máxima (km/h): 200
Câmbio: Automático
Tração: Integral
Direção: Elétrica
Suspensão Dianteira: Independente, multibraço
Suspensão Traseira: Independente, multibraço
Freios Dianteiros: Disco ventilado
Freios Traseiros: Disco ventilado
Pneus: 265/40
Rodas: 22
Altura (mm): 1633
Comprimento (mm): 4915
Entre-eixos (mm): 2.928
Largura (mm): 1.655
Ocupantes: 5
Peso (kg): 2.730
Porta-malas (L): 569
Airbags Motorista: Sim
Airbags Passageiro: Sim
Airbags Laterais: Sim
Airbags do tipo Cortina: Sim
Controle de Estabilidade: Sim
Controle de Tração: Sim
Freios ABS: Sim
Distribuição Eletrônica de Frenagem: Sim
Ar-Condicionado: Sim
Travas Elétricas: Sim
Ar Quente: Sim
Piloto Automático: Sim
Volante com Regulagem de Altura: Sim
Vidros Elétricos Dianteiros: Sim
Vidros Elétricos Traseiros: Sim
Central Multimídia: Sim
Rádio FM/AM: Sim
Entrada USB: Sim
Entrada Auxiliar: Sim
Banco

## Desafio

Hora de práticar! Faça uma raspagem simples. Para isso:

- Escolha um site e uma notícia especifica, de sua preferencia;
- Façaa inspeção do site e utilize `requests` para capturar o conteúdo HTML. 
- Use `BeautfulSoup` para realizar o parce das informações.
- Organize o conteúdo capturado de forma conveniente, faça adaptações no código para organizar o conteúdo em tabelas e etc...



In [None]:
# Vou começar e você continua....

import requests
from bs4 import BeautifulSoup

# URL
url = '<SUA URL AQUI>'

page = requests.get(url)
soup = BeautifulSoup(page.content, 'html.parser')

# Visualizar o conteúdo da página
print(soup.prettify())


# sua vez, seu código aqui....













## Informações de filmes em cartaz

Vamos realizar a captura dos filmes que estão em cartaz.

In [4]:
import requests
from bs4 import BeautifulSoup

# user-agent contra banners
header = {
    "user-agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"
}

url = "https://www.cinemark.com.br/sao-paulo/filmes/em-cartaz"

page = requests.get(url, headers = header)

soup = BeautifulSoup(page.text)

listas = soup.find_all('div', class_="col-sm-6 col-md-3")


for lista in listas:
    texto_titulo = lista.find(class_="movie-title").text.strip()
   
    print(texto_titulo)


A Paixão Segundo GH
Depois da Morte
Evidências do Amor
Ghostbusters: Apocalipse de Gelo
Ghostbusters: Apocalipse de...
O Sabor da Vida
Pearl Jam - Dark Matter
Um Gato de Sorte
A Primeira Profecia
O Homem dos Sonhos
Uma Família Feliz
Uma Prova de Coragem
Dois é Demais em Orlando


In [2]:

### Esse código encontrei na internet, fiz apenas algumas adaptaçoes para o nosso contexto de aula.
### Basicamente ele pega as perguntas do stackoverflow e exibe na tela. 
### A ideia é que vocês possam entender o código e fazer um similar para pegar as notícias do UOL ou do G1 por exemplo.


"""
OBJETIVO:
  - Extraer las preguntas de la página principal de Stackoverflow
  - Aprender a utilizar Beautiful Soup para parsear el árbol HTML
CREADO POR: LEONARDO KUFFO
ÚLTIMA VEZ EDITADO: 12 ABRIL 2020
"""
import requests
from bs4 import BeautifulSoup  # pip install beautifulsoup4

# Definición de los headers para simular un navegador y evitar bloqueos por parte del servidor
headers = {
    "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/71.0.3578.80 Chrome/71.0.3578.80 Safari/537.36"
}

# URL de la página de preguntas de StackOverflow
url = 'https://stackoverflow.com/questions'

# Realizar la solicitud al servidor
response = requests.get(url, headers=headers)

# Verificar si la solicitud fue exitosa
if response.status_code == 200:
    # Parsear el HTML de la página usando Beautiful Soup
    soup = BeautifulSoup(response.text, 'html.parser')
    question_container = soup.find(id="questions")  # Encontrar el contenedor de preguntas por ID

    if question_container:
        question_list = question_container.find_all('div', class_="s-post-summary js-post-summary")  # Encontrar todas las preguntas

        for question in question_list:  # Iterar sobre cada pregunta
            # Extraer el texto de la pregunta
            question_title = question.find('h3').text.strip()
            # Extraer la descripción de la pregunta
            question_desc = question.find('div', class_="s-post-summary--content-excerpt").text.strip()
            question_desc = ' '.join(question_desc.split())  # Limpiar espacios extra

            print(question_title)
            print(question_desc)
            print()
    else:
        print("No se encontró el contenedor de preguntas.")
else:
    print("Error en la solicitud:", response.status_code)




Reading and Writing more than 4096 bytes to and from STDIN
I'm trying to implement a here document like the one used in bash (in C), but I noticed that I can't give it a line that's longer than 4096 bytes, I looked it up and It was because of the max size of ...

GitHub actions - store windows file name into a variable
with github actions i want to store the name of an logfile wich is dynamically created into an variable. I tried the following: - name: GetLogfile name if: success() || failure() id: ...

Maximum Update Depth Exceeded on a search modal
I have a dynamic search modal that queries the backend as users type. When a user selects one of the options it saves that option in state and is rendered as a Chip component. However, after updating ...

Project owner creating 2 manager users with admin panels for their organization to manage employees
**I am creating a Visitor management system for multiple organizations, i(the owner) am the admin and creating managerial access for each 

## Estruturando o código, Capiturando dados de ações e visualizando com Pandas dataframe

As boas práticas continuam, e podemos organizar nosso código em funções para facilitar a manutenção e legibilidade.

Vamos fazer raspagem de dados do site de finanças Yahoo para obter informações sobre os componentes do índice Bovespa (BVSP). 

O objetivo é capturar dados sobre 30 principais empresas listadas neste índice, incluindo símbolo, nome da empresa, último preço, variação e volume, e depois armazená-los em um DataFrame do Pandas

In [21]:
import pandas as pd
from bs4 import BeautifulSoup
import requests

def get_page(url):
    headers = {
        "user-agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/71.0.3578.80 Chrome/71.0.3578.80 Safari/537.36"
    }
    response = requests.get(url, headers=headers)
    response.raise_for_status()  # Garante que a resposta da requisição foi bem-sucedida
    return response.text

def parse_data(html):
    soup = BeautifulSoup(html, 'html.parser')
    
    dados = [] # Lista para armazenar os dados
    
    cabecalho_tabela = ["Símbolo", "Nome da Empresa", "Último Preço", "Alterar", "Variação", "Volume"] # Cabeçalho da tabela
    
    # pegar os dados da tabela
    # a classe da tabela é "BdT Bdc($seperatorColor) Ta(end) Fz(s)"
    linhas_tabela = soup.find_all('tr', class_="BdT Bdc($seperatorColor) Ta(end) Fz(s)")

    for linha in linhas_tabela:
        valores = [] # Lista para armazenar os valores de cada linha

        # cada coluna é um td na linha da tabela 
        coluna = linha.find_all('td') # Encontrar todas as colunas da linha
    
        for valor in coluna:
            valor = valor.text.strip() # Limpar o texto
            valores.append(valor) # Adicionar o valor na lista de valores

        #-----ja temos os valores da linha, agora vamos criar um dicionário com os valores e o cabeçalho da tabela---    

        try:
            info = dict(zip(cabecalho_tabela, valores)) # Criar um dicionário `info` com os valores e o cabeçalho da tabela
            dados.append(info) # Adicionar o dicionário na lista de dados
        except Exception as e:
            error_msg = f'Erro {e} na captura de dados para a linha: {info}'
            print(error_msg)
            dados.append({'error': error_msg})
    return dados


def save_to_csv(data, filename="output.csv"):
    df = pd.DataFrame(data)
    df.to_csv(filename, index=False)
    print(f'Dados salvos em {filename}')
    return df

def main():
    url = 'https://br.financas.yahoo.com/quote/%5EBVSP/components/'
    html = get_page(url)
    data = parse_data(html)
    df = save_to_csv(data, "dados_bovespa.csv")
    print(df)

if __name__ == "__main__":
    main()


Dados salvos em dados_bovespa.csv
     Símbolo                                    Nome da Empresa Último Preço  \
0   EMBR3.SA                                       Embraer S.A.        31,42   
1   CTIP3.SA                                           CTIP3.SA                
2   ENBR3.SA                                           ENBR3.SA                
3   CESP6.SA                                           CESP6.SA                
4   CPLE6.SA            Companhia Paranaense de Energia - COPEL         9,22   
5   BRPR3.SA                                 BR Properties S.A.       131,17   
6   CPFE3.SA                                  CPFL Energia S.A.        35,15   
7   BBSE3.SA                   BB Seguridade Participações S.A.        33,01   
8   ECOR3.SA        EcoRodovias Infraestrutura e Logística S.A.         7,65   
9   CIEL3.SA                                         Cielo S.A.         5,46   
10  CSNA3.SA                     Companhia Siderúrgica Nacional        14,39   
11  AB

In [5]:
import pandas as pd

df = pd.read_csv("dados_bovespa.csv")
df.head()


Unnamed: 0,Símbolo,Nome da Empresa,Último Preço,Alterar,Variação,Volume
0,EMBR3.SA,Embraer S.A.,3142.0,-34.0,"-1,07%",0.0
1,CTIP3.SA,CTIP3.SA,,,,
2,ENBR3.SA,ENBR3.SA,,,,
3,CESP6.SA,CESP6.SA,,,,
4,CPLE6.SA,Companhia Paranaense de Energia - COPEL,922.0,0.0,"0,00%",0.0
