## Primeiros passos

Com base no que voc√™ j√° sabe sobre¬†_web scraping_, j√° pode ter uma ideia de ferramentas que podemos usar para fazer a requisi√ß√£o para a p√°gina e baixar seu conte√∫do HTML.

Para nosso exemplo, usaremos a biblioteca¬†`requests`(especificamente na vers√£o 2.27.1) e faremos uma requisi√ß√£o do tipo¬†`get`¬†para uma p√°gina de frases.

In [2]:
import requests

url = "https://quotes.toscrape.com"
page = requests.get(url)
print(page.content)

b'<!DOCTYPE html>\n<html lang="en">\n<head>\n\t<meta charset="UTF-8">\n\t<title>Quotes to Scrape</title>\n    <link rel="stylesheet" href="/static/bootstrap.min.css">\n    <link rel="stylesheet" href="/static/main.css">\n    \n    \n</head>\n<body>\n    <div class="container">\n        <div class="row header-box">\n            <div class="col-md-8">\n                <h1>\n                    <a href="/" style="text-decoration: none">Quotes to Scrape</a>\n                </h1>\n            </div>\n            <div class="col-md-4">\n                <p>\n                \n                    <a href="/login">Login</a>\n                \n                </p>\n            </div>\n        </div>\n    \n\n<div class="row">\n    <div class="col-md-8">\n\n    <div class="quote" itemscope itemtype="http://schema.org/CreativeWork">\n        <span class="text" itemprop="text">\xe2\x80\x9cThe world as we have created it is a process of our thinking. It cannot be changed without changing our thinki

Com o conte√∫do da p√°gina baixado, vamos ao que interessa, ver como utilizar o Beautiful Soup para fazer sua an√°lise!

## Instala√ß√£o das bibliotecas

> ‚ö†Ô∏è Lembre-se de estar em um ambiente virtual antes de fazer as instala√ß√µes de bibliotecas.

Para instalar as bibliotecas¬†`Beautiful Soup`¬†e¬†`requests`¬†basta digitar em seu terminal:

In [None]:
pip install beautifulsoup4==4.11.1 requests==2.27.1

Agora podemos importar a lib em nosso arquivo e come√ßar a explorar as funcionalidades e facilidades que a ferramenta oferece.

In [3]:
# import requests
from bs4 import BeautifulSoup

# url = "https://quotes.toscrape.com"
# page = requests.get(url)
html_content = page.text

# Cria uma inst√¢ncia do objeto Beautiful Soup e usa o parser de HTML nativo
# do Python
soup = BeautifulSoup(html_content, "html.parser")

# Utiliza o m√©todo prettify para melhorar a visualiza√ß√£o do conte√∫do
print(soup.prettify())

<!DOCTYPE html>
<html lang="en">
 <head>
  <meta charset="utf-8"/>
  <title>
   Quotes to Scrape
  </title>
  <link href="/static/bootstrap.min.css" rel="stylesheet"/>
  <link href="/static/main.css" rel="stylesheet"/>
 </head>
 <body>
  <div class="container">
   <div class="row header-box">
    <div class="col-md-8">
     <h1>
      <a href="/" style="text-decoration: none">
       Quotes to Scrape
      </a>
     </h1>
    </div>
    <div class="col-md-4">
     <p>
      <a href="/login">
       Login
      </a>
     </p>
    </div>
   </div>
   <div class="row">
    <div class="col-md-8">
     <div class="quote" itemscope="" itemtype="http://schema.org/CreativeWork">
      <span class="text" itemprop="text">
       ‚ÄúThe world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.‚Äù
      </span>
      <span>
       by
       <small class="author" itemprop="author">
        Albert Einstein
       </small>
       <a href="/author/Al

O retorno desse c√≥digo √© o HTML da p√°gina, j√° formatado de uma forma muito amig√°vel para a leitura, n√£o concorda?

## Tipos de objetos do Beautiful Soup

**O Beautiful Soup transforma um documento HTML complexo em uma √°rvore de objetos Python.**¬†Os quatro tipos de objetos que podemos lidar s√£o¬†`Tag`,¬†`NavigableString`,¬†`BeautifulSoup`¬†e¬†`Comment`. Na documenta√ß√£o, que est√° dispon√≠vel inclusive em portugu√™s, existe uma se√ß√£o inteira dedicada aos¬†[tipos de objetos](https://www.crummy.com/software/BeautifulSoup/bs4/doc.ptbr/#tipos-de-objetos), mas destacaremos aqui apenas os dois primeiros.

### Tag

Em suma,¬†**um objeto do tipo¬†`Tag`¬†corresponde a uma tag¬†`XML`¬†ou¬†`HTML`¬†do documento original**. Toda¬†_tag_¬†possui um nome acess√≠vel atrav√©s de¬†`.name`. Por exemplo, quando vemos¬†`<header>`, ele √© um elemento do tipo¬†_tag_¬†e o nome dessa tag √©¬†`header`.

As¬†_tags_¬†tamb√©m podem ter atributos, como classes, ids e etc. Esses atributos s√£o acess√≠veis considerando¬†_tag_¬†como um dicion√°rio e como podem receber m√∫ltiplos valores, s√£o apresentados em forma de lista.

In [4]:
# import requests
# from bs4 import BeautifulSoup

# url = "https://quotes.toscrape.com"
# page = requests.get(url)
# html_content = page.text

# soup = BeautifulSoup(html_content, "html.parser")


# acessando a tag 'title'
title = soup.title

# retorna o elemento HTML da tag
print(title)

# o tipo de 'title' √© tag
print(type(title))

# o nome de 'title' √© title
print(title.name)

# acessando a tag 'footer'
footer = soup.footer

# acessando o atributo classe da tag footer
print(footer['class'])


<title>Quotes to Scrape</title>
<class 'bs4.element.Tag'>
title
['footer']


### NavigableString

Uma string corresponde a um texto dentro de uma¬†_tag_¬†e esse texto fica armazenado na classe¬†`NavigableString`.

In [5]:
# import requests
# from bs4 import BeautifulSoup

# url = "https://quotes.toscrape.com"
# page = requests.get(url)
# html_content = page.text

# soup = BeautifulSoup(html_content, "html.parser")

# title = soup.title
# footer = soup.footer

# retorna o elemento HTML da tag
print(title)

# Acessando a string de uma tag
print(title.string)

# Verificando o tipo dessa string
print(type(title.string))


<title>Quotes to Scrape</title>
Quotes to Scrape
<class 'bs4.element.NavigableString'>


## Buscando na √°rvore

Assim como nas outras ferramentas apresentadas at√© aqui, o¬†**Beautiful Soup tamb√©m possui dois m√©todos principais para encontrar elementos**. Eles s√£o o¬†**`find()`¬†e¬†`find_all()`**¬†e a essa altura voc√™ j√° deve ter presumido que a diferen√ßa b√°sica entre eles √© que o primeiro retorna apenas o primeiro elemento que corresponder ao filtro, enquanto o segundo retorna a lista de todos os elementos que baterem com o filtro.

H√° v√°rias possibilidades de filtros a serem utilizados dentro dos m√©todos descritos acima, de¬†_strings_¬†e¬†_regex_, at√© fun√ß√µes, e¬†[ler a documenta√ß√£o](https://www.crummy.com/software/BeautifulSoup/bs4/doc.ptbr/#buscando-na-arvore)¬†√© essencial para garantir que voc√™ est√° utilizando o m√©todo mais adequado para buscar os dados que deseja.

Existem algumas informa√ß√µes que s√£o bem comuns de querermos extrair, como os valores das ocorr√™ncias de determinada tag, de um atributo ou mesmo todo o texto da p√°gina.

> üëÄ¬†**De olho na dica:**¬†Ao executar o c√≥digo abaixo, tente executar uma impress√£o por vez, deixando os demais¬†`print`s comentados enquanto isso, para ter uma melhor visualiza√ß√£o dos retornos. üòâ

In [6]:
# import requests
# from bs4 import BeautifulSoup

# url = "https://quotes.toscrape.com"
# page = requests.get(url)
# html_content = page.text

# soup = BeautifulSoup(html_content, "html.parser")

# Imprime todas as ocorr√™ncias da tag "p" da p√°gina ou uma lista vazia,
# caso nenhum elemento corresponda a pesquisa
print(soup.find_all("p"))

# Imprime o elemento com o id especificado ou "None",
# caso nenhum elemento corresponda a pesquisa
print(soup.find(id="quote"))

# Imprime todo o texto da p√°gina
print(soup.get_text())

# Imprime todas as "divs" que possuam a classe "quote" ou uma lista vazia,
# caso nenhum elemento corresponda a pesquisa
print(soup.find_all("div", {"class": "quote"}))


[<p>
<a href="/login">Login</a>
</p>, <p class="text-muted">
                Quotes by: <a href="https://www.goodreads.com/quotes">GoodReads.com</a>
</p>, <p class="copyright">
                Made with <span class="zyte">‚ù§</span> by <a class="zyte" href="https://www.zyte.com">Zyte</a>
</p>]
None




Quotes to Scrape








Quotes to Scrape




Login






‚ÄúThe world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.‚Äù
by Albert Einstein
(about)


            Tags:
            
change
deep-thoughts
thinking
world



‚ÄúIt is our choices, Harry, that show what we truly are, far more than our abilities.‚Äù
by J.K. Rowling
(about)


            Tags:
            
abilities
choices



‚ÄúThere are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.‚Äù
by Albert Einstein
(about)


            Tags:
            
inspirational
life
live
miracle
miracles



‚ÄúThe pers

Por debaixo dos panos,¬†`soup.find_all("p")`¬†e¬†`soup.find_all(name="p")`¬†s√£o a mesma coisa, da mesma forma que¬†`soup.find(id="quote")`¬†√© o mesmo que¬†`soup.find(attrs={"id": "quote"})`. Isso se deve ao fato de argumentos nomeados diferentes de¬†`name`,¬†`attrs`,¬†`recursive`,¬†`string`¬†e¬†`limit`¬†serem todos colocados no dicion√°rio dentro do par√¢metro¬†`attrs`.

Para dar uma vis√£o geral do que podemos utilizar e da simplicidade de fazer¬†_scraping_¬†com o Beautiful Soup, vamos fazer algo similar ao que fizemos no exemplo de Selenium e raspar as informa√ß√µes de uma p√°gina de not√≠cias do site Tecmundo.

> scrape_bsoup.py

In [5]:
import requests
from bs4 import BeautifulSoup


# Acessa uma URL e retorna um objeto do Beautiful Soup
def get_html_soup(url):
    page = requests.get(url)
    html_page = page.text

    soup = BeautifulSoup(html_page, "html.parser")
    soup.prettify()
    return soup


# Recebe um objeto soup e retorna informa√ß√µes das not√≠cias de uma p√°gina
def get_page_news(soup):

    # Define uma lista vazia a ser populada com os dados do scraping
    news = []

    # Percorre todos os elementos da tag 'article' com a classe especificada
    for post in soup.find_all(
        "article", {"class": "tec--card tec--card--medium"}
    ):

        # Cria um dicion√°rio para guardar os elementos a cada itera√ß√£o
        item = {}

        # Cria um item chamado tag no dicion√°rio para guardar a tag do post
        # Primeiro pesquisa pela div com a classe espec√≠fica
        # Depois pela tag 'a' dentro dos resultados do primeiro filtro
        # Por fim, traz o resultado da string dentro da tag a
        item["tag"] = post.find("div", {"class": "tec--card__info"}).a.string

        # Mesma l√≥gica da busca anterior
        item["title"] = post.find("h4", {"class": "tec--card__title"}).a.string

        # Parecido com o que foi feito anteriormente, mas dessa vez pega
        # o atributo 'href' dentro da tag 'a'
        item["link"] = post.find("h4", {"class": "tec--card__title"}).a["href"]

        # Mesma l√≥gica da primeira busca, mas trazendo a string dentro da 'div'
        # direto
        item["date"] = post.find(
            "div", {"class": "tec--timestamp__item z--font-semibold"}
        ).string

        # Mesma l√≥gica da busca anterior
        item["time"] = post.find(
            "div", {"class": "z--truncate z-flex-1"}
        ).string

        # Adiciona os itens criado no dicion√°rio √† lista 'news'
        news.append(item)

    return news


print(get_page_news(get_html_soup("https://www.tecmundo.com.br/novidades")))


[]


Para fazer a pagina√ß√£o e extrair todas as not√≠cias do site, a l√≥gica √© bem similar a utilizada com o¬†`Parsel`¬†e o¬†`Selenium`.

In [None]:
# import requests
# from bs4 import BeautifulSoup


# # Acessa uma URL e retorna um objeto do Beautiful Soup
# def get_html_soup(url):
#     page = requests.get(url)
#     html_page = page.text

#     soup = BeautifulSoup(html_page, "html.parser")
#     soup.prettify()
#     return soup


# # Recebe um objeto soup e retorna informa√ß√µes das not√≠cias de uma p√°gina
# def get_page_news(soup):

#     news = []

#     for post in soup.find_all(
#         "article", {"class": "tec--card tec--card--medium"}
#     ):

#         item = {}

#         item["tag"] = post.find("div", {"class": "tec--card__info"}).a.string

#         item["title"] = post.find("h4", {"class": "tec--card__title"}).a.string

#         item["link"] = post.find("h4", {"class": "tec--card__title"}).a["href"]

#         item["date"] = post.find(
#             "div", {"class": "tec--timestamp__item z--font-semibold"}
#         ).string

#         item["time"] = post.find(
#             "div", {"class": "z--truncate z-flex-1"}
#         ).string

#         news.append(item)

#     return news


# Recebe um objeto soup e retorna o link que redireciona
# para a p√°gina seguinte, caso ele exista
def get_next_page(soup_page):
    try:
        
        # Busca pela tag 'a' com as classes espec√≠ficas do link desejado
        return soup_page.find(
            "a",
            {"class": "tec--btn"},
        )["href"]
    except TypeError:
        return None


# Recebe uma URL e retorna uma lista com todas as not√≠cias do site
def scrape_all(url):
    all_news = []

    # Enquanto a pesquisa pelo link que vai para a p√°gina seguinte existir
    while get_next_page(get_html_soup(url)) is not None:

        # Imprime a URL da p√°gina seguinte
        print(get_next_page(get_html_soup(url)))

        # Adiciona os elementos da lista com as not√≠cias de cada
        # p√°gina na lista 'all_news'
        all_news.extend(get_page_news(get_html_soup(url)))

        # define a p√°gina seguinte como URL para a pr√≥xima itera√ß√£o
        url = get_next_page(get_html_soup(url))

    return all_news


# Vamos come√ßar perto das √∫ltimas p√°ginas pra n√£o ter que fazer a requisi√ß√£o
# do site inteiro
print(scrape_all("https://www.tecmundo.com.br/novidades?page=11030"))


<!DOCTYPE html>
<html lang="pt-BR"><head><meta charset="utf-8"/><meta content="width=device-width, initial-scale=1" name="viewport"/><link crossorigin="anonymous" href="https://tm.ibxk.com.br" rel="preconnect"/><link href="https://tm.ibxk.com.br" rel="dns-prefetch"/><link href="https://fonts.googleapis.com" rel="preconnect"/><link crossorigin="anonymous" href="https://fonts.gstatic.com" rel="preconnect"/><link href="https://tag.goadopt.io" rel="preconnect"/><link href="https://tag.goadopt.io" rel="dns-prefetch"/><link href="tag.navdmp.com" rel="preconnect"/><link href="tag.navdmp.com" rel="dns-prefetch"/><link href="https://tpc.googlesyndication.com" rel="dns-prefetch"/><link href="https://tpc.googlesyndication.com" rel="preconnect"/><link as="image" fetchpriority="high" href="/icons/site/logo-tecmundo-main.svg" rel="preload"/><link as="image" fetchpriority="high" href="/icons/site/icon-facebook-header.svg" rel="preload"/><link as="image" fetchpriority="high" href="/icons/site/icon-ins