# Módulo Beautiful Soup

Bem vindo ao meu segundo notebook de web scraping, neste notebook falaremos sobre um outro módulo fundamental quando estamos realizando algum trabalho de web scraping, é o *Beautiful Soup*.

Para utilizá-lo, primeiramente você deve instalá-lo, ação que no Windows é feita da seguinte maneira: <br><br> 

&emsp;&emsp;&emsp; `pip install bs4`

In [1]:
# Agora, podemos importá-lo:
from bs4 import BeautifulSoup as bs
import requests as r

In [2]:
help(bs)

Help on class BeautifulSoup in module bs4:

class BeautifulSoup(bs4.element.Tag)
 |  BeautifulSoup(markup='', features=None, builder=None, parse_only=None, from_encoding=None, exclude_encodings=None, element_classes=None, **kwargs)
 |  
 |  A data structure representing a parsed HTML or XML document.
 |  
 |  Most of the methods you'll call on a BeautifulSoup object are inherited from
 |  PageElement or Tag.
 |  
 |  Internally, this class defines the basic interface called by the
 |  tree builders when converting an HTML/XML document into a data
 |  structure. The interface abstracts away the differences between
 |  parsers. To write a new tree builder, you'll need to understand
 |  these methods as a whole.
 |  
 |  These methods will be called by the BeautifulSoup constructor:
 |    * reset()
 |    * feed(markup)
 |  
 |  The tree builder may call these methods from its feed() implementation:
 |    * handle_starttag(name, attrs) # See note about return value
 |    * handle_endtag(na

Vou criar uma função que irá entrar na página do site do Mercado Livre de algum produto específico!

In [3]:
def entra_site(produto):
    site = r.get('https://lista.mercadolivre.com.br/' + produto)
    return bs(site.text, 'html.parser') # aqui estou colocando o retorno do site em HTML como um objeto do BS

In [4]:
ml_celular = entra_site('celular')

In [5]:
#Podemos dar uma olhada no HTML do site:
print(ml_celular.prettify())

<!DOCTYPE html>
<html lang="pt-BR">
 <head>
  <link href="https://www.google-analytics.com" rel="preconnect"/>
  <link href="https://www.google.com" rel="preconnect"/>
  <link href="https://data.mercadolibre.com" rel="preconnect"/>
  <link href="https://http2.mlstatic.com" rel="preconnect"/>
  <link href="https://assets.mlstatic.com" rel="preconnect"/>
  <link href="https://stats.g.doubleclick.net" rel="preconnect"/>
  <link href="https://analytics.mercadolivre.com.br" rel="preconnect"/>
  <link href="https://analytics.mercadolivre.com" rel="preconnect"/>
  <link href="https://www.google.com.br" rel="preconnect"/>
  <script type="text/javascript">
   window.NREUM||(NREUM={});NREUM.info = {"agent":"","beacon":"bam-cell.nr-data.net","errorBeacon":"bam-cell.nr-data.net","licenseKey":"3009922991","applicationID":"523456907","applicationTime":3309.682848,"transactionName":"bgRaYENYWBdWABdfXVdOfUxBS1MXRAkQGXV8NRcbGw==","queueTime":0,"ttGuid":"10c934d1c7314f2e","agentToken":null}; (window.NRE

O que fizemos até agora:
- Fizemos uma requisição ao servidor do mercado livre, com a URL de algum produto qualquer, no caso, digitei celular
- Essa requisição nos retornou um HTML, que eu salvei em um objeto do Beautiful Soup
- Salvando esse HTML em um objeto do Beautiful Soup, podemos começar a manipulá-lo!

O meu objetivo final aqui será retornar um Data Frame com todos os produtos que aparecem na primeira página quando procuramos por um celular no Mercado Livre!

Pra fazer isso, precisamos saber qual é a `<div>` do HTML do site do Mercado Livre que armazena o conteúdo de cada produto. Para isso, vamos inspecionar a página diretamente no nosso navegador!

In [6]:
# class="ui-search-result__content-wrapper"
# ^^ div com essa classe que armazena as informações sobre os produtos

primeiro_produto = ml_celular.find('div', attrs={'class': 'ui-search-result__content-wrapper'})
print(primeiro_produto.prettify())

<div class="ui-search-result__content-wrapper">
 <div class="ui-search-item__highlight-label ui-search-item__highlight-label--lightning_deal" style="background:#FF7733">
  <div class="ui-search-item__highlight-label__container">
   <span class="ui-search-styled-label ui-search-item__highlight-label__text" style="color:#FFFFFF">
    OFERTA RELÂMPAGO
   </span>
  </div>
 </div>
 <div class="ui-search-item__group ui-search-item__group--title">
  <a class="ui-search-item__group__element ui-search-link" href="https://www.mercadolivre.com.br/samsung-galaxy-a51-dual-sim-128-gb-prism-crush-white-4-gb-ram/p/MLB15466967?pdp_filters=category:MLB1055#searchVariation=MLB15466967&amp;position=1&amp;search_layout=stack&amp;type=product&amp;tracking_id=a62a4e84-5012-48b9-8917-c753cab559b6" title="Samsung Galaxy A51 Dual SIM 128 GB prism crush white 4 GB RAM">
   <h2 class="ui-search-item__title">
    Samsung Galaxy A51 Dual SIM 128 GB prism crush white 4 GB RAM
   </h2>
  </a>
  <a class="ui-search-of

Veja o que temos acima que interessante!

Temos a exata `<div>` que contém as informações sobre o primeiro produto que apareceu na tela do ML quando procuramos por "Celular"!

Mas e se quisermos todas as `<div>`? Basta utilizar um outro método do BS:

In [7]:
produtos = ml_celular.findAll('div', attrs={'class': 'ui-search-result__content-wrapper'})
# Utilizo findAll em vez de find!

In [8]:
print(produtos)

[<div class="ui-search-result__content-wrapper"><div class="ui-search-item__highlight-label ui-search-item__highlight-label--lightning_deal" style="background:#FF7733"><div class="ui-search-item__highlight-label__container"><span class="ui-search-styled-label ui-search-item__highlight-label__text" style="color:#FFFFFF">OFERTA RELÂMPAGO</span></div></div><div class="ui-search-item__group ui-search-item__group--title"><a class="ui-search-item__group__element ui-search-link" href="https://www.mercadolivre.com.br/samsung-galaxy-a51-dual-sim-128-gb-prism-crush-white-4-gb-ram/p/MLB15466967?pdp_filters=category:MLB1055#searchVariation=MLB15466967&amp;position=1&amp;search_layout=stack&amp;type=product&amp;tracking_id=a62a4e84-5012-48b9-8917-c753cab559b6" title="Samsung Galaxy A51 Dual SIM 128 GB prism crush white 4 GB RAM"><h2 class="ui-search-item__title">Samsung Galaxy A51 Dual SIM 128 GB prism crush white 4 GB RAM</h2></a><a class="ui-search-official-store-item__link ui-search-link" href="

In [9]:
print(produtos[0].prettify())

<div class="ui-search-result__content-wrapper">
 <div class="ui-search-item__highlight-label ui-search-item__highlight-label--lightning_deal" style="background:#FF7733">
  <div class="ui-search-item__highlight-label__container">
   <span class="ui-search-styled-label ui-search-item__highlight-label__text" style="color:#FFFFFF">
    OFERTA RELÂMPAGO
   </span>
  </div>
 </div>
 <div class="ui-search-item__group ui-search-item__group--title">
  <a class="ui-search-item__group__element ui-search-link" href="https://www.mercadolivre.com.br/samsung-galaxy-a51-dual-sim-128-gb-prism-crush-white-4-gb-ram/p/MLB15466967?pdp_filters=category:MLB1055#searchVariation=MLB15466967&amp;position=1&amp;search_layout=stack&amp;type=product&amp;tracking_id=a62a4e84-5012-48b9-8917-c753cab559b6" title="Samsung Galaxy A51 Dual SIM 128 GB prism crush white 4 GB RAM">
   <h2 class="ui-search-item__title">
    Samsung Galaxy A51 Dual SIM 128 GB prism crush white 4 GB RAM
   </h2>
  </a>
  <a class="ui-search-of

Acima, repare nos colchetes que existem antes do código HTML começar, evidenciamos que temos uma lista com todos os `<div>`!

Portanto, agora fica claro que podemos fazer um loop para iterar pelos divs e encontrar a informação sobre cada um dos produtos!

In [10]:
for produto in produtos:
    
    # nome : <h2 class="ui-search-item__title">Apple iPhone 12 (128 GB) - Roxo</h2>
    nome = produto.find('h2', attrs={'class' : 'ui-search-item__title'})
    # preço : <span class="price-tag-fraction">724</span>
    preco = produto.find('span', attrs={'class' : 'price-tag-fraction'})
    # centavos : <span class="price-tag-cents">50</span>
    centavos = produto.find('span', attrs={'class' : 'price-tag-cents'})
    # link : <a class="ui-search-item__group__element ui-search-link"
    link = produto.find('a', attrs={'class' : 'ui-search-item__group__element ui-search-link'})
    
    if (centavos): #nem todo o produto possui o valor para centavos, então precisa checar
        
        print('Temos o produto {} que custa {},{} reais'.format(nome.text, preco.text, centavos.text))
        print(link['href'])
        print('\n') # Coloco uma quebra de linha a cada print
        
    else:

        print('Temos o produto {} que custa {} reais'.format(nome.text, preco.text))
        print(link['href'])
        print('\n') # Coloco uma quebra de linha a cada print

Temos o produto Samsung Galaxy A51 Dual SIM 128 GB prism crush white 4 GB RAM que custa 2.699,67 reais
https://www.mercadolivre.com.br/samsung-galaxy-a51-dual-sim-128-gb-prism-crush-white-4-gb-ram/p/MLB15466967?pdp_filters=category:MLB1055#searchVariation=MLB15466967&position=1&search_layout=stack&type=product&tracking_id=a62a4e84-5012-48b9-8917-c753cab559b6


Temos o produto Xiaomi Redmi 9A Dual SIM 32 GB cinza 2 GB RAM que custa 724,50 reais
https://www.mercadolivre.com.br/xiaomi-redmi-9a-dual-sim-32-gb-cinza-2-gb-ram/p/MLB15927746?pdp_filters=category:MLB1055#searchVariation=MLB15927746&position=2&search_layout=stack&type=product&tracking_id=a62a4e84-5012-48b9-8917-c753cab559b6


Temos o produto Positivo P28 Dual SIM 24 MB preto 32 MB RAM que custa 158,07 reais
https://www.mercadolivre.com.br/positivo-p28-dual-sim-24-mb-preto-32-mb-ram/p/MLB14648997?pdp_filters=category:MLB1055#searchVariation=MLB14648997&position=3&search_layout=stack&type=product&tracking_id=a62a4e84-5012-48b9-891

Acima, vemos que já conseguimos buscar todas as informações que queríamos do site do Mercado Livre, e agora, podemos facilmente montar um DataFrame com tudo isso! Vou lhe mostrar como fazer isso abaixo.

In [11]:
# Primeiro passo, importar o módulo Pandas:

import pandas as pd

In [12]:
# Listas para armazenar todas as informações:

nomes = []
precos = []
links = []

# dict que eu vou transformar no Data Frame:

df_dict = {
    'Produto' : nomes,
    'Preço' : precos,
    'Link do Produto' : links
}


Abaixo vou fazer o mesmo loop que fiz quando printei os valores, porém com modificações para que em vez dos valores serem printados, eu coloque-os nas listas!

In [13]:
for produto in produtos:
    
    # nome : <h2 class="ui-search-item__title">Apple iPhone 12 (128 GB) - Roxo</h2>
    nome = produto.find('h2', attrs={'class' : 'ui-search-item__title'})
    # preço : <span class="price-tag-fraction">724</span>
    preco = produto.find('span', attrs={'class' : 'price-tag-fraction'})
    # centavos : <span class="price-tag-cents">50</span>
    centavos = produto.find('span', attrs={'class' : 'price-tag-cents'})
    # link : <a class="ui-search-item__group__element ui-search-link"
    link = produto.find('a', attrs={'class' : 'ui-search-item__group__element ui-search-link'})
    
    if (centavos): #nem todo o produto possui o valor para centavos, então precisa checar
        
        preco = f'{preco.text},{centavos.text}'
        
    else:

        preco = preco.text
    
    nomes.append(nome.text)
    precos.append(preco)
    links.append(link['href'])

In [14]:
# fazendo uma checagem se todos os arrays estão com os mesmos valores:

for k, v in df_dict.items():
    print(f'{k}: {len(v)}')

Produto: 54
Preço: 54
Link do Produto: 54


In [15]:
df_final = pd.DataFrame(df_dict)

In [16]:
df_final

Unnamed: 0,Produto,Preço,Link do Produto
0,Samsung Galaxy A51 Dual SIM 128 GB prism crush...,"2.699,67",https://www.mercadolivre.com.br/samsung-galaxy...
1,Xiaomi Redmi 9A Dual SIM 32 GB cinza 2 GB RAM,72450,https://www.mercadolivre.com.br/xiaomi-redmi-9...
2,Positivo P28 Dual SIM 24 MB preto 32 MB RAM,15807,https://www.mercadolivre.com.br/positivo-p28-d...
3,Xiaomi Redmi 9C 64 GB sunrise orange 3 GB RAM,99050,https://www.mercadolivre.com.br/xiaomi-redmi-9...
4,Xiaomi Pocophone Poco X3 Pro Dual SIM 256 GB p...,"2.005,08",https://www.mercadolivre.com.br/xiaomi-pocopho...
5,Xiaomi Redmi Note 8 Dual SIM 128 GB neptune bl...,"1.364,67",https://www.mercadolivre.com.br/xiaomi-redmi-n...
6,Realme C11 (2021) Dual SIM 32 GB cool grey 2 G...,68617,https://www.mercadolivre.com.br/realme-c11-202...
7,Xiaomi Redmi Note 10 Dual SIM 64 GB onyx gray ...,"1.312,11",https://www.mercadolivre.com.br/xiaomi-redmi-n...
8,Positivo P26 Dual SIM 32 MB preto 32 MB RAM,9075,https://www.mercadolivre.com.br/positivo-p26-d...
9,Multilaser F Dual SIM 32 GB ouro 1 GB RAM,42433,https://www.mercadolivre.com.br/multilaser-f-d...


Criado por: <br><br>

Reddit: **u/_jvsm**