## Web Scraping com BeautifulSoup

#### **O que é?**

Biblioteca em Python voltada a parsear documentos HTML e XML

#### **Como utilizar?**

pip install beautifulsoup4

In [1]:
from bs4 import BeautifulSoup

#### **Quando utilizar?**

- Localizar
- Manipular
- Extrair

Exemplo:

In [15]:
html = """<!DOCTYPE html>
<html lang="pt-BR">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Estudo de Web Scraping com Python</title>
</head>
<body>
    <h1 id = "teste2">Bem-vindo ao Estudo de Web Scraping com Python</h1>
    <p>O web scraping é uma técnica utilizada para extrair dados de sites da web. Com o Python, podemos usar bibliotecas como BeautifulSoup e Scrapy para realizar essa tarefa de maneira eficiente.</p>
    
    <h2 class = "teste">Principais Bibliotecas para Web Scraping em Python</h2>
    <ul>
        <li>BeautifulSoup</li>
        <li>Scrapy</li>
        <li>Requests</li>
        <li>Selenium</li>
    </ul>
    
    <h2>Exemplo de Dados para Scraping</h2>
    <table>
        <tr>
            <th>Nome</th>
            <th>Idade</th>
            <th>Profissão</th>
        </tr>
        <tr>
            <td>Ana</td>
            <td>28</td>
            <td>Engenheira</td>
        </tr>
        <tr>
            <td>João</td>
            <td>34</td>
            <td>Professor</td>
        </tr>
        <tr>
            <td>Maria</td>
            <td>25</td>
            <td>Designer</td>
        </tr>
    </table>
    
    <h2>Links Úteis</h2>
    <p>Abaixo estão alguns links úteis para aprender mais sobre web scraping:</p>
    <ul>
        <li><a href="https://www.crummy.com/software/BeautifulSoup/" target="_blank">Documentação do BeautifulSoup</a></li>
        <li><a href="https://scrapy.org/" target="_blank">Site oficial do Scrapy</a></li>
        <li><a href="https://www.selenium.dev/" target="_blank">Selenium</a></li>
        <li><a href="https://requests.readthedocs.io/" target="_blank">Requests</a></li>
    </ul>
</body>
</html>
"""

html_parsed = BeautifulSoup(html, 'html.parser') # Parseando o HTML com BeautifulSoup e definindo o parser como html.parser

In [7]:
html_parsed

<!DOCTYPE html>

<html lang="pt-BR">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<title>Estudo de Web Scraping com Python</title>
</head>
<body>
<h1>Bem-vindo ao Estudo de Web Scraping com Python</h1>
<p>O web scraping é uma técnica utilizada para extrair dados de sites da web. Com o Python, podemos usar bibliotecas como BeautifulSoup e Scrapy para realizar essa tarefa de maneira eficiente.</p>
<h2>Principais Bibliotecas para Web Scraping em Python</h2>
<ul>
<li>BeautifulSoup</li>
<li>Scrapy</li>
<li>Requests</li>
<li>Selenium</li>
</ul>
<h2>Exemplo de Dados para Scraping</h2>
<table>
<tr>
<th>Nome</th>
<th>Idade</th>
<th>Profissão</th>
</tr>
<tr>
<td>Ana</td>
<td>28</td>
<td>Engenheira</td>
</tr>
<tr>
<td>João</td>
<td>34</td>
<td>Professor</td>
</tr>
<tr>
<td>Maria</td>
<td>25</td>
<td>Designer</td>
</tr>
</table>
<h2>Links Úteis</h2>
<p>Abaixo estão alguns links úteis para aprender mais sobre web scraping:</p>
<ul>
<li><a hr

In [8]:
print(html_parsed.prettify()) # Exibindo o HTML formatado

<!DOCTYPE html>
<html lang="pt-BR">
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1.0" name="viewport"/>
  <title>
   Estudo de Web Scraping com Python
  </title>
 </head>
 <body>
  <h1>
   Bem-vindo ao Estudo de Web Scraping com Python
  </h1>
  <p>
   O web scraping é uma técnica utilizada para extrair dados de sites da web. Com o Python, podemos usar bibliotecas como BeautifulSoup e Scrapy para realizar essa tarefa de maneira eficiente.
  </p>
  <h2>
   Principais Bibliotecas para Web Scraping em Python
  </h2>
  <ul>
   <li>
    BeautifulSoup
   </li>
   <li>
    Scrapy
   </li>
   <li>
    Requests
   </li>
   <li>
    Selenium
   </li>
  </ul>
  <h2>
   Exemplo de Dados para Scraping
  </h2>
  <table>
   <tr>
    <th>
     Nome
    </th>
    <th>
     Idade
    </th>
    <th>
     Profissão
    </th>
   </tr>
   <tr>
    <td>
     Ana
    </td>
    <td>
     28
    </td>
    <td>
     Engenheira
    </td>
   </tr>
   <tr>
    <td>
     João


#### **Métodos Principais:**

- find()
- find_all()

In [10]:
html_parsed.find('h1') # Encontrando a primeira ocorrência da tag h1

<h1>Bem-vindo ao Estudo de Web Scraping com Python</h1>

In [11]:
html_parsed.find('p') # Encontrando a primeira ocorrência da tag p

<p>O web scraping é uma técnica utilizada para extrair dados de sites da web. Com o Python, podemos usar bibliotecas como BeautifulSoup e Scrapy para realizar essa tarefa de maneira eficiente.</p>

In [12]:
html_parsed.find_all('p') # Encontrando todas as ocorrências da tag p

[<p>O web scraping é uma técnica utilizada para extrair dados de sites da web. Com o Python, podemos usar bibliotecas como BeautifulSoup e Scrapy para realizar essa tarefa de maneira eficiente.</p>,
 <p>Abaixo estão alguns links úteis para aprender mais sobre web scraping:</p>]

In [16]:
html_parsed.find(class_ = 'teste') # Encontrando a primeira ocorrência da classe teste

<h2 class="teste">Principais Bibliotecas para Web Scraping em Python</h2>

In [17]:
html_parsed.find(id = 'teste2') # Encontrando a primeira ocorrência do id teste2

<h1 id="teste2">Bem-vindo ao Estudo de Web Scraping com Python</h1>