# Web scraping com Beautiful Soup

- Principais conceitos e métodos
- Exemplos

## O que é o Beautiful Soup?
Beautiful Soup é uma biblioteca Python usada para extrair dados de arquivos HTML e XML. Ele cria uma árvore de análise a partir das páginas que pode ser utilizada para navegar pelo documento e extrair as informações necessárias de forma eficiente.

## Por que usar Beautiful Soup?
- **Fácil de usar:** Tem uma sintaxe simples e intuitiva.
- **Versátil:** Suporta diferentes analisadores como lxml e html.parser.
- **Flexível:** Pode ser usado para extrair dados de páginas web estáticas e dinâmicas.

---

# Capítulo 1: Instalando o Beautiful Soup

Para começar a usar o Beautiful Soup, primeiro você precisa instalá-lo. Você pode fazer isso usando o pip, que é o gerenciador de pacotes do Python.

```bash
pip install bs4


In [4]:
# criando um arquivo com o conteúdo do site da UPE

import requests

with open('html_body.txt', 'w', encoding='UTF8') as file:
    file.write(requests.get('https://upe.br/').text)

In [5]:
# importando o arquivo e extraindo os links

from bs4 import BeautifulSoup as bs

html_body = open('html_body.txt', 'r', encoding='UTF8').read()   # lendo o conteúdo do arquivo
soup = bs(html_body, 'html.parser')   # parseando o conteúdo do arquivo

In [16]:
# é possível realizar o mesmo processo sem criar um arquivo .txt, mas sim passando o conteúdo diretamente para a variável soup

import requests
from bs4 import BeautifulSoup as bs

html_body = requests.get('https://upe.br/').content
soup = bs(html_body, 'html.parser')

In [17]:
display(soup.prettify())   # exibindo o conteúdo do arquivo

'<div style="overflow:hidden;height:1px;">\n <!-- aktifreklam01 -->\n <a href="http://1xbetm.info/" rel="dofollow" title="1xbetm.info">\n  1xbetm.info\n </a>\n <a href="https://betturkeygiris.org/" rel="dofollow" title="Betturkey">\n  Betturkey\n </a>\n <a href="https://www.wiibet.com/" rel="dofollow" title="betist">\n  betist\n </a>\n <a href="https://kralbetz.com/" rel="dofollow" title="kralbet">\n  kralbet\n </a>\n <a href="http://www.supertotovip.com/tr/" rel="dofollow" title="supertotobet">\n  supertotobet\n </a>\n <a href="https://tipobetm.com/" rel="dofollow" title="Tipobet">\n  Tipobet\n </a>\n <a href="https://oliviawilde.org/" rel="dofollow" title="matadorbet">\n  matadorbet\n </a>\n <a href="https://www.mariogame.net/" rel="dofollow" title="mariobet">\n  mariobet\n </a>\n <a href="https://www.bahisgiris.org/" rel="dofollow" title="bahis giriş">\n  bahis giriş\n </a>\n <a href="https://tarafbetgiris.info/" rel="dofollow" title="Tarafbet">\n  tarafbet\n </a>\n <a href="https:/

In [None]:
# buscando elementos de tags

print(soup.title)   # exibindo a tag title
print(soup.p)   # exibindo a tag p
print(soup.body)   # exibindo a tag body

In [19]:
# acessando atributos de uma tag

print(soup.find(id='back-to-top'))
print(soup.find(id='back-to-top').attrs)   # exibindo o conteúdo da tag de id='back-to-top'

<div class="back-to-top hidden-xs hidden-sm" data-offset-top="10" data-spy="affix" id="back-to-top">
<button class="btn btn-primary" title="Back to Top"><i class="fa fa-chevron-up"></i></button>
</div>
{'id': 'back-to-top', 'data-spy': 'affix', 'data-offset-top': '10', 'class': ['back-to-top', 'hidden-xs', 'hidden-sm']}


In [30]:
tag = soup.findAll('a', string='Portal do Estudante')
display([link.get('href') for link in tag][0])   # Obtendo o link do Portal do Estudante


'http://estudante.upe.br/'

In [15]:
# para filtrar elemenos de uma tag através de atributos, bastar passar um dicionário com o nome do atributo e o valor desejado

alt_text = soup.find('img', {'class': 'logo-img'}, alt=True)   # Obtendo a tag img com o atributo alt e class='logo-img'
display(alt_text)   # Exibindo o conteúdo do atributo alt
display(alt_text.get('alt'))   # Exibindo o conteúdo do atributo alt

<img alt="Universidade de Pernambuco" class="logo-img" src="/images/industrix/logo-nova4.png"/>

'Universidade de Pernambuco'

In [24]:
# pode ser feito também a partir de atributos da variável definida

alt_text = soup.find(class_='logo-img', alt=True)   # Obtendo a tag img com o atributo alt e class_='logo-img'
print(alt_text)   # Exibindo a tag
print(alt_text.get('alt'))   # Exibindo o conteúdo do atributo alt

<img alt="Universidade de Pernambuco" class="logo-img" src="/images/industrix/logo-nova4.png"/>
Universidade de Pernambuco


In [50]:
html_body = open('html_body.txt', 'r').read()   # lendo o conteúdo do arquivo
soup = bs(html_body, 'lxml')   # parseando o conteúdo do arquivo

print(soup.title)   # exibindo o texto do arquivo


None
