## Importando as bibliotecas

In [4]:
from urllib.request import urlopen, Request
from bs4 import BeautifulSoup
from urllib.error import HTTPError, URLError
import re


## Códigos

### Recuperando a primeira tag `<h1>` e a primeira tag `<title>` do arquivo `teste.html`

In [None]:
html = urlopen("http://localhost:8000/teste1.html")

bsObj = BeautifulSoup(html.read(), "html.parser")

print(bsObj.h1)
print(bsObj.title)

<h1>Python Web Scraping</h1>
<title>Testando servidor web</title>


### Recuperando todas as tags `<h1>` e a tag `<title>` do arquivo `teste.html`

In [35]:
html = urlopen("http://localhost:8000/teste2.html")

bsObj = BeautifulSoup(html.read(), "html.parser")

# print(bsObj.h1)
print(bsObj.find_all("h1"))
print(bsObj.title)

[<h1>Python Web Scraping</h1>, <h1>Aula 2</h1>]
<title>Testando servidor web</title>


### Recuperando todas as tags `<a>` do arquivo `teste.html`

In [None]:
html = urlopen("http://localhost:8000/teste3.html")

bsObj = BeautifulSoup(html.read(), "html.parser")

# -------------- Imprime em forma de lista --------------
# print(bsObj.find_all("a"))

# -------------- Imprime uma por uma --------------
# for link in bsObj.find_all("a"):
#     print(link)

# -------------- Imprime apenas o link --------------
for link in bsObj.find_all("a"):
    print(link.get("href"))


http://www.google.com
http://www.udemy.com
http://www.cursoemvideo.com
http://www.youtube.com


### Tratando erros

In [None]:
# Demonstração do erro

html = urlopen("http://localhost:8000/teste3.html")
print(f"Html 1: {html}")

html = urlopen("http://localhost:8000/teste3.html/erro")
print(f"Html 1: {html}")

html = urlopen("http://localhost:8000/teste3.html")
print(f"Html 1: {html}")

Html 1: <http.client.HTTPResponse object at 0x7aebdd5ae9b0>


HTTPError: HTTP Error 404: File not found

In [21]:
# Tratando o erro

html = urlopen("http://localhost:8000/teste3.html")
print(f"Html 1: {html}")

try:
    html = urlopen("http://localhost:8000/teste3.html/erro")
    print(f"Html 1: {html}")
except HTTPError as erro:
    print(f"Erro HTTP: {erro}")

try:
    html = urlopen("http:www.hhdjshkd.com")
    print(f"Html 1: {html}")
except URLError as erro:
    print(f"Erro URL: {erro}")

Html 1: <http.client.HTTPResponse object at 0x7aebdc1d4af0>
Erro HTTP: HTTP Error 404: File not found
Erro URL: <urlopen error no host given>


In [23]:
# Erro de tag não existente

# Mostrando o erro

html = urlopen("http://localhost:8000/teste3.html")
bsObj = BeautifulSoup(html.read(), "html.parser")

resultado = bsObj.tag_nao_existente.tag_nao_existente2
print(resultado)

AttributeError: 'NoneType' object has no attribute 'tag_nao_existente2'

In [25]:
# Erro de tag não existente

# Tratando o erro

html = urlopen("http://localhost:8000/teste3.html")
bsObj = BeautifulSoup(html.read(), "html.parser")

try:
    resultado = bsObj.tag_nao_existente.tag_nao_existente2
    print(resultado)
except AttributeError as erro:
    print(f"Erro de atributo: {erro}")

Erro de atributo: 'NoneType' object has no attribute 'tag_nao_existente2'


In [29]:
def getTitulo(url):
    try:
        html = urlopen(url)
    except HTTPError as erro:
        print(f"Erro HTTP: {erro}")
    except URLError as erro:
        print(f"Erro URL: {erro}")
    except:
        print("Erro desconhecido")
    
    try:
        bsObj = BeautifulSoup(html.read(), "html.parser")
        titulo = bsObj.body.h1
    except AttributeError as erro:
        print(f"Erro de atributo: {erro}")
        return None
    except:
        print("Erro desconhecido")
        return None
    return titulo

titulo = getTitulo(input("Digite a URL: "))

if titulo is not None:
    print(titulo)
else:
    print("O título não foi encontrado")

<h1>Bruno Martins</h1>


### Um pouco mais sobre BeautifulSoup

In [39]:
html = urlopen("https://evaldowolkers.wordpress.com")
bsObj = BeautifulSoup(html, "html.parser")

teste = bsObj.find_all(class_="comments-link")
for a in teste:
    print(a)

python = bsObj.find_all(string="Python")
for a in python:
    print(a)

<span class="comments-link"><a href="https://evaldowolkers.wordpress.com/2019/01/06/switch-em-python/#comments">2 comentários<span class="screen-reader-text"> em Switch em Python</span></a></span>
<span class="comments-link"><a href="https://evaldowolkers.wordpress.com/2018/12/12/traducao-de-texto-com-python-e-googletrans/#respond">Deixe um comentário<span class="screen-reader-text"> em Tradução de Texto com Python e Googletrans</span></a></span>
<span class="comments-link"><a href="https://evaldowolkers.wordpress.com/2018/11/21/lendo-arquivos-pdf-com-python/#comments">3 comentários<span class="screen-reader-text"> em Lendo arquivos PDF com Python</span></a></span>
<span class="comments-link"><a href="https://evaldowolkers.wordpress.com/2018/10/20/enviando-e-mails-simples-com-python/#respond">Deixe um comentário<span class="screen-reader-text"> em Enviando e-mails simples com Python</span></a></span>
<span class="comments-link"><a href="https://evaldowolkers.wordpress.com/2018/02/18/in

In [None]:
# .get_text() - Retorna apenas o texto, sem as tags HTML
print(bsObj.get_text())

# .tag - Retorna a primeira ocorrência da tag
print(bsObj.title)

# .tag.name - Retorna o nome da tag
print(bsObj.title.name)

# .tag.string - Retorna o conteúdo da tag
print(bsObj.title.string)








Evaldo Wolkers
































































			Ir para conteúdo		




Evaldo Wolkers

Menu


Home
Cursos
Livros
Sobre
 








Switch em Python 

No Python temos a estrutura condicional if-elif-else.
Algumas linguagens, como Java e C possuem uma estrutura denominada “switch” que não existe no Python.
No switch o conteúdo de uma variável é comparado com um valor constante e, caso a comparação seja verdadeira, um determinado comando é executado. O switch pode ser usado por exemplo para criar um menu com opções onde o usuário escolhe uma das opções e instruções são executadas de acordo com essa escolha.
A sintaxe do switch nessas linguagens é a seguinte:
switch(variável)
{
    case constante1:
        instruções;
        break;
    case constante2:
        instruções;
        break;
    case constante3:
        instruções;
        break;
    default:
        instruções caso nenhuma opção tenha sido escolhida;
}
No Python não temos o switch, porém

In [47]:
# tag.parent - Retorna a tag pai
print(bsObj.title.parent)

# tag.parent.name - Retorna o nome da tag pai
print(bsObj.title.parent.name)

# .tag['atributo'] - Retorna o valor do atributo
print(bsObj.body['class'])

# .find(id="descricao") - Retorna a primeira ocorrência da tag com o id especificado
print(bsObj.find(id="menu-item-147"))

<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<link href="https://gmpg.org/xfn/11" rel="profile"/>
<script>(function(html){html.className = html.className.replace(/\bno-js\b/,'js')})(document.documentElement);</script>
<title>Evaldo Wolkers</title>
<meta content="max-image-preview:large" name="robots">
<link href="//s1.wp.com" rel="dns-prefetch">
<link href="//s2.wp.com" rel="dns-prefetch"/>
<link href="//s0.wp.com" rel="dns-prefetch"/>
<link href="//af.pubmine.com" rel="dns-prefetch"/>
<link href="https://evaldowolkers.wordpress.com/feed/" rel="alternate" title="Feed para Evaldo Wolkers »" type="application/rss+xml"/>
<link href="https://evaldowolkers.wordpress.com/comments/feed/" rel="alternate" title="Feed de comentários para Evaldo Wolkers »" type="application/rss+xml"/>
<script type="text/javascript">
		/* <![CDATA[ */
		function addLoadEvent(func) {
			var oldonload = window.onload;
			if (typeof window.onload != 'function') 

In [None]:
# Encontrar links em que o nome de um dos 6 primeiros classificados
# do campeonato brasileiro de 2025 apareça

paginas = set()
paginas_invalidas = set()
nova_pagina = ""

def abrir_pagina(url_da_pagina):
    global paginas, paginas_invalidas

    try:
        if url_da_pagina not in paginas_invalidas:
            html = urlopen(url_da_pagina)
            bsObj = BeautifulSoup(html, "html.parser")
            serie_a_g6_2025 = ('.flamengo.|.cruzeiro.|.palmeiras.|.bahia.|.botafogo.|.mirassol.')

            for link in bsObj.find_all("a", href=re.compile(serie_a_g6_2025)):
                if "href" in link.attrs:
                    if link.attrs['href'] not in paginas and link.attrs['href'] not in paginas_invalidas:
                        nova_pagina = link.attrs['href']
                        print(nova_pagina)
                        paginas.add(nova_pagina)
                        abrir_pagina(nova_pagina)
                        
    except:
        paginas_invalidas.add(nova_pagina)

abrir_pagina("https://globoesporte.globo.com")

https://ge.globo.com/ba/futebol/times/bahia/
http://globoesporte.globo.com/ba/futebol/times/bahia/
https://ge.globo.com/futebol/times/botafogo/
http://globoesporte.globo.com/futebol/times/botafogo/
https://ge.globo.com/futebol/times/cruzeiro/
http://globoesporte.globo.com/futebol/times/cruzeiro/
https://ge.globo.com/futebol/times/flamengo/
http://globoesporte.globo.com/futebol/times/flamengo/
https://ge.globo.com/sp/tem-esporte/futebol/times/mirassol/
http://globoesporte.globo.com/sp/sorocaba/futebol/times/mirassol/
https://ge.globo.com/futebol/times/palmeiras/
http://globoesporte.globo.com/futebol/times/palmeiras/
https://ge.globo.com/sp/ribeirao-preto-e-regiao/futebol/times/botafogo-sp/
http://globoesporte.globo.com/sp/ribeirao-preto-e-regiao/futebol/times/botafogo-sp/
https://ge.globo.com/sp/ribeirao-preto-e-regiao/futebol/times/botafogo-sp/agenda-de-jogos-do-botafogo-sp/#/proximos-jogos
https://ge.globo.com/sp/ribeirao-preto-e-regiao/futebol/times/botafogo-sp/playlist/videos-veja-a

In [None]:
# Usando expressões regulares para encontrar imagens com beautifulsoup

html = urlopen("https://pythonscraping.com/pages/page3.html")
soup = BeautifulSoup(html, "html.parser")

imagens = soup("img", {"src":re.compile("\.{2}/img/gifts/img\d*\.jpg")})

for imagem in imagens:
    print(imagem['src'])

  imagens = soup("img", {"src":re.compile("\.{2}/img/gifts/img\d*\.jpg")})


../img/gifts/img1.jpg
../img/gifts/img2.jpg
../img/gifts/img3.jpg
../img/gifts/img4.jpg
../img/gifts/img6.jpg


In [None]:
# Recuperando links de uma página com BeautifulSoup e expressões regulares

# Erro 403 porque alguns sites bloqueiam o acesso de scraping
# html = urlopen("http://www.tudogostoso.com.br")

req = Request("http://www.tudogostoso.com.br", headers={"User-Agent":" brave/1.0"})
html = urlopen(req).read()

soup = BeautifulSoup(html, "html.parser")

links = soup.find_all("a", {"href":re.compile("/categorias/*")})

for link in links:
    print(link["href"])

https://www.tudogostoso.com.br/categorias/1000-bolos-e-tortas-doces
https://www.tudogostoso.com.br/categorias/1004-carnes
https://www.tudogostoso.com.br/categorias/1009-aves
https://www.tudogostoso.com.br/categorias/1014-peixes-e-frutos-do-mar
https://www.tudogostoso.com.br/categorias/1023-saladas-molhos-e-acompanhamentos
https://www.tudogostoso.com.br/categorias/1027-sopas
https://www.tudogostoso.com.br/categorias/1028-massas
https://www.tudogostoso.com.br/categorias/1032-bebidas
https://www.tudogostoso.com.br/categorias/1037-doces-e-sobremesas
https://www.tudogostoso.com.br/categorias/1044-lanches
https://www.tudogostoso.com.br/categorias/1334-alimentacao-saudavel
/categorias


In [11]:
# Recuperando links que apontem para o próprio site na categoria específica

html = urlopen("https://www.folha.uol.com.br")

soup = BeautifulSoup(html, "html.parser")
links = soup.find_all("a", {"href":re.compile(".*\.folha\.uol\.com\.br/mercado/2025/09/.*\.shtml")})

for link in links:
    print(link["href"])

  links = soup.find_all("a", {"href":re.compile(".*\.folha\.uol\.com\.br/mercado/2025/09/.*\.shtml")})


https://www1.folha.uol.com.br/mercado/2025/09/medidas-de-haddad-ajudam-a-cumprir-regras-fiscais-mas-nao-controlam-divida-diz-fgv.shtml
https://www1.folha.uol.com.br/mercado/2025/09/dolar-abre-em-leve-alta-nesta-sexta-12-apos-julgamento-de-bolsonaro.shtml
https://www1.folha.uol.com.br/mercado/2025/09/pf-prende-careca-do-inss-em-desdobramento-de-operacao-que-apura-fraudes-na-previdencia.shtml
https://www1.folha.uol.com.br/mercado/2025/09/pf-prende-careca-do-inss-em-desdobramento-de-operacao-que-apura-fraudes-na-previdencia.shtml
https://www1.folha.uol.com.br/mercado/2025/09/companhias-aereas-brasileiras-gastam-em-acoes-judiciais-o-mesmo-que-arrecadam-com-bagagens.shtml
https://www1.folha.uol.com.br/mercado/2025/09/companhias-aereas-brasileiras-gastam-em-acoes-judiciais-o-mesmo-que-arrecadam-com-bagagens.shtml
https://www1.folha.uol.com.br/mercado/2025/09/brasil-tem-8-milhoes-de-empresas-negativadas-e-bate-novo-recorde-diz-serasa.shtml
https://www1.folha.uol.com.br/mercado/2025/09/pf-pren