# Extração Automatizada de Dados - Agentes Inteligentes INF/UFG
### Prof. Otávio Calaça Xavier
----

## BeautifulSoup

### Exemplo Prático com Código

A seguir, vamos ver um script básico que:

1. Solicita uma página via requests

1. Faz o parsing com BeautifulSoup

1. Localiza elementos específicos (títulos, preços, avaliações)

1. Exibe no console quantos itens foram encontrados




In [None]:
from bs4 import BeautifulSoup
import requests

url = "https://books.toscrape.com"
html = requests.get(url, timeout=10).text
soup = BeautifulSoup(html, "lxml")  # ou "html.parser"

# Encontrar todos os títulos
titles = [h3.a["title"] for h3 in soup.select("article.product_pod h3")]
print(len(titles), "livros encontrados")

20 livros encontrados


### Exemplo 2 — Extraindo Todos os Links de uma Página

Vamos buscar todos os URLs (atributo href) encontrados em tags `<a>` de uma página e exibi-los em uma lista. Isso pode ser útil para coletar todas as páginas de um determinado domínio ou encontrar links de download.

In [None]:
import requests
from bs4 import BeautifulSoup

# Definir a URL que queremos analisar
url = "https://g1.globo.com"

# Fazer a requisição HTTP para obter o HTML
response = requests.get(url, timeout=10)
html_content = response.text

# Criar o objeto BeautifulSoup usando o parser lxml
soup = BeautifulSoup(html_content, "lxml")

# Encontrar todas as tags <a> que possuem atributo 'href'
links = []
for tag in soup.find_all("a", href=True):
    href = tag["href"]
    # (Opcional) Filtrar apenas links que começam com "http"
    if href.startswith("http"):
        links.append(href)

# Exibir quantos links foram encontrados e imprimir alguns exemplos
print(f"Total de links absolutos encontrados: {len(links)}")
print("Exemplos de links:")
for link in links[:50]:
    print(" •", link)


Total de links absolutos encontrados: 675
Exemplos de links:
 • https://g1.globo.com/
 • https://g1.globo.com/politica/noticia/2025/06/06/zambelli-pode-perder-mandato-por-decisao-da-camara-ou-da-justica-eleitoral-entenda.ghtml
 • https://g1.globo.com/politica/blog/natuza-nery/post/2025/06/06/zambelli-italia-autoridades-perseguicao-politica.ghtml
 • https://g1.globo.com/politica/noticia/2025/06/06/carla-zambelli-stf-mantem-por-unanimidade-condenacao-a-10-anos-por-invasao-a-sistema-do-cnj.ghtml
 • https://g1.globo.com/educacao/noticia/2025/06/06/enem-2025-inscricoes-sao-prorrogadas-ate-13-de-junho.ghtml
 • https://g1.globo.com/educacao/noticia/2025/06/06/enem-2025-inscricoes-sao-prorrogadas-ate-13-de-junho.ghtml
 • https://g1.globo.com/rj/rio-de-janeiro/noticia/2025/06/07/moradores-do-santo-amaro-relatam-tiroteio-em-acao-durante-festa-junina.ghtml
 • https://g1.globo.com/politica/noticia/2025/06/07/lula-defende-viagens-ao-exterior-e-diz-desconhecer-custos-estamos-fazendo-o-que-todo-presi

### Exemplo 3: Lendo uma Tabela HTML e Convertendo para DataFrame

Vamos buscar uma tabela em uma página de demonstração (por exemplo, uma “Tabela de Países e Capitais”) e converter o conteúdo em um DataFrame do Pandas. Em seguida, salvamos esse DataFrame em CSV.

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# Definir a URL que contém a tabela que desejamos extrair
url = "https://www.w3schools.com/html/html_tables.asp"

# Requisitar o HTML da página
response = requests.get(url, timeout=10)
soup = BeautifulSoup(response.text, "lxml")

# Localizar a tabela: neste exemplo, a tabela tem id="customers"
table = soup.find("table", {"id": "customers"})

# Extrair cabeçalhos (th) e linhas (tr > td)
headers = [th.get_text(strip=True) for th in table.find_all("th")]
rows = []
for row_tag in table.find_all("tr")[1:]:  # pular o cabeçalho
    cells = [td.get_text(strip=True) for td in row_tag.find_all("td")]
    if cells:
        rows.append(cells)

# Criar DataFrame com Pandas
df = pd.DataFrame(rows, columns=headers)
print("DataFrame extraído da tabela HTML:")
print(df.head())

# Salvar o DataFrame em CSV dentro do Colab
csv_path = "tabela_paises_capitais.csv"
df.to_csv(csv_path, index=False, encoding="utf-8")
print(f"Tabela salva como: {csv_path}")


DataFrame extraído da tabela HTML:
                        Company          Contact  Country
0           Alfreds Futterkiste     Maria Anders  Germany
1    Centro comercial Moctezuma  Francisco Chang   Mexico
2                  Ernst Handel    Roland Mendel  Austria
3                Island Trading    Helen Bennett       UK
4  Laughing Bacchus Winecellars  Yoshi Tannamuri   Canada
Tabela salva como: tabela_paises_capitais.csv


### Exercício 1: Extração de Manchetes e Links de Notícias
1. Defina a URL da página de notícias (por exemplo o G1): https://g1.globo.com/
1. Use a biblioteca requests para obter o HTML da página.
1. Crie um objeto BeautifulSoup (parser lxml ou html.parser) para analisar o conteúdo.
1. Identifique as tags que contêm as manchetes principais (por exemplo, `<a class="feed-post-link">`).
1. Para cada elemento encontrado, extraia:
  - O texto da manchete (`.get_text()`).
  - O atributo href do link associado.

1. Armazene cada par (“manchete”, “link”) em uma lista e, ao final, imprima quantos itens foram coletados.


In [None]:
import requests
from bs4 import BeautifulSoup

url = "https://g1.globo.com/"

try:
    response = requests.get(url, timeout=10)
    response.raise_for_status()
except requests.exceptions.RequestException as e:
    print(f"Erro ao acessar a página: {e}")
    exit()

soup = BeautifulSoup(response.text, "lxml")
headlines_and_links = []

for link_tag in soup.find_all("a", class_="feed-post-link"):
    headline = link_tag.get_text(strip=True)
    link = link_tag["href"]

    if headline and href:
        headlines_and_links.append({"manchete": headline, "link": href})

print(f"Total de manchetes e links coletados: {len(headlines_and_links)}")

for item in headlines_and_links:
    print("-" * 20)
    print(f"Manchete: {item['manchete']}")
    print(f"Link: {item['link']}")
    print()


Total de manchetes e links coletados: 7
--------------------
Manchete: Zambelli pode perder mandato por decisão da Câmara ou da Justiça Eleitoral; entenda
Link: #

--------------------
Manchete: Enem 2025: inscrições são prorrogadas até 13 de junho
Link: #

--------------------
Manchete: Moradores de comunidade no Rio relatam tiroteio durante festa junina
Link: #

--------------------
Manchete: Lula defende viagens ao exterior e diz desconhecer custos
Link: #

--------------------
Manchete: Homem agride bebê achando que era boneca 'reborn'; entenda o caso
Link: #

--------------------
Manchete: Rússia usou pneus para enganar drones da Ucrânia, mas não funcionou...
Link: #

--------------------
Manchete: Criança de 5 anos viu os pais morrerem em ataque de Israel
Link: #



### Exercício 2: Coleta de Produtos e Categorias no “Web Scraper Test Site”

1. Acesse a página inicial do site de teste: https://webscraper.io/test-sites/e-commerce/static

2. Use `requests` para obter o HTML e crie o `BeautifulSoup`.
3. Localize a lista de categorias exibida na coluna esquerda (por exemplo, links dentro de `<div class="sidebar-nav">`).
4. Para cada categoria (ex.: “Computers”, “Phones”), siga o link correspondente e repita os próximos passos dentro dessa categoria:  
  1. Use `requests` para carregar o HTML da página de categoria.  
  2. Crie o `BeautifulSoup` para essa página.  
  3. Identifique o contêiner de cada produto (por exemplo, `<div class="thumbnail">`).  
  4. Extraia, para cada produto:  
     - Nome do produto (texto dentro de `<a class="title">`).  
     - Preço (texto dentro de `<h4 class="price">`).  
     - URL da imagem principal (atributo `src` de `<img class="img-responsive">`).  
  5. Armazene cada produto num dicionário contendo `{"nome": ..., "preco": ..., "imagem": ...}`.
5. Agrupe todos os dicionários de produtos em uma estrutura que mapeie cada nome de categoria para a lista de produtos daquela categoria.
6. Ao final, imprima quantos produtos foram coletados em cada categoria.


In [None]:
import requests
from bs4 import BeautifulSoup
from collections import defaultdict
from lxml import html


BASE_URL = "https://webscraper.io"
HOME_URL = f"{BASE_URL}/test-sites/e-commerce/static"

# Função para obter o conteúdo HTML de uma página
def get_soup(url):
    response = requests.get(url)
    return BeautifulSoup(response.text, "html.parser")

# Função para extrair categorias do menu lateral
def extrair_categorias():
    url_inicial = f"{BASE_URL}/test-sites/e-commerce/static"
    soup = get_soup(url_inicial)

    categorias = {}
    sidebar = soup.find("div", class_="sidebar-nav")
    for link in sidebar.find_all("a", href=True):
        nome = link.get_text(strip=True)
        href = link["href"]
        if href.startswith("/test-sites/e-commerce/static/"):
            categorias[nome] = BASE_URL + href

    return categorias

categorias = extrair_categorias()

print("Categorias encontradas:")
for nome, url in categorias.items():
    print(f"- {nome}: {url}")
print("-" * 30)

# Função para extrair produtos de uma página de categoria
def extrair_produtos(url_categoria):
    soup = get_soup(url_categoria)
    produtos = []

    for item in soup.find_all("div", class_="thumbnail"):
        nome = item.find("a", class_="title").get_text(strip=True)
        preco = item.find("h4", class_="price").get_text(strip=True)
        imagem = BASE_URL + item.find("img", class_="img-responsive")["src"]

        produtos.append({
            "nome": nome,
            "preco": preco,
            "imagem": imagem
        })

    return produtos


def coletar_dados():
    categorias = extrair_categorias()
    dados = defaultdict(list)

    for nome_cat, url_cat in categorias.items():
        print(f"Coletando da categoria: {nome_cat}")
        produtos = extrair_produtos(url_cat)
        dados[nome_cat].extend(produtos)

    return dados

# Executando a coleta
dados_coletados = coletar_dados()
print("-" * 30)
print("Dados coletatos")
print(dados_coletados)

print("-" * 30)
# Exibindo resumo por categoria
print("\nResumo por categoria:")
for categoria, produtos in dados_coletados.items():
    print(f"- {categoria}: {len(produtos)} produtos")
print("-" * 30)

def get_soup(url):
    response = requests.get(url)
    return BeautifulSoup(response.text, "html.parser")

# Filtrando apenas as categorias desejadas
def extrair_categorias_desejadas():
    soup = get_soup(HOME_URL)
    categorias_desejadas = ["Computers", "Phones"]
    categorias = {}

    # Navega pelo menu lateral
    for link in soup.select("div.sidebar-nav a[href]"):
        nome = link.get_text(strip=True)
        href = link["href"]

        if any(nome.startswith(desejada) for desejada in categorias_desejadas):
            categorias[nome] = BASE_URL + href
    return categorias

categorias = extrair_categorias_desejadas()

print("Categorias selecionadas:")
for nome, url in categorias.items():
    print(f"- {nome}: {url}")

print("-" * 30)

def extrair_subcategorias(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, "html.parser")
    menu = soup.find("ul", id="side-menu")
    subcategorias = []

    for li in menu.find_all("li"):
        span = li.find("span")
        if span:
            texto = span.get_text(strip=True)
            subcategorias.append(texto)

    return subcategorias

def extrair_produtos(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, "html.parser")

    produtos = []

    for caption in soup.find_all("div", class_="caption"):
        nome_tag = caption.find("a", itemprop="name")
        preco_tag = caption.find("span", itemprop="price")

        if nome_tag and preco_tag:
            nome = nome_tag.get_text(strip=True)
            preco = preco_tag.get_text(strip=True)
            produtos.append({
                "nome": nome,
                "preco": preco
            })

    return produtos

# URLs específicas
url_home = "https://webscraper.io/test-sites/e-commerce/static"
url_laptops = "https://webscraper.io/test-sites/e-commerce/static/computers/laptops"
url_tablets = "https://webscraper.io/test-sites/e-commerce/static/computers/tablets"
url_touch = "https://webscraper.io/test-sites/e-commerce/static/phones/touch"

# Subcategorias
print("\n Subcategorias disponíveis:")
subcategorias = extrair_subcategorias(url_home)
for item in subcategorias:
    print("-", item)

# Extração dos produtos por subcategoria
produtos_laptops = extrair_produtos(url_laptops)
produtos_tablets = extrair_produtos(url_tablets)
produtos_touch = extrair_produtos(url_touch)

# Exibição dos produtos
print("\n Produtos - LAPTOPS:")
for p in produtos_laptops:
    print(f"{p['nome']} | {p['preco']}")

print("\n Produtos - TABLETS:")
for p in produtos_tablets:
    print(f"{p['nome']} | {p['preco']}")

print("\n Produtos - TOUCH PHONES:")
for p in produtos_touch:
    print(f"{p['nome']} | {p['preco']}")


Categorias encontradas:
- Computers: https://webscraper.io/test-sites/e-commerce/static/computers
- Phones: https://webscraper.io/test-sites/e-commerce/static/phones
------------------------------
Coletando da categoria: Computers
Coletando da categoria: Phones
------------------------------
Dados coletatos
defaultdict(<class 'list'>, {'Computers': [{'nome': 'ThinkPad X230', 'preco': '$1244.99', 'imagem': 'https://webscraper.io/images/test-sites/e-commerce/items/cart2.png'}, {'nome': 'Asus VivoBook...', 'preco': '$729', 'imagem': 'https://webscraper.io/images/test-sites/e-commerce/items/cart2.png'}, {'nome': 'Packard 255 G2', 'preco': '$416.99', 'imagem': 'https://webscraper.io/images/test-sites/e-commerce/items/cart2.png'}], 'Phones': [{'nome': 'Iphone', 'preco': '$899.99', 'imagem': 'https://webscraper.io/images/test-sites/e-commerce/items/cart2.png'}, {'nome': 'Nokia 123', 'preco': '$24.99', 'imagem': 'https://webscraper.io/images/test-sites/e-commerce/items/cart2.png'}, {'nome': 'L

### Exercício 3: Extração e Análise de Tabela de “Worldometers” (COVID-19)

1. Defina a URL da página com estatísticas mundiais de COVID-19: https://www.worldometers.info/coronavirus/
2. Use `requests` para obter o HTML e crie o `BeautifulSoup`.
3. Localize a tabela principal de países identificada por `id="main_table_countries_today"`.
4. Extraia os cabeçalhos (`<th>`) dessa tabela para obter os nomes das colunas.
5. Para cada linha de dados (`<tr>` a partir do `<tbody>`), extraia todas as células (`<td>`), convertendo texto numérico (removendo vírgulas e sinais) para tipo numérico (`int` ou `float`) quando necessário.
6. Construa um `DataFrame` do Pandas usando as listas de cabeçalhos e linhas de valores.
7. Calcule a média de cada coluna numérica (ex.: “Total Cases”, “Total Deaths”).
8. Identifique qual coluna tem o maior valor médio e registre esse resultado (por exemplo, imprimindo:
```
Coluna com maior média: Total Cases (Média = 1.234.567,89)
```
9. Salve o `DataFrame` completo em um arquivo CSV chamado `covid_worldometers.csv`.


In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import re

# Item 1
url = "https://www.worldometers.info/coronavirus/"
print("Item 1: URL definida.")
print("-" * 30)

# Item 2
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
print("Item 2: HTML baixado e BeautifulSoup criado.")
print("-" * 30)

# Item 3
tabela = soup.find("table", id="main_table_countries_today")
print("Item 3: Tabela principal localizada.")
print("-" * 30)

# Item 4
cabecalhos = [th.get_text(strip=True) for th in tabela.find_all("thead")[0].find_all("th")]
print("Item 4: Cabeçalhos extraídos:", cabecalhos)
print("-" * 30)

# Item 5

linhas = []
for tr in tabela.tbody.find_all("tr"):
    colunas = tr.find_all("td")
    if not colunas:
        continue
    linha = []
    for td in colunas:
        texto = td.get_text(strip=True)
        texto = re.sub(r"[^\d.,\\-]", "", texto)
        if texto in ("", "-"):
            valor = None
        elif "," in texto:
            texto = texto.replace(",", "")
            valor = float(texto) if "." in texto else int(texto)
        else:
            try:
                valor = int(texto)
            except:
                try:
                    valor = float(texto)
                except:
                    valor = texto
        linha.append(valor)
    linhas.append(linha)

for i, td in enumerate(colunas):
    texto = td.get_text(strip=True)
    texto = re.sub(r"[^\d.,\\-]", "", texto) if i > 0 else td.get_text(strip=True)

print(f"Item 5: {len(linhas)} linhas extraídas.")
print("-" * 30)

# Item 6
df = pd.DataFrame(linhas, columns=cabecalhos)
df.dropna(axis=1, how='all', inplace=True)
print("Item 6: DataFrame criado.")
print(df.head())
print("-" * 30)


# Item 7
medias = df.select_dtypes(include=["number"]).mean()
medias = medias/1000000
print("Item 7: Médias calculadas (x 10000000)")
print(medias)
print("-" * 30)

# Item 8
col_maior_media = medias.idxmax()
val_maior_media = medias.max()
print(f"Item 8: Coluna com maior média: {col_maior_media} (Média = {val_maior_media:,.2f} milhões) ")
print("-" * 30)

# Item 9
df.to_csv("covid_worldometers.csv", index=False)
print("Item 9: CSV salvo como covid_worldometers.csv.")
print("-" * 30)

Item 1: URL definida.
------------------------------
Item 2: HTML baixado e BeautifulSoup criado.
------------------------------
Item 3: Tabela principal localizada.
------------------------------
Item 4: Cabeçalhos extraídos: ['#', 'Country,Other', 'TotalCases', 'NewCases', 'TotalDeaths', 'NewDeaths', 'TotalRecovered', 'NewRecovered', 'ActiveCases', 'Serious,Critical', 'Tot\xa0Cases/1M pop', 'Deaths/1M pop', 'TotalTests', 'Tests/1M pop', 'Population', 'Continent', '1 Caseevery X ppl', '1 Deathevery X ppl', '1 Testevery X ppl', 'New Cases/1M pop', 'New Deaths/1M pop', 'Active Cases/1M pop']
------------------------------
Item 5: 239 linhas extraídas.
------------------------------
Item 6: DataFrame criado.
    # Country,Other  TotalCases  NewCases  TotalDeaths  NewDeaths  \
0 NaN          None   131889132       NaN    1695941.0        NaN   
1 NaN          None   221500265       NaN    1553662.0        NaN   
2 NaN          None   253406198       NaN    2101824.0        NaN   
3 NaN   

### Exercício 4: Análise de Tamanho de Conteúdo em Páginas da Wikipédia

1. Crie um arquivo de texto `urls.txt` contendo ao menos 10 URLs de artigos da Wikipédia (uma em cada linha), por exemplo:

https://en.wikipedia.org/wiki/Web_scraping

https://en.wikipedia.org/wiki/Data_mining

https://en.wikipedia.org/wiki/Artificial_intelligence

https://en.wikipedia.org/wiki/Machine_learning

https://en.wikipedia.org/wiki/Big_data

https://en.wikipedia.org/wiki/Natural_language_processing

https://en.wikipedia.org/wiki/Computer_vision

https://en.wikipedia.org/wiki/Deep_learning

https://en.wikipedia.org/wiki/Neural_network

https://en.wikipedia.org/wiki/Graph_neural_network

2. No script, abra `urls.txt` e — linha a linha — armazene cada URL em uma lista `urls`.
3. Para cada `url` em `urls`:  
  1. Use `requests` para obter o HTML da página.  
  2. Verifique se `response.status_code == 200`; caso contrário, registre erro e pule para a próxima URL.  
  3. Crie um `BeautifulSoup` com o HTML retornado.  
  4. Localize o elemento principal de conteúdo da Wikipédia (por exemplo, `<div id="mw-content-text">`).  
  5. Extraia todo o texto desse elemento usando `element.get_text(separator=" ", strip=True)`.  
  6. Calcule o tamanho em caracteres desse texto (`len(texto)`).  
  7. Guarde no dicionário `resultados` a associação:  
    ```
    resultados[url] = tamanho_em_caracteres
    ```
4. Após processar todas as URLs, salve o dicionário `resultados` em um arquivo JSON chamado `tamanhos_wikipedia.json`.
5. Imprima quantas páginas foram processadas com sucesso e liste as três URLs com maior quantidade de caracteres extraídos.

In [None]:
import requests
from bs4 import BeautifulSoup
import json

# Item 2
with open("urls.txt", "r") as f:
    urls = [linha.strip() for linha in f.readlines()]
print("Item 2: URLs carregadas")
for url in urls:
    print(url)
print("-" * 30)
# Item 3
resultados = {}

for url in urls:
    try:
        response = requests.get(url)
        if response.status_code != 200:
            print(f"Erro {response.status_code} em: {url} \n")
            continue

        soup = BeautifulSoup(response.text, "html.parser")
        conteudo = soup.find("div", id="mw-content-text")
        texto = conteudo.get_text(separator=" ", strip=True)
        resultados[url] = len(texto)
        print(f"{url} - {len(texto)} caracteres \n")
    except Exception as e:
        print(f"Erro em {url}: {e} \n")
print("-" * 30)
# Item 4
with open("tamanhos_wikipedia.json", "w") as f:
    json.dump(resultados, f, indent=2)
print("Item 4: JSON salvo.")
print("-" * 30)

# Item 5
print(f"\nItem 5: {len(resultados)} páginas processadas com sucesso.")
top3 = sorted(resultados.items(), key=lambda x: x[1], reverse=True)[:3]
print("Top 3 maiores:")
for url, tamanho in top3:
    print(f"{url} - {tamanho} caracteres")

Item 2: URLs carregadas
https://en.wikipedia.org/wiki/Web_scraping

https://en.wikipedia.org/wiki/Data_mining

https://en.wikipedia.org/wiki/Artificial_intelligence

https://en.wikipedia.org/wiki/Machine_learning

https://en.wikipedia.org/wiki/Big_data

https://en.wikipedia.org/wiki/Natural_language_processing

https://en.wikipedia.org/wiki/Computer_vision

https://en.wikipedia.org/wiki/Deep_learning

https://en.wikipedia.org/wiki/Neural_network

https://en.wikipedia.org/wiki/Graph_neural_network
------------------------------
https://en.wikipedia.org/wiki/Web_scraping - 25713 caracteres 

Erro em : Invalid URL '': No scheme supplied. Perhaps you meant https://? 

https://en.wikipedia.org/wiki/Data_mining - 42504 caracteres 

Erro em : Invalid URL '': No scheme supplied. Perhaps you meant https://? 

https://en.wikipedia.org/wiki/Artificial_intelligence - 214382 caracteres 

Erro em : Invalid URL '': No scheme supplied. Perhaps you meant https://? 

https://en.wikipedia.org/wiki/Machin

### Exercício 5: Extração e Download de Imagens de um Blog

1. Defina a URL de um blog ou página de conteúdo que possua várias imagens (por exemplo, https://blog.mozilla.org/).
2. Use `requests` para obter o HTML e crie o `BeautifulSoup`.  
3. Localize todas as tags `<img>` na página.  
4. Para cada tag `<img>`, extraia:  
  - O atributo `src` (URL da imagem).  
  - O atributo `alt` (texto alternativo), caso exista.  
5. Normalize cada `src` para obter a URL completa (caso seja um caminho relativo).  
6. Use `requests` novamente para baixar cada imagem (`response = requests.get(url_imagem, timeout=10)`).  
7. Salve cada arquivo de imagem localmente em uma pasta `imagens/`, mantendo o nome original ou gerando um nome único.  
8. Imprima quantas imagens foram encontradas e quantas foram baixadas com sucesso.  

In [None]:
import os
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin, urlparse

# Item 1
url = "https://blog.mozilla.org/"
print("Item 1: URL definida:", url)
print()
print("-" * 30)

# Item 2
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
print("Item 2: HTML baixado e BeautifulSoup criado.")
print()
print("-" * 30)

# Item 3
imagens = soup.find_all("img")
print(f"Item 3: {len(imagens)} imagens encontradas.")
print()
print("-" * 30)

# Item 4 e 5
dados_imagens = []
for img in imagens:
    src = img.get("src")
    alt = img.get("alt", "")
    if src:
        url_img = urljoin(url, src)
        dados_imagens.append({"src": url_img, "alt": alt})
print("Item 4 e 5: Exemplos de URLs de imagem: \n", dados_imagens[:3])

print()
print("-" * 30)

# Item 6 e 7
os.makedirs("imagens", exist_ok=True)
sucesso = 0
for i, img in enumerate(dados_imagens):
    try:
        nome = os.path.basename(urlparse(img["src"]).path)
        if not nome:
            nome = f"imagem_{i}.jpg"
        resp = requests.get(img["src"], timeout=10)
        with open(f"imagens/{nome}", "wb") as f:
            f.write(resp.content)
        sucesso += 1
    except Exception as e:
        print(f"Erro ao baixar {img['src']}: {e}")
print(f"{len(dados_imagens)} imagens encontradas e {sucesso} baixadas com sucesso na pasta imagens.")
print()
print("-" * 30)

Item 1: URL definida: https://blog.mozilla.org/

------------------------------
Item 2: HTML baixado e BeautifulSoup criado.

------------------------------
Item 3: 31 imagens encontradas.

------------------------------
Item 4 e 5: Exemplos de URLs de imagem: 
 [{'src': 'https://blog.mozilla.org/wp-content/themes/foxtail/assets/images/icons/search.svg', 'alt': 'search'}, {'src': 'https://blog.mozilla.org/wp-content/themes/foxtail/assets/images/icons/search.svg', 'alt': 'search'}, {'src': 'https://blog.mozilla.org/wp-content/blogs.dir/278/files/2025/05/Header-1080x720.jpg', 'alt': 'Illustration of a Firefox browser window with a purple search bar and the Firefox logo in the center, surrounded by playful icons for printing, downloading, taking screenshots, and extensions on a blue-to-purple gradient background.'}]

------------------------------
31 imagens encontradas e 31 baixadas com sucesso na pasta imagens.

------------------------------
