<a href="https://colab.research.google.com/github/Marcu-Loreto/EAD_trabalho_Final/blob/main/Extra%C3%A7%C3%A3o_Automatizada_de_Dados_UFG_Agentes_2025_01_Aula_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Extração Automatizada de Dados - Agentes Inteligentes INF/UFG
### Prof. Otávio Calaça Xavier
----

## BeautifulSoup

### Exemplo Prático com Código

A seguir, vamos ver um script básico que:

1. Solicita uma página via requests

1. Faz o parsing com BeautifulSoup

1. Localiza elementos específicos (títulos, preços, avaliações)

1. Exibe no console quantos itens foram encontrados




In [None]:
from bs4 import BeautifulSoup
import requests

url = "https://books.toscrape.com"
html = requests.get(url, timeout=10).text
soup = BeautifulSoup(html, "lxml")  # ou "html.parser"

# Encontrar todos os títulos
titles = [h3.a["title"] for h3 in soup.select("article.product_pod h3")]
print(len(titles), "livros encontrados")

['A Light in the Attic', 'Tipping the Velvet', 'Soumission', 'Sharp Objects', 'Sapiens: A Brief History of Humankind', 'The Requiem Red', 'The Dirty Little Secrets of Getting Your Dream Job', 'The Coming Woman: A Novel Based on the Life of the Infamous Feminist, Victoria Woodhull', 'The Boys in the Boat: Nine Americans and Their Epic Quest for Gold at the 1936 Berlin Olympics', 'The Black Maria', 'Starving Hearts (Triangular Trade Trilogy, #1)', "Shakespeare's Sonnets", 'Set Me Free', "Scott Pilgrim's Precious Little Life (Scott Pilgrim #1)", 'Rip it Up and Start Again', 'Our Band Could Be Your Life: Scenes from the American Indie Underground, 1981-1991', 'Olio', 'Mesaerion: The Best Science Fiction Stories 1800-1849', 'Libertarianism for Beginners', "It's Only the Himalayas"]
20 livros encontrados


### Exemplo 2 — Extraindo Todos os Links de uma Página

Vamos buscar todos os URLs (atributo href) encontrados em tags `<a>` de uma página e exibi-los em uma lista. Isso pode ser útil para coletar todas as páginas de um determinado domínio ou encontrar links de download.

In [None]:
import requests
from bs4 import BeautifulSoup

# Definir a URL que queremos analisar
url = "https://g1.globo.com"

# Fazer a requisição HTTP para obter o HTML
response = requests.get(url, timeout=10)
html_content = response.text

# Criar o objeto BeautifulSoup usando o parser lxml
soup = BeautifulSoup(html_content, "lxml")

# Encontrar todas as tags <a> que possuem atributo 'href'
links = []
for tag in soup.find_all("a", href=True):
    href = tag["href"]
    # (Opcional) Filtrar apenas links que começam com "http"
    if href.startswith("http"):
        links.append(href)

# Exibir quantos links foram encontrados e imprimir alguns exemplos
print(f"Total de links absolutos encontrados: {len(links)}")
print("Exemplos de links:")
for link in links[:50]:
    print(" •", link)


Total de links absolutos encontrados: 682
Exemplos de links:
 • https://g1.globo.com/
 • https://g1.globo.com/politica/noticia/2025/05/31/hugo-motta-cobra-suspensao-imediata-do-decreto-do-iof-sobre-risco-sacado.ghtml
 • https://g1.globo.com/politica/noticia/2025/05/31/hugo-motta-cobra-suspensao-imediata-do-decreto-do-iof-sobre-risco-sacado.ghtml
 • https://g1.globo.com/rj/rio-de-janeiro/noticia/2025/05/31/ataques-a-provedores-de-internet-no-ceara-vieram-do-rio.ghtml
 • https://g1.globo.com/rj/rio-de-janeiro/noticia/2025/05/31/ataques-a-provedores-de-internet-no-ceara-vieram-do-rio.ghtml
 • https://g1.globo.com/ce/ceara/noticia/2025/05/31/sem-internet-e-empresas-falidas-o-impacto-dos-ataques-a-provedores-no-ceara.ghtml
 • https://g1.globo.com/rj/rio-de-janeiro/noticia/2025/05/31/traficantes-do-ceara-escondidos-na-rocinha.ghtml
 • https://ge.globo.com/futebol/futebol-internacional/liga-dos-campeoes/jogo/31-05-2025/parissaintgermain-interdemilao.ghtml
 • https://ge.globo.com/futebol/futeb

### Exemplo 3: Lendo uma Tabela HTML e Convertendo para DataFrame

Vamos buscar uma tabela em uma página de demonstração (por exemplo, uma “Tabela de Países e Capitais”) e converter o conteúdo em um DataFrame do Pandas. Em seguida, salvamos esse DataFrame em CSV.

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# Definir a URL que contém a tabela que desejamos extrair
url = "https://www.w3schools.com/html/html_tables.asp"

# Requisitar o HTML da página
response = requests.get(url, timeout=10)
soup = BeautifulSoup(response.text, "lxml")

# Localizar a tabela: neste exemplo, a tabela tem id="customers"
table = soup.find("table", {"id": "customers"})

# Extrair cabeçalhos (th) e linhas (tr > td)
headers = [th.get_text(strip=True) for th in table.find_all("th")]
rows = []
for row_tag in table.find_all("tr")[1:]:  # pular o cabeçalho
    cells = [td.get_text(strip=True) for td in row_tag.find_all("td")]
    if cells:
        rows.append(cells)

# Criar DataFrame com Pandas
df = pd.DataFrame(rows, columns=headers)
print("DataFrame extraído da tabela HTML:")
print(df.head())

# Salvar o DataFrame em CSV dentro do Colab
csv_path = "tabela_paises_capitais.csv"
df.to_csv(csv_path, index=False, encoding="utf-8")
print(f"Tabela salva como: {csv_path}")


DataFrame extraído da tabela HTML:
                        Company          Contact  Country
0           Alfreds Futterkiste     Maria Anders  Germany
1    Centro comercial Moctezuma  Francisco Chang   Mexico
2                  Ernst Handel    Roland Mendel  Austria
3                Island Trading    Helen Bennett       UK
4  Laughing Bacchus Winecellars  Yoshi Tannamuri   Canada
Tabela salva como: tabela_paises_capitais.csv


### Exercício 1: Extração de Manchetes e Links de Notícias
1. Defina a URL da página de notícias (por exemplo o G1): https://g1.globo.com/
1. Use a biblioteca requests para obter o HTML da página.
1. Crie um objeto BeautifulSoup (parser lxml ou html.parser) para analisar o conteúdo.
1. Identifique as tags que contêm as manchetes principais (por exemplo, `<a class="feed-post-link">`).
1. Para cada elemento encontrado, extraia:
  - O texto da manchete (`.get_text()`).
  - O atributo href do link associado.

1. Armazene cada par (“manchete”, “link”) em uma lista e, ao final, imprima quantos itens foram coletados.


### Exercício 2: Coleta de Produtos e Categorias no “Web Scraper Test Site”

1. Acesse a página inicial do site de teste: https://webscraper.io/test-sites/e-commerce/static

2. Use `requests` para obter o HTML e crie o `BeautifulSoup`.
3. Localize a lista de categorias exibida na coluna esquerda (por exemplo, links dentro de `<div class="sidebar-nav">`).
4. Para cada categoria (ex.: “Computers”, “Phones”), siga o link correspondente e repita os próximos passos dentro dessa categoria:  
  1. Use `requests` para carregar o HTML da página de categoria.  
  2. Crie o `BeautifulSoup` para essa página.  
  3. Identifique o contêiner de cada produto (por exemplo, `<div class="thumbnail">`).  
  4. Extraia, para cada produto:  
     - Nome do produto (texto dentro de `<a class="title">`).  
     - Preço (texto dentro de `<h4 class="price">`).  
     - URL da imagem principal (atributo `src` de `<img class="img-responsive">`).  
  5. Armazene cada produto num dicionário contendo `{"nome": ..., "preco": ..., "imagem": ...}`.
5. Agrupe todos os dicionários de produtos em uma estrutura que mapeie cada nome de categoria para a lista de produtos daquela categoria.
6. Ao final, imprima quantos produtos foram coletados em cada categoria.


In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# Definir a URL que contém a tabela que desejamos extrair
url = "https://lista.mercadolivre.com.br/livros"

# Requisitar o HTML da página
response = requests.get(url, timeout=10)
soup = BeautifulSoup(response.text, "lxml")

# Localizar a tabela: neste exemplo, a tabela tem id="customers"
items = soup.find("section", {"class" : "ui-search-results"}).find("ol").find_all("li")

# links = map(lambda item: item.text, filter(lambda item: item is not None, items))

print(items)



[<li class="ui-search-layout__item"><div style="display:contents"><div class="ui-search-result__wrapper"><div class="andes-card poly-card poly-card--grid-card poly-card--large poly-card--CORE andes-card--flat andes-card--padding-0 andes-card--animated" id=":R1c1b6ie:"><div class="poly-card__portada"></div><div class="poly-card__content"><h3 class

In [None]:
precos = [item.find('div', {'class': 'poly-component__price'}).text for item in items]
precos_lista = [preco.split('R$')[1].split(',') for preco in precos]
precos_lista
# precos_formatado = [preco.split('R$')[1].split(',') for preco in precos_lista]

[['69', '90'],
 ['64', '99'],
 ['50'],
 ['79', '90'],
 ['39', '90'],
 ['45', '90'],
 ['13', '20'],
 ['39', '90'],
 ['28', '26'],
 ['29', '90'],
 ['24', '90'],
 ['39'],
 ['84'],
 ['62', '06'],
 ['59', '90'],
 ['29', '99'],
 ['54', '90'],
 ['26', '75'],
 ['200'],
 ['59', '90'],
 ['62', '90'],
 ['29', '40'],
 ['39', '79'],
 ['49', '38'],
 ['59', '90'],
 ['18', '13'],
 ['34', '45'],
 ['25'],
 ['15', '99'],
 ['59', '90'],
 ['24', '49'],
 ['78', '87'],
 ['78', '87'],
 ['15'],
 ['69', '90'],
 ['56', '99'],
 ['195'],
 ['77', '97'],
 ['38', '50'],
 ['260', '02'],
 ['59', '90'],
 ['17', '90'],
 ['78', '90'],
 ['49', '90'],
 ['69', '90'],
 ['45'],
 ['39', '06'],
 ['48', '89em 2x '],
 ['59', '90'],
 ['78', '99']]

In [None]:
imagens = [item.find('img') for item in items]
imagens[0]



### Exercício 3: Extração e Análise de Tabela de “Worldometers” (COVID-19)

1. Defina a URL da página com estatísticas mundiais de COVID-19: https://www.worldometers.info/coronavirus/
2. Use `requests` para obter o HTML e crie o `BeautifulSoup`.
3. Localize a tabela principal de países identificada por `id="main_table_countries_today"`.
4. Extraia os cabeçalhos (`<th>`) dessa tabela para obter os nomes das colunas.
5. Para cada linha de dados (`<tr>` a partir do `<tbody>`), extraia todas as células (`<td>`), convertendo texto numérico (removendo vírgulas e sinais) para tipo numérico (`int` ou `float`) quando necessário.
6. Construa um `DataFrame` do Pandas usando as listas de cabeçalhos e linhas de valores.
7. Calcule a média de cada coluna numérica (ex.: “Total Cases”, “Total Deaths”).
8. Identifique qual coluna tem o maior valor médio e registre esse resultado (por exemplo, imprimindo:
```
Coluna com maior média: Total Cases (Média = 1.234.567,89)
```
9. Salve o `DataFrame` completo em um arquivo CSV chamado `covid_worldometers.csv`.


### Exercício 4: Análise de Tamanho de Conteúdo em Páginas da Wikipédia

1. Crie um arquivo de texto `urls.txt` contendo ao menos 10 URLs de artigos da Wikipédia (uma em cada linha), por exemplo:

https://en.wikipedia.org/wiki/Web_scraping

https://en.wikipedia.org/wiki/Data_mining

https://en.wikipedia.org/wiki/Artificial_intelligence

https://en.wikipedia.org/wiki/Machine_learning

https://en.wikipedia.org/wiki/Big_data

https://en.wikipedia.org/wiki/Natural_language_processing

https://en.wikipedia.org/wiki/Computer_vision

https://en.wikipedia.org/wiki/Deep_learning

https://en.wikipedia.org/wiki/Neural_network

https://en.wikipedia.org/wiki/Graph_neural_network

2. No script, abra `urls.txt` e — linha a linha — armazene cada URL em uma lista `urls`.
3. Para cada `url` em `urls`:  
  1. Use `requests` para obter o HTML da página.  
  2. Verifique se `response.status_code == 200`; caso contrário, registre erro e pule para a próxima URL.  
  3. Crie um `BeautifulSoup` com o HTML retornado.  
  4. Localize o elemento principal de conteúdo da Wikipédia (por exemplo, `<div id="mw-content-text">`).  
  5. Extraia todo o texto desse elemento usando `element.get_text(separator=" ", strip=True)`.  
  6. Calcule o tamanho em caracteres desse texto (`len(texto)`).  
  7. Guarde no dicionário `resultados` a associação:  
    ```
    resultados[url] = tamanho_em_caracteres
    ```
4. Após processar todas as URLs, salve o dicionário `resultados` em um arquivo JSON chamado `tamanhos_wikipedia.json`.
5. Imprima quantas páginas foram processadas com sucesso e liste as três URLs com maior quantidade de caracteres extraídos.

### Exercício 5: Extração e Download de Imagens de um Blog

1. Defina a URL de um blog ou página de conteúdo que possua várias imagens (por exemplo, https://blog.mozilla.org/).
2. Use `requests` para obter o HTML e crie o `BeautifulSoup`.  
3. Localize todas as tags `<img>` na página.  
4. Para cada tag `<img>`, extraia:  
  - O atributo `src` (URL da imagem).  
  - O atributo `alt` (texto alternativo), caso exista.  
5. Normalize cada `src` para obter a URL completa (caso seja um caminho relativo).  
6. Use `requests` novamente para baixar cada imagem (`response = requests.get(url_imagem, timeout=10)`).  
7. Salve cada arquivo de imagem localmente em uma pasta `imagens/`, mantendo o nome original ou gerando um nome único.  
8. Imprima quantas imagens foram encontradas e quantas foram baixadas com sucesso.  