<a href="https://colab.research.google.com/github/LuizAz3vedo/atividade-algoritmos/blob/main/C%C3%B3pia_de_Aula_04_Introdu%C3%A7%C3%A3o_ao_Web_Scraping_ALGORITMO_E_COMPLEXIDADE.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Aula 04: Introdução ao Web Scraping

##Introdução ao Web Scraping com BeautifulSoup

In [None]:
# Instalação
!pip install requests beautifulsoup4



### Estrutura Básica do BeautifulSoup

In [None]:
from bs4 import BeautifulSoup

html = """
<html>
  <body>
    <h1>Título</h1>
    <p class="texto">Primeiro parágrafo</p>
    <p class="texto">Segundo parágrafo</p>
  </body>
</html>
"""

sopa = BeautifulSoup(html, "html.parser")

# Pegando o título
print(sopa.h1.text)

# Pegando todos os parágrafos
for p in sopa.find_all("p", class_="texto"):
    print(p.text)

Título
Primeiro parágrafo
Segundo parágrafo


### Usando com páginas web reais

In [None]:
import requests
from bs4 import BeautifulSoup

url = "https://quotes.toscrape.com/"
resposta = requests.get(url)

# Criar o objeto BeautifulSoup
sopa = BeautifulSoup(resposta.text, "html.parser")

# Extrair citações
citacoes = sopa.find_all("span", class_="text")
autores = sopa.find_all("small", class_="author")

for c, a in zip(citacoes, autores):
    print(f"{c.text} — {a.text}")

“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.” — Albert Einstein
“It is our choices, Harry, that show what we truly are, far more than our abilities.” — J.K. Rowling
“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.” — Albert Einstein
“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.” — Jane Austen
“Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.” — Marilyn Monroe
“Try not to become a man of success. Rather become a man of value.” — Albert Einstein
“It is better to be hated for what you are than to be loved for what you are not.” — André Gide
“I have not failed. I've just found 10,000 ways that won't work.” — Thomas A. Edison
“A woman is like a tea bag; you never know how strong it is until it's in hot water.” — Eleanor Roos

# Atividade 1

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# URL da página de livros de fantasia
url = "https://books.toscrape.com/catalogue/category/books/fantasy_19/index.html"
resposta = requests.get(url)

# Criar o objeto BeautifulSoup para fazer o parsing do HTML
sopa = BeautifulSoup(resposta.text, "html.parser")

# Encontrar todos os livros na página
artigos = sopa.find_all("article", class_="product_pod")

# Lista para armazenar os dados dos livros
dados_livros = []
for livro in artigos:
    titulo = livro.find("h3").find("a")["title"]
    preco = livro.find("p", class_="price_color").text.strip()
    categoria = sopa.find("ul", class_="breadcrumb").find_all("li")[2].text.strip()
    elemento_estoque = livro.find("p", class_="instock availability")
    estoque = elemento_estoque.text.strip() if elemento_estoque else "N/A"  # Extrai o texto ou define como N/A se não encontrado

    # Adiciona os dados do livro à lista
    dados_livros.append({
        "Título": titulo,
        "Preço": preco,
        "Categoria": categoria,
        "Disponibilidade": estoque
    })

# Criar um DataFrame com os dados e salvar em um arquivo CSV
df = pd.DataFrame(dados_livros)
df.to_csv("livros_fantasia_com_detalhes.csv", index=False)

print("Detalhes dos livros salvos em livros_fantasia_com_detalhes.csv")


Detalhes dos livros salvos em livros_fantasia_com_detalhes.csv


In [None]:
df = pd.read_csv("/content/livros_fantasia_com_detalhes.csv")
df.head()

Unnamed: 0,Título,Preço,Categoria,Disponibilidade
0,Unicorn Tracks,Â£18.78,Fantasy,In stock
1,"Saga, Volume 6 (Saga (Collected Editions) #6)",Â£25.02,Fantasy,In stock
2,Princess Between Worlds (Wide-Awake Princess #5),Â£13.34,Fantasy,In stock
3,Masks and Shadows,Â£56.40,Fantasy,In stock
4,Crown of Midnight (Throne of Glass #2),Â£43.29,Fantasy,In stock


# Atividade 2

In [None]:
import csv

# Nome do arquivo CSV
nome_arquivo = "manchetes_g1.csv"

# Criar e escrever no arquivo CSV
with open(nome_arquivo, mode="w", newline="", encoding="utf-8") as arquivo_csv:
    escritor = csv.writer(arquivo_csv)
    # Escreve o cabeçalho
    escritor.writerow(["manchete", "link"])
    # Escreve as linhas com os dados
    for item in manchetes_unicas:
        escritor.writerow([item["título"], item["link"]])

print(f"✅ As manchetes foram salvas no arquivo '{nome_arquivo}'.")


✅ As manchetes foram salvas no arquivo 'manchetes_g1.csv'.


In [None]:
df_manchetes = pd.read_csv("/content/manchetes_g1.csv")
df_manchetes.head()

Unnamed: 0,manchete,link
0,"Questionada sobre Bolsonaro, Casa Branca diz q...",https://g1.globo.com/mundo/noticia/2025/09/09/...
1,Mega-Sena pode pagar R$ 46 milhões; veja números,https://g1.globo.com/loterias/mega-sena/notici...
2,Dino: 'Alguém acredita que o Mickey vai mudar ...,https://g1.globo.com/politica/noticia/2025/09/...
3,Placar do julgamento: como votou cada ministro...,https://g1.globo.com/politica/noticia/2025/09/...
4,VÍDEOS: reveja o momento em que Moraes vota pe...,https://g1.globo.com/politica/playlist/videos-...
