# Aula 1 — Introdução prática ao Web Scraping no contexto de RI

**Objetivo:** apresentar um primeiro pipeline de **coleta de dados web** com `requests` + `BeautifulSoup`, conectando cada etapa ao ciclo de **Recuperação da Informação (RI)**:
1) **Coleta** (HTTP request e parsing do HTML);  
2) **Representação/Indexação** (limpeza e estruturação em tabela);  
3) **Busca** (seleção e filtragem dos elementos relevantes);  
4) **Avaliação** (verificação de qualidade, cobertura e precisão dos dados coletados).

**Resultados esperados:** ao final, a turma compreende a anatomia de uma página, seleciona elementos com segurança e produz um dataset mínimo para exploração posterior.


# Atividade Prática: Web Scraping com Python
RDI
Aula 01 - Introdução - 1/2025 -10022025

# Passo 1: Importação das bibliotecas necessárias

baixar: pip install beautifulsoup4 -- no terminal


In [12]:
# Passo 1: Importação das bibliotecas necessárias
import requests           # Realiza requisições HTTP para acessar páginas web
from bs4 import BeautifulSoup  # type: ignore # Faz a análise e manipulação do conteúdo HTML/XML

## Ética, legalidade e limites práticos

- **Respeite `robots.txt`** e os **Termos de Uso** do site. Scraping não deve violar restrições explícitas.  
- **LGPD:** evite coletar dados pessoais identificáveis sem base legal.  
- **Carga no servidor:** use intervalos entre requisições e volume responsável.  
- **Identificação do agente:** quando for adequado, configure `User-Agent` claro (ex.: fins acadêmicos).  
- **Prefira APIs oficiais** quando existirem; scraping é “último recurso” para dados públicos não disponibilizados via API.


Consulte a documentação AQUI

## Anatomia da requisição e do HTML (DOM)

- **HTTP Request/Response:** enviamos um pedido (URL, headers) e recebemos um **status code** (200 = OK, 403/404 = bloqueios/ausência).  
- **HTML/DOM:** a página é uma árvore (tags, atributos, texto). O BeautifulSoup transforma esse HTML em uma estrutura navegável.  
- **Encoding:** páginas podem ter encodes distintos; atenção a acentos e `response.encoding`.


# Passo 2: Realizando uma requisição HTTP


In [13]:
# URL do site a ser raspado
url = "https://realpython.github.io/fake-jobs/"

# Realiza a requisição para obter o conteúdo HTML da página
response = requests.get(url)

# Cria um objeto BeautifulSoup para análise do HTML
soup = BeautifulSoup(response.content, "html.parser")

# Exibe uma versão formatada dos primeiros 1000 caracteres do HTML
print(soup.prettify()[:1000])

<!DOCTYPE html>
<html>
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1" name="viewport"/>
  <title>
   Fake Python
  </title>
  <link href="https://cdn.jsdelivr.net/npm/bulma@0.9.2/css/bulma.min.css" rel="stylesheet"/>
 </head>
 <body>
  <section class="section">
   <div class="container mb-5">
    <h1 class="title is-1">
     Fake Python
    </h1>
    <p class="subtitle is-3">
     Fake Jobs for Your Web Scraping Journey
    </p>
   </div>
   <div class="container">
    <div class="columns is-multiline" id="ResultsContainer">
     <div class="column is-half">
      <div class="card">
       <div class="card-content">
        <div class="media">
         <div class="media-left">
          <figure class="image is-48x48">
           <img alt="Real Python Logo" src="https://files.realpython.com/media/real-python-logo-thumbnail.7f0db70c2ed2.jpg?__no_cf_polish=1"/>
          </figure>
         </div>
         <div class="media-content">
          <h2 c

# Passo 3: Extraindo informações da página

## Seletores (CSS) e estratégia de extração

- **Seletores CSS** são diretos e legíveis (`div.card > a.title`, `.classe`, `#id`).  
- **Estratégia robusta:** prefira seletores **estáveis** (classes/ids que não mudam a cada deploy).  
- **Validação rápida:** antes de popular um DataFrame, teste `len(soup.select('SELETOR'))` para confirmar que o seletor encontra os elementos esperados.  
- **Fallback:** se possível, garanta um plano B (ex.: `find()` com condições mais genéricas).


In [14]:
# Localiza todos os blocos que contêm informações das vagas
job_elements = soup.find_all('div', class_='card-content')

# Itera sobre cada bloco e imprime os títulos das vagas
for job in job_elements:
    title = job.find('h2', class_='title').get_text().strip()
    print("Título da Vaga:", title)

Título da Vaga: Senior Python Developer
Título da Vaga: Energy engineer
Título da Vaga: Legal executive
Título da Vaga: Fitness centre manager
Título da Vaga: Product manager
Título da Vaga: Medical technical officer
Título da Vaga: Physiological scientist
Título da Vaga: Textile designer
Título da Vaga: Television floor manager
Título da Vaga: Waste management officer
Título da Vaga: Software Engineer (Python)
Título da Vaga: Interpreter
Título da Vaga: Architect
Título da Vaga: Meteorologist
Título da Vaga: Audiological scientist
Título da Vaga: English as a second language teacher
Título da Vaga: Surgeon
Título da Vaga: Equities trader
Título da Vaga: Newspaper journalist
Título da Vaga: Materials engineer
Título da Vaga: Python Programmer (Entry-Level)
Título da Vaga: Product/process development scientist
Título da Vaga: Scientist, research (maths)
Título da Vaga: Ecologist
Título da Vaga: Materials engineer
Título da Vaga: Historic buildings inspector/conservation officer
Título d



---


# Parte 4: Cabeçalho User-Agent e Organização dos Dados com pandas

Nesta parte, é implementado um cabeçalho (User-Agent) na

*   Nesta parte, é implementado um cabeçalho (User-Agent)requisição HTTP para reduzir o risco de bloqueios pelo servidor.

*   Além disso, os dados extraídos são organizados em um DataFrame utilizando a biblioteca pandas e, por fim, exportados para um arquivo CSV.

## Vamos estudar isto com **calma e elegância** no momento apropriado.

## Ligação com o ciclo de Recuperação da Informação (RI)

- **Coleta (scraping):** adquirir o conteúdo bruto (HTML).  
- **Representação/Indexação:** padronizar campos, normalizar texto (minúsculas, remoção de espaços) e estruturar em **tabela**.  
- **Busca/Consulta:** filtrar/ranquear os itens coletados por campos (título, data, link).  
- **Avaliação:** checar **cobertura** (quantos itens esperados foram coletados?), **precisão** (quantos itens são realmente relevantes?) e **atualidade** (dados atualizados?).


## Saída, versionamento e registro

- **CSV com timestamp**: salvar como `dados_scraping_YYYYMMDD.csv` para rastreabilidade.  
- **README curto (GitHub Classroom):** descreva alvo, seletor usado, data/hora, contagem de itens e limitações conhecidas.  
- **Reprodutibilidade:** fixe versões de pacotes no `requirements.txt` (ou registre `pip freeze`).


In [16]:
# Importação das bibliotecas necessárias
import requests           # Realiza requisições HTTP com cabeçalho customizado
from bs4 import BeautifulSoup  # Faz a análise do conteúdo HTML/XML
import pandas as pd       # Manipulação e organização dos dados em DataFrame

# Definição de um cabeçalho com User-Agent para simular um navegador real
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) " \
                  "AppleWebKit/537.36 (KHTML, like Gecko) " \
                  "Chrome/98.0.4758.102 Safari/537.36"
}

# Realizando a requisição HTTP com o cabeçalho customizado
url = "https://realpython.github.io/fake-jobs/"
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.content, "html.parser")

# Encontrando os elementos que contêm as informações das vagas
job_elements = soup.find_all('div', class_='card-content')

# Inicializando listas para armazenar os dados extraídos
titles = []
companies = []
locations = []

# Iterando sobre os elementos para extrair os dados
for job in job_elements:
    title = job.find('h2', class_='title').get_text().strip()
    company = job.find('h3', class_='company').get_text().strip() if job.find('h3', class_='company') else "N/A"
    location = job.find('p', class_='location').get_text().strip() if job.find('p', class_='location') else "N/A"

    titles.append(title)
    companies.append(company)
    locations.append(location)

# Organização dos dados em um DataFrame
df_jobs = pd.DataFrame({
    "Título": titles,
    "Empresa": companies,
    "Localização": locations
})

# Exportação do DataFrame para um arquivo CSV (sem o índice)
df_jobs.to_csv("fake_jobs.csv", index=False)

print("Dados extraídos e salvos no arquivo 'fake_jobs.csv'.")

ModuleNotFoundError: No module named 'pandas'

## Robustez mínima (extensões futuras sem alterar o fluxo de hoje)

- **Tratamento de erro:** `try/except` para requisição e parsing.  
- **Controle de ritmo:** intervalo aleatório (`time.sleep`) para evitar sobrecarga.  
- **Retry/backoff exponencial:** em caso de falha, tentar novamente com espera crescente.  
- **Monitoramento de mudanças:** se o seletor quebrar, registrar a data e o seletor vigente para ajuste rápido.


# Aquela olhadinha

In [None]:
import pandas as pd
from tabulate import tabulate

df_jobs = pd.read_csv("fake_jobs.csv")
print("Tabela de Vagas Extraídas")
print(tabulate(df_jobs.head(), headers='keys', tablefmt='grid'))

## Perguntas para reflexão/avaliação

1. O seletor escolhido captura **apenas** os itens relevantes? O que faria para reduzir ruído?  
2. Como verificar **cobertura** (quantos itens esperados vs. coletados)?  
3. Se o site mudar a classe dos elementos amanhã, qual seria seu **plano de contingência**?  
4. Há uma **API** disponível? O scraping continua justificável?  
5. Quais campos coletados são suficientes para análises simples (frequências, séries, correlações)?
