# Exercicio 01 - Coleta, Preparação e Análise de Dados

### Grupo: Giovani Cancherini, Eduardo Traunig, Vinicius , João Pedro Fossa
### Data de Entrega: 07/04/2024 (Turma 10)

---

## Tarefa 1 – Desenvolvendo um crawler

Escreva um crawler para descobrir e coletar páginas da Wikipedia em Português. Seu programa deve coletar 5.000 páginas de verbetes diferentes da Wikipedia, à partir da página
inicial: https://pt.wikipedia.org. Não coletar páginas de outros sites e também não deve
ser coletado páginas internas da Wikipedia que não são verbetes.

O crawler deve funcionar da seguinte maneira:
1. Obter uma página.
2. Salvar a página como um arquivo html, chamado <titulo_verbete>.html
3. Extrair todos os links que se encontram nessa página
4. Filtrar os links, removendo os que não se referem à verbetes e os verbetes que já foram
visitados.
1
5. Guardar esses links em uma lista
6. Escolher um link não visitado para ser a próxima página.
7. Voltar ao passo inicial
As páginas de verbetes coletadas deverão ser salvas como arquivos com a extensão .html.
Lembre-se de tomar cuidado para não estressar o servidor com requisições em excesso

In [1]:
# import requests
import requests
import time 

# BeautifulSoup permite navegar no html
from bs4 import BeautifulSoup

In [2]:
def salvar_links(soup):
    links_obtidos = []
    todos_links = soup.find(id="bodyContent").find_all("a")
    
    for link in todos_links:
        if "href" in link.attrs.keys() and link["href"].startswith("/wiki/"):
            if link["href"].find(":") == -1:
                links_obtidos.append(link["href"])
                # print(links_obtidos[-1])
                
    return links_obtidos

In [3]:
import os

def salvar_html(nome_arquivo, response):
    subpath = "Exercicio1-paginas/"
    fullpath = f"{subpath}{nome_arquivo}.html"
    
    os.makedirs(subpath, exist_ok=True)
    
    with open(fullpath, "w", encoding="utf-8") as f:
        conteudo = response.content.decode("utf-8")
        f.write(conteudo)

In [4]:
lista_paginas_visitadas = []
lista_paginas_nao_visitadas = []
url_base = "https://pt.wikipedia.org"

def obtem_pagina_recursivamente(url, contador_repeticoes):
    if contador_repeticoes == 0:
        print()
        print()
        print("[SUCESSO]")
        print("Todas as paginas obtidas!")
        return
    
    time.sleep(1)
    
    response = requests.get(url)
    lista_paginas_visitadas.append(url)
    
    soup = BeautifulSoup(response.content, "html.parser")
    titulo = soup.select(".mw-page-title-main")
    nome_arquivo = titulo[0].text.strip().replace(" ", "_") if titulo else "pagina_sem_titulo"

    links_obtidos = salvar_links(soup)
    salvar_html(nome_arquivo, response)
    
    for link in links_obtidos:
        link_completo = url_base + link
        if link_completo not in lista_paginas_visitadas and link_completo not in lista_paginas_nao_visitadas:
            lista_paginas_nao_visitadas.append(link_completo)
       
    if lista_paginas_nao_visitadas:
        lista_paginas_nao_visitadas.pop(0)
    else:
        print()
        print()
        print("[ATENCAO]")
        print("Nao ha mais paginas para visitar!")
        
        
    if lista_paginas_nao_visitadas:
        return obtem_pagina_recursivamente(lista_paginas_nao_visitadas[0], contador_repeticoes - 1)
    else:
        print()
        print()
        print("[ATENCAO]")
        print("Nao ha mais paginas para visitar!")
        return

In [5]:
# Inicia a busca
## Verificar output em /Exercicio1-paginas/

pagina_de_inicio = "https://pt.wikipedia.org"
numero_de_paginas = 50 # para teste final = 5000

obtem_pagina_recursivamente(pagina_de_inicio, numero_de_paginas)



[SUCESSO]
Todas as paginas obtidas!


---

## Tarefa 2 – Extraindo informações de Infoboxes

A segunda tarefa consiste em identificar as páginas que possuem infoboxes, que são usadas
para resumir as informações de um artigo na Wikipédia. Veja na figura a seguir um exemplo
de página que contém um infobox (ele está destacado em vermelho na imagem).
Infoboxes estruturam informações de diversas maneiras, por isso é difícil conseguir extrair
todos os seus elementos de forma fácil. Portanto, focaremos nossos esforços em extrair apenas
alguns elementos. São eles:
1. Título: toda infobox possui um título que fica no topo da caixa. No exemplo da figura,
o título é Alan Turing
2. Pares chave – valor: esses pares são identificados por uma chave que está associada a
um único valor. Por exemplo, na figura temos a chave “Nome completo” e o valor “Alan
Mathison Turing”.
3. Pares chave – lista: nesse tipo de item, uma chave está associada a uma lista de valores.
Na figura de exemplo são pares de chave – lista os campos: Conhecido(a) por, Alma
mater, Orientado(a)(s), Instituições e Campos.
Sua tarefa consiste em extrair o conteúdo das infoboxes de todas as páginas que foram extraídas no exercício anterior. Seu programa deve identificar quando uma página possui uma
infobox, realizar a extração das informações e salvá-las em um arquivo .json cujo nome é o
título da infobox.
Para fins de teste, será fornecido um conjunto de páginas juntamente com a saída esperada
para cada uma delas.

Sua tarefa consiste em extrair o conteúdo das infoboxes de todas as páginas que foram extraídas no exercício anterior. Seu programa deve identificar quando uma página possui uma
infobox, realizar a extração das informações e salvá-las em um arquivo .json cujo nome é o
título da infobox.
Para fins de teste, será fornecido um conjunto de páginas juntamente com a saída esperada
para cada uma delas.


In [6]:
import os
import json
from bs4 import BeautifulSoup

subpath = "Exercicio1-paginas/"
output_path = "Exercicio1-jsons/"

os.makedirs(output_path, exist_ok=True)

def extrair_infobox(soup):
    box = soup.find("table", class_="infobox infobox_v2")

    if not box:
        return None
    info = {}

    # 1. Extrair o titulo da infobox
    titulo_tag = box.find("th", class_="topo padrao")
    if titulo_tag:
        titulo = titulo_tag.get_text(strip=True)
        info["Título"] = titulo
    else:
        return None

    # 2. Extrair os pares chave-valor e chave-lista
    for tag in box.find_all("tr"):
        # Procurar chave dentro de <th> ou <td scope="row">
        chave_tag = tag.find("th") or tag.find(attrs={"scope": "row"})
        if chave_tag:
            chave = chave_tag.get_text(strip=True)
            valores = tag.find_all("td")  # Valores associados

            # Se houver apenas um <td>, e um valor unico; senao, e uma lista
            if len(valores) == 1:
                valor = valores[0].get_text(" | ", strip=True)
            else:
                valor = [td.get_text(strip=True) for td in valores]

            info[chave] = valor

    return info


In [7]:
def salvar_json(file):
    fullpath = os.path.join(subpath, file)
    with open(fullpath, "r", encoding="utf-8") as f:
        soup = BeautifulSoup(f, "html.parser")

    info = extrair_infobox(soup)

    if info:
        # Criar nome do arquivo JSON a partir do título da infobox
        filename = f"{info['Título'].replace(' ', '_')}.json"
        json_path = os.path.join(output_path, filename)

        # Salvar os dados extraídos
        with open(json_path, "w", encoding="utf-8") as json_file:
            json.dump(info, json_file, indent=4, ensure_ascii=False)

        print(f"[SUCESSO] | Informacoes extraidas e salvas                                  => {filename}")
    else:
        print(f"[ATENCAO] | {file} | Nao contem infobox")

In [8]:
def processar_todas_as_paginas():
    arquivos = os.listdir(subpath)
    
    for file in arquivos:
        salvar_json(file)

In [9]:
# Inicia a busca
## Verificar output em /Exercicio1-jsons/

processar_todas_as_paginas()

[ATENCAO] | 1344.html | Nao contem infobox
[ATENCAO] | 1991.html | Nao contem infobox
[ATENCAO] | 1997.html | Nao contem infobox
[ATENCAO] | Ataques_israelenses_na_Faixa_de_Gaza_em_março_de_2025.html | Nao contem infobox
[ATENCAO] | Bangladesh.html | Nao contem infobox
[ATENCAO] | Cerco_de_Algeciras_(1342–1344).html | Nao contem infobox
[ATENCAO] | Cessar-fogo_entre_Israel_e_Hamas_em_2025.html | Nao contem infobox
[ATENCAO] | Cláudio_Lembo.html | Nao contem infobox
[ATENCAO] | Condado_de_San_Diego.html | Nao contem infobox
[ATENCAO] | Congo_Belga.html | Nao contem infobox
[ATENCAO] | Conteúdo_livre.html | Nao contem infobox
[SUCESSO] | Informacoes extraidas e salvas                                  => Coroa_de_CastelaCorona_de_CastillaMonarquia.json
[ATENCAO] | Cronologia_da_invasão_da_Ucrânia_pela_Rússia_(2022–presente).html | Nao contem infobox
[ATENCAO] | Dia_da_Independência.html | Nao contem infobox
[SUCESSO] | Informacoes extraidas e salvas                                  => Edd