# Exercicio 01 - Coleta, Preparação e Análise de Dados

### Grupo: Giovani Cancherini
### Data de Entrega: 07/04/2024 (Turma 10)

---

## Tarefa 1 – Desenvolvendo um crawler

Escreva um crawler para descobrir e coletar páginas da Wikipedia em Português. Seu programa deve coletar 5.000 páginas de verbetes diferentes da Wikipedia, à partir da página
inicial: https://pt.wikipedia.org. Não coletar páginas de outros sites e também não deve
ser coletado páginas internas da Wikipedia que não são verbetes.

O crawler deve funcionar da seguinte maneira:
1. Obter uma página.
2. Salvar a página como um arquivo html, chamado <titulo_verbete>.html
3. Extrair todos os links que se encontram nessa página
4. Filtrar os links, removendo os que não se referem à verbetes e os verbetes que já foram
visitados.
1
5. Guardar esses links em uma lista
6. Escolher um link não visitado para ser a próxima página.
7. Voltar ao passo inicial
As páginas de verbetes coletadas deverão ser salvas como arquivos com a extensão .html.
Lembre-se de tomar cuidado para não estressar o servidor com requisições em excesso

In [25]:
# import requests
import requests
import time 

# BeautifulSoup permite navegar no html
from bs4 import BeautifulSoup

In [26]:
def salvar_links(soup):
    links_obtidos = []
    todos_links = soup.find(id="bodyContent").find_all("a")
    
    for link in todos_links:
        if "href" in link.attrs.keys() and link["href"].startswith("/wiki/"):
            if link["href"].find(":") == -1:
                links_obtidos.append(link["href"])
                print(links_obtidos[-1])
                
    return links_obtidos

In [27]:
def salvar_html(nome_arquivo, response):
    subpath = "Exercicio1-paginas/"
    fullpath = f"{subpath}{nome_arquivo}.html"
    with open(fullpath, "w", encoding="utf-8") as f:
        conteudo = response.content.decode("utf-8")
        f.write(conteudo)

In [None]:
lista_paginas_visitadas = []
lista_paginas_nao_visitadas = []
url_base = "https://pt.wikipedia.org"

def obtem_pagina_recursivamente(url, contador_repeticoes):
    time.sleep(1)
    
    if contador_repeticoes == 0:
        return
    
    response = requests.get(url)
    
    url_visitada = url.split(".org")[1]
    lista_paginas_visitadas.append(url_visitada)
    
    soup = BeautifulSoup(response.content)
    titulo = soup.select(".mw-page-title-main")
    nome_arquivo = titulo[0].text.strip().replace(" ", "_")
    
    salvar_html(nome_arquivo, response)
    links_obtidos = salvar_links(soup)
    
    for link in links_obtidos:
        if link not in lista_paginas_visitadas:
            lista_paginas_nao_visitadas.append(link)
       
    
    lista_paginas_nao_visitadas.remove(lista_paginas_nao_visitadas[0])
    return obtem_pagina_recursivamente(url_base + lista_paginas_nao_visitadas[0], contador_repeticoes - 1)    
    
# salvar uma pagina
pagina_de_inicio = "https://pt.wikipedia.org"
nome_arquivo = obtem_pagina_recursivamente(pagina_de_inicio, 10)

/wiki/Criptoan%C3%A1lise_da_M%C3%A1quina_Enigma
/wiki/Problema_da_parada
/wiki/M%C3%A1quina_de_Turing
/wiki/Teste_de_Turing
/wiki/M%C3%A1quinas_desorganizadas
/wiki/Modelo_de_Rea%C3%A7%C3%A3o-Difus%C3%A3o
/wiki/Redu%C3%A7%C3%A3o_de_Turing
/wiki/Base_qu%C3%ADmica_da_morfog%C3%AAnese
/wiki/23_de_junho#Nascimentos
/wiki/1912
/wiki/Maida_Vale
/wiki/Londres
/wiki/7_de_junho
/wiki/1954
/wiki/Cheshire
/wiki/Suic%C3%ADdio
/wiki/Cianeto
/wiki/Brit%C3%A2nicos
/wiki/Sherborne_School
/wiki/Alma_mater
/wiki/Universidade_de_Cambridge
/wiki/Bachelor_of_Arts
/wiki/Master_of_Arts
/wiki/Universidade_de_Princeton
/wiki/Doutorado_em_filosofia
/wiki/Pr%C3%AAmio_Smith
/wiki/Ate%C3%ADsmo
/wiki/Alonzo_Church
/wiki/Robin_Gandy
/wiki/Universidade_de_Manchester
/wiki/Government_Communications_Headquarters
/wiki/Laborat%C3%B3rio_Nacional_de_F%C3%ADsica
/wiki/L%C3%B3gica
/wiki/Matem%C3%A1tica
/wiki/Criptoan%C3%A1lise
/wiki/Ci%C3%AAncia_da_computa%C3%A7%C3%A3o
/wiki/Biologia_te%C3%B3rica
/wiki/M%C3%A1quina_de_Turin

---

## Tarefa 2 – Extraindo informações de Infoboxes

A segunda tarefa consiste em identificar as páginas que possuem infoboxes, que são usadas
para resumir as informações de um artigo na Wikipédia. Veja na figura a seguir um exemplo
de página que contém um infobox (ele está destacado em vermelho na imagem).
Infoboxes estruturam informações de diversas maneiras, por isso é difícil conseguir extrair
todos os seus elementos de forma fácil. Portanto, focaremos nossos esforços em extrair apenas
alguns elementos. São eles:
1. Título: toda infobox possui um título que fica no topo da caixa. No exemplo da figura,
o título é Alan Turing
2. Pares chave – valor: esses pares são identificados por uma chave que está associada a
um único valor. Por exemplo, na figura temos a chave “Nome completo” e o valor “Alan
Mathison Turing”.
3. Pares chave – lista: nesse tipo de item, uma chave está associada a uma lista de valores.
Na figura de exemplo são pares de chave – lista os campos: Conhecido(a) por, Alma
mater, Orientado(a)(s), Instituições e Campos.
Sua tarefa consiste em extrair o conteúdo das infoboxes de todas as páginas que foram extraídas no exercício anterior. Seu programa deve identificar quando uma página possui uma
infobox, realizar a extração das informações e salvá-las em um arquivo .json cujo nome é o
título da infobox.
Para fins de teste, será fornecido um conjunto de páginas juntamente com a saída esperada
para cada uma delas.

Sua tarefa consiste em extrair o conteúdo das infoboxes de todas as páginas que foram extraídas no exercício anterior. Seu programa deve identificar quando uma página possui uma
infobox, realizar a extração das informações e salvá-las em um arquivo .json cujo nome é o
título da infobox.
Para fins de teste, será fornecido um conjunto de páginas juntamente com a saída esperada
para cada uma delas.
