<a href="https://colab.research.google.com/github/dixy52-beep/Ancient-Latin-Public-Datasets/blob/main/LatinScraper.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin

# Funzione per estrarre tutte le sottopagine fino a una profondità massima
def get_subpages(base_url, max_depth):
    subpages = set()
    to_visit = [(base_url, 0)]  # (URL, profondità)
    visited = set()

    while to_visit:
        current_page, depth = to_visit.pop()
        if current_page in visited or depth > max_depth:
            continue

        visited.add(current_page)
        response = requests.get(current_page)

        # Se la pagina è accessibile
        if response.status_code == 200:
            soup = BeautifulSoup(response.text, 'html.parser')
            links = soup.find_all('a', href=True)

            for link in links:
                href = link['href']
                # Creiamo l'URL assoluto
                full_url = urljoin(current_page, href)

                # Controlliamo se è una sottopagina valida
                if full_url.startswith(base_url) and full_url != current_page:
                    # Calcoliamo la profondità contando il numero di '/ '
                    new_depth = full_url[len(base_url):].count('/')
                    if new_depth <= max_depth:
                        subpages.add((full_url, new_depth))  # Aggiungiamo la sottopagina con la profondità
                        if full_url not in visited:
                            to_visit.append((full_url, new_depth))

    return list(subpages)

# Lista dei nomi da esplorare
nomi = ["cicerone", "columella", "curzio-rufo"]  # Aggiungi altri nomi se necessario

# Dizionario per contenere le sottopagine per ciascun nome
all_subpages = {}

# Ciclo su ciascun nome per raccogliere le sottopagine
for nome in nomi:
    base_url = f"https://www.skuola.net/versioni-latino/{nome}"
    subpages = get_subpages(base_url, max_depth=3)
    all_subpages[nome] = subpages

# Stampa tutti i link di profondità 3 in un unico blocco
all_links = [page for pages in all_subpages.values() for page, depth in pages if depth == 3]
print("\n".join(all_links))

# Salva i link in un file chiamato 'links.txt'
file_path = "links.txt"
with open(file_path, "w") as file:
    file.write("\n".join(all_links))

# Verifica se il file è stato creato e visualizzabile
from google.colab import files
files.download(file_path)



https://www.skuola.net/versioni-latino/cicerone/in-catilinam/oratio-3/paragrafo-28
https://www.skuola.net/versioni-latino/cicerone/de-divinatione/libro-2/paragrafo-30
https://www.skuola.net/versioni-latino/cicerone/epistulae-ad-familiares/libro-5/epistola-4
https://www.skuola.net/versioni-latino/cicerone/de-divinatione/libro-1/paragrafo-15
https://www.skuola.net/versioni-latino/cicerone/brutus/libro-unico/paragrafo-84
https://www.skuola.net/versioni-latino/cicerone/de-officis/libro-2/paragrafo-57
https://www.skuola.net/versioni-latino/cicerone/brutus/libro-unico/paragrafo-133
https://www.skuola.net/versioni-latino/cicerone/brutus/libro-unico/paragrafo-81
https://www.skuola.net/versioni-latino/cicerone/brutus/libro-unico/paragrafo-296
https://www.skuola.net/versioni-latino/cicerone/brutus/libro-unico/paragrafo-4
https://www.skuola.net/versioni-latino/cicerone/de-officis/libro-1/paragrafo-97
https://www.skuola.net/versioni-latino/cicerone/in-catilinam/oratio-3/paragrafo-6
https://www.sku

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [None]:
# Installazione delle librerie necessarie
!pip install requests beautifulsoup4 datasets

# Importare le librerie
import requests
from bs4 import BeautifulSoup
from datasets import Dataset
import json

# Funzione per estrarre i testi da un URL
def estrai_testi_da_url(url):
    try:
        response = requests.get(url)
        if response.status_code == 200:
            soup = BeautifulSoup(response.content, "html.parser")
            # Estrarre il testo latino
            testo_latino = soup.find("div", class_="testo").get_text(strip=True)
            # Estrarre la traduzione italiana
            traduzione_italiana = soup.find("div", class_="traduzione").get_text(strip=True)

            # Rimuovere etichette non desiderate
            testo_latino = testo_latino.replace("Versione originale in latino", "").strip()
            traduzione_italiana = traduzione_italiana.replace("Traduzione all'italiano", "").strip()

            return testo_latino, traduzione_italiana
        else:
            print(f"Errore nella richiesta per URL {url}: {response.status_code}")
            return None, None
    except Exception as e:
        print(f"Errore durante l'elaborazione di {url}: {e}")
        return None, None

# Leggere i link dal file links.txt
links = []
with open("links.txt", "r") as f:
    links = [line.strip() for line in f.readlines() if line.strip()]

# Preparare i dati
dati = []
for idx, link in enumerate(links):
    testo_latino, traduzione_italiana = estrai_testi_da_url(link)
    if testo_latino and traduzione_italiana:
        dati.append({
            "source": testo_latino,
            "target": traduzione_italiana
        })

# Creare un dataset Hugging Face senza l'id
dataset = Dataset.from_dict({
    "source": [d["source"] for d in dati],
    "target": [d["target"] for d in dati]
})

# Salvare il dataset nel formato Hugging Face
dataset.save_to_disk("dataset_traduzione_latino_italiano_senza_id")

print("Dataset creato e salvato nel formato Hugging Face senza id!")


Collecting datasets
  Downloading datasets-3.1.0-py3-none-any.whl.metadata (20 kB)
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl.metadata (10 kB)
Collecting xxhash (from datasets)
  Downloading xxhash-3.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting multiprocess<0.70.17 (from datasets)
  Downloading multiprocess-0.70.16-py310-none-any.whl.metadata (7.2 kB)
Collecting fsspec<=2024.9.0,>=2023.1.0 (from fsspec[http]<=2024.9.0,>=2023.1.0->datasets)
  Downloading fsspec-2024.9.0-py3-none-any.whl.metadata (11 kB)
Downloading datasets-3.1.0-py3-none-any.whl (480 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m480.6/480.6 kB[0m [31m7.9 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading dill-0.3.8-py3-none-any.whl (116 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m116.3/116.3 kB[0m [31m13.2 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading fsspec-2024.9.0-py3-none-any.whl (

Saving the dataset (0/1 shards):   0%|          | 0/735 [00:00<?, ? examples/s]

Saving the dataset (0/1 shards):   0%|          | 0/82 [00:00<?, ? examples/s]

Saving the dataset (0/1 shards):   0%|          | 0/205 [00:00<?, ? examples/s]

Dataset creato e salvato nel formato Hugging Face!


In [None]:
# Caricare il dataset dal disco
from datasets import load_from_disk

# Carica il dataset salvato
dataset_dict = load_from_disk("dataset_traduzione_latino_italiano")

# Visualizzare le prime righe del dataset di validazione
print("Esempi del dataset di validazione:")

# Selezionare e mostrare i primi 5 esempi (convertiti in un formato leggibile)
validation_sample = dataset_dict["validation"].select(range(5))
for example in validation_sample:
    print(f"ID: {example['id']}")
    print(f"Testo Latino: {example['source']}")
    print(f"Traduzione Italiana: {example['target']}")
    print("-" * 50)


Esempi del dataset di validazione:
ID: 1011
Testo Latino: Premebantur Afraniani pabulatione, aquabantur aegre. Frumenti copiam legionarii nonnullam habebant, quod dierum XXII ab Ilerda frumentum iussi erant efferre, cetrati auxiliaresque nullam, quorum erant et facultates ad parandum exiguae et corpora insueta ad onera portanda. Itaque magnus eorum cotidie numerus ad Caesarem perfugiebat. In his erat angustiis res. Sed ex propositis consiliis duobus explicitius videbatur Ilerdam reverti, quod ibi paulum frumenti reliquerant.Ibi se reliquum consilium explicaturos confidebant. Tarraco aberat longius; quo spatio plures rem posse casus recipere intellegebant. Hoc probato consilio ex castris proficiscuntur. Caesar equitatu praemisso, qui novissimum agmen carperet atque impediret, ipse cum legionibus subsequitur. Nullum intercedebat tempus, quin extremi cum equitibus proeliarentur.
Traduzione Italiana: Gli Afraniani erano tormentati dalla mancanza di foraggio, a stento riuscivano ad approvvi

In [None]:
from huggingface_hub import HfApi, login
from datasets import DatasetDict

# Inserisci il tuo token API (prendilo dal tuo account Hugging Face)
hf_token = "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"  # Sostituisci con il tuo token API Hugging Face
# Usa il token per il login
login(token=hf_token)

# Nome del repository (scegli un nome unico per il tuo dataset)
repo_name = "latino_italiano_traduzioni_DIRETTE_parte2"  # Sostituisci con il nome che preferisci

# Crea un repository nel tuo account (questo creerà un nuovo repo sotto il tuo account)
api = HfApi()
api.create_repo(repo_name, private=False)  # Imposta private=True se desideri che il dataset sia privato

# Carica il dataset sul repository Hugging Face
dataset_dict.push_to_hub(repo_name)

print(f"Dataset caricato con successo su Hugging Face: https://huggingface.co/datasets/{repo_name}")


HfHubHTTPError: 409 Client Error: Conflict for url: https://huggingface.co/api/repos/create (Request ID: Root=1-674cf6ca-5d9fdfc1348441045f08d914;62a9c4c7-bf5d-43b4-bfec-26295423f0ca)

You already created this model repo