# 📘 LLMentor – Notebook per gestione Syllabus PDF

Questo notebook ti permette di:
- Caricare un file PDF di syllabus
- Estrarne il testo
- Convertirlo in formato tabellare
- Salvare il risultato in un file CSV nella cartella `data/`


In [1]:
import pandas as pd
import fitz  # PyMuPDF
import re
import os


In [2]:
# 🔍 Funzione per estrazione testo da PDF
def estrai_testo_da_pdf(percorso_pdf):
    doc = fitz.open(percorso_pdf)
    testo = ""
    for page in doc:
        testo += page.get_text()
    return testo


In [3]:
def syllabus_to_dataframe_flessibile(testo):
    righe = []
    for line in testo.splitlines():
        line = line.strip()

        if not line:
            continue  # Salta righe vuote

        # Filtra linee che sembrano CAP, indirizzi o numeri
        if re.match(r"^\\d{5}\\s+Roma$", line):
            continue
        if re.match(r"^\\d{1,3}$", line):
            continue
        if len(line) < 5:
            continue

        # Estrai con pattern
        match = re.search(r"(Settimana|Week)?\\s*([0-9]{1,2})\\s*[:\\-–]\\s*(.+)", line, re.IGNORECASE)
        if match:
            settimana = int(match.group(2))
            argomento = match.group(3).strip()
            righe.append({
                "settimana": settimana,
                "modulo": "Generico",
                "argomento principale": argomento
            })

        elif re.match(r"^\\d{1,2}\\.\\s", line):
            numero, argomento = line.split(".", 1)
            righe.append({
                "settimana": int(numero),
                "modulo": "Generico",
                "argomento principale": argomento.strip()
            })

    return pd.DataFrame(righe)



In [4]:
# Inserisci qui il percorso del tuo PDF
percorso_pdf = "SEC_DTR_Sillabo_SantamariaM.pdf"  # Cambia con il nome del tuo file PDF
testo = estrai_testo_da_pdf(percorso_pdf)
print(testo[:1000])  # Anteprima


 
 
UNIVERSITÀ DEGLI STUDI GUGLIELMO MARCONI 
 
 
 
 
 
 
 
 
 
Via Plinio 44 - 00193 Roma 
Tel. +39  06 377251  Fax: +39 06 37725212 
www.unimarconi.it / www.marconistudios.it 
info@unimarconi.it 
Codice Fiscale e Partita IVA: 07154361005 
               
 
 
1 
Dati generali del Corso 
 
Data 
Non prevista 
Crediti 
Quarter Credits: 4.5 
CFU / ECTS: 06 
Titolo del corso Diritto tributario 
Ore di studio 
totali 
150 
Ore di studio 
individuale 
114 
Ore di 
didattica 
erogativa 
30 h (15 videolezioni) 
Ore 
di 
didattica 
interattiva 
6 h 
 
Calendario delle lezioni 
L’Insegnamento è erogato online e lo studio avviene per lo più su materiali fruibili in modalità 
asincrona. Ove previsto, eventi sincroni come le Aule Virtuali (Didattica Interattiva) vengono 
periodicamente pianificati e calendarizzati dal Docente o dal Tutor Disciplinare del corso. Si veda 
più avanti il dettaglio dei calendari didattici previsti per l’Insegnamento. 
 
Nome e recapito del docente 
Prof.ssa Manuela San

In [5]:
# 🔄 Parsing e visualizzazione
df = syllabus_to_dataframe_flessibile(testo)
df.head()


In [6]:
# 💾 Salvataggio in CSV
os.makedirs("data", exist_ok=True)
df.to_csv("data/syllabus_estratto.csv", index=False)
print("✅ File salvato in data/syllabus_estratto.csv")


✅ File salvato in data/syllabus_estratto.csv
