<a href="https://colab.research.google.com/github/CADREGA-Lion/aaaaaaaaaaaaa/blob/main/Untitled1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [3]:
# Installazione pacchetti
!pip -q install pdfplumber PyPDF2 PyYAML pandas gdown

# Monta Google Drive (serve se USE_GDOWN=False oppure vuoi salvare su Drive)
from google.colab import drive
drive.mount('/content/drive')

import os, re, sys, unicodedata, yaml
from collections import defaultdict
import pandas as pd

# ============== CONFIGURAZIONE ==============
# Come prendere i PDF:
USE_GDOWN = True  # True = scarica da cartella Drive pubblica/ condivisa via link; False = usa una cartella già nel tuo Drive montato
FOLDER_URL = "https://drive.google.com/drive/folders/1saI8wp5DhULnk8YnUZ2sFx7QM7KnAZ62?hl=it"  # incolla il tuo link alla cartella

# Se USE_GDOWN=False, indica qui la cartella nel tuo Drive (dopo il mount)
PDF_DIR = "/content/drive/MyDrive/PDF_calcolo_numerico"

# Modalità analisi: qui usiamo gli argomenti del corso "Calcolo Numerico e Software"
MODE = "topics"  # "topics" = conta argomenti definiti; "auto" = termini/frasi più frequenti

# Salvataggio CSV (puoi cambiare percorso se vuoi salvare su Drive)
OUT_CSV = "/content/topics_summary.csv"
INCLUDE_PER_FILE = True  # salva anche il dettaglio per singolo PDF

# Argomenti tipici di Calcolo Numerico e Software (personalizzabili)
TOPICS_YAML = r"""
topics:
  - name: Aritmetica finita ed errori
    keywords:
      - errore
      - errore assoluto
      - errore relativo
      - arrotondamento
      - cancellazione
      - overflow
      - underflow
      - epsilon di macchina
      - stabilita numerica
      - stabilita
      - propagazione dell errore
      - residuo
      - condizionamento
      - numero di condizionamento
    regex:
      - "\\bcondizionament\\w*"

  - name: Sistemi lineari (metodi diretti)
    keywords:
      - eliminazione di gauss
      - gauss
      - pivoting
      - pivot parziale
      - fattorizzazione lu
      - lu
      - cholesky
      - triangolare
      - sostituzione in avanti
      - sostituzione all indietro
      - banda
    regex:
      - "\\blu\\b"
      - "\\bcholesk\\w*"

  - name: Sistemi lineari (metodi iterativi)
    keywords:
      - jacobi
      - gauss seidel
      - gauss-seidel
      - sor
      - gradiente coniugato
      - conjugate gradient
      - precondizionamento
      - tolleranza
      - residuo
      - raggio spettrale
    regex:
      - "\\bprecondizion\\w*"

  - name: Equazioni non lineari
    keywords:
      - bisezione
      - metodo di bisezione
      - newton
      - metodo di newton
      - secanti
      - falsa posizione
      - bracketing
      - convergenza quadratica
      - derivata
      - line search

  - name: Interpolazione e approssimazione
    keywords:
      - interpolazione
      - polinomio di lagrange
      - lagrange
      - interpolazione di newton
      - differenze divise
      - spline
      - spline cubiche
      - minimi quadrati
      - least squares
      - regressione
      - approssimazione

  - name: Integrazione e derivazione numerica
    keywords:
      - integrazione numerica
      - regola dei trapezi
      - trapezi
      - simpson
      - gauss legendre
      - quadratura gaussiana
      - composita
      - errore di troncamento
      - derivazione numerica
      - differenze finite

  - name: Equazioni differenziali ordinarie (EDO)
    keywords:
      - euler esplicito
      - euler implicito
      - runge kutta
      - runge-kutta
      - rk4
      - adams
      - multistep
      - stiff
      - stabilita
      - passo
      - passo di integrazione
      - errore locale
      - errore globale

  - name: Ottimizzazione
    keywords:
      - discesa del gradiente
      - gradient descent
      - newton
      - quasi newton
      - bfgs
      - line search
      - vincoli
      - lagrangiana
      - kkt
    regex:
      - "\\bquasi[- ]?newton\\b"

  - name: Algebra lineare numerica avanzata
    keywords:
      - autovalori
      - autovettori
      - metodo delle potenze
      - power method
      - qr
      - svd
      - decomposizione spettrale
      - matrice sparsa
      - sparse
      - norma
    regex:
      - "\\bautovalor\\w*"
      - "\\bautovettor\\w*"
      - "\\bqr\\b"
      - "\\bsvd\\b"

  - name: Programmazione e software
    keywords:
      - python
      - matlab
      - octave
      - c++
      - numpy
      - scipy
      - matplotlib
      - pandas
      - vettorizzazione
      - loop
      - funzione
      - script
      - notebook
      - jupyter
      - ambiente
      - virtualenv
      - conda
      - git
      - github
      - controllo versione
      - test
      - unittest
      - pytest
      - debug
      - profiler
      - complessita
      - performance
      - efficienza
    regex:
      - "\\bO\\(\\s*n\\s*(\\^\\d+)?\\s*\\)"   # complessità asintotica
      - "\\bprofil\\w*"

  - name: Visualizzazione e I/O
    keywords:
      - grafico
      - plot
      - figura
      - salva
      - csv
      - file
      - lettura
      - scrittura
      - caricamento
      - export
"""

# Parametri per modalità "auto" (se la usi)
MAX_NGRAMS = 2
TOP_N = 200
# ===========================================

# Preparazione cartella input
if USE_GDOWN:
    os.makedirs("/content/input_pdfs", exist_ok=True)
    PDF_DIR = "/content/input_pdfs"
    # Scarica tutti i file dalla cartella; gdown filtra spesso i PDF correttamente
    !gdown --folder "$FOLDER_URL" -O /content/input_pdfs

def find_pdf_files(root: str):
    pdfs = []
    for dirpath, _, filenames in os.walk(root):
        for fn in filenames:
            if fn.lower().endswith(".pdf"):
                pdfs.append(os.path.join(dirpath, fn))
    pdfs.sort()
    return pdfs

def normalize_text(s: str) -> str:
    if not s:
        return ""
    s = s.lower()
    s = unicodedata.normalize("NFKD", s)
    s = "".join(c for c in s if not unicodedata.combining(c))
    return s

def extract_text_from_pdf(pdf_path: str) -> str:
    text = ""
    try:
        import pdfplumber
        with pdfplumber.open(pdf_path) as pdf:
            for page in pdf.pages:
                t = page.extract_text() or ""
                text += "\n" + t
    except Exception:
        try:
            import PyPDF2
            with open(pdf_path, "rb") as f:
                reader = PyPDF2.PdfReader(f)
                for page in reader.pages:
                    t = page.extract_text() or ""
                    text += "\n" + t
        except Exception as e2:
            print(f"Avviso: impossibile estrarre testo da {pdf_path}: {e2}", file=sys.stderr)
    return text

def load_topics_from_yaml(yaml_text: str):
    data = yaml.safe_load(yaml_text) or {}
    topics = data.get("topics", [])
    out = []
    for t in topics:
        name = t.get("name")
        keywords = t.get("keywords", []) or []
        regexps = t.get("regex", []) or []
        out.append({"name": name, "keywords": keywords, "regex": regexps})
    return out

def build_patterns_for_topic(topic):
    patterns = []
    for kw in topic.get("keywords", []):
        if not kw:
            continue
        patterns.append(re.compile(rf"\b{re.escape(kw.lower())}\b", re.IGNORECASE))
    for rx in topic.get("regex", []):
        try:
            patterns.append(re.compile(rx, re.IGNORECASE))
        except re.error as e:
            print(f"Regex invalida '{rx}' per '{topic.get('name')}' ({e}). Ignorata.", file=sys.stderr)
    return patterns

def count_topics_in_text(text, compiled_topics):
    counts = defaultdict(int)
    for name, patterns in compiled_topics:
        c = 0
        for p in patterns:
            c += len(p.findall(text))
        counts[name] += c
    return counts

def analyze_with_defined_topics(pdf_dir: str, topics_yaml: str, out_csv: str, include_per_file: bool=False):
    topics = load_topics_from_yaml(topics_yaml)
    compiled = [(t["name"], build_patterns_for_topic(t)) for t in topics]

    pdfs = find_pdf_files(pdf_dir)
    if not pdfs:
        raise SystemExit("Nessun PDF trovato nella cartella specificata.")

    total_counts = defaultdict(int)
    per_file_rows = []

    for pdf in pdfs:
        raw = extract_text_from_pdf(pdf)
        norm = normalize_text(raw)
        file_counts = count_topics_in_text(norm, compiled)
        for k, v in file_counts.items():
            total_counts[k] += v
        if include_per_file:
            per_file_rows.append({"file": os.path.relpath(pdf, pdf_dir), **file_counts})

    rows = [{"topic": name, "total_count": int(cnt)} for name, cnt in total_counts.items()]
    df = pd.DataFrame(rows).fillna(0)
    if not df.empty:
        df.sort_values(by=["total_count", "topic"], ascending=[False, True], inplace=True)
    df.to_csv(out_csv, index=False, encoding="utf-8")

    if include_per_file:
        per_file_out = os.path.splitext(out_csv)[0] + ".per_file.csv"
        pd.DataFrame(per_file_rows).fillna(0).to_csv(per_file_out, index=False, encoding="utf-8")
        print(f"Dettaglio per file salvato: {per_file_out}")
    return df

# Modalità automatica (se serve)
def analyze_auto_terms(pdf_dir: str, out_csv: str, max_ngrams: int=2, top_n: int=200):
    try:
        from sklearn.feature_extraction.text import CountVectorizer
    except Exception:
        raise SystemExit("Per la modalità automatica serve scikit-learn: pip install scikit-learn")
    ITALIAN_STOPWORDS = {
        "a","abbia","abbiamo","abbiano","abbiate","ad","agli","ai","al","allo","all","alla","alle","ancora",
        "avere","avete","aveva","avevamo","avevano","avevate","avevi","avevo","avra","avro","avrai","avranno","avremmo","avreste","avrebbero","avrete",
        "c","che","chi","ci","cio","cioe","cui","con","come","contro","col","coi","com","cosi","cosa","cos","ce",
        "da","dal","dallo","dalla","dai","dagli","dalle","de","dei","degli","del","dell","della","delle","dentro","dopo","dove","dov","dovr","dovrebbe","dovrebbero",
        "di","e","era","erano","eri","ero","essere","fa","faccio","fanno","fare","fatto","fra","fu","fui","furono",
        "gli","ha","hai","hanno","ho","il","in","io","la","le","li","lo","loro","ma","mi","mia","mie","miei","mio",
        "ne","nei","nella","nelle","negli","nel","no","noi","non","nostra","nostre","nostri","nostro",
        "o","od","oppure","oltre","ora","per","perche","piu","po","poi","proprio","qua","quale","quali","qualcosa","qualcuno","quasi","quattro",
        "quella","quelle","quelli","quello","questa","queste","questi","questo","qui","quindi","sa","se","sei","si","sia","siamo","siano","siate","siete","sono","sopra","su","sua","sue","sui","sul","sulla","sulle","sullo","suo","suoi",
        "tra","tre","tu","tua","tue","tuo","tuoi","tutti","tutto","un","una","uno","vi","voi"
    }
    pdfs = find_pdf_files(pdf_dir)
    if not pdfs:
        raise SystemExit("Nessun PDF trovato nella cartella specificata.")

    docs = []
    for pdf in pdfs:
        raw = extract_text_from_pdf(pdf)
        docs.append(normalize_text(raw))

    vectorizer = CountVectorizer(stop_words=list(ITALIAN_STOPWORDS), ngram_range=(1, max(1, max_ngrams)), min_df=1)
    X = vectorizer.fit_transform(docs)
    counts = X.sum(axis=0).A1
    terms = vectorizer.get_feature_names_out()

    rows = [{"term": t, "total_count": int(c)} for t, c in zip(terms, counts)]
    df = pd.DataFrame(rows)
    df.sort_values(by=["total_count", "term"], ascending=[False, True], inplace=True)
    if top_n and top_n > 0:
        df = df.head(top_n)
    df.to_csv(out_csv, index=False, encoding="utf-8")
    return df

# ESECUZIONE
if MODE == "topics":
    df = analyze_with_defined_topics(PDF_DIR, TOPICS_YAML, OUT_CSV, include_per_file=INCLUDE_PER_FILE)
    print("Tabella (aggregata) - prime righe:")
    print(df.head(30).to_string(index=False))
    print(f"\nCSV salvato in: {OUT_CSV}")
elif MODE == "auto":
    df = analyze_auto_terms(PDF_DIR, OUT_CSV, max_ngrams=MAX_NGRAMS, top_n=TOP_N)
    print("Termini/frasi più frequenti - anteprima:")
    print(df.head(30).to_string(index=False))
    print(f"\nCSV salvato in: {OUT_CSV}")
else:
    raise ValueError("MODE deve essere 'topics' o 'auto'")

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
Retrieving folder contents
Processing file 1jf1pk7qaEG1tJ1UlZlQ1mZvhNzmH0tVd 10Gennaio23-MEC.pdf
Processing file 1uWQ_qojtvycSnT_v7X86xjWH-eIbntPb 10Gennaio23-VEIC.pdf
Processing file 1Ztgarojjfgs2mqa0mMUsTUnhS91OppoB 10Gennaio24-VEIMEC.pdf
Processing file 1ptvFjrZQYGNFuz89fg1EJnvjA0jjUnj5 10Gennaio25-I-turno.pdf
Processing file 1Z7d6lPrxEjnzbY3tPCjtt-BI5rRkFeLo 10Gennaio25-II-turno.pdf
Processing file 1OmkcIxqsgUr-KP2dyLmJ3gDJGy8jCP_P 11Giugno24-VEIMEC-I-turno.pdf
Processing file 1Kk3qUztgYwPbJGKDe5pQFvrm7ImNGbYt 11Giugno24-VEIMEC-II-turno.pdf
Processing file 1hDCbTsaUwQVL__eMKpwDEcym3cuKvbGS 11Giugno25-VEIMEC.pdf
Processing file 1Un-Ds6n25_PqH3t3UaeuR0wWDlSdfM3- 12Giugno23-VEIMEC.pdf
Processing file 1dItICLi_So8nIS_IP6SPH9h8paNY6KVu 12Settembre24-I-turno.pdf
Processing file 1MtM6Sw6_eH6i2TB0snXkx2OAeInmCkUL 12Settembre24-II-turno.pdf
Processing file 18SfvDh