````markdown
## pdf_upload_widget.ipynb – Block-Übersicht

### Block 1 — Header / Pfade  
* Bisher eigener Pfad-Code → ersetzen durch  
  ```python
  from config import PROJECT_ROOT, PDF_DIR
````

* Stellt sicher, dass das Widget-Notebook dieselben Konstanten nutzt wie das Setup-Notebook.

### Block 2 — Widget-Setup

* `widgets.FileUpload` (ipywidgets 8) für Drag-and-Drop.
* Gespeicherte Dateien landen in `uploads/pdf/`.
* Anschließend `pdf_ingest.ingest()` aufrufen, das intern **`save_pdf()`** nutzt → sofort in `qual_docs` registriert.
* Ergebnis: komfortables Frontend für Fachanwender, um einzelne PDFs nachzuliefern.

### Block 3 — Schnelle Sichtprüfung (optional)

* Listet aktuellen Ordnerinhalt im Notebook aus.
* Reines Debug-Hilfsmittel; kann später entfernt oder in ein separates *inspection*-Notebook verschoben werden.



In [25]:
# %% Header – Projektpfade sauber setzen
import pathlib, sys, os

# 1) Projekt-Root automatisch bestimmen
#    = Ordner, in dem die Datei ".git" oder "pyproject.toml" liegt
PROJECT_ROOT = next(
    p for p in pathlib.Path.cwd().resolve().parents
    if (p / ".git").exists() or (p / "pyproject.toml").exists()
)
print("PROJECT_ROOT =", PROJECT_ROOT)

# 2) PDF-Ordner relativ zum Projekt
PDF_DIR = PROJECT_ROOT / "uploads" / "pdf"
print("PDF_DIR      =", PDF_DIR)

# 3) scripts/ in PYTHONPATH aufnehmen
SCRIPTS_DIR = PROJECT_ROOT / "scripts"
if str(SCRIPTS_DIR) not in sys.path:
    sys.path.insert(0, str(SCRIPTS_DIR))

# 4) Nur falls wirklich nötig anlegen (hier NICHT automatisch!)
#    PDF_DIR.mkdir(parents=True, exist_ok=True)



PROJECT_ROOT = C:\Users\claud\iCloudDrive\Dokumente\02_CLI\Studium\ZHAW\Masterarbeit\vocdata
PDF_DIR      = C:\Users\claud\iCloudDrive\Dokumente\02_CLI\Studium\ZHAW\Masterarbeit\vocdata\uploads\pdf


In [26]:
# %% PDF-Upload-Widget  (alles in einer Zelle ausführen)

# ── Pfade & DB ----------------------------------------------------------------
from config import PDF_DIR
import hashlib, pathlib, sqlalchemy as sa, ipywidgets as widgets
from IPython.display import display

DB_URL = "mysql+pymysql://root:voc_root@localhost:3306/vocdata?charset=utf8mb4"
engine = sa.create_engine(DB_URL)

# ── Hilfsfunktionen -----------------------------------------------------------
def pdf_hash(path, chunk=8192):
    h = hashlib.sha256()
    with path.open("rb") as f:
        for piece in iter(lambda: f.read(chunk), b""):
            h.update(piece)
    return h.hexdigest()

def classify(path):
    n = path.stem.lower()
    if "studie"  in n: return "Studie"
    if "buch" in n or "book" in n: return "Buch"
    if "artikel" in n or "paper" in n: return "Artikel"
    return "Sonstiges"

def save_one(path):
    sha = pdf_hash(path)
    with engine.begin() as c:
        # Duplikat? → überspringen
        if c.scalar(sa.text("SELECT 1 FROM qual_docs WHERE sha256=:s"), {"s": sha}):
            print(f"{path.name} – übersprungen (Duplikat)")
            return
        # neuen Datensatz anlegen
        c.execute(sa.text("""
            INSERT INTO qual_docs (filename, sha256, doc_type)
            VALUES (:fn, :sha, :dt)
        """), {"fn": path.name, "sha": sha, "dt": classify(path)})
        print(f"{path.name} – gespeichert")

# ── Widget & Status -----------------------------------------------------------
uploader = widgets.FileUpload(accept=".pdf", multiple=True, description="Upload PDF")
status   = widgets.Label(value="")     # Feedback für User
display(uploader, status)

def handle_upload(change):
    for f in change["new"]:
        dest = PDF_DIR / pathlib.Path(f["name"]).name
        dest.write_bytes(f["content"])     # Datei ablegen
        save_one(dest)                     # sofort indexieren
    status.value = "✅ Upload verarbeitet"  # sichtbares Feedback
    uploader.value = ()                    # Widget zurücksetzen

uploader.observe(handle_upload, names="value")


FileUpload(value=(), accept='.pdf', description='Upload PDF', multiple=True)

Label(value='')

In [27]:
# %% Schnelle Sichtprüfung
print("PDF_DIR =", PDF_DIR.resolve())
print("Inhalt des Ordners:")
for p in PDF_DIR.iterdir():
    print("  ", p.name)


PDF_DIR = C:\Users\claud\iCloudDrive\Dokumente\02_CLI\Studium\ZHAW\Masterarbeit\vocdata\uploads\pdf
Inhalt des Ordners:
   1998_Neuenschwander_et_al_LVA_Jugendsicht.pdf.pdf
   2008_Schmid_et_al_LVA_LeVA_Projektbericht.pdf.pdf
   2009_Heisig_Deskilling_Bericht.pdf
   2013_Maurer_Berufsbildung_und_Arbeitsmarkt.pdf.pdf
   2014_European_Commission_Early_Leaving_LVA_Bericht.pdf.pdf
   2015_Haefeli_Neuenschwander_Schumann_Berufliche_Passagen.pdf.pdf
   2015_Naegele_Neuenschwander_Studie.pdf
   2015_Negrini_et_al_LeVA_Buchkapitel.pdf.pdf
   2016_Kriesi_et_al_Trendbericht_LVA.pdf.pdf
   2016_Schmid_LVA_Norwegen_Vergleich.pdf.pdf
   2016_Schmid_Neumann_LVA_EBA_Nationale_Ergebnisse.pdf.pdf
   2023_SKBF_Bildungsbericht_Schweiz_Report.pdf.pdf
   2024_Maurer_Rolle_der_Schule_Studie.pdf


In [28]:
# %% 7 – (Kurzer Check Debug) --> kann im reg. gelöscht werden
# einmal am Anfang des Notebooks (direkt nach den Pfaden)
import sqlalchemy as sa
import pandas as pd

DB_URL = "mysql+pymysql://root:voc_root@localhost:3306/vocdata?charset=utf8mb4"
engine = sa.create_engine(DB_URL)


df = pd.read_sql("SELECT doc_id, filename, doc_type, uploaded FROM qual_docs ORDER BY doc_id DESC LIMIT 10", engine)
print("Letzte Einträge:")
display(df)
print("Gesamtanzahl Dokumente:", pd.read_sql("SELECT COUNT(*) AS n FROM qual_docs", engine)["n"][0])


Letzte Einträge:


Unnamed: 0,doc_id,filename,doc_type,uploaded
0,156,2015_Naegele_Neuenschwander_Studie.pdf,Studie,2025-06-29 20:43:53
1,155,2009_Heisig_Deskilling_Bericht.pdf,Sonstiges,2025-06-29 20:37:58
2,154,2023_SKBF_Bildungsbericht_Schweiz_Report.pdf.pdf,Sonstiges,2025-06-29 20:01:48
3,153,2016_Schmid_Neumann_LVA_EBA_Nationale_Ergebnis...,Sonstiges,2025-06-29 20:01:48
4,152,2016_Schmid_LVA_Norwegen_Vergleich.pdf.pdf,Sonstiges,2025-06-29 20:01:48
5,151,2016_Kriesi_et_al_Trendbericht_LVA.pdf.pdf,Sonstiges,2025-06-29 20:01:47
6,150,2015_Negrini_et_al_LeVA_Buchkapitel.pdf.pdf,Buch,2025-06-29 20:01:47
7,149,2015_Haefeli_Neuenschwander_Schumann_Beruflich...,Sonstiges,2025-06-29 20:01:47
8,148,2014_European_Commission_Early_Leaving_LVA_Ber...,Sonstiges,2025-06-29 20:01:47
9,147,2013_Maurer_Berufsbildung_und_Arbeitsmarkt.pdf...,Sonstiges,2025-06-29 20:01:47


Gesamtanzahl Dokumente: 12


In [29]:
# %% Kontrolle: aktuelles Schema
import pandas as pd, sqlalchemy as sa
engine = sa.create_engine("mysql+pymysql://root:voc_root@localhost:3306/vocdata?charset=utf8mb4")
pd.read_sql("DESCRIBE qual_docs;", engine)


Unnamed: 0,Field,Type,Null,Key,Default,Extra
0,doc_id,int,NO,PRI,,auto_increment
1,filename,varchar(255),NO,,,
2,sha256,char(64),NO,UNI,,
3,doc_type,"enum('Studie','Buch','Artikel','Sonstiges')",YES,,Sonstiges,
4,uploaded,timestamp,YES,,CURRENT_TIMESTAMP,DEFAULT_GENERATED
5,title,varchar(255),YES,,,
6,year,smallint,YES,,,
7,full_text,longtext,YES,MUL,,
8,added_at,timestamp,YES,,CURRENT_TIMESTAMP,DEFAULT_GENERATED
