Notebook 1 – 01_setup_index.ipynb
Zelle 1 (➊ Header)
Importiert zentrale Pfad-Konstante aus config.py, richtet SQL-Alchemy-Engine ein.
→ Einmal pro Lauf nötig.

Zelle 2 (➊ Schema)
CREATE TABLE IF NOT EXISTS legt/prüft qual_docs.
→ Idempotent, bleibt dauerhaft.

Zelle 3 (➋ Funktionen)
pdf_hash, classify, save_pdf definieren Hash-Berechnung und Insert-Logik.
→ Wird bei jedem Batch-Import gebraucht.

Zelle 4 (➋ Batch-Import)
Durchläuft alle PDFs in uploads/pdf/ und ruft save_pdf.
→ Regelmäßiger Arbeits­schritt.

Zelle 5 (➌ Debug, optional)
Zeigt letzte 10 Datensätze + Gesamtzahl; kann später gelöscht oder in eigenes inspect-Notebook verschoben werden.

In [38]:
# %% Header – Projektpfade sauber setzen
import pathlib, sys, os

# 1) Projekt-Root automatisch bestimmen
#    = Ordner, in dem die Datei ".git" oder "pyproject.toml" liegt
PROJECT_ROOT = next(
    p for p in pathlib.Path.cwd().resolve().parents
    if (p / ".git").exists() or (p / "pyproject.toml").exists()
)
print("PROJECT_ROOT =", PROJECT_ROOT)

# 2) PDF-Ordner relativ zum Projekt
PDF_DIR = PROJECT_ROOT / "uploads" / "pdf"
print("PDF_DIR      =", PDF_DIR)

# 3) scripts/ in PYTHONPATH aufnehmen
SCRIPTS_DIR = PROJECT_ROOT / "scripts"
if str(SCRIPTS_DIR) not in sys.path:
    sys.path.insert(0, str(SCRIPTS_DIR))

# 4) Nur falls wirklich nötig anlegen (hier NICHT automatisch!)
#    PDF_DIR.mkdir(parents=True, exist_ok=True)

PROJECT_ROOT = C:\Users\claud\iCloudDrive\Dokumente\02_CLI\Studium\ZHAW\Masterarbeit\vocdata
PDF_DIR      = C:\Users\claud\iCloudDrive\Dokumente\02_CLI\Studium\ZHAW\Masterarbeit\vocdata\uploads\pdf


In [39]:
from pathlib import Path
import sys, os

try:
    PROJECT_ROOT = Path(__file__).resolve().parents[1]   # beim Import als Modul
except NameError:
    PROJECT_ROOT = Path.cwd().resolve().parents[1]       # beim Ausführen im Notebook

SCRIPTS_DIR = PROJECT_ROOT / "scripts"
PDF_DIR     = PROJECT_ROOT / "uploads" / "pdf"
if str(SCRIPTS_DIR) not in sys.path:
    sys.path.insert(0, str(SCRIPTS_DIR))


In [40]:
# %% ➊  Pfade & Konfig
from config import PROJECT_ROOT, SCRIPTS_DIR, PDF_DIR
print("PROJECT_ROOT:", PROJECT_ROOT)
print("PDF_DIR     :", PDF_DIR)


PROJECT_ROOT: C:\Users\claud\iCloudDrive\Dokumente\02_CLI\Studium\ZHAW\Masterarbeit\vocdata
PDF_DIR     : C:\Users\claud\iCloudDrive\Dokumente\02_CLI\Studium\ZHAW\Masterarbeit\vocdata\uploads\pdf


In [41]:
# %% ➊  Basis-Imports
import hashlib, sqlalchemy as sa, pandas as pd, pathlib

DB_URL = "mysql+pymysql://root:voc_root@localhost:3306/vocdata?charset=utf8mb4"
engine = sa.create_engine(DB_URL)

with engine.connect() as c:
    c.exec_driver_sql("SELECT 1")
print("DB-Verbindung ✅")


DB-Verbindung ✅


In [42]:
# %% ➊  Schema anlegen / prüfen
ddl = """
CREATE TABLE IF NOT EXISTS qual_docs (
  doc_id    INT AUTO_INCREMENT PRIMARY KEY,
  filename  VARCHAR(255) NOT NULL,
  sha256    CHAR(64)     NOT NULL,
  doc_type  ENUM('Studie','Buch','Artikel','Sonstiges') DEFAULT 'Sonstiges',
  uploaded  TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
  UNIQUE KEY uq_sha256 (sha256)
) CHARACTER SET utf8mb4;
"""
with engine.begin() as c:
    c.exec_driver_sql(ddl)
print("Tabelle qual_docs bereit ✅")


Tabelle qual_docs bereit ✅


In [43]:
# %% ➋  Hash‐Funktion & Insert
def pdf_hash(path: pathlib.Path, chunk_size: int = 8192) -> str:
    h = hashlib.sha256()
    with path.open("rb") as f:
        for chunk in iter(lambda: f.read(chunk_size), b""):
            h.update(chunk)
    return h.hexdigest()

def classify(path: pathlib.Path) -> str:
    name = path.stem.lower()
    if "studie"  in name:                      return "Studie"
    if "buch"    in name or "book" in name:    return "Buch"
    if "artikel" in name or "paper" in name:   return "Artikel"
    return "Sonstiges"

def save_pdf(path: pathlib.Path):
    sha = pdf_hash(path)
    with engine.begin() as c:
        exists = c.scalar(sa.text(
            "SELECT 1 FROM qual_docs WHERE sha256=:s"), {"s": sha})
        if exists:
            print(f"{path.name} – übersprungen")
            return
        c.execute(sa.text("""
          INSERT INTO qual_docs (filename, sha256, doc_type)
          VALUES (:fn, :sha, :dt)
        """), {"fn": path.name, "sha": sha, "dt": classify(path)})
        print(f"{path.name} – gespeichert")


In [44]:
# %% ➋  Upload-Lauf
pdf_files = sorted(PDF_DIR.glob("*.pdf"))
print(f"{len(pdf_files)} Dateien entdeckt")

for pdf in pdf_files:
    save_pdf(pdf)


10 Dateien entdeckt
1998_Neuenschwander_et_al_LVA_Jugendsicht.pdf.pdf – gespeichert
2008_Schmid_et_al_LVA_LeVA_Projektbericht.pdf.pdf – gespeichert
2013_Maurer_Berufsbildung_und_Arbeitsmarkt.pdf.pdf – gespeichert
2014_European_Commission_Early_Leaving_LVA_Bericht.pdf.pdf – gespeichert
2015_Haefeli_Neuenschwander_Schumann_Berufliche_Passagen.pdf.pdf – gespeichert
2015_Negrini_et_al_LeVA_Buchkapitel.pdf.pdf – gespeichert
2016_Kriesi_et_al_Trendbericht_LVA.pdf.pdf – gespeichert
2016_Schmid_LVA_Norwegen_Vergleich.pdf.pdf – gespeichert
2016_Schmid_Neumann_LVA_EBA_Nationale_Ergebnisse.pdf.pdf – gespeichert
2023_SKBF_Bildungsbericht_Schweiz_Report.pdf.pdf – gespeichert


In [45]:
# %% ➌  Schneller Blick
df = pd.read_sql("""
  SELECT doc_id, filename, doc_type, uploaded
  FROM qual_docs ORDER BY doc_id DESC LIMIT 10
""", engine)
with engine.connect() as conn:
    total = conn.scalar(sa.text("SELECT COUNT(*) FROM qual_docs"))
print("Gesamt:", total)



Gesamt: 10


In [46]:
import importlib, sys
import config                      # lädt das vorhandene Modul
print("geladen aus:", config.__file__)
print("Inhalt:", dir(config)[:15])  # erste Attribute


geladen aus: C:\Users\claud\iCloudDrive\Dokumente\02_CLI\Studium\ZHAW\Masterarbeit\vocdata\scripts\config.py
Inhalt: ['OPENAI_API_KEY', 'OPENAI_KEY', 'PDF_DIR', 'PROJECT_ROOT', 'Path', 'SCRIPTS_DIR', '__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__spec__', 'find_dotenv']
