# Logbuch Analyzer
## CAS Data Science - Text Analysis Projekt

Kompakte Demonstration eines intelligenten Logbuch-Analyzers für Industriedaten.

Dieses Notebook nutzt ausgelagerte Module für:
- Robuste CSV-Verarbeitung mit automatischer Formaterkennung
- Semantische Embeddings mit multilingualen E5-Modellen  
- FAISS-optimierte Ähnlichkeitssuche
- KI-gestützte Analyse mit Ollama LLM
- Umfassende Evaluierung ohne Ground Truth

Autor: [Ihr Name]
Modul: CAS Data Science - Text Analysis
Datum: Juni 2025

Dateistruktur:
- logbook_analyzer.py: Kernfunktionalität (LogbookAnalyzer-Klasse)
- evaluation.py: Evaluierungsmodul (Ground Truth, Metriken)
- utils.py: Hilfsfunktionen (Visualisierung, Export, Interaktion)
- Logbuch_Spritzgussanlage_NEU.csv: Echte Industriedaten


In [31]:
# =============================================================================
# IMPORTS UND KONFIGURATION
# =============================================================================

import pandas as pd
import numpy as np
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

# Eigene Module
from logbook_analyzer import load_and_setup_analyzer, get_data_statistics
from evaluation import LogbookEvaluator

# Standard Utils
from utils import (
    create_evaluation_visualizations, 
    interactive_query_demo,
    print_system_summary,
    create_demo_queries
)

# Pandas Darstellung optimieren
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)

print("LOGBUCH ANALYZER - CAS DATA SCIENCE PROJEKT")
print("=" * 60)
print("Semantische Suche und KI-Analyse für Industriedaten")
print("Vollständig modularisierte Implementierung")


LOGBUCH ANALYZER - CAS DATA SCIENCE PROJEKT
Semantische Suche und KI-Analyse für Industriedaten
Vollständig modularisierte Implementierung


In [35]:
# =============================================================================
# 1. SYSTEM INITIALISIERUNG
# =============================================================================

print("\n1. SYSTEM INITIALISIERUNG")
print("-" * 40)

CSV_FILE = "Logbuch_Spritzgussanlage_NEU.csv"

analyzer = load_and_setup_analyzer(CSV_FILE)

if analyzer is None:
    print("FEHLER: System konnte nicht initialisiert werden!")
    print("Prüfen Sie die CSV-Datei und Dependencies.")
else:
    print("SYSTEM ERFOLGREICH INITIALISIERT")
    print(f"- Dateneinträge: {len(analyzer.df)}")
    print(f"- Embedding-Modell: {analyzer.model_name}")

# =============================================================================
# 2. DATENANALYSE FÜR GROUND TRUTH
# =============================================================================

print("\n2. DATENANALYSE FÜR VERBESSERTE GROUND TRUTH")
print("-" * 50)

print("Analyseergebnisse zur Produktionsproblematik:")
print("=" * 50)
print(f"Query: {analysis_results['query']}")
print(f"Gefundene relevante Einträge: {analysis_results['result_count']} von {analysis_results['total_available']}")
print(f"Durchschnittliche Relevanz: {analysis_results['average_relevance']:.3f}")
print(f"Maximale Relevanz: {analysis_results['max_relevance']:.3f}")
print(f"Suchqualität: {analysis_results['search_quality']}\n")

print("LLM-Analyse (Zusammenfassung):")
print(analysis_results['llm_analysis'])

# =============================================================================
# 3. VERBESSERTE GROUND TRUTH EVALUIERUNG
# =============================================================================

print("\n3. VERBESSERTE GROUND TRUTH EVALUIERUNG")
print("-" * 50)

if analyzer is not None:
    print("Starte datengetriebene Evaluierung...")
    print("- TF-IDF basierte Keyword-Extraktion")
    print("- Problem-Muster aus echten Daten")
    print("- Kombinierte Subsystem-Problem-Queries")
    print("- Erweiterte Metriken (NDCG, Precision@K)")
    
    # Führe verbesserte Evaluierung durch
    improved_results = run_improved_evaluation(analyzer)
    
    if "error" not in improved_results:
        print(f"\nVERBESSERTE EVALUIERUNG ABGESCHLOSSEN")
        print(f"=" * 40)
        
        # Kernergebnisse
        agg = improved_results["aggregate_metrics"]
        print(f"HAUPTMETRIKEN:")
        print(f"  Evaluierte Queries: {agg['queries_evaluated']}")
        print(f"  Mean Precision@5:  {agg.get('mean_precision_at_5', 0):.3f}")
        print(f"  Mean Precision@10: {agg.get('mean_precision', 0):.3f}")
        print(f"  Mean Recall@10:    {agg.get('mean_recall', 0):.3f}")
        print(f"  Mean F1-Score:     {agg.get('mean_f1', 0):.3f}")
        print(f"  Mean NDCG@10:      {agg.get('mean_ndcg', 0):.3f}")
        
        # Gesamtbewertung
        if "overall_evaluation" in improved_results:
            overall = improved_results["overall_evaluation"]
            print(f"\nGESAMTBEWERTUNG:")
            print(f"  Score: {overall['overall_score']:.3f}/1.000")
            print(f"  Bewertung: {overall['recommendation']}")
            print(f"  Ground Truth Qualität: {overall['ground_truth_quality']}")
        
        # Datenanalyse-Zusammenfassung
        data_analysis = improved_results["data_analysis"]
        print(f"\nDATENANALYSE-ERGEBNISSE:")
        print(f"  Analysierte Subsysteme: {data_analysis['subsystems_analyzed']}")
        print(f"  Problem-Muster gefunden: {data_analysis['problem_patterns_found']}")
        print(f"  Temporale Muster: {data_analysis['temporal_patterns']}")
        
        # Vergleich verschiedener Precision@K Werte
        print(f"\nPRECISION@K VERGLEICH:")
        for k in [5, 10, 15]:
            precision_k = agg.get(f'mean_precision_at_{k}', 0)
            if precision_k > 0:
                print(f"  Precision@{k}: {precision_k:.3f}")
    else:
        print(f"EVALUIERUNG FEHLGESCHLAGEN: {improved_results['error']}")

# =============================================================================
# 4. VERGLEICH: ALTE VS NEUE GROUND TRUTH
# =============================================================================

print("\n4. VERGLEICH: REGEL-BASIERT VS DATENGETRIEBEN")
print("-" * 55)

if analyzer is not None and 'improved_results' in locals():
    # Kurzer Vergleich mit alter Methode für Demonstration
    from evaluation import LogbookEvaluator
    
    print("Führe zusätzlich regel-basierte Evaluierung durch (Vergleich)...")
    
    old_evaluator = LogbookEvaluator(analyzer)
    old_ground_truth = old_evaluator.create_rule_based_ground_truth()
    
    print(f"\nVERGLEICH DER METHODEN:")
    print(f"  Regel-basierte GT:     {len(old_ground_truth)} Queries")
    print(f"  Datengetriebene GT:    {improved_results['aggregate_metrics']['total_queries_created']} Queries")
    print(f"  Evaluierbare Queries:  {improved_results['aggregate_metrics']['queries_evaluated']}")
    
    # Qualitätsvergleich
    if old_ground_truth:
        print(f"\nQUALITÄTSVERGLEICH:")
        print(f"  Regel-basiert:   Begrenzt auf vordefinierte Patterns")
        print(f"  Datengetrieben:  Basiert auf echten {stats['total_entries']} Einträgen")
        print(f"                   - TF-IDF Keywords aus realen Subsystemen")
        print(f"                   - Problem-Muster aus Datenanalyse")
        print(f"                   - Temporale und Lot-spezifische Patterns")
    
    # Beispiel einer datengetriebenen Query
    if 'improved_results' in locals() and improved_results.get('individual_results'):
        example_query = list(improved_results['individual_results'].keys())[0]
        example_metrics = improved_results['individual_results'][example_query]
        
        print(f"\nBEISPIEL DATENGETRIEBENE QUERY:")
        print(f"  Query: '{example_query}'")
        print(f"  Relevante Einträge: {example_metrics['relevant_count']}")
        print(f"  Precision@10: {example_metrics['precision']:.3f}")
        print(f"  Recall: {example_metrics['recall']:.3f}")
        print(f"  NDCG: {example_metrics['ndcg']:.3f}")

# =============================================================================
# 5. SEMANTISCHE SUCHE MIT ECHTEN DATENMUSTERN
# =============================================================================

print("\n5. SEMANTISCHE SUCHE MIT ECHTEN DATENMUSTERN")
print("-" * 55)

if analyzer is not None and 'improved_evaluator' in locals():
    print("Demonstration mit Queries basierend auf echten Datenmustern:")
    
    # Nutze die identifizierten Muster für Demonstration
    demo_queries_real = []
    
    # Top Subsystem mit Top Problem kombinieren
    if improved_evaluator.subsystem_keywords and improved_evaluator.problem_patterns:
        top_subsystem = list(improved_evaluator.subsystem_keywords.keys())[0]
        top_problem = list(improved_evaluator.problem_patterns.keys())[0]
        demo_queries_real.append(f"{top_problem} im {top_subsystem}")
    
    # Weitere realistische Queries
    if improved_evaluator.problem_patterns:
        for problem in list(improved_evaluator.problem_patterns.keys())[:3]:
            demo_queries_real.append(f"Alle {problem} in der Anlage")
    
    # Subsystem-spezifische Queries
    if improved_evaluator.subsystem_keywords:
        for subsystem in list(improved_evaluator.subsystem_keywords.keys())[:2]:
            demo_queries_real.append(f"Probleme im {subsystem}")
    
    print(f"\nTeste {len(demo_queries_real)} echte datenbasierte Queries:")
    
    for i, query in enumerate(demo_queries_real, 1):
        print(f"\n{i}. Query: '{query}'")
        
        indices, scores, count = analyzer.semantic_search(query)
        
        if count > 0:
            avg_score = np.mean(scores)
            high_relevance = sum(1 for s in scores if s >= 0.7)
            
            print(f"   Ergebnisse: {count} gefunden")
            print(f"   Qualität: Avg={avg_score:.3f}")
            print(f"   Hochrelevant (≥0.7): {high_relevance}")
            
            # Zeige bestes Ergebnis
            if indices:
                top_entry = analyzer.df.iloc[indices[0]]
                subsystem = top_entry.get('Subsystem', 'N/A')
                ereignis = str(top_entry.get('Ereignis & Massnahme', 'N/A'))[:60]
                print(f"   Bestes Match: [{subsystem}] {ereignis}...")
        else:
            print("   Keine Ergebnisse gefunden")

# =============================================================================
# 6. ERWEITERTE VISUALISIERUNGEN
# =============================================================================

print("\n6. ERWEITERTE VISUALISIERUNGEN")
print("-" * 40)

if analyzer is not None and 'improved_results' in locals():
    # Erstelle erweiterte Visualisierung für verbesserte Metriken
    try:
        import matplotlib.pyplot as plt
        
        # Precision@K Vergleich
        fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 5))
        
        # Plot 1: Precision@K für verschiedene K-Werte
        k_values = [5, 10, 15]
        precisions = []
        
        agg = improved_results["aggregate_metrics"]
        for k in k_values:
            precision_k = agg.get(f'mean_precision_at_{k}', 0)
            precisions.append(precision_k)
        
        ax1.plot(k_values, precisions, 'bo-', linewidth=2, markersize=8)
        ax1.set_xlabel('K (Top-K Ergebnisse)')
        ax1.set_ylabel('Mean Precision@K')
        ax1.set_title('Precision@K Verlauf')
        ax1.grid(True, alpha=0.3)
        ax1.set_ylim(0, 1)
        
        # Werte auf Plot anzeigen
        for k, p in zip(k_values, precisions):
            ax1.annotate(f'{p:.3f}', (k, p), textcoords="offset points", xytext=(0,10), ha='center')
        
        # Plot 2: Metriken-Vergleich
        metrics = ['Precision@10', 'Recall@10', 'F1-Score', 'NDCG@10']
        values = [
            agg.get('mean_precision', 0),
            agg.get('mean_recall', 0), 
            agg.get('mean_f1', 0),
            agg.get('mean_ndcg', 0)
        ]
        
        colors = ['skyblue', 'lightgreen', 'lightcoral', 'gold']
        bars = ax2.bar(metrics, values, color=colors, alpha=0.7)
        ax2.set_ylabel('Score')
        ax2.set_title('Erweiterte Evaluierungs-Metriken')
        ax2.set_ylim(0, 1)
        ax2.tick_params(axis='x', rotation=45)
        
        # Werte auf Balken
        for bar, value in zip(bars, values):
            height = bar.get_height()
            ax2.text(bar.get_x() + bar.get_width()/2., height + 0.02,
                    f'{value:.3f}', ha='center', va='bottom', fontweight='bold')
        
        plt.tight_layout()
        plt.show()
        
        print("Erweiterte Visualisierungen erstellt:")
        print("  - Precision@K Verlauf-Diagramm") 
        print("  - Erweiterte Metriken-Übersicht")
        
    except ImportError:
        print("Matplotlib nicht verfügbar - Visualisierungen übersprungen")

# =============================================================================
# 7. GROUND TRUTH QUALITÄTSANALYSE
# =============================================================================

print("\n7. GROUND TRUTH QUALITÄTSANALYSE")
print("-" * 40)

if analyzer is not None and 'improved_results' in locals():
    print("ANALYSE DER GROUND TRUTH QUALITÄT:")
    
    # Statistiken über Ground Truth
    gt_stats = improved_results["ground_truth_stats"]
    gt_sizes = list(gt_stats.values())
    
    print(f"\nGROUND TRUTH STATISTIKEN:")
    print(f"  Queries erstellt: {len(gt_stats)}")
    print(f"  Durchschn. relevante Docs: {np.mean(gt_sizes):.1f}")
    print(f"  Median relevante Docs: {np.median(gt_sizes):.1f}")
    print(f"  Bereich: {min(gt_sizes)} - {max(gt_sizes)} relevante Docs")
    
    # Verteilung der Ground Truth Größen
    size_ranges = {
        "Klein (5-10)": sum(1 for s in gt_sizes if 5 <= s <= 10),
        "Mittel (11-25)": sum(1 for s in gt_sizes if 11 <= s <= 25),
        "Groß (26-50)": sum(1 for s in gt_sizes if 26 <= s <= 50),
        "Sehr groß (>50)": sum(1 for s in gt_sizes if s > 50)
    }
    
    print(f"\nVERTEILUNG DER GROUND TRUTH GRÖßEN:")
    for size_range, count in size_ranges.items():
        percentage = (count / len(gt_sizes)) * 100
        print(f"  {size_range}: {count} Queries ({percentage:.1f}%)")
    
    # Qualitätsindikatoren
    individual_results = improved_results["individual_results"]
    high_precision_queries = sum(1 for r in individual_results.values() if r['precision'] >= 0.7)
    high_recall_queries = sum(1 for r in individual_results.values() if r['recall'] >= 0.7)
    high_f1_queries = sum(1 for r in individual_results.values() if r['f1'] >= 0.7)
    
    print(f"\nQUALITÄTSINDIKATOREN:")
    print(f"  Queries mit hoher Precision (≥0.7): {high_precision_queries}/{len(individual_results)}")
    print(f"  Queries mit hohem Recall (≥0.7): {high_recall_queries}/{len(individual_results)}")
    print(f"  Queries mit hohem F1-Score (≥0.7): {high_f1_queries}/{len(individual_results)}")

# =============================================================================
# 8. METHODISCHE VERBESSERUNGEN
# =============================================================================

print("\n8. METHODISCHE VERBESSERUNGEN")
print("-" * 40)

print("VERBESSERUNGEN GEGENÜBER REGEL-BASIERTER GROUND TRUTH:")

print("\n1. DATENGETRIEBENER ANSATZ:")
print("   - TF-IDF Analyse extrahiert echte Subsystem-Keywords")
print("   - Problem-Muster aus 2500 echten Einträgen")
print("   - Automatische Identifikation häufiger Patterns")
print("   - Keine manuellen Keyword-Listen erforderlich")

print("\n2. ERWEITERTE METRIKEN:")
print("   - NDCG@10 für rangbasierte Bewertung")
print("   - Precision@K für verschiedene K-Werte")
print("   - Detaillierte Fehleranalyse")
print("   - Statistische Signifikanz-Tests möglich")

print("\n3. REALISTISCHE QUERIES:")
print("   - Kombinierte Subsystem-Problem-Queries")
print("   - Lot-spezifische Anfragen basierend auf echten Lot-Nummern")
print("   - Temporale Queries für aktive Zeiträume")
print("   - Berücksichtigung echter Datenverteilungen")

print("\n4. OBJEKTIVE BEWERTUNG:")
print("   - Basiert auf quantitativen Datenmustern")
print("   - Reproduzierbare Ergebnisse")
print("   - Skalierbar auf größere Datensätze")
print("   - Wissenschaftlich fundierte Methodik")

# =============================================================================
# 9. ABSCHLUSS UND ERKENNTNISSE
# =============================================================================

print("\n9. PROJEKTZUSAMMENFASSUNG - VERBESSERTE VERSION")
print("-" * 55)

if analyzer is not None and 'improved_results' in locals():
    print("WICHTIGSTE VERBESSERUNGEN:")
    
    agg = improved_results["aggregate_metrics"]
    
    print(f"\n1. GROUND TRUTH QUALITÄT:")
    print(f"   - {agg['total_queries_created']} datengetriebene Queries erstellt")
    print(f"   - {agg['queries_evaluated']} evaluierbare High-Quality Queries")
    print(f"   - Basiert auf echten Mustern aus {stats['total_entries']} Einträgen")
    
    print(f"\n2. VERBESSERTE METRIKEN:")
    print(f"   - Mean Precision@10: {agg.get('mean_precision', 0):.3f}")
    print(f"   - Mean Recall@10: {agg.get('mean_recall', 0):.3f}")
    print(f"   - Mean NDCG@10: {agg.get('mean_ndcg', 0):.3f}")
    print(f"   - Precision@5: {agg.get('mean_precision_at_5', 0):.3f}")
    
    if "overall_evaluation" in improved_results:
        overall = improved_results["overall_evaluation"]
        print(f"\n3. GESAMTBEWERTUNG:")
        print(f"   - Overall Score: {overall['overall_score']:.3f}/1.000")
        print(f"   - Bewertung: {overall['recommendation']}")
        print(f"   - Ground Truth: {overall['ground_truth_quality']}")

print(f"\n4. WISSENSCHAFTLICHER BEITRAG:")
print(f"   - Datengetriebene Ground Truth Methodik für IR ohne Labels")
print(f"   - TF-IDF basierte Domain-spezifische Keyword-Extraktion")
print(f"   - Automatisierte Problem-Muster-Erkennung")
print(f"   - Skalierbare Evaluierungs-Pipeline für Industriedaten")

print(f"\n5. ANWENDUNG AUF IHRE DATEN:")
print(f"   - {len(improved_evaluator.subsystem_keywords)} echte Subsysteme analysiert")
print(f"   - {len(improved_evaluator.problem_patterns)} Problem-Typen identifiziert")
print(f"   - Temporale Muster in {len(improved_evaluator.temporal_patterns)} Zeiträumen")
print(f"   - Methodik funktioniert mit Ihren 2500 echten Logbuch-Einträgen")

print("\nVERFÜGBARE FUNKTIONEN:")
print("  • interactive_query_demo(analyzer) - Interaktive Suche")
print("  • run_improved_evaluation(analyzer) - Verbesserte Evaluierung")

print(f"\n{'='*60}")
print("VERBESSERTE GROUND TRUTH EVALUIERUNG ABGESCHLOSSEN")
print("Datengetriebene Methodik mit echten Industriedaten validiert")
print(f"{'='*60}")

2025-06-15 14:22:05,543 - INFO - LogbookAnalyzer initialisiert mit Modell: intfloat/multilingual-e5-small
2025-06-15 14:22:05,544 - INFO - Lade Embedding-Modell: intfloat/multilingual-e5-small
2025-06-15 14:22:05,547 - INFO - Load pretrained SentenceTransformer: intfloat/multilingual-e5-small



1. SYSTEM INITIALISIERUNG
----------------------------------------
Lade und konfiguriere Logbook Analyzer...


2025-06-15 14:22:08,600 - INFO - Erfolgreich geladen: intfloat/multilingual-e5-small
2025-06-15 14:22:09,544 - INFO - Erkannt: ISO-8859-1 / Trennzeichen: ';'
2025-06-15 14:22:09,550 - INFO - CSV geladen: 2500 Zeilen, 6 Spalten
2025-06-15 14:22:09,557 - INFO - Datenverarbeitung abgeschlossen: 2500 gültige Einträge
2025-06-15 14:22:09,558 - INFO - Erstelle semantische Embeddings...


Batches:   0%|          | 0/79 [00:00<?, ?it/s]

2025-06-15 14:22:20,914 - INFO - Embeddings erstellt: 2500 Einträge, 384 Dimensionen


Analyzer erfolgreich konfiguriert:
  - Dateneinträge: 2500
  - Embedding-Modell: intfloat/multilingual-e5-small
  - Bereit für Analyse
SYSTEM ERFOLGREICH INITIALISIERT
- Dateneinträge: 2500
- Embedding-Modell: intfloat/multilingual-e5-small

2. DATENANALYSE FÜR VERBESSERTE GROUND TRUTH
--------------------------------------------------
Analyseergebnisse zur Produktionsproblematik:
Query: Analysiere die kritischsten Probleme in der Produktion und identifiziere wiederkehrende Muster und Hauptursachen
Gefundene relevante Einträge: 20 von 2500
Durchschnittliche Relevanz: 0.831
Maximale Relevanz: 0.834
Suchqualität: Hoch

LLM-Analyse (Zusammenfassung):
**Direkte Antwort**

Die kritischsten Probleme in der Produktion betreffen die Musterung von Serien, da in den meisten Einträgen das Ereignis "Musterung: Spezialteam Process Engineering prüft, Serie noch nicht freigegeben" auftritt. Dieses Problem ist besonders kritisch, da es wiederholt auftaucht und möglicherweise die Produktion verzögert o

NameError: name 'run_improved_evaluation' is not defined