# VDEH Missing Values Analyse

**Fokus:** Identifikation l√ºckenbehafteter Spalten und Vollst√§ndigkeits-Statistiken

## üéØ Ziel
- Schneller √úberblick √ºber fehlende Werte pro Spalte
- Vollst√§ndigkeits-Score pro Record
- Visualisierung der L√ºcken-Verteilung

## üìö Input/Output
- **Input**: `data/vdeh/processed/03_language_detected_data.parquet`
- **Output**: `data/vdeh/processed/04_quality_analyzed_data.parquet` (mit Quality Scores)

In [1]:
# üõ†Ô∏è SETUP UND DATEN LADEN
import sys
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import json
import warnings

# Projektroot finden
current_dir = Path.cwd()
project_root = None

for parent in [current_dir] + list(current_dir.parents):
    if (parent / 'config.yaml').exists():
        project_root = parent
        break

if project_root is None:
    raise FileNotFoundError("config.yaml nicht gefunden!")

# Config laden
src_path = project_root / 'src'
if str(src_path) not in sys.path:
    sys.path.insert(0, str(src_path))

from config_loader import load_config
config = load_config(project_root / 'config.yaml')

# Matplotlib konfigurieren
plt.rcParams['figure.figsize'] = config.get('visualization.matplotlib.figure_size', [12, 8])
plt.rcParams['figure.dpi'] = config.get('visualization.matplotlib.dpi', 100)

if not config.get('debug.verbose_output', True):
    warnings.filterwarnings('ignore')

print(f"üìÅ Projektroot: {project_root}")
print("‚úÖ Konfiguration geladen")
print(f"üìä Matplotlib konfiguriert: {config.get('visualization.matplotlib.figure_size')}")

‚úÖ Konfiguration geladen: /media/sz/Data/Bibo/analysis/config.yaml
üìÅ Projektroot: /media/sz/Data/Bibo/analysis
‚úÖ Konfiguration geladen
üìä Matplotlib konfiguriert: [12, 8]


In [2]:
# üìÇ DATEN AUS VORHERIGER STUFE LADEN
processed_dir = config.project_root / config.get('paths.data.vdeh.processed')
input_path = processed_dir / '03_language_detected_data.parquet'
metadata_path = processed_dir / '03_metadata.json'

if not input_path.exists():
    raise FileNotFoundError(f"Input-Datei nicht gefunden: {input_path}\n"
                          "Bitte f√ºhren Sie zuerst 03_vdeh_language_detection.ipynb aus.")

# Daten laden
df_vdeh = pd.read_parquet(input_path)

# Vorherige Metadaten laden
with open(metadata_path, 'r') as f:
    prev_metadata = json.load(f)

print(f"üìÇ Daten geladen aus: {input_path}")
print(f"üìä Records: {len(df_vdeh):,}")
print(f"üìã Spalten: {list(df_vdeh.columns)}")
print(f"üìÖ Vorherige Verarbeitung: {prev_metadata['processing_date']}")
print(f"üåç Sprach-Analyse: {prev_metadata['language_analysis']['total_titles_analyzed']:,} Titel analysiert")

üìÇ Daten geladen aus: /media/sz/Data/Bibo/analysis/data/vdeh/processed/03_language_detected_data.parquet
üìä Records: 58,760
üìã Spalten: ['id', 'title', 'authors', 'authors_affiliation', 'year', 'publisher', 'isbn', 'issn', 'authors_str', 'num_authors', 'authors_affiliation_str', 'num_authors_affiliation', 'isbn_valid', 'isbn_status', 'issn_valid', 'issn_status', 'lang_code', 'lang_confidence', 'lang_name']
üìÖ Vorherige Verarbeitung: 2025-11-05T07:37:03.330582
üåç Sprach-Analyse: 40,544 Titel analysiert


In [11]:
# üîç MISSING VALUES ANALYSE
print("üîç === MISSING VALUES ANALYSE ===\n")

# Relevante Spalten f√ºr Analyse
analysis_cols = ['title', 'authors_str', 'year', 'publisher', 'isbn', 'issn']

# Nur vorhandene Spalten verwenden
available_cols = [col for col in analysis_cols if col in df_vdeh.columns]

print(f"üìä Fehlende Werte pro Spalte (von {len(df_vdeh):,} Records):\n")

# Erstelle √úbersicht sortiert nach Missing Rate
missing_stats = []
for col in available_cols:
    # Spezialbehandlung f√ºr authors_str: auch leere Strings als fehlend betrachten
    if col == 'authors_str':
        missing_count = (df_vdeh[col].isna() | (df_vdeh[col] == '')).sum()
    else:
        missing_count = df_vdeh[col].isna().sum()
    
    missing_pct = (missing_count / len(df_vdeh)) * 100
    present_count = len(df_vdeh) - missing_count
    missing_stats.append({
        'Spalte': col,
        'Vorhanden': present_count,
        'Fehlend': missing_count,
        'Fehlend %': missing_pct
    })

# Sortiere nach Fehlend %
missing_df = pd.DataFrame(missing_stats).sort_values('Fehlend %', ascending=False)

# Ausgabe als formatierte Tabelle
for _, row in missing_df.iterrows():
    bar_length = int(row['Fehlend %'] / 2)  # Balken bis 50 Zeichen
    bar = '‚ñà' * bar_length
    status = 'üî¥' if row['Fehlend %'] > 50 else 'üü°' if row['Fehlend %'] > 20 else 'üü¢'
    print(f"{status} {row['Spalte']:18} {row['Vorhanden']:7,} ‚úì  {row['Fehlend']:7,} ‚úó  {row['Fehlend %']:5.1f}% {bar}")

# Berechne Vollst√§ndigkeits-Score pro Record
# Erstelle Missing Matrix mit Spezialbehandlung f√ºr authors_str
missing_matrix = df_vdeh[available_cols].isnull()

# F√ºr authors_str: leere Strings auch als fehlend markieren
if 'authors_str' in available_cols:
    missing_matrix['authors_str'] = df_vdeh['authors_str'].isna() | (df_vdeh['authors_str'] == '')

completeness_scores = (1 - missing_matrix.mean(axis=1)) * 100

üîç === MISSING VALUES ANALYSE ===

üìä Fehlende Werte pro Spalte (von 58,760 Records):

üî¥ issn                   721 ‚úì   58,039 ‚úó   98.8% ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
üî¥ isbn                11,415 ‚úì   47,345 ‚úó   80.6% ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
üî¥ authors_str         17,011 ‚úì   41,749 ‚úó   71.1% ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
üî¥ publisher           23,553 ‚úì   35,207 ‚úó   59.9% ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
üü° year                33,687 ‚úì   25,073 ‚úó   42.7% ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
üü° title               40,830 ‚úì   17,930 ‚úó   30.5% ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚

In [13]:
# üîç ANALYSE: L√úCKEN BEI DATENS√ÑTZEN MIT ISBN/ISSN
print("\nüîç === L√úCKEN BEI DATENS√ÑTZEN MIT ISBN/ISSN ===\n")

# Datens√§tze mit ISBN
has_isbn = df_vdeh['isbn'].notna()
isbn_count = has_isbn.sum()

if isbn_count > 0:
    print(f"üìö Datens√§tze mit ISBN: {isbn_count:,}\n")
    
    # Pr√ºfe fehlende Felder bei ISBN-Datens√§tzen
    isbn_records = df_vdeh[has_isbn]
    
    missing_authors_isbn = (isbn_records['authors_str'].isna() | (isbn_records['authors_str'] == '')).sum()
    missing_publisher_isbn = isbn_records['publisher'].isna().sum()
    missing_year_isbn = isbn_records['year'].isna().sum()
    
    print(f"   Fehlende Autoren:  {missing_authors_isbn:6,} ({missing_authors_isbn/isbn_count*100:5.1f}%)")
    print(f"   Fehlender Verlag:  {missing_publisher_isbn:6,} ({missing_publisher_isbn/isbn_count*100:5.1f}%)")
    print(f"   Fehlendes Jahr:    {missing_year_isbn:6,} ({missing_year_isbn/isbn_count*100:5.1f}%)")
    
    # Mindestens ein Feld fehlt
    any_missing_isbn = (
        (isbn_records['authors_str'].isna() | (isbn_records['authors_str'] == '')) |
        isbn_records['publisher'].isna() |
        isbn_records['year'].isna()
    ).sum()
    
    print(f"\n   ‚ö†Ô∏è  Mind. 1 Feld fehlt: {any_missing_isbn:6,} ({any_missing_isbn/isbn_count*100:5.1f}%)")
    print(f"   ‚úÖ Alle Felder da:     {isbn_count - any_missing_isbn:6,} ({(isbn_count - any_missing_isbn)/isbn_count*100:5.1f}%)")

# Datens√§tze mit ISSN
has_issn = df_vdeh['issn'].notna()
issn_count = has_issn.sum()

if issn_count > 0:
    print(f"\nüì∞ Datens√§tze mit ISSN: {issn_count:,}\n")
    
    # Pr√ºfe fehlende Felder bei ISSN-Datens√§tzen
    issn_records = df_vdeh[has_issn]
    
    missing_authors_issn = (issn_records['authors_str'].isna() | (issn_records['authors_str'] == '')).sum()
    missing_publisher_issn = issn_records['publisher'].isna().sum()
    missing_year_issn = issn_records['year'].isna().sum()
    
    print(f"   Fehlende Autoren:  {missing_authors_issn:6,} ({missing_authors_issn/issn_count*100:5.1f}%)")
    print(f"   Fehlender Verlag:  {missing_publisher_issn:6,} ({missing_publisher_issn/issn_count*100:5.1f}%)")
    print(f"   Fehlendes Jahr:    {missing_year_issn:6,} ({missing_year_issn/issn_count*100:5.1f}%)")
    
    # Mindestens ein Feld fehlt
    any_missing_issn = (
        (issn_records['authors_str'].isna() | (issn_records['authors_str'] == '')) |
        issn_records['publisher'].isna() |
        issn_records['year'].isna()
    ).sum()
    
    print(f"\n   ‚ö†Ô∏è  Mind. 1 Feld fehlt: {any_missing_issn:6,} ({any_missing_issn/issn_count*100:5.1f}%)")
    print(f"   ‚úÖ Alle Felder da:     {issn_count - any_missing_issn:6,} ({(issn_count - any_missing_issn)/issn_count*100:5.1f}%)")

# Datens√§tze mit ISBN ODER ISSN
has_isbn_or_issn = has_isbn | has_issn
isbn_or_issn_count = has_isbn_or_issn.sum()



üîç === L√úCKEN BEI DATENS√ÑTZEN MIT ISBN/ISSN ===

üìö Datens√§tze mit ISBN: 11,415

   Fehlende Autoren:   3,423 ( 30.0%)
   Fehlender Verlag:   1,252 ( 11.0%)
   Fehlendes Jahr:       879 (  7.7%)

   ‚ö†Ô∏è  Mind. 1 Feld fehlt:  3,734 ( 32.7%)
   ‚úÖ Alle Felder da:      7,681 ( 67.3%)

üì∞ Datens√§tze mit ISSN: 721

   Fehlende Autoren:     667 ( 92.5%)
   Fehlender Verlag:      20 (  2.8%)
   Fehlendes Jahr:       650 ( 90.2%)

   ‚ö†Ô∏è  Mind. 1 Feld fehlt:    680 ( 94.3%)
   ‚úÖ Alle Felder da:         41 (  5.7%)
