<a href="https://colab.research.google.com/github/christianseyboth/smart-security-guard-ml/blob/main/Smart_Privacy_Guard.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# ==================================================================================
# SMART PRIVACY GUARD - Dein erstes ML-Projekt! 🚀
# ==================================================================================
#
# ZIEL: Baue einen Text-Klassifizierer, der sensible Daten erkennt
# ZEIT: 1-2 Wochen, aber schon heute erste Ergebnisse!
#
# SETUP: Kopiere diesen Code in Google Colab und arbeite dich durch die TODOs!
# Link: https://colab.research.google.com
#
# ==================================================================================

# TEIL 1: SETUP & DATEN
# ==================================================================================

# Installations-Command für Colab
!pip install scikit-learn pandas numpy matplotlib seaborn

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.pipeline import Pipeline
import re
import warnings
warnings.filterwarnings('ignore')

print("🎯 Smart Privacy Guard - ML Projekt gestartet!")
print("=" * 50)



🎯 Smart Privacy Guard - ML Projekt gestartet!


#  DATEN SAMMELN (Deine erste wichtige Aufgabe!)

In [None]:
# ==================================================================================
# TEIL 2: DATEN SAMMELN (Deine erste wichtige Aufgabe!)
# ==================================================================================

def create_training_dataset():
    """
    TODO FÜR DICH: Erweitere diese Datensätze!
    Je mehr realistische Beispiele, desto besser dein Modell!
    """

    # Sensible Texte - erweitere diese Liste!
    sensitive_texts = [
        # Email-Adressen
        "Meine Email ist max.mustermann@gmail.com",
        "Kontakt unter: info@firma.de",
        "Schreib mir an: test.user@web.de",

        # Telefonnummern
        "Meine Nummer: +49 30 12345678",
        "Tel: 0171-9876543 für Rückfragen",
        "Handy: +49 151 23456789",

        # Finanzielle Daten
        "IBAN: DE89 3704 0044 0532 0130 00",
        "Kreditkarte: 4111 1111 1111 1111",
        "Kontostand: 2.500€ auf Konto DE123456789",

        # Passwörter & Credentials
        "Mein Passwort ist SuperSecret123!",
        "Login: user123, Password: mypass456",
        "API-Key: sk-1234567890abcdef",
        "Hier mein SSH-Key: -----BEGIN RSA PRIVATE KEY----- …"

        # Adressen
        "Ich wohne in der Hauptstraße 123, 10115 Berlin",
        "Adresse: Musterweg 45, 20095 Hamburg",
        "PLZ 80331 München, Tal 5",

        # Persönliche Daten
        "Geburtsdatum: 15.03.1985",
        "Ausweisnummer: T22000123456",
        "Steuer-ID: 12 345 678 901",
    ]

    # Harmlose Texte - erweitere auch diese!
    harmless_texts = [
        # Alltägliche Gespräche
        "Wie geht es dir heute?",
        "Das Wetter ist wirklich schön!",
        "Hast du Lust auf Kaffee später?",
        "Der Film gestern war interessant",

        # Arbeit & Technik
        "Das Meeting ist um 14 Uhr",
        "Ich programmiere gerne in Python",
        "Machine Learning ist faszinierend",
        "Die neue Software funktioniert gut",

        # Hobbys & Interessen
        "Ich koche gerne italienisch",
        "Sport ist wichtig für die Gesundheit",
        "Bücher lesen entspannt mich",
        "Musik hören macht Spaß",

        # Allgemeine Aussagen
        "Heute ist ein schöner Tag",
        "Lernen macht Freude",
        "Teamwork ist wichtig",
        "Kreativität ist wertvoll",
        "Mach mir eine",
        "Ich brauche eine",
        "Erstelle mir"
    ]

    # TODO FÜR DICH: Füge hier mindestens 10 weitere Beispiele hinzu!
    # Tipp: Denk an edge cases - was könnte dein Modell verwirren?

    # Daten kombinieren
    all_texts = sensitive_texts + harmless_texts
    all_labels = ['sensitive'] * len(sensitive_texts) + ['harmless'] * len(harmless_texts)

    # DataFrame erstellen
    df = pd.DataFrame({
        'text': all_texts,
        'label': all_labels
    })

    print(f"📊 Datensatz erstellt:")
    print(f"   - {len(sensitive_texts)} sensible Texte")
    print(f"   - {len(harmless_texts)} harmlose Texte")
    print(f"   - Total: {len(df)} Trainingsbeispiele")

    return df

# Daten laden
df = create_training_dataset()
print(df.head())



📊 Datensatz erstellt:
   - 18 sensible Texte
   - 19 harmlose Texte
   - Total: 37 Trainingsbeispiele
                                       text      label
0  Meine Email ist max.mustermann@gmail.com  sensitive
1              Kontakt unter: info@firma.de  sensitive
2          Schreib mir an: test.user@web.de  sensitive
3             Meine Nummer: +49 30 12345678  sensitive
4          Tel: 0171-9876543 für Rückfragen  sensitive


# FEATURE ENGINEERING (Das Herzstück!)

In [None]:
# ==================================================================================
# TEIL 3: FEATURE ENGINEERING (Das Herzstück!)
# ==================================================================================

class CustomFeatureExtractor:
    """
    Deine Features aus dem JavaScript-Playground - jetzt in Python!
    TODO: Erweitere diese Features für bessere Erkennung!
    """

    def __init__(self):
        self.feature_names = [
            'has_email', 'has_phone', 'has_iban', 'has_credit_card',
            'text_length', 'word_count', 'digit_ratio', 'special_char_ratio',
            'sensitive_keyword_count', 'has_at_symbol', 'has_plus_sign'
        ]

    def extract_features(self, text):
        """
        TODO FÜR DICH: Füge weitere Features hinzu!
        Welche Patterns könnten noch wichtig sein?
        """
        features = []
        text_lower = text.lower()

        # Pattern-basierte Features
        features.append(1 if '@' in text and '.' in text else 0)  # Email
        features.append(1 if re.search(r'\+?\d{2,}[\s\-\(\)]?\d{3,}', text) else 0)  # Phone
        features.append(1 if re.search(r'[a-z]{2}\d{2}', text_lower) else 0)  # IBAN
        features.append(1 if re.search(r'\d{4}[\s\-]?\d{4}[\s\-]?\d{4}[\s\-]?\d{4}', text) else 0)  # Credit Card

        # Text-Eigenschaften
        features.append(len(text))  # Länge
        features.append(len(text.split()))  # Wortanzahl
        features.append(len(re.findall(r'\d', text)) / max(len(text), 1))  # Digit-Ratio
        features.append(len(re.findall(r'[^\w\s]', text)) / max(len(text), 1))  # Special char ratio

        # Keyword-Features
        sensitive_words = ['passwort', 'password', 'iban', 'kreditkarte', 'pin', 'cvv']
        keyword_count = sum(1 for word in sensitive_words if word in text_lower)
        features.append(keyword_count)

        # Symbol-Features
        features.append(1 if '@' in text else 0)
        features.append(1 if '+' in text else 0)

        return features

    def fit_transform(self, texts):
        """Alle Texte zu Features umwandeln"""
        return np.array([self.extract_features(text) for text in texts])

# Feature Extractor erstellen
feature_extractor = CustomFeatureExtractor()



# MODEL TRAINING (Hier passiert die Magie!)

In [None]:
# ==================================================================================
# TEIL 4: MODEL TRAINING (Hier passiert die Magie!)
# ==================================================================================

def train_smart_privacy_guard(df):
    """
    Hier trainierst du dein Modell!
    TODO: Experimentiere mit verschiedenen Modellen!
    """

    print("\n🤖 Starte Model Training...")

    # 1. Daten vorbereiten
    X_text = df['text'].values
    y = df['label'].values

    # 2. Train/Test Split (wie in echten ML-Projekten)
    X_train_text, X_test_text, y_train, y_test = train_test_split(
        X_text, y, test_size=0.3, random_state=42, stratify=y
    )

    print(f"   - Training: {len(X_train_text)} Beispiele")
    print(f"   - Test: {len(X_test_text)} Beispiele")

    # 3. Feature Engineering - Zwei Ansätze kombinieren!

    # A) TF-IDF Features (automatische Wort-Analyse)
    tfidf_vectorizer = TfidfVectorizer(max_features=500, stop_words='english')
    X_train_tfidf = tfidf_vectorizer.fit_transform(X_train_text)
    X_test_tfidf = tfidf_vectorizer.transform(X_test_text)

    # B) Custom Features (deine hand-crafted Features)
    X_train_custom = feature_extractor.fit_transform(X_train_text)
    X_test_custom = feature_extractor.fit_transform(X_test_text)

    # C) Features kombinieren (das Beste aus beiden Welten!)
    from scipy.sparse import hstack
    X_train_combined = hstack([X_train_tfidf, X_train_custom])
    X_test_combined = hstack([X_test_tfidf, X_test_custom])

    # 4. Model Training - TODO: Probiere verschiedene Modelle!
    models = {
        'Logistic Regression': LogisticRegression(random_state=42),
        'Random Forest': RandomForestClassifier(n_estimators=100, random_state=42)
    }

    results = {}

    for name, model in models.items():
        print(f"\n🧠 Trainiere {name}...")

        # Training
        model.fit(X_train_combined, y_train)

        # Vorhersagen
        y_pred = model.predict(X_test_combined)
        y_pred_proba = model.predict_proba(X_test_combined)

        # Evaluation
        accuracy = accuracy_score(y_test, y_pred)
        print(f"   Accuracy: {accuracy:.3f} ({accuracy*100:.1f}%)")

        results[name] = {
            'model': model,
            'accuracy': accuracy,
            'predictions': y_pred,
            'probabilities': y_pred_proba
        }

    # Bestes Modell auswählen
    best_model_name = max(results.keys(), key=lambda x: results[x]['accuracy'])
    best_model = results[best_model_name]['model']

    print(f"\n🏆 Bestes Modell: {best_model_name}")
    print(f"   Accuracy: {results[best_model_name]['accuracy']*100:.1f}%")

    # Detailed Report für bestes Modell
    print(f"\n📊 Detailed Report für {best_model_name}:")
    print(classification_report(y_test, results[best_model_name]['predictions']))

    return best_model, tfidf_vectorizer, feature_extractor, X_test_text, y_test

# Model trainieren
best_model, tfidf_vectorizer, feature_extractor, X_test_text, y_test = train_smart_privacy_guard(df)




🤖 Starte Model Training...
   - Training: 25 Beispiele
   - Test: 12 Beispiele

🧠 Trainiere Logistic Regression...
   Accuracy: 0.917 (91.7%)

🧠 Trainiere Random Forest...
   Accuracy: 0.750 (75.0%)

🏆 Bestes Modell: Logistic Regression
   Accuracy: 91.7%

📊 Detailed Report für Logistic Regression:
              precision    recall  f1-score   support

    harmless       1.00      0.83      0.91         6
   sensitive       0.86      1.00      0.92         6

    accuracy                           0.92        12
   macro avg       0.93      0.92      0.92        12
weighted avg       0.93      0.92      0.92        12



# LIVE TESTING (Wie deine Extension funktionieren würde!)

In [None]:
# ==================================================================================
# TEIL 5: LIVE TESTING (Wie deine Extension funktionieren würde!)
# ==================================================================================

def predict_text_sensitivity(text, model, tfidf_vec, feature_ext):
    """
    Das ist die Funktion, die deine Browser-Extension später aufrufen würde!
    """
    # Features extrahieren (genau wie beim Training)
    tfidf_features = tfidf_vec.transform([text])
    custom_features = feature_ext.fit_transform([text])

    # Kombinieren
    from scipy.sparse import hstack
    combined_features = hstack([tfidf_features, custom_features])

    # Vorhersage
    prediction = model.predict(combined_features)[0]
    confidence = max(model.predict_proba(combined_features)[0]) * 100

    return {
        'text': text,
        'prediction': prediction,
        'confidence': round(confidence, 1),
        'is_sensitive': prediction == 'sensitive',
        'should_warn': prediction == 'sensitive' and confidence > 70
    }



# LIVE DEMO (Teste dein Modell!)

In [None]:
# ==================================================================================
# TEIL 6: LIVE DEMO (Teste dein Modell!)
# ==================================================================================

print("\n" + "="*60)
print("🧪 LIVE DEMO - Teste dein Smart Privacy Guard!")
print("="*60)

# Test-Texte (wie sie in deiner Extension auftreten würden)
test_cases = [
    # Sollten als SENSITIVE erkannt werden
    "Hier ist meine Email: test@example.com",
    "Meine IBAN lautet: DE89 3704 0044 0532 0130 00",
    "Telefon: +49 30 12345678 für Rückfragen",
    "Passwort: mySecret123, bitte nicht weitergeben",
    "Mein API Key ist bd-fwe-232"

    # Sollten als HARMLESS erkannt werden
    "Ich mag Machine Learning sehr!",
    "Das Wetter ist heute wirklich schön",
    "Python ist eine tolle Programmiersprache",
    "Wann ist unser nächstes Meeting?",

    # Edge Cases - hier wird es interessant!
    "Email Marketing ist ein spannendes Thema",  # Enthält "Email" aber ist harmlos
    "Ich arbeite bei der Deutschen Bank",        # Enthält "Bank" aber ist harmlos
    "API Integration mit REST endpoints"         # Technisch, aber harmlos
]

print("\n📝 Teste verschiedene Texte:")
print("-" * 40)

for text in test_cases:
    result = predict_text_sensitivity(text, best_model, tfidf_vectorizer, feature_extractor)

    # Farbige Ausgabe für bessere Übersicht
    status_emoji = "🚨" if result['is_sensitive'] else "✅"
    confidence_stars = "★" * (int(result['confidence']) // 20)

    print(f"\n{status_emoji} Text: '{text[:50]}{'...' if len(text) > 50 else ''}'")
    print(f"   Prediction: {result['prediction'].upper()}")
    print(f"   Confidence: {result['confidence']}% {confidence_stars}")

    if result['should_warn']:
        print(f"   ⚠️  BROWSER-EXTENSION WÜRDE WARNEN!")





🧪 LIVE DEMO - Teste dein Smart Privacy Guard!

📝 Teste verschiedene Texte:
----------------------------------------

🚨 Text: 'Hier ist meine Email: test@example.com'
   Prediction: SENSITIVE
   Confidence: 78.9% ★★★
   ⚠️  BROWSER-EXTENSION WÜRDE WARNEN!

🚨 Text: 'Meine IBAN lautet: DE89 3704 0044 0532 0130 00'
   Prediction: SENSITIVE
   Confidence: 95.2% ★★★★
   ⚠️  BROWSER-EXTENSION WÜRDE WARNEN!

🚨 Text: 'Telefon: +49 30 12345678 für Rückfragen'
   Prediction: SENSITIVE
   Confidence: 92.7% ★★★★
   ⚠️  BROWSER-EXTENSION WÜRDE WARNEN!

🚨 Text: 'Passwort: mySecret123, bitte nicht weitergeben'
   Prediction: SENSITIVE
   Confidence: 96.0% ★★★★
   ⚠️  BROWSER-EXTENSION WÜRDE WARNEN!

🚨 Text: 'Mein API Key ist bd-fwe-232Ich mag Machine Learnin...'
   Prediction: SENSITIVE
   Confidence: 86.6% ★★★★
   ⚠️  BROWSER-EXTENSION WÜRDE WARNEN!

✅ Text: 'Das Wetter ist heute wirklich schön'
   Prediction: HARMLESS
   Confidence: 67.8% ★★★

🚨 Text: 'Python ist eine tolle Programmiersprache'
   P

# Debugging


In [None]:
# ==================================================================================
# DEBUGGING HELPER (Wenn etwas nicht funktioniert)
# ==================================================================================
from scipy.sparse import hstack

def debug_model_performance():
    """
    TODO FÜR DICH: Führe diese Funktion aus, wenn dein Modell schlecht performt
    """
    print("\n🔍 Model Debugging:")

    # Zeige falsch klassifizierte Beispiele
    X_test_combined = hstack([
        tfidf_vectorizer.transform(X_test_text),
        feature_extractor.fit_transform(X_test_text)
    ])

    y_pred = best_model.predict(X_test_combined)

    # Finde Fehler
    wrong_predictions = []
    for i, (text, true_label, pred_label) in enumerate(zip(X_test_text, y_test, y_pred)):
        if true_label != pred_label:
            wrong_predictions.append({
                'text': text,
                'true': true_label,
                'predicted': pred_label
            })

    print(f"❌ {len(wrong_predictions)} falsche Vorhersagen:")
    for error in wrong_predictions[:3]:  # Zeige nur erste 3
        print(f"   Text: '{error['text']}'")
        print(f"   Erwartet: {error['true']} | Vorhergesagt: {error['predicted']}")
        print()

# Führe Debugging aus
debug_model_performance()

print("\n🎉 Smart Privacy Guard Projekt ist bereit!")
print("💡 Nächster Schritt: Arbeite die TODOs durch und experimentiere!")
print("🚀 In 1-2 Wochen hast du ein funktionierendes ML-System!")


🔍 Model Debugging:
❌ 1 falsche Vorhersagen:
   Text: 'Machine Learning ist faszinierend'
   Erwartet: harmless | Vorhergesagt: sensitive


🎉 Smart Privacy Guard Projekt ist bereit!
💡 Nächster Schritt: Arbeite die TODOs durch und experimentiere!
🚀 In 1-2 Wochen hast du ein funktionierendes ML-System!


# Aufgaben und nächste Schritte

In [None]:
# ==================================================================================
# TEIL 7: DEINE AUFGABEN (Hands-on Learning!)
# ==================================================================================

print("\n" + "="*60)
print("🎯 DEINE AUFGABEN - So lernst du ML richtig!")
print("="*60)

print("""
📝 AUFGABE 1 (EINFACH): Mehr Trainingsdaten
   → Füge 10 weitere sensible und 10 harmlose Texte hinzu
   → Trainiere das Modell neu und schau, ob die Accuracy steigt

🔧 AUFGABE 2 (MITTEL): Neue Features
   → Implementiere Features für:
      - URLs erkennen (http://, https://)
      - Sozialversicherungsnummern
      - Verschiedene Sprachen (DE/EN)
   → Teste ob diese Features die Performance verbessern

🧠 AUFGABE 3 (FORTGESCHRITTEN): Model Comparison
   → Teste verschiedene Algorithmen:
      - Support Vector Machine (SVM)
      - Naive Bayes
      - Neural Network (MLPClassifier)
   → Welcher funktioniert am besten für deine Daten?

🚀 AUFGABE 4 (CHALLENGE): Edge Cases
   → Teste dein Modell mit schwierigen Fällen:
      - "Meine fake Email für Tests: test@test.com"
      - "IBAN steht für International Bank Account Number"
      - "Die PIN für den Tresor ist... nur ein Scherz!"
   → Wie robust ist dein Modell?

⭐ BONUS-AUFGABE (PRO): Model Saving
   → Speichere dein trainiertes Modell ab
   → Lade es wieder und nutze es für neue Vorhersagen
   → Das brauchst du später für die echte Extension!
""")

# ==================================================================================
# TEIL 8: NÄCHSTE SCHRITTE
# ==================================================================================

print("\n" + "="*60)
print("🚀 ROADMAP ZU DEINER BROWSER-EXTENSION")
print("="*60)

print("""
WOCHE 1-2: Python ML Fundamentals (JETZT!)
   ✅ Dieses Projekt abschließen
   ✅ Mit verschiedenen Algorithmen experimentieren
   ✅ Model Evaluation verstehen

WOCHE 3-4: Advanced ML
   📚 Text Preprocessing (Tokenization, Normalization)
   📚 Cross-Validation & Hyperparameter Tuning
   📚 Dealing mit Imbalanced Data

WOCHE 5-6: Production Ready
   🔧 Model Serialization (Pickle, ONNX)
   🔧 API Development (FastAPI)
   🔧 Performance Optimization

WOCHE 7-8: Browser Integration
   🌐 Chrome Extension Basics
   🌐 Python Model → JavaScript portieren
   🌐 Real-time Text Processing

ZIEL: Funktionierende Browser-Extension! 🎯
""")



🎯 DEINE AUFGABEN - So lernst du ML richtig!

📝 AUFGABE 1 (EINFACH): Mehr Trainingsdaten
   → Füge 10 weitere sensible und 10 harmlose Texte hinzu
   → Trainiere das Modell neu und schau, ob die Accuracy steigt
   
🔧 AUFGABE 2 (MITTEL): Neue Features
   → Implementiere Features für:
      - URLs erkennen (http://, https://)
      - Sozialversicherungsnummern  
      - Verschiedene Sprachen (DE/EN)
   → Teste ob diese Features die Performance verbessern
   
🧠 AUFGABE 3 (FORTGESCHRITTEN): Model Comparison
   → Teste verschiedene Algorithmen:
      - Support Vector Machine (SVM)
      - Naive Bayes
      - Neural Network (MLPClassifier)
   → Welcher funktioniert am besten für deine Daten?
   
🚀 AUFGABE 4 (CHALLENGE): Edge Cases
   → Teste dein Modell mit schwierigen Fällen:
      - "Meine fake Email für Tests: test@test.com"
      - "IBAN steht für International Bank Account Number"
      - "Die PIN für den Tresor ist... nur ein Scherz!"
   → Wie robust ist dein Modell?

⭐ BONUS-AUFGABE (