# 📔 READ_ME und TO_DO

#### README

In [1]:
%%writefile '/content/drive/MyDrive/Colab Notebooks/SEO/README.md'
# 🚀 SEO Automation Pipeline mit OpenAI & Retrieval (RAG)

Dieses Projekt bietet eine **komplette End-to-End-Pipeline für die SEO-Optimierung von Websites**, inklusive **Web-Crawling, SEO-Analyse, KI-gestützter Text-Optimierung und Qualitätskontrolle**.

Kern des Projekts sind **automatisierte Abläufe**, die von der **Datengewinnung bis zur SEO-optimierten Textgenerierung** reichen.
Mithilfe von **OpenAI (ChatGPT)** und einer **Retrieval Augmented Generation (RAG)-Architektur** wird sichergestellt, dass die finalen Texte nicht nur **SEO-freundlich**, sondern auch **grammatikalisch korrekt und hochwertig** sind.

## 📚 Inhaltsverzeichnis

- Features
- Projektstruktur
- Ablauf & Module
- Technologien
- Installation
- Nutzung
- Ziele
- Roadmap

## ✅ Features

- 🌐 **Automatisiertes Web Crawling** (inkl. Filter für relevante Inhalte)
- ✍️ **Generierung von SEO-optimierten Texten** mithilfe der OpenAI API
- 🧠 **RAG-gestützte Fehlererkennung & Textkorrektur** mit Vektordatenbank (FAISS)
- 📊 **Analyse der Optimierungsergebnisse** (Statistiken, Ähnlichkeiten, Visualisierungen)
- 📈 **Keyword-Analyse und Keyword-Optimierung**
- 📦 Ausgabe in **HTML und PDF** für Kunden
- 📊 Umfangreiche **Datenvisualisierungen** (Wordclouds, Cosine Similarity, Keyword-Verteilung)




<img src="https://drive.google.com/uc?id=10oR2bcugvN2MClp14ia7gnzMGX5b896t" alt="SEO Heatmap" width="600">




## 🗂️ Projektstruktur

```
SEO-Project/
├── data/                # Prompts, Fehler-Korrektur-Daten, weitere JSON Dateien
├── notebooks/           # Colab/Notebooks zum Starten und Entwickeln
├── output/              # Erzeugte Dateien (HTML, PDF, Bilder)
│   ├── final           # Dokumente für Kunden (HTML, PDF)
│   └── images          # Visualisierungen
├── src/                # Source Code (Python-Klassen und Module)
│   ├── webscraper.py    # Webscrawling und Text-Extraktion
│   ├── llmprocessor.py # Anbindung an OpenAI API, Keyword Extraktion
│   ├── chatbot.py       # Zentrale Chatbot-Klasse zur Kommunikation mit GPT
│   ├── seoanalyzer.py   # Analyse und Auswertung der Texte
│   ├── github.py        # Automatischer Upload ins GitHub Repo
│   ├── utils.py         # Hilfsmodule (z.B. für Prompt-Management)
│   └── embeddingdemo.py# 3D Embedding- und Cosine Similarity Visualisierungen
├── tests/              # pytest der Hauptfunktionalitäten
└── requirements.txt    # Python-Abhängigkeiten
```

## ⚙️ Ablauf & Module

### 1. **Web Crawling**
- **src/webscraper.py**: Holt Inhalte von Webseiten, filtert irrelevante Seiten (z.B. Impressum, AGB).

### 2. **SEO-Optimierung mit OpenAI**
- **src/llmprocessor.py**:
  - Extrahiert Keywords aus den Inhalten.
  - Optimiert die Texte für SEO mit gezielten Prompts.

### 3. **Analyse & Visualisierung**
- **src/seoanalyzer.py**: Verarbeitet und analysiert die Original- und optimierten Texte.

### 4. **GitHub Automation**
- **src/github.py**: Lädt finale Ergebnisse in ein GitHub-Repo hoch.

## 🧰 Technologien

| Technologie                  | Beschreibung                                       |
|-----------------------------|---------------------------------------------------|
| Python                      | Hauptsprache                                       |
| OpenAI API (ChatGPT, GPT-4)  | Generative KI für SEO-Texte                       |
| FAISS                      | Vektorsuche für RAG und Text-Fehler                |
| Pandas, NumPy               | Datenanalyse und Verarbeitung                      |
| Matplotlib, Seaborn         | Visualisierungen                                   |
| Sentence Transformers       | Embedding-Erstellung für Vektordatenbank          |
| BeautifulSoup, Requests     | Webcrawling                                        |
| Google Colab                | Entwicklung und Ausführung                        |

## 🚀 Installation

```bash
pip install -r requirements.txt
python -m spacy download de_core_news_sm
pip install faiss-cpu sentence-transformers openai wordcloud matplotlib seaborn
```

## 💻 Nutzung

```python
scraper = WebsiteScraper(start_url="https://www.example.com")
scraper.scrape_website()

llm_processor = LLMProcessor(prompts_folder, get_filtered_texts, google_ads_keywords)
llm_processor.run_all()

seo_analyzer = SEOAnalyzer(seo_json, original_texts, keywords_final)
seo_analyzer.run_analysis()
```

## 🎯 Ziele

- ✅ Vollständige Automatisierung der SEO-Optimierung
- ✅ RAG für sprachliche Qualitätskontrolle
- ✅ Kundenfertige PDF/HTML-Reports

## 🚧 Roadmap

- [ ] **Produkt für Kunden finalisieren:** all-in-one solution für webcrawl + SEO + optimierten html code
- [ ] Automatische SEO Scores (z.B. Google Ads API)
- [ ] Automatische Keyword-Erweiterung
- [ ] Mehrsprachigkeit
- [ ] WordPress-Integration


Overwriting /content/drive/MyDrive/Colab Notebooks/SEO/README.md


####TODO

In [2]:
%%writefile '/content/drive/MyDrive/Colab Notebooks/SEO/TODO.md'
# To-Do Liste: SEO Automation & KI-Projekt

Diese Liste fasst alle anstehenden Aufgaben im Projekt zusammen

---

## 0. **Aktuelles und dringendes**
- [ ] 18.3.2025 **Version missmatch**: numpy 2.2.3 und spacy 3.5 **side effects on**: dependencies.py, excelimporter.py, Installation.ipynb **ursachen**: spacy version 3.5 verlangt numpy 1.26.4 -> version missmatch
      -> 23.5. class SEOAnlyzer refaktoriert und spacy ersetzt
- [ ] 28.3.25 lokale SEO keywords liefern manchmal falsche Stadt

---

## 1. **Allgemeine Projektorganisation**
- [ ] **Projektstruktur verbessern**: Ordner übersichtlich gestalten (z.B. `src/`, `data/`, `tests/`, `notebooks/`, dependencies.py).
- [ ] **Dokumentation erweitern**: READ_ME und Wiki (bzw. GitHub Pages) zu jedem Modul anlegen.
- [ ] **Automatisierte Tests** Pytest für Kernfunktionen ausbauen.
- [ ] **Produkt für Kunden finalisieren**
- [ ] **FAISS DB**: automatisierte Erweiterung bei neu gefundenen Fehlern
- [ ] **Template GitHub**: issues
- [ ] Funktionalitäten aus **utils.py** überdenken
- [ ] langfristig Umstieg auf **langchain**
- [ ] textprocessor durch openai **function calling** ersetzen
- [ ] **dependencies** und versionen robuster machen
- [ ] **bug reporting system** einrichten

---

## 2. **Vector-Datenbank (FAISS) & Retrieval**
- [ ] **VectorDB-Klasse finalisieren**:
  - [ ] Kleinere Bugs beheben
  - [ ] Userfreundliche Methoden für neue Einträge
- [ ] **Einrichtung der DB** bei Projektstart (Neubau vs. Laden) vereinheitlichen
- [ ] **Konfigurierbare Ähnlichkeits-Schwelle** (z.B. `threshold=0.6`) besser dokumentieren
- [ ] **Dynamische Filter** für bestimmte Fehlerkategorien (z.B. Stil vs. Grammatik) überlegen
- [ ] **hybrides system mit knowledge tree und RAG** etablieren

---

## 3. **SEO-Optimierungs-Pipeline**
- [ ] **Prompts in JSON-Dateien** verlagern (z.B. `/data/prompts/`) und sauber verlinken
- [ ] **Supervisor-Feedback** integrieren & QA-Schritte definieren
- [ ] Langchain und SEOPageOptimizer verbinden

---

## 4. **SEOGrammarChecker & PromptManager**
- [ ] Klassenrefactoring:
  - [ ] **`VectorDB`** vs. **`PromptManager`** vs. **`SEOGrammarChecker`** sauber trennen
  - [ ] Möglichst wenig Code-Duplikate, mehr modulare Testbarkeit
- [ ] **Konfigurationsdatei** (z.B. YAML) für Pfade, wie `FAISS_PATH` & Promptordner
- [ ] **Erweiterbare Prompt-Templates**:
  - [ ] Z.B. `seo_optimization.json`, `grammar_check.json`, `supervisor.json`, etc.

---

## 5. **Abschluss & Integration**
- [ ] **Dokumentation** aller Pipelines & Klassen in der README (oder in separater Doku)
- [ ] **Optionale WordPress-Integration** in der Zukunft (Ideenspeicher)
  - [ ] Upload via REST API
  - [ ] Metadaten (Title, Slug, Tags etc.)


Overwriting /content/drive/MyDrive/Colab Notebooks/SEO/TODO.md


#globale Parameter



In [3]:
### HYPERPARAMETER ###

# START_URL = 'https://www.ewms-tech.com/'
START_URL = "https://www.rue-zahnspange.de/"
# START_URL = 'https://www.malerarbeiten-koenig.de/'


EXCLUDED_WEBSITES = ["impressum", "datenschutz", "datenschutzerklärung", "agb"]



from google.colab import drive, userdata
drive.mount('/content/drive', force_remount=True)

PROJECT_ROOT = userdata.get("gdrive_seo_root")
PROJECT_ROOT_ESC_STR = PROJECT_ROOT.replace('Colab Notebooks', 'Colab\ Notebooks')

SRC_PATH, DATA_PATH, TEST_PATH, OUTPUT_PATH = PROJECT_ROOT + "/src", PROJECT_ROOT + "/data", PROJECT_ROOT + '/tests', PROJECT_ROOT + '/output'
FAISS_PATH = DATA_PATH + '/faiss_db'
KEYWORD_PATH = DATA_PATH + '/keywords'
PROMPT_PATH = DATA_PATH + '/prompts'


FINAL_IMAGES = {}


Mounted at /content/drive


# 🏁 Install requirements

In [None]:
%run '/content/drive/MyDrive/Colab Notebooks/SEO/notebooks/Installation.ipynb'

In [None]:
# %run '/content/drive/MyDrive/Colab Notebooks/SEO/src/dependencies.py'

# ⛩ push to github

In [None]:
import importlib
import github
importlib.reload(github)
from github import GitHubManager

# Starte den GitHub-Sync
git_manager = GitHubManager(
    userdata.get("github_pat"),
    userdata.get("github_email"),
    userdata.get("github_username"),
    userdata.get("github_repo_seo"),
    PROJECT_ROOT_ESC_STR
)

git_manager.clone_repo()  # Klonen des Repos
git_manager.sync_project()

# 🕸 crawl

In [None]:
import importlib
import webscraper
importlib.reload(webscraper)
from webscraper import WebsiteScraper

scraper = WebsiteScraper(start_url=START_URL, max_pages=20, excluded_keywords=EXCLUDED_WEBSITES)

original_texts = scraper.get_filtered_texts()

# 📺 google ads seo keywords

In [None]:
import excelimporter
importlib.reload(excelimporter)
from excelimporter import ExcelImporter

importer = ExcelImporter(project_folder=PROJECT_ROOT, header=2)
keyword_df = importer.import_all()

if keyword_df is not None:
    excluded_seo_keywords = ['spange de', 'kfo zentrum essen', 'gerade zahne', 'zahn spange']

    keyword_df = keyword_df[(keyword_df['Avg. monthly searches'] > 10) &
    (~keyword_df['Keyword'].isin(excluded_seo_keywords))
    ].sort_values(by='Avg. monthly searches', ascending=False).reset_index(drop=True).copy()

    google_ads_keywords = list(keyword_df['Keyword'])

    keyword_df.set_index(keyword_df.columns[0], inplace=True)
    searches_df = keyword_df[[col for col in keyword_df.columns if col.startswith('Searches')]]

else:
    print("Error: importer.import_all() returned None. Check your data file and ExcelImporter class.")
    google_ads_keywords = None

In [None]:
import keywordvisualizer
importlib.reload(keywordvisualizer)
from keywordvisualizer import KeywordVisualizer


visualizer = KeywordVisualizer(
    df=searches_df,
    output_dir=OUTPUT_PATH+'/images',
    image_paths=FINAL_IMAGES
)
visualizer.heatmap()

# 🔮webtext analysis + SEO

In [None]:
import llmprocessor
importlib.reload(llmprocessor)
from llmprocessor import LLMProcessor

google_ads_keywords = None if not google_ads_keywords else google_ads_keywords

llm_processor = LLMProcessor(PROMPT_PATH, original_texts, google_ads_keywords=google_ads_keywords)

optimized_texts = llm_processor.run_all()

# 📁 Textprozessor

In [None]:
import json
import textprocessor
importlib.reload(textprocessor)
from textprocessor import TextProcessor

# JSON mit den SEO-Abschnitten extrahieren
json_output = TextProcessor.extract_sections_to_json(list(optimized_texts.keys()), list(optimized_texts.values()))
seo_json = json.loads(json_output)

# texte bereinigen und hinzufügen
seo_json = TextProcessor.add_cleaned_text(seo_json, original_texts)

# Ergebnis anzeigen
print(json.dumps(seo_json, indent=4, ensure_ascii=False))


# 🔎 SEO Analyses + Statistics

In [None]:
# künstliche SEO-Daten
historical_data = {
    "Date": [
        "2023-01-01", "2023-02-01", "2023-03-01",
        "2023-04-01", "2023-05-01", "2023-06-01"
    ],
    "Organic_Sessions": [200, 220, 250, 400, 450, 480],
    "Conversion_Rate": [0.02, 0.021, 0.022, 0.028, 0.03, 0.031],
    "Average_Time_on_Page": [40, 42, 45, 60, 65, 70]
}

In [None]:
import seoanalyzer
importlib.reload(seoanalyzer)
from seoanalyzer import SEOAnalyzer

exclude_list = ["leila", "graf", "koenig", "bjoern", "könig", 'björn', 'adolf', 'schmidt', 'strasse', 'straße', 'tilo', 'remhof']

keywords_final = json.loads(llm_processor.get_keywords()['keywords_final']) if not google_ads_keywords else google_ads_keywords

seo_analyzer = SEOAnalyzer(
    seo_json=seo_json,
    keywords_final=keywords_final,
    output_dir=OUTPUT_PATH+"/images",
    historical_data=historical_data,
    wordcloud_exclude=exclude_list,
    shared_image_dict=FINAL_IMAGES
)

analysis_paths = seo_analyzer.run_analysis()
print("Analysis Plot Pfade:", analysis_paths)

model_paths = seo_analyzer.run_models()
print("Model Plot Pfade:", model_paths)

all_paths = seo_analyzer.get_all_image_paths()
print("Alle Pfade gesammelt:", all_paths)


# 🛏 embedding demo

In [None]:
import os
import embeddingdemo
importlib.reload(embeddingdemo)
from embeddingdemo import EmbeddingDemo

demo = EmbeddingDemo(output_dir=OUTPUT_PATH+'/images', final_images=FINAL_IMAGES)
demo.run_all_visualizations()

print("Alle Embedding-Bilder:", demo.get_image_paths())
print("Gemeinsame Bilder (shared dict):", FINAL_IMAGES)

# ⛳ json to pdf + docx

In [None]:
import seoreportexporter
importlib.reload(seoreportexporter)
from seoreportexporter import SEOReportExporter
exporter = SEOReportExporter(seo_json, OUTPUT_PATH, DATA_PATH+"/intro_texts/sections_intro.json", FINAL_IMAGES)
exporter.run_all_exports()

# 📥 Tests

#### 📃 Doku

In [None]:
%%writefile '/content/drive/MyDrive/Colab Notebooks/SEO/tests/DOKU_TESTS.md'
# ✅ Pytest Template: Chatbot Klasse

## 1. Klassen & Methoden die getestet werden sollen

- **Chatbot**
  - `chat()`
  - `chat_with_streaming()`

---

## 2. Beispielhafte Inputs + erwartete Outputs pro Methode

| Methode                      | Beispiel Input                                                           | Erwartete Ausgabe    |
|-----------------------------|-------------------------------------------------------------------------|----------------------|
| `Chatbot.chat()`             | 'Das ist ein Test. Schreibe als Antwort "Test erfolgreich".'           | "Test erfolgreich"   |
| `Chatbot.chat_with_streaming()` | 'Das ist ein Test. Schreibe als Antwort "Test erfolgreich".'         | "Test erfolgreich"   |

---

## 3. Return-Typen der Methoden

| Methode                      | Rückgabe-Typ |
|-----------------------------|--------------|
| `Chatbot.chat()`             | `str`        |
| `Chatbot.chat_with_streaming()` | `str`     |

---

## 4. Externe Services mocken?

| Service         |  Mocken?                           |
|-----------------|-------------------------------------|
| OpenAI API      |  Nein                                |
| FAISS Index     |  Ja (kleine Test-Datenbank für FAISS) |

---

## 5. Ordnerstruktur für Tests

```bash
/project-root/
    /src/
        chatbot.py
    /tests/
        test_chatbot.py
    /logs/
        test_report.log
    ...
```

---


#### 👷 code

In [None]:
import pytest
pytest.main(['-v', TEST_PATH+'/chatbot_test/chatbot_test.py'])

# 🎨 Error Collection

In [None]:
error_corrections = {
    "Eine Zahnspange kann Kiefergelenksbeschwerden, Kauen- und Sprechprobleme effektiv behandeln.":
    "Eine Zahnspange kann Kiefergelenksbeschwerden, sowie Kau- und Sprechprobleme effektiv behandeln.",
    "Als in den USA geborene Kieferorthopädin bringt Dr. Meier eine multikulturelle Perspektive mit und spricht neben Deutsch auch Englisch, Swahili sowie über Grundkenntnisse in Arabisch und Anfängerkenntnisse in Spanisch.":
    "Als in den USA geborene Kieferorthopädin bringt Dr. Meier eine multikulturelle Perspektive mit und spricht neben Deutsch auch Englisch und Swahili. Dazu hat sie Grundkenntnisse in Arabisch und Anfängerkenntnisse in Spanisch.",
    "Sie hat ihren Master of Science in Geochemie von der Universität Münster, Deutschland, und hat an der Universität Düsseldorf abgeschlossen.":
    "Sie hat ihren Master of Science in Geochemie von der Universität Münster, Deutschland, und hat an der Universität Düsseldorf promoviert.",
    "Ihre Qualifikationen umfassen nicht nur Fachwissen, sondern auch eine besondere Hingabe zu einem ästhetischen Lächeln.":
    "Sie ist hoch qualifiziert und hat eine besondere Hingabe zu einem ästhetischen Lächeln.",
    "behandlungsorientierte Zahnberatung": "patientenorientierte Beratung",
    "ästehthetisches Lächeln": "ästhetisches Lächeln",
    "Nachdem Ihr Behandlungsplan von der Krankenkasse genehmigt wurde": "Nachdem Ihr Behandlungsplan von der Krankenkasse bestätigt wurde",
    "Der aktuelle Text zur Zahnspangenpraxis": "Der aktuelle Text zur kieferorthopädischen Praxis"
}

In [None]:
new_error_corrections = {"Das ist ein neuer Fehler.": "Das ist ein korrigierter Fehler."}

# 🎨 RAG

In [None]:
import os
import json
import faiss
import numpy as np
from sentence_transformers import SentenceTransformer
from chatbot import Chatbot

# -------------------------
# 1) VectorDB
# -------------------------

test_text = seo_json[list(seo_json.keys())[0]]["SEO"]

class VectorDB:
    """
    Eine Klasse für alles rund um die Vektordatenbank:
    - Aufbauen & Laden (FAISS)
    - Neue Einträge hinzufügen
    - Querying für Context Retrieval
    """

    def __init__(self, db_folder):
        """
        :param db_folder: Pfad zum Datenbank-Ordner
        """
        self.db_folder = db_folder
        self.index_file = os.path.join(db_folder, "faiss_index.bin")
        self.json_file  = os.path.join(db_folder, "faiss_index.json")

        self.index = None
        self.error_dict = {}

        self.model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")

    def build_index(self, error_corrections: dict):
        """
        Baut einen neuen FAISS-Index aus den übergebenen Fehler-Korrektur-Paaren.
        """
        print("🔨 Baue neuen FAISS-Index...")
        os.makedirs(self.db_folder, exist_ok=True)

        self.error_dict = error_corrections
        errors = list(self.error_dict.keys())

        # Embeddings
        embeddings = np.array([self.model.encode(e) for e in errors], dtype="float32")

        # FAISS-Index anlegen
        self.index = faiss.IndexFlatL2(embeddings.shape[1])
        self.index.add(embeddings)

        # Daten auf Festplatte schreiben
        faiss.write_index(self.index, self.index_file)
        with open(self.json_file, "w", encoding="utf-8") as f:
            json.dump(self.error_dict, f, ensure_ascii=False)

        print(f"✅ Neuer Index + JSON in '{self.db_folder}' erstellt.")

    def load_index(self):
        """
        Lädt einen bereits existierenden FAISS-Index und die Fehler-Daten.
        """
        if not (os.path.exists(self.index_file) and os.path.exists(self.json_file)):
            raise FileNotFoundError("❌ Kein FAISS-Index gefunden. Bitte build_index() aufrufen.")

        print("🔎 Lade vorhandenen FAISS-Index...")
        self.index = faiss.read_index(self.index_file)

        with open(self.json_file, "r", encoding="utf-8") as f:
            self.error_dict = json.load(f)

        print("✅ Index & Fehler-Korrekturen geladen.")

    def add_entries(self, new_error_corrections: dict):
        """
        Fügt weitere Fehler-Korrektur-Paare hinzu, ohne alles neu zu bauen.
        """
        if self.index is None:
            # Versuch zu laden, falls vorhanden
            if os.path.exists(self.index_file) and os.path.exists(self.json_file):
                self.load_index()
            else:
                raise FileNotFoundError("❌ Kein Index vorhanden. Bitte erst build_index() nutzen.")

        # Merge in self.error_dict
        for fehler, korrektur in new_error_corrections.items():
            self.error_dict[fehler] = korrektur

        # embeddings nur für die neuen keys
        new_keys = list(new_error_corrections.keys())
        new_embeds = np.array([self.model.encode(k) for k in new_keys], dtype="float32")

        # An Index anhängen
        self.index.add(new_embeds)

        # Speichern
        faiss.write_index(self.index, self.index_file)
        with open(self.json_file, "w", encoding="utf-8") as f:
            json.dump(self.error_dict, f, ensure_ascii=False)

        print(f"✅ {len(new_keys)} neue Einträge hinzugefügt und Index aktualisiert.")

    def query(self, text: str, top_k=3, threshold=0.6):
        """
        Sucht in der DB nach ähnlichen fehlerhaften Formulierungen.

        :param text: Der zu prüfende Satz/Abschnitt
        :param top_k: Anzahl der gesuchten Ähnlichkeiten
        :param threshold: Distanzschwelle
        :return: Liste [(fehler, korrektur), ...]
        """
        if self.index is None:
            self.load_index()

        embed = np.array([self.model.encode(text)], dtype="float32")
        distances, indices = self.index.search(embed, top_k)

        all_errors = list(self.error_dict.keys())

        results = []
        for i in range(top_k):
          idx = indices[0][i]
          # Sicherstellen, dass idx in den Bereich von all_errors passt
          if idx < len(all_errors):
              if distances[0][i] < threshold:
                  fehler_key = all_errors[idx]
                  korrektur = self.error_dict[fehler_key]
                  results.append((fehler_key, korrektur))
        return results


    def retrieve_context(self, seo_text: str) -> str:
        """
        Durchsucht den seo_text Satz für Satz, holt ggf. Korrekturvorschläge
        und baut einen Kontextstring.
        """
        lines = []
        for s in seo_text.split(". "):
            suggestions = self.query(s)
            for old, new in suggestions:
                lines.append(f"- Fehler: {old} ➝ Verbesserung: {new}")

        if lines:
            return "Bekannte Fehler/Korrekturen:\n" + "\n".join(lines)
        else:
            return "Keine bekannten Fehler gefunden."



db = VectorDB(db_folder=FAISS_PATH)
db.build_index(error_corrections)
db.add_entries(new_error_corrections)
db.retrieve_context(test_text)

In [None]:
import os
import json
import faiss
import numpy as np
from sentence_transformers import SentenceTransformer
from chatbot import Chatbot

# -------------------------
# 2) PromptManager
# -------------------------

class PromptManager:
    """
    Lädt Prompts aus dem /data/prompts Ordner und kombiniert sie mit
    dem Context aus der VectorDB, um einen finalen Prompt zu erstellen.
    """

    def __init__(self, prompts_folder="./data/prompts"):
        """
        :param prompts_folder: Ordner, in dem .json (oder .txt) Prompts liegen
        """
        self.prompts_folder = prompts_folder

    def load_prompt(self, filename: str) -> dict:
        """
        Lädt einen JSON-Prompt aus dem Ordner, z.B. 'grammar_prompt.json'.
        """
        path = os.path.join(self.prompts_folder, filename)
        try:
            with open(path, "r", encoding="utf-8") as f:
                return json.load(f)
        except FileNotFoundError:
            print(f"⚠️ Prompt-Datei {path} nicht gefunden!")
            return {}
        except json.JSONDecodeError:
            print(f"⚠️ Ungültiges JSON in {path}")
            return {}

    def build_final_prompt(self, base_prompt_file: str, context: str, user_text: str) -> (str, str):
        """
        Kombiniert:
         - base_prompt_file (System-/User-Prompts)
         - den 'context' aus der VectorDB
         - den 'user_text' (SEO-Text)
        und gibt final (system_prompt, user_prompt) zurück.
        """
        prompt_data = self.load_prompt(base_prompt_file)

        system_prompt = prompt_data.get("system_prompt", "")
        user_prompt   = prompt_data.get("user_prompt", "")

        # Kontext an system_prompt anhängen
        system_prompt_full = system_prompt

        # SEO-Text an user_prompt anhängen
        user_prompt_full = user_prompt.format(context=context,optimized_text=user_text)

        return (system_prompt_full, user_prompt_full)

pm = PromptManager(prompts_folder=PROMPT_PATH)
context = db.retrieve_context(test_text)
final_prompts = pm.build_final_prompt("grammar_check.json", context, test_text)

In [None]:
from chatbot import Chatbot

# -------------------------
# 3) SEOGrammarChecker
# -------------------------

cb = Chatbot(systemprompt=final_prompts[0], userprompt=final_prompts[1])
final_text = cb.chat()
final_text

# ⛓ Langchain

In [None]:
import subprocess
from langchain_openai import ChatOpenAI
from google.colab import userdata
import os

subprocess.run(["pip", "install", "--upgrade", "pydantic"])

os.environ['OPENAI_API_KEY'] = userdata.get('open_ai_api_key')

llm = ChatOpenAI(temperature=0,
    model = "gpt-4o-mini-2024-07-18",
    openai_api_key=os.environ['OPENAI_API_KEY'],
)

In [None]:
from typing_extensions import assert_type
from utils import load_prompts

prompts = load_prompts(PROMPT_PATH + '/optimize_seo.json')


system_prompt = prompts["system_prompt"]
user_prompt = prompts["user_prompt"]

test_prompt = f"""{prompts["user_prompt"]}"""
#test_prompt = test_prompt.replace('{keywords}', google_ads_keywords.__str__())

user_prompt = user_prompt.replace('{keywords}', google_ads_keywords.__str__())
user_prompt = user_prompt.replace('{original_text}', seo_json[START_URL]['SEO'])


print(test_prompt)

In [None]:
from langchain_openai import ChatOpenAI
from langchain.prompts import ChatPromptTemplate
from langchain.schema import (AIMessage, HumanMessage, SystemMessage)

def extract_keywords(text):
    prompt = ChatPromptTemplate.from_messages([
        SystemMessage(content="Du bist ein SEO-Experte, spezialisiert auf Keyword-Recherche."),
        HumanMessage(content=f"""
        Analysiere den folgenden Unternehmens-Text und finde die besten SEO-Keywords.
        Berücksichtige lokale Infos, falls vorhanden.

        Text:
        {text}

        Gib mir eine Liste von Keywords.
        """)
    ])
    # format_messages converts the messages to a list of dictionaries
    messages = prompt.format_messages(text=text)
    response = llm(messages)
    return response.content

In [None]:
def optimize_text_for_seo(text, keywords):
    prompt = ChatPromptTemplate.from_messages([
        SystemMessage(content="Du bist ein professioneller SEO-Texter."),
        HumanMessage(content=f"""
        Optimiere den folgenden Text für SEO, indem du diese Keywords sinnvoll integrierst:

        Keywords: {keywords}

        Achte auf natürliche Sprache, gute Lesbarkeit und Vermeidung von Keyword-Stuffing.

        Text:
        {text}

        Gib mir den optimierten Text zurück.
        """)
    ])
    # format_messages converts the messages to a list of dictionaries
    messages = prompt.format_messages(text=text, keywords=keywords)  # Pass keywords here
    response = llm(messages)
    return response.content


In [None]:
def grammar_and_style_check(text):
    prompt = ChatPromptTemplate.from_messages([
        SystemMessage(content="Du bist ein erfahrener Lektor und Sprachexperte."),
        HumanMessage(content=f"""
        Prüfe den folgenden Text auf Grammatik, Rechtschreibung und Stil.
        Mache den Text flüssig, professionell und fehlerfrei.

        Text:
        {text}

        Gib den verbesserten Text zurück.
        """)
    ])
    # format_messages converts the messages to a list of dictionaries
    messages = prompt.format_messages(text=text)  # Format with text
    response = llm(messages)
    return response.content

In [None]:
def supervisor_check(original_text, keywords, optimized_text, final_text):
    prompt = ChatPromptTemplate.from_messages([
        SystemMessage(content="Du bist ein Supervisor, der SEO- und Textqualität überprüft."),
        HumanMessage(content=f"""
        Hier sind die Arbeitsschritte:

        Ursprünglicher Text:
        {original_text}

        Gefundene Keywords:
        {keywords}

        SEO-optimierter Text:
        {optimized_text}

        Finaler Text (nach Lektorat):
        {final_text}

        Beantworte:
        1. Sind alle wichtigen Keywords sinnvoll eingebaut?
        2. Ist der Text professionell und lesbar?
        3. Verbesserungsvorschläge?
        Wenn alles gut ist, antworte: 'Finaler Text akzeptiert.'
        """)
    ])
    # format_messages converts the messages to a list of dictionaries
    messages = prompt.format_messages(
        original_text=original_text,
        keywords=keywords,
        optimized_text=optimized_text,
        final_text=final_text
    )  # Format with all variables
    response = llm(messages)
    return response.content

In [None]:
def seo_pipeline(original_text):
    # Keywords finden
    print("Schritt 1: Keywords finden...")
    keywords = extract_keywords(original_text)
    print("Gefundene Keywords:", keywords)

    # SEO-Optimierung
    print("\nSchritt 2: SEO-Optimierung...")
    optimized_text = optimize_text_for_seo(original_text, keywords)
    print("SEO-optimierter Text:\n", optimized_text)

    # Grammatikprüfung
    print("\nSchritt 3: Grammatikprüfung...")
    final_text = grammar_and_style_check(optimized_text)
    print("Finaler Text nach Lektorat:\n", final_text)

    # Supervisor
    print("\nSupervisor prüft...")
    supervisor_feedback = supervisor_check(original_text, keywords, optimized_text, final_text)
    print("Supervisor Feedback:\n", supervisor_feedback)

    return final_text


In [None]:
if __name__ == "__main__":
    unternehmens_text = seo_json[START_URL]['alt']

    final_output = seo_pipeline(unternehmens_text)
    print("\n--- Finaler SEO-optimierter Text ---\n")
    print(final_output)

#🥼Lab

In [None]:
import os
import re
import requests
import logging
import openai
from bs4 import BeautifulSoup
from bs4 import Comment
from urllib.parse import urljoin, urlparse
from datetime import datetime

from chatbot import Chatbot

os.environ['OPENAI_API_KEY'] = userdata.get('open_ai_api_key')




class SEOPageOptimizer:
    """
    Diese Klasse lädt den HTML-Code einer Webseite herunter, extrahiert alle sichtbaren Texte und Meta-Tags,
    optimiert diese Inhalte mithilfe von ChatGPT (über die Chatbot-Klasse) und speichert den modifizierten HTML-Code lokal.
    """

    def __init__(self, max_pages=1, output_dir="output/final"):
        """
        :param max_pages: Wie viele Seiten höchstens gecrawlt werden (für Start-Seite meist 1 ausreichend).
        :param output_dir: Ausgabeordner für die optimierte HTML-Datei.
        """
        logging.basicConfig(level=logging.INFO)
        self.max_pages = max_pages
        self.output_dir = output_dir
        os.makedirs(self.output_dir, exist_ok=True)

    def fetch_html(self, url: str) -> str:
        """Lädt den HTML-Quelltext der angegebenen URL herunter."""
        logging.info(f"Lade HTML von {url}...")
        response = requests.get(url, timeout=10)
        response.raise_for_status()  # wirft Exception bei HTTP-Fehler
        logging.info("HTML erfolgreich heruntergeladen.")
        return response.text

    def extract_content(self, html: str):
        """
        Extrahiert sichtbare Texte (p, h1-h6, li) und Meta-Tags (<title>, <meta name='description'>).
        Gibt (text_elements, title, meta_desc, soup) zurück.
          - text_elements: Liste von (element, original_text)
          - title/meta_desc: Originale Strings
          - soup: Das BS-Objekt zum späteren Re-Inject
        """
        logging.info("Extrahiere sichtbare Texte und Meta-Informationen...")
        soup = BeautifulSoup(html, "html.parser")

        # Meta-Tags
        title_tag = soup.find("title")
        meta_desc_tag = soup.find("meta", attrs={"name": "description"})

        title_text = title_tag.get_text(strip=True) if title_tag else ""
        meta_desc_text = meta_desc_tag.get("content", "").strip() if meta_desc_tag else ""

        # Sichtbare Texte => p, h1-h6, li
        text_elements = []
        for tag_name in ["p", "h1", "h2", "h3", "h4", "h5", "h6", "li"]:
            for elem in soup.find_all(tag_name):
                text = elem.get_text(separator=" ", strip=True)
                if text:
                    text_elements.append((elem, text))

        logging.info(f"Title: '{title_text}', Meta-Desc: '{meta_desc_text}', "
                     f"Text-Elemente gesamt: {len(text_elements)}.")
        return text_elements, title_text, meta_desc_text, soup

    def optimize_content(self, text_elements, title_text, meta_desc_text):
        """
        Nutzt ChatGPT, um alle Texte SEO-optimiert umzuschreiben. Generiert außerdem
        neuen Title und neue Meta-Description.
        """
        logging.info("Starte SEO-Optimierung der Inhalte via ChatGPT...")

        # System-Prompt fürs ChatGPT
        # Evtl. anpassen, wie formell, Sprachniveau etc.
        system_prompt = (
            "Du bist ein professioneller SEO-Texter. "
            "Deine Aufgabe ist es, Texte suchmaschinenfreundlicher zu gestalten, "
            "ohne deren inhaltliche Aussage zu verändern."
        )

        optimized_texts = []

        # 1) Alle sichtbaren Texte optimieren
        for elem, original_text in text_elements:
            user_prompt = (
                f"Bitte überarbeite folgenden Text, damit er SEO-freundlicher wird:\n"
                f"Original: \"{original_text}\"\n\n"
                "Achte darauf:\n"
                "- Sinn und Inhalt bleiben erhalten\n"
                "- Verwende eine klar verständliche Sprache\n"
                "- Integriere relevante Keywords, ohne Keyword-Stuffing\n"
                "- Nutze ggf. Synonyme\n"
                "Gib mir nur den umgeschriebenen Text zurück."
            )

            cb = Chatbot(systemprompt=system_prompt, userprompt=user_prompt)
            new_text = cb.chat()
            if not new_text.strip():
                # Falls leer, nimm original
                new_text = original_text
            optimized_texts.append((elem, new_text))

        # 2) Meta-Titel & -Description neu generieren
        # Aus allen Texten ggf. einen Kontext bauen
        full_context = " ".join([t for _, t in text_elements])[:1000]  # Ggf. beschränkt auf 1000 Zeichen

        # Title prompt
        title_user_prompt = (
            f"Erstelle einen SEO-optimierten Titel (max. 60 Zeichen) für folgenden Seiteninhalt:\n"
            f"\"{full_context}\"\n\n"
            "Anforderungen:\n"
            "- Hauptkeyword an Anfang\n"
            "- Maximal 60 Zeichen\n"
            "- Klare, kurze Formulierung\n"
            "Gib mir nur den finalen Titel zurück."
        )
        cb_title = Chatbot(systemprompt=system_prompt, userprompt=title_user_prompt)
        new_title = cb_title.chat().strip()
        if not new_title:
            new_title = title_text  # Fallback

        # Description prompt
        desc_user_prompt = (
            f"Erstelle eine SEO-optimierte Meta-Description (max. 155 Zeichen) "
            f"für folgenden Inhalt:\n"
            f"\"{full_context}\"\n\n"
            "Anforderungen:\n"
            "- Hauptkeyword einbauen\n"
            "- Ca. 155 Zeichen\n"
            "- Mit Call-to-Action enden\n"
            "Gib mir nur die finalen Sätze zurück."
        )
        cb_desc = Chatbot(systemprompt=system_prompt, userprompt=desc_user_prompt)
        new_desc = cb_desc.chat().strip()
        if not new_desc:
            new_desc = meta_desc_text  # Fallback

        logging.info("SEO-Optimierung abgeschlossen.")
        return optimized_texts, new_title, new_desc

    def inject_content(self, soup, optimized_texts, new_title, new_description):
        """
        Ersetzt Originaltexte in soup durch die neuen Texte + Title + Meta Desc
        """
        logging.info("Füge optimierte Inhalte in das HTML ein...")

        # 1) Alle sichtbaren Texte neu einfügen
        for elem, text in optimized_texts:
            elem.clear()
            elem.append(text)

        # 2) Title / Meta
        title_tag = soup.find("title")
        if title_tag:
            title_tag.string = new_title
        else:
            head = soup.find("head")
            if head:
                new_tag = soup.new_tag("title")
                new_tag.string = new_title
                head.append(new_tag)

        desc_tag = soup.find("meta", attrs={"name": "description"})
        if desc_tag:
            desc_tag["content"] = new_description
        else:
            head = soup.find("head")
            if head:
                new_meta = soup.new_tag("meta", attrs={"name": "description", "content": new_description})
                head.append(new_meta)

        return soup

    def save_html(self, soup, filepath: str):
        """
        Speichert den aktualisierten HTML-Code in einer lokalen Datei (UTF-8).
        """
        logging.info(f"Speichere optimiertes HTML unter {filepath}")
        with open(filepath, "w", encoding="utf-8") as f:
            f.write(str(soup))
        logging.info("Datei gespeichert.")

    def optimize_page(self, url: str, output_path: str):
        """
        Führt alle Schritte aus:
         1) HTML laden
         2) Texte extrahieren
         3) Optimieren
         4) Re-Inject
         5) Speichern
        """
        # 1) HTML laden
        html = self.fetch_html(url)
        # 2) Inhalte extrahieren
        text_elems, old_title, old_desc, soup = self.extract_content(html)
        # 3) ChatGPT-Optimierung
        opt_texts, new_title, new_desc = self.optimize_content(text_elems, old_title, old_desc)
        # 4) Re-Inject
        new_soup = self.inject_content(soup, opt_texts, new_title, new_desc)
        # 5) Speichern
        self.save_html(new_soup, output_path)
        logging.info("SEO-Optimierung vollständig abgeschlossen.")


In [None]:
optimizer = SEOPageOptimizer(max_pages=1, output_dir=OUTPUT_PATH+"/final")
url_to_optimize = START_URL
output_html_path = OUTPUT_PATH+"/final/optimized_page.html"

optimizer.optimize_page(url_to_optimize, output_html_path)

print("Fertig! Schau dir die Datei an:", output_html_path)
