# ⛹ push to github

In [22]:
#%%capture
import os
from google.colab import drive
from google.colab import userdata
drive.mount('/content/drive',
            force_remount=True
            )


notebookname = 'SEO.ipynb'

class github:
    def __init__(self, github_pat, github_email, github_username, github_repo, gdrive_notebook_folder, notebook_name):
        self.github_pat = userdata.get(github_pat)
        self.github_email = userdata.get(github_email)
        self.github_username = userdata.get(github_username)
        self.github_repo = userdata.get(github_repo)
        self.gdrive_notebook_folder = userdata.get(gdrive_notebook_folder)
        self.notebook_name = notebook_name

    def clone_repo(self):
        # Source file path in Google Drive
        source_file_path = f"/content/drive/MyDrive/{self.gdrive_notebook_folder}/{self.notebook_name}"

        # Repository details
        repo_url = f'https://{self.github_pat}@github.com/{self.github_username}/{self.github_repo}.git'

        # Clone the private repository
        !git clone {repo_url} cloned-repo
        os.chdir('cloned-repo')  # Switch to the cloned repository

        # Ensure the file exists in Google Drive
        if os.path.exists(source_file_path):
            # Copy the notebook into the cloned repository
            !cp "{source_file_path}" ./
        else:
            print(f"The file {source_file_path} was not found.")
            return  # Exit if the file doesn't exist

        # Git configuration
        !git config user.email "{self.github_email}"
        !git config user.name "{self.github_username}"

        # Add the file to Git
        !git add "{self.notebook_name}"

        # Commit the changes
        !git commit -m "Added {self.notebook_name} from Google Drive"

        # Push to the repository
        !git push origin main

        # Wechsle zurück ins übergeordnete Verzeichnis und lösche cloned-repo
        os.chdir('..')
        !rm -rf cloned-repo
        print("cloned-repo wurde wieder gelöscht.")



# Clone, add, and push the notebook
clone_2 = github('github_pat', 'github_email', 'github_username', 'github_repo_seo', 'gdrive_seo_folder', notebookname)
clone_2.clone_repo()


Mounted at /content/drive
Cloning into 'cloned-repo'...
remote: Enumerating objects: 21, done.[K
remote: Counting objects: 100% (21/21), done.[K
remote: Compressing objects: 100% (15/15), done.[K
remote: Total 21 (delta 4), reused 14 (delta 3), pack-reused 0 (from 0)[K
Receiving objects: 100% (21/21), 101.05 KiB | 3.89 MiB/s, done.
Resolving deltas: 100% (4/4), done.
[main a0fa126] Added SEO.ipynb from Google Drive
 1 file changed, 1 insertion(+), 1 deletion(-)
 rewrite SEO.ipynb (95%)
Enumerating objects: 5, done.
Counting objects: 100% (5/5), done.
Delta compression using up to 2 threads
Compressing objects: 100% (3/3), done.
Writing objects: 100% (3/3), 20.23 KiB | 3.37 MiB/s, done.
Total 3 (delta 0), reused 0 (delta 0), pack-reused 0
To https://github.com/MarkH0705/SEO_Analyses.git
   b225f1e..a0fa126  main -> main
cloned-repo wurde wieder gelöscht.


# 🕸 scrap

In [18]:
import os
import requests
from bs4 import BeautifulSoup, Comment
from urllib.parse import urljoin, urlparse
import chardet


class WebsiteScraper:
    """
    Diese Klasse kümmert sich ausschließlich um das Sammeln und Extrahieren
    von Texten aus einer Website.
    """

    def __init__(self, start_url, max_pages=50):
        """
        :param start_url: Die Start-URL der Website, z.B. "https://www.example.com"
        :param max_pages: Maximale Anzahl Seiten, die gecrawlt werden.
        """
        self.start_url = start_url
        self.max_pages = max_pages

        # Hier speichern wir {URL: reiner_Text}
        self.scraped_data = {}

    def scrape_website(self):
        """
        Startet den Crawl-Vorgang, gefolgt von der Extraktion des Textes
        und dem Sammeln interner Links.
        """
        visited = set()
        to_visit = [self.start_url]
        domain = urlparse(self.start_url).netloc

        while to_visit and len(visited) < self.max_pages:
            url = to_visit.pop(0)
            if url in visited:
                continue
            visited.add(url)

            try:
                response = requests.get(url, timeout=10)

                # Rohdaten holen und Encoding per chardet bestimmen
                raw_data = response.content
                detected = chardet.detect(raw_data)
                encoding = "utf-8"
                text_data = raw_data.decode(encoding, errors="replace")

                # Nur weiterverarbeiten, wenn HTML-Content
                if (response.status_code == 200
                        and "text/html" in response.headers.get("Content-Type", "")):
                    soup = BeautifulSoup(text_data, "html.parser")

                    # Text extrahieren
                    text = self._extract_text_from_soup(soup)
                    self.scraped_data[url] = text

                    # Interne Links sammeln
                    for link in soup.find_all("a", href=True):
                        absolute_link = urljoin(url, link["href"])
                        if urlparse(absolute_link).netloc == domain:
                            if (absolute_link not in visited
                                    and absolute_link not in to_visit):
                                to_visit.append(absolute_link)

            except requests.RequestException as e:
                print(f"Fehler beim Abrufen von {url}:\n{e}")

    def _extract_text_from_soup(self, soup):
        """
        Extrahiert aus <p>, <h1>, <h2>, <h3>, <li> reinen Text,
        entfernt Script-/Style-/Noscript-Tags und Kommentare.
        """
        for script_or_style in soup(["script", "style", "noscript"]):
            script_or_style.decompose()

        for comment in soup.find_all(string=lambda text: isinstance(text, Comment)):
            comment.extract()

        texts = []
        for tag in soup.find_all(["p", "h1", "h2", "h3", "li"]):
            txt = tag.get_text(strip=True)
            if txt:
                texts.append(txt)

        return "\n".join(texts)

    def get_scraped_data(self):
        """
        Gibt das Dictionary {URL: Text} zurück.
        Du kannst damit arbeiten, Seiten filtern, etc.
        """
        return self.scraped_data


# 🤖 chatbot

In [37]:
import openai
import time
os.environ['OPENAI_API_KEY'] = userdata.get('open_ai_api_key')

class Chatbot:
    """
    Diese Chatbot-Klasse nutzt die neue Methode client.chat.completions.create()
    aus openai>=1.0.0 über openai.OpenAI().
    """

    def __init__(self, systemprompt, prompt):
        self.client = openai.OpenAI(api_key=os.environ['OPENAI_API_KEY'])
        self.systemprompt = systemprompt
        self.prompt = prompt
        self.context = [{"role": "system", "content": systemprompt}]
        self.model = "gpt-4o-mini-2024-07-18"  # Beispiel-Modell

    def chat(self):
        """
        Sendet den Prompt an das Chat-Interface und gibt den kompletten Antwort-String zurück.
        """
        self.context.append({"role": "user", "content": self.prompt})
        try:
            response = self.client.chat.completions.create(
                model=self.model,
                messages=self.context
            )
            response_content = response.choices[0].message.content
            self.context.append({"role": "assistant", "content": response_content})
            return response_content
        except Exception as e:
            print(f"Fehler bei der OpenAI-Anfrage: {e}")
            return ""


    def chat_with_streaming(self):
            """
            Interagiert mit OpenAI Chat Completion API und streamt die Antwort.
            """
            # Nachricht zur Konversation hinzufügen
            self.context.append({"role": "user", "content": self.prompt})

            # print(f"User: {self.prompt}")
            # print("AI: ", end="", flush=True)

            try:
                # Streaming-Option aktivieren
                response = self.client.chat.completions.create(
                    model=self.model,
                    messages=self.context,
                    stream=True
                )

                streamed_content = ""  # Zum Speichern der gestreamten Antwort

                for chunk in response:
                    # Debugging: Anzeigen, was tatsächlich in jedem Chunk enthalten ist
                    delta = chunk.choices[0].delta
                    content = getattr(delta, "content", "")

                    if content:  # Verarbeite nur nicht-leere Inhalte
                        print(content, end="", flush=True)
                        streamed_content += content

                print()  # Neue Zeile am Ende

                # Gestreamte Antwort zur Konversation hinzufügen
                self.context.append({"role": "assistant", "content": streamed_content})

                # Return the streamed content
                return streamed_content # This line was added

            except Exception as e:
                print(f"\nDEBUG: An error occurred during streaming: {e}")
                # Return empty string in case of error
                return "" # This line was added


# 🆎 NLP

In [20]:
def chunk_text(text, max_tokens=2000):
    """
    Teilt den Text in Blöcke auf, damit er nicht zu lang
    für die OpenAI-API wird.
    Hier sehr vereinfacht: 1 Token ~ 4 Zeichen.
    """
    chunks = []
    approx_char_limit = max_tokens * 4
    start = 0
    while start < len(text):
        end = start + approx_char_limit
        chunk = text[start:end]
        chunks.append(chunk)
        start = end
    return chunks


# 🚧 main SEO optimize

In [72]:
combined_analysis_list = []
filtered_urls = []

def main():
    # 1. SCRAPING
    start_url = "https://www.rue-zahnspange.de/"
    scraper = WebsiteScraper(start_url=start_url, max_pages=10)
    scraper.scrape_website()

    # Alle gescrapten Daten abrufen
    scraped_data = scraper.get_scraped_data()

    # 2. Sichten der Texte und Filtern
    #    Hier könntest du jetzt z. B. manuell prüfen, welche URLs wichtig sind.
    #    Wir geben einfach mal alle URLs aus:
    print("\n--- Gesammelte Seiten und Inhalte (gekürzt) ---")
    for url, text in scraped_data.items():
        print(f"\nURL: {url}")
        # Beispiel: Nur ersten 200 Zeichen zeigen
        print(f"Text: {text[:200]}...")




    EXCLUDED_KEYWORDS = ["impressum", "datenschutz", "agb"]

    # Alle URLs sammeln, die KEINEN der ausgeschlossenen Begriffe enthalten
    for url in scraped_data.keys():
        # Schauen, ob einer der EXCLUDED_KEYWORDS im URL-String (kleingeschrieben) vorkommt
        if any(keyword in url.lower() for keyword in EXCLUDED_KEYWORDS):
            # Falls ja, überspringen wir diese URL
            continue
        # Sonst nehmen wir sie auf
        filtered_urls.append(url)





    # 3. SEO-Analyse starten (für gefilterte Seiten)
    for url in filtered_urls:
        # Die gesamte Seite analysieren
        page_text = scraped_data[url]

        # 3.1 Chunken, um zu große Anfragen zu vermeiden
        text_chunks = chunk_text(page_text, max_tokens=2000)

        print(f"\n=== Analyzing {url} ===")
        all_analyses = []
        for i, chunk in enumerate(text_chunks):
            print(f" - Sende Chunk {i+1}/{len(text_chunks)} an Chatbot ...")

            # Prompt definieren (SEO)
            system_prompt = "Du bist ein hochqualifizierter SEO-Experte."
            user_prompt = (
                "1. Untersuche den folgenden Text auf Keyword-Optimierung, Lesbarkeit und mögliche SEO-Verbesserungen. "
                "2. Formuliere den Text entsprechend optimaler SEO Sichtbarkeit um. Der Tonfall soll weiterhin nett und freundlich sein und einen warmen, einfühlsamen Eindruck machen."
                "3. Als Ausgabe gebe deine optimierte version wieder und erläuterungen zur optimierung. gebe den abschnitten die überschriften 'SEO optimierter Text' und 'Erläuterungen'! Benutze keine Formatierungszeichen wie '###' oder '#'! "

                "Hier ist der Text chunk: \n\n"
                f"{chunk}"
            )

            # ChatGPT aufrufen
            cb = Chatbot(systemprompt=system_prompt, prompt=user_prompt)
            analysis = cb.chat_with_streaming()
            all_analyses.append(analysis)

            # Warte kurz (Rate Limits, API-Kosten etc.)
            time.sleep(1)

        # 3.2 Fertige Analyse (alle Chunks zusammen)
        combined_analysis = "\n".join(all_analyses)


        combined_analysis_list.append(combined_analysis)
        # print(f"\n--- SEO-Analyse für {url} ---")
        # print(combined_analysis)


if __name__ == "__main__":
    main()



--- Gesammelte Seiten und Inhalte (gekürzt) ---

URL: https://www.rue-zahnspange.de/
Text: RÜ
Moderne Zahnspangen für ein gesünderes Lächeln
Entdecken Sie die Praxis RÜ Zahnspange und unsere vielseitigen Behandlungen für Kinder und Jugendliche, die ein langanhaltendes und gesundes Lächeln e...

URL: https://www.rue-zahnspange.de/zahnspangen
Text: RÜ
Entdecken Sie unsere Zahnspangen
Jede Behandlung erfordert individuelle Zahnspangen verschiedenster Arten. Werfen Sie einen Blick darauf, was wir zu bieten haben.
Feste Zahnspangen
Verlässliche und...

URL: https://www.rue-zahnspange.de/behandlungsablauf
Text: RÜ
Wir begleiten Sie bei jedem Schritt
Entdecken Sie unseren umfassenden Behandlungsablauf, der jeden Schritt zu Ihrem idealen Lächeln sorgfältig begleitet.
Ihr Weg zu einem perfekten Lächeln
Bevor wi...

URL: https://www.rue-zahnspange.de/erwachsene
Text: RÜ
Verwandeln Sie Ihr Lächeln ohne Kompromisse
Entscheiden Sie sich für eines der weltweit beliebtesten Systeme mit transparenten

In [75]:
import re

def extract_seo_optimized_texts(analysis_list):
    """
    Sucht in jedem String der analysis_list nach Passagen unter der Überschrift
    'SEO optimierter Text' und gibt diese als Liste zurück.
    """
    # Regex-Pattern (mit Dotall-Flag (?s), damit '.' auch Zeilenumbrüche matcht):
    # - 'SEO optimierter Text' gefolgt von beliebigem Whitespace.
    # - anschließend erfassen wir (.*?), also den 'Text' bis zum Lookahead
    #   auf eine Zeile, die mit 'Erläuterungen' beginnt oder auf das String-Ende ($).
    pattern = re.compile(r"(?s)SEO optimierter Text\s*(.*?)(?=\nErläuterungen|$)")

    seo_texts = []

    for analysis_output in analysis_list:
        # Alle Fundstellen (falls mehrfach pro String)
        matches = pattern.findall(analysis_output)
        for match in matches:
            # Whitespace trimmen
            seo_text = match.strip()
            # Falls nötig, weitere Bereinigungen an seo_text vornehmen
            seo_texts.append(seo_text)

    return seo_texts

# Beispielaufruf:
if __name__ == "__main__":
    # Angenommen, du hast im main() bereits `combined_analysis_list` gefüllt:
    # combined_analysis_list = [ ... alle LLM-Outputs ... ]

    # Dann rufst du:
    seo_optimized_texts = extract_seo_optimized_texts(combined_analysis_list)

    # Jetzt enthält seo_optimized_texts ausschließlich die Inhalte unter
    # "SEO optimierter Text".
    # Dies kannst du nun für deinen RAG-Workflow (Punkt 1) verwenden.
    print("\n--- Extrahierte SEO-optimierte Texte ---")
    for i, seo_text in enumerate(seo_optimized_texts):
        print(f"\nOptimierter Text für {filtered_urls[i]}:\n{seo_text}")



--- Extrahierte SEO-optimierte Texte ---

Optimierter Text für https://www.rue-zahnspange.de/:
Moderne Zahnspangen für ein gesundes und strahlendes Lächeln 

Willkommen in der RÜ Zahnspange! Entdecken Sie unsere vielfältigen Behandlungen für Kinder und Jugendliche, die Ihnen ein langanhaltendes und gesundes Lächeln ermöglichen. Unsere Praxis ist bekannt für ihre Expertise in der Kieferorthopädie und unser einfühlsames Team.

Öffnungszeiten und Anfahrt 

Wir befinden uns an der Haltestelle Martinstraße, die Sie bequem mit verschiedenen Verkehrsmitteln erreichen können:
‍
Bahn: 107, 108, U11 
Bus: 142, 160, 161 

Direkt gegenüber unserer Praxis finden Sie einen geräumigen Parkplatz für Ihre Anfahrt.

Individuelle Behandlungen für Ihr perfektes Lächeln 

Unser vorrangiges Ziel ist es, Ihnen nicht nur ein ästhetisch ansprechendes Lächeln zu schenken, sondern auch Ihre Kiefergesundheit zu fördern. Wir begleiten Sie in jeder Phase Ihrer Behandlung mit Professionalität und persönlichem Engag

In [141]:
list_1 = []
for i, text in  enumerate(seo_optimized_texts):
    list_1.append(f"{filtered_urls[i]} optimierter Text: {text}")

In [147]:
cb = Chatbot(systemprompt=f'Sei ein Lektor für SEO optimierte Texte. Du bist spezialisiert auf Grammatikfehler, eingedeutschte Wörter und Rechtschreibfehler', prompt=f"Überprüfe die folgenden Texte auf Fehler und korrigiere diese. Achte ebenfalls auf Schwächen in der Ausdrucksweise oder fehlende Satzzeichen! Gebe als Ausgabe die Texte zurück (einschließlich dem link), mit deinen Verbesserungen falls notwendig. {list_1}")
print(cb.chat())

Hier sind die korrigierten und optimierten Texte mit Anmerkungen:

---

**Link:** [RÜ Zahnspange](https://www.rue-zahnspange.de/)  
**Optimierter Text:** Moderne Zahnspangen für ein gesundes und strahlendes Lächeln  

Willkommen in der RÜ Zahnspange! Entdecken Sie unsere vielfältigen Behandlungen für Kinder und Jugendliche, die Ihnen ein langanhaltendes und gesundes Lächeln ermöglichen. Unsere Praxis ist bekannt für ihre Expertise in der Kieferorthopädie und unser einfühlsames Team.  

**Öffnungszeiten und Anfahrt**  

Wir befinden uns an der Haltestelle Martinstraße, die Sie bequem mit verschiedenen Verkehrsmitteln erreichen können:  
- **Bahn:** 107, 108, U11  
- **Bus:** 142, 160, 161  

Direkt gegenüber unserer Praxis finden Sie einen geräumigen Parkplatz für Ihre Anfahrt.  

**Individuelle Behandlungen für Ihr perfektes Lächeln**  

Unser vorrangiges Ziel ist es, Ihnen nicht nur ein ästhetisch ansprechendes Lächeln zu schenken, sondern auch Ihre Kiefergesundheit zu fördern. Wir be

# 📥 RAG

In [None]:
"Eine Zahnspange kann Kiefergelenksbeschwerden, Kauen- und Sprechprobleme effektiv behandeln."

"Als in Kenia geborene Kieferorthopädin bringt Dr. Graf eine multikulturelle Perspektive mit und spricht neben Deutsch auch Englisch, Swahili sowie über Grundkenntnisse in Arabisch und Anfängerkenntnisse in Spanisch."

In [23]:
pip install langchain faiss-cpu


Collecting faiss-cpu
  Downloading faiss_cpu-1.9.0.post1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.4 kB)
Downloading faiss_cpu-1.9.0.post1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (27.5 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m27.5/27.5 MB[0m [31m27.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faiss-cpu
Successfully installed faiss-cpu-1.9.0.post1


In [25]:
pip install -U langchain-community

Collecting langchain-community
  Downloading langchain_community-0.3.14-py3-none-any.whl.metadata (2.9 kB)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain-community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting httpx-sse<0.5.0,>=0.4.0 (from langchain-community)
  Downloading httpx_sse-0.4.0-py3-none-any.whl.metadata (9.0 kB)
Collecting pydantic-settings<3.0.0,>=2.4.0 (from langchain-community)
  Downloading pydantic_settings-2.7.1-py3-none-any.whl.metadata (3.5 kB)
Collecting marshmallow<4.0.0,>=3.18.0 (from dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading marshmallow-3.25.1-py3-none-any.whl.metadata (7.3 kB)
Collecting typing-inspect<1,>=0.4.0 (from dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading typing_inspect-0.9.0-py3-none-any.whl.metadata (1.5 kB)
Collecting python-dotenv>=0.21.0 (from pydantic-settings<3.0.0,>=2.4.0->langchain-community)
  Downloading python_dotenv-1.0.1-py3-none-any.whl.metadata (23 kB

In [27]:
pip install tiktoken

Collecting tiktoken
  Downloading tiktoken-0.8.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.6 kB)
Downloading tiktoken-0.8.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.2 MB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/1.2 MB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m1.2/1.2 MB[0m [31m43.1 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.2/1.2 MB[0m [31m25.3 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: tiktoken
Successfully installed tiktoken-0.8.0


In [82]:
import os
import openai
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import FAISS
from langchain.docstore.document import Document

# 0) Vector Index (FAISS) initialisieren
#    (Später im Code können wir den Index persistent speichern/neu laden)
# os.environ["OPENAI_API_KEY"] = "DEIN_OPENAI_API_KEY"

embeddings = OpenAIEmbeddings()

# Beispiel-Fehler als "Dokument" für den Vector Store
# "page_content" = Text, "metadata" = beliebige Zusatzinfos
known_error_text = """
Fehler: "Klaren Aligner" wird fälschlicherweise als Eigenname verwendet,
         obwohl es grammatisch richtig "klaren Alignern" sein sollte.

Richtige Anwendung:
- Sagen: "Entdecken Sie die Vorteile von klaren Alignern."
- Oder: "Klare Aligner sind die ..."

Zusätzliche Hinweise:
- Beim Eindeutschen englischer Fachbegriffe auf die Pluralbildung achten.
"""

doc = Document(
    page_content=known_error_text,
    metadata={"error_type": "grammar/de-english", "example_id": "klaren-aligner"}
)

# Vektorindex erzeugen und das "bekannte Fehler"-Dokument ablegen
vector_store = FAISS.from_documents([doc], embeddings)


In [83]:
from langchain.docstore.document import Document

# 1. Neuer Fehler: "Kauen- und Sprechprobleme" statt "Kau- und Sprechprobleme"
doc1_text = """
Fehler: "Eine Zahnspange kann Kiefergelenksbeschwerden, Kauen- und Sprechprobleme effektiv behandeln."
Richtig: "Eine Zahnspange kann Kiefergelenksbeschwerden, Kau- und Sprechprobleme effektiv behandeln."

Grund:
- Falsche Rechtschreibung/Zusammensetzung bei "Kauen-".
- Richtig ist "Kau- und Sprechprobleme".
"""

doc1 = Document(
    page_content=doc1_text,
    metadata={
        "error_type": "grammar/spelling",
        "example_id": "kauen-sprechprobleme"
    }
)

# 2. Neuer Fehler: falsche Formulierung bei Sprachen
doc2_text = """
Fehler: "Als in Kenia geborene Kieferorthopädin ... spricht neben Deutsch auch Englisch, Swahili sowie über Grundkenntnisse in Arabisch und Anfängerkenntnisse in Spanisch."
Richtig: "Als in Kenia geborene Kieferorthopädin ... spricht neben Deutsch auch Englisch und Swahili und verfügt über Grundkenntnisse in Arabisch und Spanisch."

Grund:
- Bessere Formulierung, um 'über Grundkenntnisse' mit 'verfügt über Grundkenntnisse' zu vereinen.
- Straffere und klarere Satzstruktur.
"""

doc2 = Document(
    page_content=doc2_text,
    metadata={
        "error_type": "grammar/style",
        "example_id": "languages-phrase"
    }
)


# Angenommen, du hast bereits:
# embeddings = OpenAIEmbeddings()
# vector_store = FAISS.from_documents([some_initial_docs], embeddings)
#
# -> Dann fügen wir jetzt doc1 und doc2 hinzu:

vector_store.add_documents([doc1, doc2])


['f9e89ab1-6b55-4a61-9078-10549e132fa8',
 'b4c6c0c5-b4b9-4ac8-8fe2-fe33df38dda6']

In [95]:
# faiss_index_path = userdata.get('gdrive_seo_folder') + '/faiss_index'
# vector_store.save_local(faiss_index_path)

In [96]:
# FAISS.load_local(faiss_index_path, embeddings, allow_dangerous_deserialization=True)

<langchain_community.vectorstores.faiss.FAISS at 0x7d266593ce50>

In [98]:
def chunk_text(text, chunk_size=500):
    """
    Beispiel: einfach alle 500 Zeichen ein Chunk.
    Für echte Token-Logik kann man tiktoken oder langchain-Splitter nutzen.
    """
    chunks = []
    start = 0
    while start < len(text):
        end = start + chunk_size
        chunks.append(text[start:end])
        start = end
    return chunks

chunked_texts = []
for seo_text in seo_optimized_texts:
    # Chunking pro SEO-Text
    text_chunks = chunk_text(seo_text, chunk_size=500)
    chunked_texts.append(text_chunks)

# chunked_texts = [
#   [chunk1_of_text1, chunk2_of_text1, ...],
#   [chunk1_of_text2, ...],
#   ...
# ]


In [145]:
from langchain.text_splitter import TokenTextSplitter

def chunk_text_langchain(text, max_tokens=500, overlap=50):
    """
    Teilt den Text anhand der Tokenanzahl auf. Nutzt dafür LangChain's TokenTextSplitter.
    - max_tokens: maximale Tokens pro Chunk
    - overlap: wie viele Tokens Überschneidung zum vorherigen Chunk
    """
    splitter = TokenTextSplitter(
        encoding_name=OpenAIEmbeddings(),  # oder passend zu deinem Modell (z.B. "gpt-3.5-turbo")
        chunk_size=max_tokens,         # maximale Anzahl Tokens pro Chunk
        chunk_overlap=overlap          # Tokens, die sich mit dem vorigen Chunk überschneiden (Kontext)
    )

    chunks = splitter.split_text(text)
    return chunks

# Beispielanwendung:
# seo_text = """Hier Dein langer Text, den du chunken willst ..."""
# chunked = chunk_text_langchain(seo_text, max_tokens=500, overlap=50)
# print(chunked)



chunked_texts = []
for seo_text in seo_optimized_texts:
    # Chunking pro SEO-Text
    chunked = chunk_text_langchain(seo_text, max_tokens=500, overlap=50)
    chunked_texts.append(text_chunks)


ValueError: Expected a string in get_encoding, got <class 'langchain_community.embeddings.openai.OpenAIEmbeddings'>

In [111]:
chunked_texts

[['Willkommen bei RÜ Zahnspange – Ihrer kieferorthopädischen Praxis in Essen!\n\nBei RÜ Zahnspange verbinden wir medizinische Fachkompetenz mit einer einfühlsamen Patientenbetreuung, um Ihnen und Ihrer Familie die bestmögliche kieferorthopädische Versorgung zu bieten. Mit über 11 Jahren Erfahrung in der Kieferorthopädie sind wir in der Lage, individuelle Behandlungen auf höchstem Niveau zu gewährleisten, die genau auf Ihre Bedürfnisse abgestimmt sind.\n\nUnser Team besteht aus fünf hochqualifizierten K',
  'ieferorthopäden, die sich leidenschaftlich für Ihr Wohlbefinden einsetzen und regelmäßig an Fortbildungen teilnehmen, um Ihnen die neuesten Behandlungsmethoden anzubieten. Wir haben uns auf Kinder- und Jugendkieferorthopädie spezialisiert und bieten kindgerechte Behandlungen in einer freundlichen und entspannten Umgebung.\n\nLeila Graf – Ihre erfahrene Kieferorthopädin\n\nDr. Leila Graf hat einen Master of Science in Kieferorthopädie von der Danube Private University in Krems, Öster

In [112]:
def get_context_from_vector_store(chunk):
    """
    Sucht im FAISS-Index nach passenden Dokumenten zum gegebenen Chunk,
    z. B. bekannte Fehler, die diesem Chunk ähneln.
    """
    # top_k=2 oder so, je nach Bedarf
    results = vector_store.similarity_search(chunk, k=2)
    # results ist eine Liste von Document-Objekten

    # Wir wollen z. B. den Inhalt zusammenfügen als "Kontext":
    context_text = "\n---\n".join([doc.page_content for doc in results])
    return context_text

# Beispielhafte Abfrage pro Chunk
test_chunk = chunked_texts[0][0]  # Erster Chunk des ersten Textes
retrieved_context = get_context_from_vector_store(test_chunk)
print("Kontext aus Vektorindex:\n", retrieved_context)


Kontext aus Vektorindex:
 
Fehler: "Eine Zahnspange kann Kiefergelenksbeschwerden, Kauen- und Sprechprobleme effektiv behandeln."
Richtig: "Eine Zahnspange kann Kiefergelenksbeschwerden, Kau- und Sprechprobleme effektiv behandeln."

Grund:
- Falsche Rechtschreibung/Zusammensetzung bei "Kauen-".
- Richtig ist "Kau- und Sprechprobleme".

---

Fehler: "Als in Kenia geborene Kieferorthopädin ... spricht neben Deutsch auch Englisch, Swahili sowie über Grundkenntnisse in Arabisch und Anfängerkenntnisse in Spanisch."
Richtig: "Als in Kenia geborene Kieferorthopädin ... spricht neben Deutsch auch Englisch und Swahili und verfügt über Grundkenntnisse in Arabisch und Spanisch."

Grund:
- Bessere Formulierung, um 'über Grundkenntnisse' mit 'verfügt über Grundkenntnisse' zu vereinen.
- Straffere und klarere Satzstruktur.



In [113]:
import json

def proofread_text_with_context(chunk, context):
    """
    Fragt ChatGPT (mittels der Chatbot-Klasse) an, um den Textchunk auf Fehler zu prüfen und zu korrigieren.
    Nutzt den Kontext aus dem Vector Store, um bekannte Fehler zu berücksichtigen.

    Erwartete Antwortstruktur (JSON):

    {
      "corrected_text": "...",
      "new_mistakes_found": [
        {
          "description": "Beschreibung des neuen Fehlers",
          "original_snippet": "Die fehlerhafte Passage"
        },
        ...
      ]
    }
    """

    # 1. System Prompt
    system_prompt = (
        "Du bist ein professioneller Lektor und Grammatik-Experte. "
        "Du kennst deutsche Grammatik, Rechtschreibung und eingedeutschte Fachbegriffe."
    )

    # 2. User Prompt
    #    Wir kombinieren den Kontext und unseren zu prüfenden Text, plus
    #    die Anweisung, nur JSON auszugeben.
    user_prompt = f"""
Im Folgenden siehst du bereits bekannte Fehlerhinweise (Kontext). Nutze diese Infos,
um den Text zu prüfen und zu korrigieren. Solltest du neue Fehler (Grammatik,
falsch eingedeutschte Worte, Satzstellung etc.) finden, liste sie gesondert auf.

Bekannte Fehler (Kontext):
{context}

Text zur Prüfung:
{chunk}

Anweisung:
1) Analysiere den Text gründlich auf sprachliche/grammatische Fehler.
2) Nutze ggf. den Kontext.
3) Korrigiere diese Fehler im Text, ohne den Sinn zu verändern.
4) Liste alle neu gefundenen Fehler (noch nicht im Kontext) zusätzlich auf.
5) Antworte in folgendem JSON-Format (ohne weitere Worte davor oder danach!):

{{
  "corrected_text": "TEXTVERSION KORRIGIERT",
  "new_mistakes_found": [
    {{
      "description": "Beschreibung des Fehlers",
      "original_snippet": "Snippet der Original-Passage"
    }}
  ]
}}
"""

    # 3. Chatbot verwenden:
    cb = Chatbot(systemprompt=system_prompt, prompt=user_prompt)

    # Da wir keine Streaming-Ausgabe brauchen, nutzen wir hier `chat()` statt `chat_with_streaming()`.
    response_raw = cb.chat()

    # 4. JSON parsen
    try:
        parsed = json.loads(response_raw)
        # parsed = {
        #   "corrected_text": "...",
        #   "new_mistakes_found": [...]
        # }
        return parsed

    except json.JSONDecodeError:
        print("Fehler: ChatGPT hat kein gültiges JSON zurückgegeben.")
        return {
            "corrected_text": "Fehler: Keine gültige JSON-Antwort.",
            "new_mistakes_found": []
        }


In [114]:
all_corrected_texts = []
all_new_mistakes = []

for text_chunks in chunked_texts:  # => Jede Liste von Chunks (pro SEO-Text)
    corrected_text_chunks = []

    for chunk in text_chunks:
        # 3a) Kontext abfragen
        context = get_context_from_vector_store(chunk)


        # 4a) Prompt ChatGPT (Korrektur)
        result = proofread_text_with_context(chunk, context)

        corrected_text = result["corrected_text"]
        new_mistakes = result["new_mistakes_found"]

        # Sammeln
        corrected_text_chunks.append(corrected_text)
        all_new_mistakes.extend(new_mistakes)

    # Pro SEO-Text fügen wir die korrigierten Chunks zusammen.
    full_corrected_text = "\n".join(corrected_text_chunks)
    all_corrected_texts.append(full_corrected_text)

# Jetzt haben wir:
# all_corrected_texts = [ "korrigierter SEO Text Nr.1", "korrigierter SEO Text Nr.2", ...]
# all_new_mistakes = Liste aller neu gefundenen Fehler


In [115]:
for _ in all_corrected_texts:
  print(_)

Willkommen bei RÜ Zahnspange – Ihrer kieferorthopädischen Praxis in Essen!

Bei RÜ Zahnspange verbinden wir medizinische Fachkompetenz mit einer einfühlsamen Patientenbetreuung, um Ihnen und Ihrer Familie die bestmögliche kieferorthopädische Versorgung zu bieten. Mit über 11 Jahren Erfahrung in der Kieferorthopädie sind wir in der Lage, individuelle Behandlungen auf höchstem Niveau zu gewährleisten, die genau auf Ihre Bedürfnisse abgestimmt sind.

Unser Team besteht aus fünf hochqualifizierten Kieferorthopäden.
Kieferorthopäden, die sich leidenschaftlich für Ihr Wohlbefinden einsetzen und regelmäßig an Fortbildungen teilnehmen, um Ihnen die neuesten Behandlungsmethoden anzubieten. Wir haben uns auf die Kinder- und Jugendkieferorthopädie spezialisiert und bieten kindgerechte Behandlungen in einer freundlichen und entspannten Umgebung.

Leila Graf – Ihre erfahrene Kieferorthopädin

Dr. Leila Graf hat einen Master of Science in Kieferorthopädie von der Danube Private University in Krems, 

In [105]:
all_new_mistakes

[{'description': "Fehlerhafte Schreibweise bei 'Beratun'",
  'original_snippet': 'Beratun'},
 {'description': "Falsche Schreibweise von 'Patien', es sollte 'Patienten' heißen.",
  'original_snippet': 'die Bedürfnisse jedes Patien'},
 {'description': "Fehlendes Komma nach 'jüngsten Patienten'",
  'original_snippet': 'Ideal für unsere jüngsten Patienten, bieten lose Zahnspangen'},
 {'description': "Unvollständiger Satz bei 'Unsichtbare Aligner', unvollständige Beendigung der Beschreibung.",
  'original_snippet': 'die besonders bei Jugendlichen und Er'},
 {'description': "Fehlendes Wort 'Erwachsenen' zur Vervollständigung der Beschreibung.",
  'original_snippet': 'die besonders bei Jugendlichen und Er'},
 {'description': 'Unvollständiger Satz zu Beginn des Textes.',
  'original_snippet': 'wachsen beliebt ist, um unauffällig zu einem perfekten Lächeln zu gelangen.'},
 {'description': 'Falsche Verwendung des Verbs "k" ohne Vervollständigung.',
  'original_snippet': 'Bissstellungen wie Über-