In [51]:
import sys
import os
import json
from langchain_core.tools import tool
from langchain.agents import create_react_agent, AgentExecutor
from langchain_experimental.tools.python.tool import PythonREPLTool
from langchain_openai import ChatOpenAI
import getpass
from langchain.prompts import PromptTemplate
import psycopg2
from sqlalchemy.pool import StaticPool
from langchain_community.agent_toolkits.sql.toolkit import SQLDatabaseToolkit
from langchain_community.utilities.sql_database import SQLDatabase
from sqlalchemy import create_engine
from pathlib import Path

In [52]:
linkml_schema= """id: chinook_schema
name: Chinook
description: "LinkML schema for the Chinook database, extracted from ChinookData.json"
default_prefix: chinook
prefixes:
  chinook: "http://example.org/chinook/"
  linkml: "https://w3id.org/linkml/"

types:
  string:
    base: str
  integer:
    base: int
  number:
    base: float

enums:
  # No enums identified from the data provided

classes:
  Genre:
    description: "Extrahiert aus: ChinookData.json"
    slots:
      - genre_id
      - name
  MediaType:
    description: "Extrahiert aus: ChinookData.json"
    slots:
      - media_type_id
      - name
  Artist:
    description: "Extrahiert aus: ChinookData.json"
    slots:
      - artist_id
      - name
  Album:
    description: "Extrahiert aus: ChinookData.json"
    slots:
      - album_id
      - title
      - artist_id
  Track:
    description: "Extrahiert aus: ChinookData.json"
    slots:
      - track_id
      - name
      - composer
      - milliseconds
      - bytes
      - unit_price
      - album_id
      - media_type_id
      - genre_id
  Employee:
    description: "Extrahiert aus: ChinookData.json"
    slots:
      - employee_id
      - last_name
      - first_name
      - title
      - birth_date
      - hire_date
      - address
      - city
      - state
      - country
      - postal_code
      - phone
      - fax
      - email
      - reports_to
  Customer:
    description: "Extrahiert aus: ChinookData.json"
    slots:
      - customer_id
      - company
      - last_name
      - first_name
      - email
      - phone
      - address
      - city
      - state
      - country
      - postal_code
      - fax
      - support_rep_id
  Invoice:
    description: "Extrahiert aus: ChinookData.json"
    slots:
      - invoice_id
      - customer_id
      - invoice_date
      - billing_address
      - billing_city
      - billing_state
      - billing_country
      - billing_postal_code
      - total
  InvoiceLine:
    description: "Extrahiert aus: ChinookData.json"
    slots:
      - invoice_line_id
      - invoice_id
      - track_id
      - unit_price
      - quantity
  Playlist:
    description: "Extrahiert aus: ChinookData.json"
    slots:
      - playlist_id
      - name
  PlaylistTrack:
    description: "Extrahiert aus: ChinookData.json"
    slots:
      - playlist_id
      - track_id

slots:
  genre_id:
    description: "Extrahiert aus: ChinookData.json"
    identifier: true
    range: integer
  name:
    description: "Extrahiert aus: ChinookData.json"
    range: string
  media_type_id:
    description: "Extrahiert aus: ChinookData.json"
    identifier: true
    range: integer
  artist_id:
    description: "Extrahiert aus: ChinookData.json"
    identifier: true
    range: integer
  album_id:
    description: "Extrahiert aus: ChinookData.json"
    identifier: true
    range: integer
  title:
    description: "Extrahiert aus: ChinookData.json"
    range: string
  track_id:
    description: "Extrahiert aus: ChinookData.json"
    identifier: true
    range: integer
  composer:
    description: "Extrahiert aus: ChinookData.json"
    range: string
    required: false
  milliseconds:
    description: "Extrahiert aus: ChinookData.json"
    range: integer
  bytes:
    description: "Extrahiert aus: ChinookData.json"
    range: integer
  unit_price:
    description: "Extrahiert aus: ChinookData.json"
    range: number
  employee_id:
    description: "Extrahiert aus: ChinookData.json"
    identifier: true
    range: integer
  last_name:
    description: "Extrahiert aus: ChinookData.json"
    range: string
  first_name:
    description: "Extrahiert aus: ChinookData.json"
    range: string
  title:
    description: "Extrahiert aus: ChinookData.json"
    range: string
  birth_date:
    description: "Extrahiert aus: ChinookData.json"
    range: string
  hire_date:
    description: "Extrahiert aus: ChinookData.json"
    range: string
  address:
    description: "Extrahiert aus: ChinookData.json"
    range: string
  city:
    description: "Extrahiert aus: ChinookData.json"
    range: string
  state:
    description: "Extrahiert aus: ChinookData.json"
    range: string
  country:
    description: "Extrahiert aus: ChinookData.json"
    range: string
  postal_code:
    description: "Extrahiert aus: ChinookData.json"
    range: string
  phone:
    description: "Extrahiert aus: ChinookData.json"
    range: string
  fax:
    description: "Extrahiert aus: ChinookData.json"
    range: string
  email:
    description: "Extrahiert aus: ChinookData.json"
    range: string
  reports_to:
    description: "Extrahiert aus: ChinookData.json"
    range: integer
    required: false
  customer_id:
    description: "Extrahiert aus: ChinookData.json"
    identifier: true
    range: integer
  company:
    description: "Extrahiert aus: ChinookData.json"
    range: string
  support_rep_id:
    description: "Extrahiert aus: ChinookData.json"
    range: integer
  invoice_id:
    description: "Extrahiert aus: ChinookData.json"
    identifier: true
    range: integer
  invoice_date:
    description: "Extrahiert aus: ChinookData.json"
    range: string
  billing_address:
    description: "Extrahiert aus: ChinookData.json"
    range: string
  billing_city:
    description: "Extrahiert aus: ChinookData.json"
    range: string
  billing_state:
    description: "Extrahiert aus: ChinookData.json"
    range: string
  billing_country:
    description: "Extrahiert aus: ChinookData.json"
    range: string
  billing_postal_code:
    description: "Extrahiert aus: ChinookData.json"
    range: string
  total:
    description: "Extrahiert aus: ChinookData.json"
    range: number
  invoice_line_id:
    description: "Extrahiert aus: ChinookData.json"
    identifier: true
    range: integer
  track_id:
    description: "Extrahiert aus: ChinookData.json"
    range: integer
  quantity:
    description: "Extrahiert aus: ChinookData.json"
    range: integer
  playlist_id:
    description: "Extrahiert aus: ChinookData.json"
    identifier: true
    range: integer"""



In [53]:
system_prompt = PromptTemplate.from_template("""
Du bist ein erfahrener Data Engineer, spezialisiert auf ETL-Prozesse. Deine Aufgabe ist es, einen vollständigen ETL-Prozess durchzuführen. Halte dich strikt an die folgende Abfolge von Phasen und Anweisungen.

**Gesamtziel:** Daten aus einer JSON-Datei extrahieren und sie mithilfe des im Input bereitgestellten LinkML-Schemas in eine PostgreSQL-Datenbank laden. Anschließend die temporären Dateien bereinigen.

**Verfügbare Tools:**
Du hast Zugang zu folgenden Tools. Verwende sie, um deine Aufgaben zu erledigen.

{tools}

---

### **Phase 1: Datenextraktion und Pfadermittlung (Python-Tool)**

1.  **Verzeichnis erstellen:** Erstelle ein Verzeichnis namens `temp`, falls es nicht existiert.
2.  **JSON-Datei laden:** Lese die angegebene JSON-Datei mit `utf-8`-Kodierung.
3.  **DataFrames als CSV speichern:** Iteriere über die Schlüssel im JSON, erstelle für jeden einen DataFrame und speichere ihn als CSV in `temp/`. Zeige zur Überprüfung die ersten 2 Zeilen an.
4.  **WICHTIG - Absoluten Pfad ermitteln:** Führe am Ende dieser Phase Python-Code aus, um den absoluten Pfad zum `temp`-Verzeichnis zu erhalten. Du **musst** die Ausgabe dieses Befehls in Phase 2 verwenden.
    Action Input:
    import os
    print(os.path.abspath('temp'))

---

### **Phase 2: Laden der Daten in die Datenbank (SQL-Tool)**

**REGELN FÜR DIESE PHASE:**
-   **SCHEMA ALS QUELLE:** Du musst das im Input übergebene `{linkml_schema}` analysieren, um die Tabellennamen, Spalten, Datentypen und Fremdschlüssel für deine `CREATE TABLE`-Befehle zu bestimmen.
-   **NUR REINES SQL:** Der `Action Input` für das SQL-Tool darf **niemals** Markdown-Formatierungen wie ` ```sql ` oder ` ``` ` enthalten. Es ist absolut verboten.
-   **EIN BEFEHL PRO AKTION:** Führe exakt **einen** SQL-Befehl pro `Action`-Block aus.
-   **KORREKTER PFAD:** Verwende für jeden `COPY`-Befehl den absoluten Pfad, den du in Phase 1 ermittelt hast.

**ABLAUF:**
1.  **Transaktion starten:** Führe als erste Aktion `BEGIN;` aus.
2.  **Tabellen einzeln laden:** Verarbeite die Tabellen in der Reihenfolge, die durch die Fremdschlüssel im `{linkml_schema}` vorgegeben ist (Eltern vor Kindern).
3.  **Führe für JEDE EINZELNE Tabelle die folgenden drei Aktionen nacheinander aus:**
    a. **Aktion 1: Tabelle erstellen:** Führe eine einzelne `CREATE TABLE IF NOT EXISTS ...`-Anweisung aus, basierend auf dem `{linkml_schema}`.
    b. **Aktion 2: Daten kopieren:** Führe eine einzelne `COPY Table_Name FROM 'DER_ERMITTELTE_ABSOLUTE_PFAD/Table_Name.csv' WITH (FORMAT csv, HEADER);`-Anweisung aus.
    c. **Aktion 3: Metadaten aktualisieren:** Führe eine einzelne `INSERT INTO domain_knowledge ...`-Anweisung aus.
4.  **Transaktion abschließen:** Nachdem die letzte Tabelle geladen wurde, führe `COMMIT;` aus. Bei Fehlern `ROLLBACK;`.

---

### **Phase 3: Bereinigung (Python-Tool)**

1.  **Bedingung:** Nur nach einem erfolgreichen `COMMIT` ausführen.
2.  **Dateien löschen:** Lösche alle CSV-Dateien im `temp/`-Verzeichnis.
3.  **Bestätigung:** Gib eine Abschlussmeldung aus.

---

Verwende das folgende Format, um deine Gedanken und Aktionen zu strukturieren:

Question: {input}
Thought: Ich denke darüber nach, was der nächste einzelne Schritt gemäß dem Plan ist.
Action: Die auszuführende Aktion. Muss eine aus den folgenden sein: {tool_names}
Action Input: der einzelne, reine Befehl für die Aktion
Observation: das Ergebnis der Aktion
... (dieser Thought/Action/Action Input/Observation wiederholt sich für jeden einzelnen Befehl)
Thought: Ich habe alle Schritte des Plans erfolgreich abgeschlossen.
Final Answer: Die finale Antwort auf die ursprüngliche Frage.

Beginne jetzt mit Phase 1.

Question: {input}
Thought:{agent_scratchpad}
""")


In [54]:


base_dir = Path.cwd()  # aktuelles Verzeichnis
utils_dir = base_dir.parent / "utils"  # ein Verzeichnis hoch, dann utils

sys.path.append(str(utils_dir))

from utils.schema_analyzer import SchemaAnalyzer

file_path = "../knowledge_base/persistant/ChinookData.json"

analyzer = SchemaAnalyzer("../knowledge_base/persistant/ChinookData.json")
result = analyzer.analyze()

number_of_lines = 10
snippets = analyzer.get_file_snippets(number_of_lines)

snippets = analyzer.get_file_snippets(n=10) # n=10 für 10 Zeilen
head_str = snippets.get('head')
middle_str = snippets.get('middle')
tail_str = snippets.get('tail')

schema_str = json.dumps(result, indent=2)

In [55]:


class QuietPythonREPLTool(PythonREPLTool):
    def _run(self, query: str) -> str:
        result = super()._run(query)
        # Schneide lange Ausgaben ab
        if len(result) > 1000:
            return result[:1000] + "\n... (Ausgabe gekürzt)"
        return result

db_uri = "postgresql+psycopg2://langchain_user:supersecurepassword@localhost:5432/langchain_db"
engine = create_engine(db_uri)

def get_engine_for_postgres_db():
    # Connection URL for SQLAlchemy using the psycopg2 PostgreSQL driver
    url = "postgresql+psycopg2://langchain_user:supersecurepassword@localhost:5432/langchain_db"

    # Function that creates a new connection to the PostgreSQL database
    def connect():
        return psycopg2.connect(
            dbname="langchain_db",   
            user="langchain_user",            
            password="supersecurepassword",        
            host="localhost",        
            port=5432               
        )

    # Creates a SQLAlchemy engine with:
    # - the connection URL
    # - a creator function that opens new psycopg2 connections as needed (instead of using connection pooling)
    # - StaticPool, which keeps the same connection open and does not manage a real pool
    engine = create_engine(
        url,
        creator=connect,
        poolclass=StaticPool
    )
    return engine


engine = get_engine_for_postgres_db()

tool_description = "SQL: Führt SQL Statements in der Datenbank aus und gibt das Ergebnis zurück. Es dient dazu csv datein aus einem Ordner in die Datenbank zu laden"

db = SQLDatabase(engine)

# Verwende das neue Tool
python_tool = QuietPythonREPLTool(description="Dient dazu Daten zu laden, transformieren und zu speichern.")


# Rest bleibt gleich
llm = ChatOpenAI(temperature=0, model="gpt-4o")

sql_tools = SQLDatabaseToolkit(db=db, llm=llm)
tools = [python_tool] +sql_tools.get_tools()

agent = create_react_agent(llm=llm, tools=tools, prompt=system_prompt)
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True,handle_parsing_errors=True,max_iterations = 20)



if not os.environ.get("OPENAI_API_KEY"):
  os.environ["OPENAI_API_KEY"] = getpass.getpass("Enter API key for OpenAI: ")


response = agent_executor.invoke({
    "input": (
        f"Create a Python script to extract the file '{file_path}'. and loads it into to the database"
        "Use the provided LinkML schema that defines the data structure. "
        "Example entries from the file are: "
        f"Head: {head_str}, Middle: {middle_str}, Tail: {tail_str}. "
    ),
    "linkml_schema": linkml_schema  # hier das tatsächliche Schema als String oder Variable
})

print(response)




[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mIch beginne mit Phase 1, um die Daten aus der JSON-Datei zu extrahieren und die CSV-Dateien zu erstellen.

**Phase 1: Datenextraktion und Pfadermittlung**

1. **Verzeichnis erstellen:** Erstelle ein Verzeichnis namens `temp`, falls es nicht existiert.
2. **JSON-Datei laden:** Lese die angegebene JSON-Datei mit `utf-8`-Kodierung.
3. **DataFrames als CSV speichern:** Iteriere über die Schlüssel im JSON, erstelle für jeden einen DataFrame und speichere ihn als CSV in `temp/`. Zeige zur Überprüfung die ersten 2 Zeilen an.
4. **WICHTIG - Absoluten Pfad ermitteln:** Führe am Ende dieser Phase Python-Code aus, um den absoluten Pfad zum `temp`-Verzeichnis zu erhalten.

Action: Python_REPL
Action Input:
```python
import os
import json
import pandas as pd

# Schritt 1: Verzeichnis erstellen
os.makedirs('temp', exist_ok=True)

# Schritt 2: JSON-Datei laden
with open('../knowledge_base/persistant/ChinookData.json', 'r', encoding='utf-8')

KeyboardInterrupt: 