In [37]:
import sys
import os
import json
from langchain_core.tools import tool
from langchain.agents import create_react_agent, AgentExecutor
from langchain_experimental.tools.python.tool import PythonREPLTool
from langchain.chat_models import init_chat_model
import getpass
from langchain.prompts import PromptTemplate
import psycopg2
from sqlalchemy.pool import StaticPool
from langchain_community.agent_toolkits.sql.toolkit import SQLDatabaseToolkit
from langchain_community.utilities.sql_database import SQLDatabase
from sqlalchemy import create_engine
from pathlib import Path
from dotenv import load_dotenv

In [38]:
linkml_schema= """id: http://example.org/chinook
name: chinook-data-schema
description: |
  LinkML schema for the Chinook database data, extracted from the provided ChinookData.json file.
  This schema models the various entities and their relationships within the Chinook dataset.
default_prefix: chinook

prefixes:
  chinook: http://example.org/chinook/
  linkml: https://w3id.org/linkml/

types:
  string:
    description: A string of characters.
  integer:
    description: An integer number.
  float:
    description: A floating-point number (e.g., for prices or totals).
  date:
    description: A date in YYYY-MM-DD format.
  datetime:
    description: A date and time in ISO 8601 format.

classes:
  ChinookData:
    description: |
      The root container for all Chinook database entities, representing the overall structure
      of the ChinookData.json file.
      Extracted from: ChinookData.json
    slots:
      genres:
        description: A list of music genres available in the database.
        range: Genre
        multivalued: true
      media_types:
        description: A list of media types (e.g., MPEG audio file, Protected AAC audio file) for tracks.
        range: MediaType
        multivalued: true
      artists:
        description: A list of music artists.
        range: Artist
        multivalued: true
      albums:
        description: A list of music albums.
        range: Album
        multivalued: true
      tracks:
        description: A list of individual music tracks.
        range: Track
        multivalued: true
      employees:
        description: A list of employees working for the company.
        range: Employee
        multivalued: true
      customers:
        description: A list of customers.
        range: Customer
        multivalued: true
      invoices:
        description: A list of customer invoices.
        range: Invoice
        multivalued: true
      invoice_lines:
        description: A list of individual line items within invoices.
        range: InvoiceLine
        multivalued: true
      playlists:
        description: A list of music playlists.
        range: Playlist
        multivalued: true
      playlist_tracks:
        description: A list of associations between playlists and tracks (many-to-many relationship).
        range: PlaylistTrack
        multivalued: true

  Genre:
    description: Represents a music genre.
    Extracted from: ChinookData.json
    slots:
      genre_id:
        description: Unique identifier for the genre.
        identifier: true
        range: integer
      name:
        description: Name of the genre (e.g., "Rock", "Jazz").
        range: string

  MediaType:
    description: Represents a type of media for tracks.
    Extracted from: ChinookData.json
    slots:
      media_type_id:
        description: Unique identifier for the media type.
        identifier: true
        range: integer
      name:
        description: Name of the media type (e.g., "MPEG audio file").
        range: string

  Artist:
    description: Represents a music artist.
    Extracted from: ChinookData.json
    slots:
      artist_id:
        description: Unique identifier for the artist.
        identifier: true
        range: integer
      name:
        description: Name of the artist.
        range: string

  Album:
    description: Represents a music album.
    Extracted from: ChinookData.json
    slots:
      album_id:
        description: Unique identifier for the album.
        identifier: true
        range: integer
      title:
        description: Title of the album.
        range: string
      artist_id:
        description: Foreign key referencing the Artist who created the album.
        range: integer
        foreign_key: true

  Track:
    description: Represents a music track.
    Extracted from: ChinookData.json
    slots:
      track_id:
        description: Unique identifier for the track.
        identifier: true
        range: integer
      name:
        description: Name of the track.
        range: string
      album_id:
        description: Foreign key referencing the Album to which the track belongs.
        range: integer
        foreign_key: true
      media_type_id:
        description: Foreign key referencing the MediaType of the track.
        range: integer
        foreign_key: true
      genre_id:
        description: Foreign key referencing the Genre of the track.
        range: integer
        foreign_key: true
      composer:
        description: The composer of the track. Can be null.
        range: string
        required: false
      milliseconds:
        description: Duration of the track in milliseconds.
        range: integer
      bytes:
        description: Size of the track in bytes.
        range: integer
      unit_price:
        description: Unit price of the track.
        range: float

  Employee:
    description: Represents an employee of the company.
    Extracted from: ChinookData.json
    slots:
      employee_id:
        description: Unique identifier for the employee.
        identifier: true
        range: integer
      last_name:
        description: Last name of the employee.
        range: string
      first_name:
        description: First name of the employee.
        range: string
      title:
        description: Job title of the employee.
        range: string
      reports_to:
        description: Foreign key referencing the Employee who is this employee's manager. Can be null for top-level employees.
        range: integer
        foreign_key: true
        required: false
      birth_date:
        description: Date of birth of the employee.
        range: string # TODO: Confirm if this should be 'date' or 'datetime' based on format.
      hire_date:
        description: Date when the employee was hired.
        range: string # TODO: Confirm if this should be 'date' or 'datetime' based on format.
      address:
        description: Street address of the employee.
        range: string
      city:
        description: City of the employee's address.
        range: string
      state:
        description: State of the employee's address.
        range: string
      country:
        description: Country of the employee's address.
        range: string
      postal_code:
        description: Postal code of the employee's address.
        range: string
      phone:
        description: Phone number of the employee.
        range: string
      fax:
        description: Fax number of the employee.
        range: string
      email:
        description: Email address of the employee.
        range: string

  Customer:
    description: Represents a customer.
    Extracted from: ChinookData.json
    slots:
      customer_id:
        description: Unique identifier for the customer.
        identifier: true
        range: integer
      first_name:
        description: First name of the customer.
        range: string
      last_name:
        description: Last name of the customer.
        range: string
      company:
        description: Company name of the customer, if applicable. Can be null for individual customers.
        range: string
        required: false
      address:
        description: Street address of the customer.
        range: string
      city:
        description: City of the customer's address.
        range: string
      state:
        description: State of the customer's address.
        range: string
      country:
        description: Country of the customer's address.
        range: string
      postal_code:
        description: Postal code of the customer's address.
        range: string
      phone:
        description: Phone number of the customer.
        range: string
      fax:
        description: Fax number of the customer.
        range: string
      email:
        description: Email address of the customer.
        range: string
      support_rep_id:
        description: Foreign key referencing the Employee who is the customer's support representative. Can be null.
        range: integer
        foreign_key: true
        required: false

  Invoice:
    description: Represents a customer invoice.
    Extracted from: ChinookData.json
    slots:
      invoice_id:
        description: Unique identifier for the invoice.
        identifier: true
        range: integer
      customer_id:
        description: Foreign key referencing the Customer associated with this invoice.
        range: integer
        foreign_key: true
      invoice_date:
        description: Date and time when the invoice was issued.
        range: string # TODO: Confirm if this should be 'date' or 'datetime' based on format.
      billing_address:
        description: Billing street address for the invoice.
        range: string
      billing_city:
        description: Billing city for the invoice.
        range: string
      billing_state:
        description: Billing state for the invoice.
        range: string
      billing_country:
        description: Billing country for the invoice.
        range: string
      billing_postal_code:
        description: Billing postal code for the invoice.
        range: string
      total:
        description: Total amount of the invoice.
        range: float

  InvoiceLine:
    description: Represents a single line item within an invoice.
    Extracted from: ChinookData.json
    slots:
      invoice_line_id:
        description: Unique identifier for the invoice line item.
        identifier: true
        range: integer
      invoice_id:
        description: Foreign key referencing the Invoice to which this line item belongs.
        range: integer
        foreign_key: true
      track_id:
        description: Foreign key referencing the Track purchased in this line item.
        range: integer
        foreign_key: true
      unit_price:
        description: Unit price of the track at the time of purchase.
        range: float
      quantity:
        description: Quantity of the track purchased in this line item.
        range: integer

  Playlist:
    description: Represents a music playlist.
    Extracted from: ChinookData.json
    slots:
      playlist_id:
        description: Unique identifier for the playlist.
        identifier: true
        range: integer
      name:
        description: Name of the playlist.
        range: string

  PlaylistTrack:
    description: |
      Represents the many-to-many relationship between Playlists and Tracks.
      This table links which tracks are part of which playlists.
    Extracted from: ChinookData.json
    slots:
      playlist_id:
        description: Foreign key referencing the Playlist.
        range: integer
        foreign_key: true
      track_id:
        description: Foreign key referencing the Track.
        range: integer
        foreign_key: true"""



In [39]:
system_prompt = PromptTemplate.from_template("""
Du bist ein hochspezialisierter Data Engineer, der ETL-Prozesse automatisiert. Deine Aufgabe ist es, den folgenden Prozess exakt durchzuführen. Du bist jedoch darauf trainiert, bei Fehlern nicht abzubrechen, sondern diese intelligent zu analysieren und mit den dir zur Verfügung stehenden Tools zu beheben.

**Gesamtziel:** Nutze die bereitgestellten Datenbeispiele (`{data_samples}`), um die Struktur der Quelldatei (`{source_file_path}`) zu verstehen. Extrahiere anschließend die vollständigen Daten und lade sie anhand des `{linkml_schema}` in eine PostgreSQL-Datenbank.

**Verfügbare Tools:**
Du hast Zugang zu folgenden Tools. Verwende sie, um deine Aufgaben zu erledigen.
{tools}

---

### **Phase 1: Daten extrahieren und temporäre Files erstellen (Python-Tool)**

1.  **Daten-Analyse:** Analysiere die `{data_samples}`, um die Struktur der Zieldatei (`{source_file_path}`) zu validieren.
2.  **Verzeichnis erstellen:** Stelle sicher, dass das Verzeichnis `../knowledge_base/temp/` existiert.
3.  **Vollständige Quelldatei laden:** Identifiziere das Dateiformat und lade die gesamte Datei.
4.  **Daten bereinigen:** Bevor die CSVs gespeichert werden, stelle sicher, dass Spalten, die Integer sein sollten (IDs, Fremdschlüssel), keine fehlerhaften Formate wie "1.0" enthalten. Korrigiere diese mit Pandas (z.B. `.astype('Int64')`).
5.  **In CSV-Dateien umwandeln:** Speichere die bereinigten Daten in separaten CSV-Dateien. Der Dateiname der CSV (ohne Endung) **muss exakt** dem Namen der entsprechenden Klasse im `{linkml_schema}` entsprechen.
6.  **Validierung:** Gib zur Überprüfung die ersten 2 Zeilen von mindestens einer CSV aus.

**ERFOLGSINDIKATOR FÜR PHASE 1:** Alle benötigten, bereinigten CSV-Dateien existieren im `../knowledge_base/temp/`-Verzeichnis.

---

### **Phase 2: Tabellen in der PostgreSQL-Datenbank erstellen (SQL-Tool)**

1.  **Bedingung:** Starte diese Phase erst nach dem erfolgreichen Abschluss von Phase 1.
2.  **Ablauf:**
    a.  Starte eine Transaktion mit `BEGIN;`.
    b.  Generiere ein **einziges SQL-Skript**, das alle `CREATE TABLE IF NOT EXISTS ...`-Anweisungen in der korrekten Reihenfolge (Eltern vor Kindern) enthält.
    c.  Führe das Skript in **einer einzigen Aktion** aus.
    d.  Schließe die Transaktion mit `COMMIT;` ab.

**ERFOLGSINDIKATOR FÜR PHASE 2:** Alle benötigten Tabellen existieren leer in der Datenbank.

---

### **Phase 3: Daten kopieren (FINALE PHASE)**

**Diese Phase entscheidet über den Gesamterfolg. Der gesamte ETL-Prozess gilt nur dann als erfolgreich, wenn diese Phase fehlerfrei abgeschlossen wird.**

1.  **Aktion: Daten laden (SQL-Tool)**
    -   **Bedingung:** Starte diesen Schritt erst nach dem erfolgreichen Abschluss von Phase 2.
    -   Generiere ein **einziges SQL-Skript**, das für jede in Phase 1 erstellte CSV-Datei einen `COPY`-Befehl enthält.
    -   Jeder `COPY`-Befehl muss dem Muster `COPY Tabellenname FROM '/knowledge_base/temp/Dateiname.csv' WITH (FORMAT csv, HEADER);` folgen.
    -   Führe das gesamte Skript in **einer einzigen Aktion** aus.

**ERFOLGSINDIKATOR FÜR PHASE 3 (und den gesamten Prozess):** Der `COPY`-Befehl wird ohne Fehler ausgeführt. Eine leere `Observation` nach der Ausführung signalisiert Erfolg.

---

### **DYNAMISCHE FEHLERBEHEBUNG**
-   **Wenn ein Fehler auftritt (egal in welcher Phase):** Stoppe den aktuellen Plan **sofort**.
-   **BEWERTUNG DES `Observation`-OUTPUTS:** Eine leere `Observation` nach einer SQL-Aktion bedeutet Erfolg. JEDE andere Ausgabe (Fehlermeldung, Kontext) bedeutet, dass die Aktion **FEHLGESCHLAGEN** ist. Du **MUSST** auf diesen Fehler reagieren.
-   **Bei SQL-Fehlern:** Führe, falls nötig, `ROLLBACK;` aus. Analysiere die Ursache im `Thought`-Block, entwickle einen Korrekturplan (meistens mit dem Python-Tool zur Bereinigung der CSVs) und starte die **fehlgeschlagene Phase** (z.B. Phase 2 oder Phase 3) erneut.

# ABSOLUT WICHTIGE REGELN
-   **Action Input Format:** Der `Action Input` muss **IMMER** reiner, unformatierter, direkt ausführbarer Code sein. Verwende **NIEMALS** Markdown-Blöcke.
-   **ABSCHLUSS-REGEL:** Du darfst den `Final Answer` mit der Erfolgsmeldung **AUSSCHLIESSLICH** und **NUR DANN** ausgeben, wenn **Phase 3 (das Kopieren der Daten) erfolgreich abgeschlossen wurde.**

Verwende das folgende Format, um deine Gedanken und Aktionen zu strukturieren:

Question: {input}
Thought: Ich denke darüber nach, was der nächste Schritt gemäß Phasenplan ist. **Wenn die letzte `Observation` einen Fehler anzeigt,** analysiere ich hier die Ursache, stelle eine Hypothese auf und plane die Korrekturschritte, bevor ich die fehlgeschlagene Phase neu starte.
Action: Die auszuführende Aktion. Muss eine aus den folgenden sein: {tool_names}
Action Input: der einzelne, reine Befehl für die Aktion
Observation: das Ergebnis der Aktion
... (dieser Thought/Action/Action Input/Observation wiederholt sich für jeden einzelnen Befehl)
Final Answer: Die finale Antwort auf die ursprüngliche Frage.

Beginne jetzt mit Phase 1.

Question: {input}
Thought:{agent_scratchpad}
""")

In [40]:


base_dir = Path.cwd()  # aktuelles Verzeichnis
utils_dir = base_dir.parent / "utils"  # ein Verzeichnis hoch, dann utils

sys.path.append(str(utils_dir))

from utils.schema_analyzer import SchemaAnalyzer

file_path = "../knowledge_base/persistant/ChinookData.json"

analyzer = SchemaAnalyzer("../knowledge_base/persistant/ChinookData.json")
result = analyzer.analyze()

number_of_lines = 10
snippets = analyzer.get_file_snippets(number_of_lines)

snippets = analyzer.get_file_snippets(n=10) # n=10 für 10 Zeilen
head_str = snippets.get('head')
middle_str = snippets.get('middle')
tail_str = snippets.get('tail')

data_samples_str = f"""
Hier sind die Stichproben aus der Datei:
- Head:
{head_str}

- Middle:
{middle_str}

- Tail:
{tail_str}
"""

schema_str = json.dumps(result, indent=2)

load_dotenv()
api_key = os.getenv("LLM_API_KEY")
llm_provider = os.getenv("LLM_PROVIDER")
llm_model = os.getenv("LLM_MODEL")


llm = init_chat_model(
    llm_model, model_provider=llm_provider, temperature=0
)

In [None]:


class QuietPythonREPLTool(PythonREPLTool):
    def _run(self, query: str) -> str:
        result = super()._run(query)
        # Schneide lange Ausgaben ab
        if len(result) > 2000:
            return result[:2000] + "\n... (Ausgabe gekürzt)"
        return result

db_uri = "postgresql+psycopg2://langchain_user:supersecurepassword@localhost:5432/langchain_db"
engine = create_engine(db_uri)

def get_engine_for_postgres_db():
    # Connection URL for SQLAlchemy using the psycopg2 PostgreSQL driver
    url = "postgresql+psycopg2://langchain_user:supersecurepassword@localhost:5432/langchain_db"

    # Function that creates a new connection to the PostgreSQL database
    def connect():
        return psycopg2.connect(
            dbname="langchain_db",   
            user="langchain_user",            
            password="supersecurepassword",        
            host="localhost",        
            port=5432               
        )
    engine = create_engine(
        url,
        creator=connect,
        poolclass=StaticPool
    )
    return engine


engine = get_engine_for_postgres_db()

tool_description = "SQL: Führt SQL Statements in der Datenbank aus und gibt das Ergebnis zurück. Es dient dazu csv datein aus einem Ordner in die Datenbank zu laden"

db = SQLDatabase(engine)

# Verwende das neue Tool
python_tool = QuietPythonREPLTool(description="Dient dazu Daten zu laden, transformieren und zu speichern.")


sql_tools = SQLDatabaseToolkit(db=db, llm=llm)
tools = [python_tool] + sql_tools.get_tools()

agent = create_react_agent(llm=llm, tools=tools, prompt=system_prompt)
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True,handle_parsing_errors=True,max_iterations = 100)



events = agent_executor.stream({
    "input":"Mach mal",
    "linkml_schema": linkml_schema,
    "data_samples": data_samples_str,
    "source_file_path": file_path,
})

for event in events:
    print(event)
    event["messages"][-1].pretty_print()




[1m> Entering new None chain...[0m
{'actions': [AgentAction(tool='Python_REPL', tool_input='import os\nimport json\nimport pandas as pd\nimport re\n\n# Helper function to convert PascalCase to snake_case\ndef pascal_to_snake(name):\n    s1 = re.sub(\'(.)([A-Z][a-z]+)\', r\'\\1_\\2\', name)\n    return re.sub(\'([a-z0-9])([A-Z])\', r\'\\1_\\2\', s1).lower()\n\n# 1. Verzeichnis erstellen\ntemp_dir = \'../knowledge_base/temp/\'\nos.makedirs(temp_dir, exist_ok=True)\n\n# 2. Vollständige Quelldatei laden\nfile_path = \'../knowledge_base/persistant/ChinookData.json\'\nwith open(file_path, \'r\') as f:\n    data = json.load(f)\n\n# Mapping from ChinookData slot names (plural) to LinkML class names (singular)\nslot_to_class_map = {\n    "genres": "Genre",\n    "media_types": "MediaType",\n    "artists": "Artist",\n    "albums": "Album",\n    "tracks": "Track",\n    "employees": "Employee",\n    "customers": "Customer",\n    "invoices": "Invoice",\n    "invoice_lines": "InvoiceLine",\n    "

: 