# Import / Config

In [1]:
%load_ext autoreload
%autoreload 2

In [1]:
import os
from pathlib import Path
from dotenv import load_dotenv
import edurel.utils.duckdb as ddbu

load_dotenv() 
BASE_DIR = os.getenv("BASE_DIR")
DB_DIR = f"{BASE_DIR}/databases/"

# DBs

## DE

In [None]:
con
sql = """
select * from projekt;
"""
u.sql_print(db_de.con, sql)

/home/du/fs-ws-25-26/databases/db-company_de/schema.yaml
Table: MaProj (MID INTEGER NOT NULL, PID INTEGER NOT NULL, StdProWoche INTEGER NOT NULL)
Table: Mitarbeiter (MID INTEGER NOT NULL, OEID INTEGER NOT NULL, Name VARCHAR NOT NULL, Vorname VARCHAR NOT NULL, Eintrittsdatum DATE NOT NULL, Gehalt DECIMAL(9,2) NOT NULL, Bonus DECIMAL(9,2) NULL)
Table: Orgeinheit (OEID INTEGER NOT NULL, Leitung INTEGER NULL, Obereinheit INTEGER NULL, Bezeichnung VARCHAR NOT NULL)
Table: Projekt (PID INTEGER NOT NULL, Titel VARCHAR NOT NULL, Budget DECIMAL(13,2) NULL)
Foreign Key: MaProj(MID) -> Mitarbeiter(MID)
Foreign Key: MaProj(PID) -> Projekt(PID)
Foreign Key: Mitarbeiter(OEID) -> Orgeinheit(OEID)

┌───────┬────────────────────────┬───────────────┐
│  PID  │         Titel          │    Budget     │
│ int32 │        varchar         │ decimal(13,2) │
├───────┼────────────────────────┼───────────────┤
│     1 │ Strategie              │      80000.00 │
│     2 │ CRM                    │      20000.00 │
│ 

## EN

In [8]:
db_en = DB("company_en", "ddl")
db_en.duckdb_mem_con()
db_en_schema = u.duckdb_schema(db_en.con)
print(db_en_schema)
sql = """
select * from project;
"""
u.sql_print(db_en.con, sql)

Table: EmpProj (EID INTEGER NOT NULL, PID INTEGER NOT NULL, NoOfHoursPerWeek INTEGER NOT NULL)
Table: Employee (EID INTEGER NOT NULL, OUID INTEGER NOT NULL, LastName VARCHAR NOT NULL, Hiredate DATE NOT NULL, Salary DECIMAL(9,2) NOT NULL, Bonus DECIMAL(9,2) NULL)
Table: OrgUnit (OUID INTEGER NOT NULL, Head INTEGER NULL, SuperUnit INTEGER NULL, Name VARCHAR NOT NULL)
Table: Project (PID INTEGER NOT NULL, Title VARCHAR NOT NULL, Budget DECIMAL(13,2) NULL)
Foreign Key: EmpProj(EID) -> Employee(EID)
Foreign Key: EmpProj(PID) -> Project(PID)
Foreign Key: Employee(OUID) -> OrgUnit(OUID)

┌───────┬────────────────────────┬───────────────┐
│  PID  │         Title          │    Budget     │
│ int32 │        varchar         │ decimal(13,2) │
├───────┼────────────────────────┼───────────────┤
│     1 │ Strategy               │      80000.00 │
│     2 │ CRM                    │      20000.00 │
│     3 │ Plant Restructurierung │      50000.00 │
│     4 │ Sales                  │          NULL │
└───

# Explain Schema

## DE

### GPT5MINI

In [9]:
chat = llm.chat_llm_stats(llm.GPT5MINI)
content = llm.chat_explain_schema(chat, db_de_schema, lang="German")
print(content)

Die Datenbank modelliert eine Personal- und Projektverwaltung mit vier entkoppelten, aber miteinander verknüpften Bereichen: Mitarbeiter, Organisationseinheiten, Projekte und die Zuordnung von Mitarbeitern zu Projekten. Im Folgenden werden die Entitäten, ihre Attribute und die Beziehungen ausführlich beschrieben.

Mitarbeiter
- Repräsentiert einzelne Angestellte. Jeder Mitarbeiter besitzt eine eindeutige Identifikationsnummer (Primärschlüssel).
- Wichtige Attribute sind: Vorname und Name zur Namensdarstellung; Eintrittsdatum zur Erfassung des Beschäftigungsbeginns; Gehalt und Bonus als monetäre Werte mit zwei Dezimalstellen zur Abbildung von Festgehalt und leistungsabhängigen Zahlungen.
- Jeder Mitarbeiter ist einer Organisationseinheit zugeordnet (Fremdschlüssel auf die Organisationseinheit). Dadurch lässt sich organisatorisch gliedern, wer in welcher Abteilung oder Einheit arbeitet.

Organisationseinheit
- Stellt eine Abteilung oder organisatorische Einheit dar. Ebenfalls besitzt jed

### DEEPSEEK32

In [22]:
chat = llm.chat_llm_stats(llm.DEEPSEEK32)
content = llm.chat_explain_schema(chat, db_de_schema, lang="German")
print(content)

Die Datenbank besteht aus vier Tabellen, die Informationen zu Mitarbeitern, Projekten, Organisationsstrukturen und deren Verknüpfungen speichern.

Die Tabelle "Mitarbeiter" enthält persönliche Daten der Angestellten, wie Name, Vorname, Eintrittsdatum, Gehalt und Bonus. Jeder Mitarbeiter ist über eine Organisations-Einheits-ID einer bestimmten Abteilung zugeordnet.

Die Tabelle "Orgeinheit" bildet die hierarchische Struktur des Unternehmens ab. Sie enthält Bezeichnungen für jede Einheit, verweist auf die übergeordnete Einheit und speichert, welcher Mitarbeiter die Leitung innehat.

Die Tabelle "Projekt" verwaltet alle Projekte des Unternehmens mit Titel und Budget.

Die Verknüpfungstabelle "MaProj" dokumentiert die Zuordnung von Mitarbeitern zu Projekten und speichert zusätzlich die standardmäßige Arbeitszeit pro Woche für diese Projektmitarbeit.

Die Beziehungen zwischen den Tabellen sind wie folgt gestaltet: Mitarbeiter sind Organisations-Einheiten zugeordnet, Mitarbeiter werden Proje

## EN

### GPT5MINI

In [7]:
chat = llm.chat_llm_stats(llm.GPT5MINI)
content = llm.chat_explain_schema(chat, db_en_schema)
print(content)

This database models employees, the organizational units they belong to, projects, and the assignment of employees to projects. It uses four entity types and relationships between them to capture who works where, who reports to whom, what projects exist, and how employees are allocated to projects.

Entities and attributes

- Employee: Each employee is represented by a unique identifier and has attributes that describe their organizational placement and compensation. Key fields include:
  - An employee identifier (used to reference a specific person).
  - A reference to the organizational unit the employee belongs to.
  - The employee’s last name.
  - The hire date.
  - Salary and bonus amounts, stored as numeric/decimal values.

  These attributes let you track personal and payroll-related information as well as the employee’s place in the organization.

- OrgUnit (organizational unit): This models departments, teams, or other reporting units. Important fields:
  - A unique identifier

### DEEPSEEK32

In [23]:
chat = llm.chat_llm_stats(llm.DEEPSEEK32)
content = llm.chat_explain_schema(chat, db_en_schema)
print(content)

This database tracks employees, their organizational structure, and the projects they work on.

There are four main tables. The first table stores details about individual employees, including their ID, last name, hire date, salary, bonus, and the organizational unit they belong to.

The second table defines the organizational hierarchy. It contains units with unique IDs, their names, a reference to their parent unit, and the ID of the employee who leads each unit.

The third table holds information about projects, including a project ID, its title, and its total budget.

The final table is a junction table that manages the many-to-many relationship between employees and projects. It records which employees are assigned to which projects and specifies the number of hours per week each employee dedicates to a given project.

Foreign key constraints ensure data integrity by linking these tables together. The employee table is connected to the organizational unit table, and the junction t

# Q1

## DE

### GPT5MINI

In [None]:
question = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- mid, name, eintrittsdatum aus tabelle mitarbeiter
- eintrittsjahr pro mitarbeiter 
sortiert nach mid
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_de_schema, question)
print(sql)

SELECT MID, Name, Eintrittsdatum, EXTRACT(YEAR FROM Eintrittsdatum)::INTEGER AS eintrittsjahr
FROM Mitarbeiter
ORDER BY MID;


In [6]:
u.sql_print(db_de.con, sql)

┌───────┬──────────┬────────────────┬───────────────┐
│  MID  │   Name   │ Eintrittsdatum │ eintrittsjahr │
│ int32 │ varchar  │      date      │     int32     │
├───────┼──────────┼────────────────┼───────────────┤
│   101 │ Kramer   │ 2000-05-01     │          2000 │
│   102 │ Durmaz   │ 2005-07-01     │          2005 │
│   103 │ Blaschke │ 2002-11-01     │          2002 │
│   104 │ Rot      │ 2006-06-01     │          2006 │
│   105 │ Neumann  │ 2018-02-02     │          2018 │
│   106 │ Hansen   │ 2002-12-01     │          2002 │
│   107 │ Nguyen   │ 2006-07-01     │          2006 │
│   108 │ Vogel    │ 2014-04-01     │          2014 │
│   109 │ Meier    │ 2006-07-01     │          2006 │
│   110 │ Schrader │ 2005-09-02     │          2005 │
│   111 │ Dragovic │ 2010-01-02     │          2010 │
│   112 │ Hensen   │ 2012-03-01     │          2012 │
│   113 │ Schimmel │ 2001-08-01     │          2001 │
│   114 │ Popov    │ 2009-03-02     │          2009 │
│   115 │ Hermans  │ 2013-05

## EN

### GPT5MINI

In [7]:
question = """
create a SQL query that outputs the following columns:
- eid, lastname, hiredate from table employee
- entry year per employee 
sorted by eid
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_en_schema, question)
print(sql)

SELECT EID, LastName, Hiredate, EXTRACT(YEAR FROM Hiredate) AS entry_year
FROM Employee
ORDER BY EID;


In [8]:
u.sql_print(db_en.con, sql)

┌───────┬──────────┬────────────┬────────────┐
│  EID  │ LastName │  Hiredate  │ entry_year │
│ int32 │ varchar  │    date    │   int64    │
├───────┼──────────┼────────────┼────────────┤
│   101 │ Patil    │ 2000-05-01 │       2000 │
│   102 │ Durmaz   │ 2005-07-01 │       2005 │
│   103 │ Blaschke │ 2002-11-01 │       2002 │
│   104 │ Stone    │ 2006-06-01 │       2006 │
│   105 │ Dalal    │ 2018-02-02 │       2018 │
│   106 │ Li       │ 2002-12-01 │       2002 │
│   107 │ Nguyen   │ 2006-07-01 │       2006 │
│   108 │ Sanchez  │ 2014-04-01 │       2014 │
│   109 │ Umarani  │ 2006-07-01 │       2006 │
│   110 │ Ortega   │ 2005-09-02 │       2005 │
│   111 │ Doshi    │ 2010-01-02 │       2010 │
│   112 │ Singh    │ 2012-03-01 │       2012 │
│   113 │ Jadhav   │ 2001-08-01 │       2001 │
│   114 │ Popov    │ 2009-03-02 │       2009 │
│   115 │ Kumar    │ 2013-05-01 │       2013 │
│   116 │ Krause   │ 2011-08-01 │       2011 │
│   117 │ Oezdem   │ 2014-08-01 │       2014 │
│   118 │ Oke

# Q2

## DE

### GPT5MINI

In [9]:
question = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- mid, name, eintrittsdatum aus tabelle mitarbeiter
- eintrittsjahr pro mitarbeiter 
nur für abteilung 14
sortiert nach mid
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_de_schema, question)
print(sql)

SELECT MID, Name, Eintrittsdatum, EXTRACT(YEAR FROM Eintrittsdatum) AS Eintrittsjahr
FROM Mitarbeiter
WHERE OEID = 14
ORDER BY MID;


In [10]:
u.sql_print(db_de.con, sql)

┌───────┬─────────┬────────────────┬───────────────┐
│  MID  │  Name   │ Eintrittsdatum │ Eintrittsjahr │
│ int32 │ varchar │      date      │     int64     │
├───────┼─────────┼────────────────┼───────────────┤
│   106 │ Hansen  │ 2002-12-01     │          2002 │
│   107 │ Nguyen  │ 2006-07-01     │          2006 │
│   108 │ Vogel   │ 2014-04-01     │          2014 │
└───────┴─────────┴────────────────┴───────────────┘



## EN

### GPT5MINI

In [None]:
question = """
create a SQL query that outputs the following columns:
- eid, lastname, hiredate from table employee
- entry year per employee 
only for department 14
sorted by eid
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_en_schema, question)
print(sql)

SELECT e.eid, e.lastname, e.hiredate, EXTRACT(YEAR FROM e.hiredate)::INT AS entry_year
FROM Employee e
WHERE e.ouid = 14
ORDER BY e.eid;


In [12]:
u.sql_print(db_en.con, sql)

┌───────┬──────────┬────────────┬────────────┐
│  EID  │ LastName │  Hiredate  │ entry_year │
│ int32 │ varchar  │    date    │   int32    │
├───────┼──────────┼────────────┼────────────┤
│   106 │ Li       │ 2002-12-01 │       2002 │
│   107 │ Nguyen   │ 2006-07-01 │       2006 │
│   108 │ Sanchez  │ 2014-04-01 │       2014 │
└───────┴──────────┴────────────┴────────────┘



# Q3

## DE

### GPT5MINI

In [13]:
question = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- mid, name, eintrittsdatum aus tabelle mitarbeiter
- beschäftigungsjahre pro mitarbeiter 
nur für abteilung 14
sortiert nach mid
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_de_schema, question)
print(sql)

SELECT mid, name, eintrittsdatum, date_part('year', age(current_date, eintrittsdatum)) AS beschaeftigungsjahre
FROM mitarbeiter
WHERE oeid = 14
ORDER BY mid;


In [14]:
u.sql_print(db_de.con, sql)

┌───────┬─────────┬────────────────┬──────────────────────┐
│  MID  │  Name   │ Eintrittsdatum │ beschaeftigungsjahre │
│ int32 │ varchar │      date      │        int64         │
├───────┼─────────┼────────────────┼──────────────────────┤
│   106 │ Hansen  │ 2002-12-01     │                   22 │
│   107 │ Nguyen  │ 2006-07-01     │                   19 │
│   108 │ Vogel   │ 2014-04-01     │                   11 │
└───────┴─────────┴────────────────┴──────────────────────┘



## EN

### GPT5MINI

In [15]:
question = """
create a SQL query that outputs the following columns:
- eid, lastname, hiredate from table employee
- number of years of deployment per employee 
only for department 14
sorted by eid
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_en_schema, question)
print(sql)

SELECT e.eid, e.lastname, e.hiredate,
       FLOOR(EXTRACT(YEAR FROM AGE(CURRENT_DATE, e.hiredate)))::int AS years_deployed
FROM Employee e
WHERE e.ouid = 14
ORDER BY e.eid;


In [16]:
u.sql_print(db_en.con, sql)

┌───────┬──────────┬────────────┬────────────────┐
│  EID  │ LastName │  Hiredate  │ years_deployed │
│ int32 │ varchar  │    date    │     int32      │
├───────┼──────────┼────────────┼────────────────┤
│   106 │ Li       │ 2002-12-01 │             22 │
│   107 │ Nguyen   │ 2006-07-01 │             19 │
│   108 │ Sanchez  │ 2014-04-01 │             11 │
└───────┴──────────┴────────────┴────────────────┘



# Q4

## DE

### GPT5MINI

In [19]:
question = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- name, gehalt, bonus aus tabelle mitarbeiter
nur mitarbeiter ohne bonus
sortiert nach name
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_de_schema, question)
print(sql)

SELECT Name, Gehalt, Bonus
FROM Mitarbeiter
WHERE COALESCE(Bonus, 0) = 0
ORDER BY Name;


In [20]:
u.sql_print(db_de.con, sql)

┌──────────┬──────────────┬──────────────┐
│   Name   │    Gehalt    │    Bonus     │
│ varchar  │ decimal(9,2) │ decimal(9,2) │
├──────────┼──────────────┼──────────────┤
│ Blaschke │     93000.00 │         NULL │
│ Dragovic │     42000.00 │         NULL │
│ Durmaz   │    120000.00 │         NULL │
│ Hansen   │     89000.00 │         NULL │
│ Hermans  │     32000.00 │         NULL │
│ Kramer   │    180000.00 │         NULL │
│ Krause   │     31000.00 │         NULL │
│ Meier    │    142000.00 │         NULL │
│ Nguyen   │     41000.00 │         NULL │
│ Popov    │     34000.00 │         NULL │
│ Rot      │     42000.00 │         NULL │
│ Schimmel │     91000.00 │         NULL │
│ Schrader │     90000.00 │         NULL │
├──────────┴──────────────┴──────────────┤
│ 13 rows                      3 columns │
└────────────────────────────────────────┘



## EN

### GPT5MINI

In [21]:
question = """
create a SQL query that outputs the following columns:
- lastname, salary, bonus from table employee
only employees without bonus
sorted by eid
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_en_schema, question)
print(sql)

SELECT LastName, Salary, Bonus
FROM Employee
WHERE Bonus IS NULL OR Bonus = 0
ORDER BY EID;


In [22]:
u.sql_print(db_en.con, sql)

┌──────────┬──────────────┬──────────────┐
│ LastName │    Salary    │    Bonus     │
│ varchar  │ decimal(9,2) │ decimal(9,2) │
├──────────┼──────────────┼──────────────┤
│ Patil    │    180000.00 │         NULL │
│ Durmaz   │    120000.00 │         NULL │
│ Blaschke │     93000.00 │         NULL │
│ Stone    │     42000.00 │         NULL │
│ Li       │     89000.00 │         NULL │
│ Nguyen   │     41000.00 │         NULL │
│ Umarani  │    142000.00 │         NULL │
│ Ortega   │     90000.00 │         NULL │
│ Doshi    │     42000.00 │         NULL │
│ Jadhav   │     91000.00 │         NULL │
│ Popov    │     34000.00 │         NULL │
│ Kumar    │     32000.00 │         NULL │
│ Krause   │     31000.00 │         NULL │
├──────────┴──────────────┴──────────────┤
│ 13 rows                      3 columns │
└────────────────────────────────────────┘



# Q5

## DE

### GPT5MINI

In [23]:
question = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- name, gehalt, bonus aus tabelle mitarbeiter
nur mitarbeiter with bonus
sortiert nach name
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_de_schema, question)
print(sql)

SELECT name, gehalt, bonus
FROM Mitarbeiter
WHERE bonus IS NOT NULL AND bonus <> 0
ORDER BY name;


In [24]:
u.sql_print(db_de.con, sql)

┌─────────┬──────────────┬──────────────┐
│  Name   │    Gehalt    │    Bonus     │
│ varchar │ decimal(9,2) │ decimal(9,2) │
├─────────┼──────────────┼──────────────┤
│ Hensen  │     43000.00 │      2100.00 │
│ Neumann │     38000.00 │      1000.00 │
│ Oezdem  │     33000.00 │      1900.00 │
│ Okeke   │     32000.00 │      1900.00 │
│ Vogel   │     39000.00 │      1500.00 │
└─────────┴──────────────┴──────────────┘



## EN

### GPT5MINI

In [25]:
question = """
create a SQL query that outputs the following columns:
- lastname, salary, bonus from table employee
only employees with bonus
sorted by eid
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_en_schema, question)
print(sql)

SELECT LastName, Salary, Bonus
FROM Employee
WHERE Bonus > 0
ORDER BY EID;


In [26]:
u.sql_print(db_en.con, sql)

┌──────────┬──────────────┬──────────────┐
│ LastName │    Salary    │    Bonus     │
│ varchar  │ decimal(9,2) │ decimal(9,2) │
├──────────┼──────────────┼──────────────┤
│ Dalal    │     38000.00 │      1000.00 │
│ Sanchez  │     39000.00 │      1500.00 │
│ Singh    │     43000.00 │      2100.00 │
│ Oezdem   │     33000.00 │      1900.00 │
│ Okeke    │     32000.00 │      1900.00 │
└──────────┴──────────────┴──────────────┘



# Q6

## DE

### GPT5MINI

In [37]:
question = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- mid, name, gehalt, bonus aus tabelle mitarbeiter
- gesamteinkommen pro mitarbeiter 
nur für abteilung 17
sortiert nach mid
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_de_schema, question)
print(sql)

SELECT "MID", "Name", "Gehalt", "Bonus", ("Gehalt" + COALESCE("Bonus", 0)) AS "Gesamteinkommen"
FROM "Mitarbeiter"
WHERE "OEID" = 17
ORDER BY "MID";


In [38]:
u.sql_print(db_de.con, sql)

┌───────┬─────────┬──────────────┬──────────────┬─────────────────┐
│  MID  │  Name   │    Gehalt    │    Bonus     │ Gesamteinkommen │
│ int32 │ varchar │ decimal(9,2) │ decimal(9,2) │  decimal(13,2)  │
├───────┼─────────┼──────────────┼──────────────┼─────────────────┤
│   114 │ Popov   │     34000.00 │         NULL │        34000.00 │
│   115 │ Hermans │     32000.00 │         NULL │        32000.00 │
│   116 │ Krause  │     31000.00 │         NULL │        31000.00 │
│   117 │ Oezdem  │     33000.00 │      1900.00 │        34900.00 │
│   118 │ Okeke   │     32000.00 │      1900.00 │        33900.00 │
└───────┴─────────┴──────────────┴──────────────┴─────────────────┘



## EN

### GPT5MINI

In [39]:
question = """
create a SQL query that outputs the following columns:
- eid, lastname, salary, bonus from table employee
- total income per employee 
only for department 17
sorted by eid
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_en_schema, question)
print(sql)

SELECT e.eid, e.lastname, e.salary, e.bonus, (e.salary + COALESCE(e.bonus, 0)) AS total_income
FROM Employee e
WHERE e.ouid = 17
ORDER BY e.eid;


In [40]:
u.sql_print(db_en.con, sql)

┌───────┬──────────┬──────────────┬──────────────┬───────────────┐
│  EID  │ LastName │    Salary    │    Bonus     │ total_income  │
│ int32 │ varchar  │ decimal(9,2) │ decimal(9,2) │ decimal(13,2) │
├───────┼──────────┼──────────────┼──────────────┼───────────────┤
│   114 │ Popov    │     34000.00 │         NULL │      34000.00 │
│   115 │ Kumar    │     32000.00 │         NULL │      32000.00 │
│   116 │ Krause   │     31000.00 │         NULL │      31000.00 │
│   117 │ Oezdem   │     33000.00 │      1900.00 │      34900.00 │
│   118 │ Okeke    │     32000.00 │      1900.00 │      33900.00 │
└───────┴──────────┴──────────────┴──────────────┴───────────────┘



# Q7

## DE

### GPT5MINI

In [41]:
question = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- mid, name, gehalt aus tabelle mitarbeiter
- gehaltsklasse pro mitarbeiter 
es gibt folgende gehaltsklassen:
- niedrig <= 35000
- mittel > 35000
- hoch > 100000
sortiert nach gehalt
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_de_schema, question)
print(sql)

SELECT MID, Name, Gehalt,
  CASE
    WHEN Gehalt > 100000 THEN 'hoch'
    WHEN Gehalt > 35000 THEN 'mittel'
    ELSE 'niedrig'
  END AS gehaltsklasse
FROM Mitarbeiter
ORDER BY Gehalt;


In [42]:
u.sql_print(db_de.con, sql)

┌───────┬──────────┬──────────────┬───────────────┐
│  MID  │   Name   │    Gehalt    │ gehaltsklasse │
│ int32 │ varchar  │ decimal(9,2) │    varchar    │
├───────┼──────────┼──────────────┼───────────────┤
│   116 │ Krause   │     31000.00 │ niedrig       │
│   115 │ Hermans  │     32000.00 │ niedrig       │
│   118 │ Okeke    │     32000.00 │ niedrig       │
│   117 │ Oezdem   │     33000.00 │ niedrig       │
│   114 │ Popov    │     34000.00 │ niedrig       │
│   105 │ Neumann  │     38000.00 │ mittel        │
│   108 │ Vogel    │     39000.00 │ mittel        │
│   107 │ Nguyen   │     41000.00 │ mittel        │
│   104 │ Rot      │     42000.00 │ mittel        │
│   111 │ Dragovic │     42000.00 │ mittel        │
│   112 │ Hensen   │     43000.00 │ mittel        │
│   106 │ Hansen   │     89000.00 │ mittel        │
│   110 │ Schrader │     90000.00 │ mittel        │
│   113 │ Schimmel │     91000.00 │ mittel        │
│   103 │ Blaschke │     93000.00 │ mittel        │
│   102 │ Du

## EN

### GPT5MINI

In [43]:
question = """
create a SQL query that outputs the following columns:
- eid, lastname, salary from table employee
- salary band per employee 
there are the following salary bands:
- low <= 35000
- medium > 35000
- high > 100000
sorted by salary
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_en_schema, question)
print(sql)

SELECT EID, LastName, Salary,
  CASE
    WHEN Salary > 100000 THEN 'high'
    WHEN Salary > 35000 THEN 'medium'
    ELSE 'low'
  END AS salary_band
FROM Employee
ORDER BY Salary;


In [44]:
u.sql_print(db_en.con, sql)

┌───────┬──────────┬──────────────┬─────────────┐
│  EID  │ LastName │    Salary    │ salary_band │
│ int32 │ varchar  │ decimal(9,2) │   varchar   │
├───────┼──────────┼──────────────┼─────────────┤
│   116 │ Krause   │     31000.00 │ low         │
│   115 │ Kumar    │     32000.00 │ low         │
│   118 │ Okeke    │     32000.00 │ low         │
│   117 │ Oezdem   │     33000.00 │ low         │
│   114 │ Popov    │     34000.00 │ low         │
│   105 │ Dalal    │     38000.00 │ medium      │
│   108 │ Sanchez  │     39000.00 │ medium      │
│   107 │ Nguyen   │     41000.00 │ medium      │
│   104 │ Stone    │     42000.00 │ medium      │
│   111 │ Doshi    │     42000.00 │ medium      │
│   112 │ Singh    │     43000.00 │ medium      │
│   106 │ Li       │     89000.00 │ medium      │
│   110 │ Ortega   │     90000.00 │ medium      │
│   113 │ Jadhav   │     91000.00 │ medium      │
│   103 │ Blaschke │     93000.00 │ medium      │
│   102 │ Durmaz   │    120000.00 │ high        │


# Q8

## DE

### GPT5MINI

In [45]:
question = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- bezeichung aus tabelle orgeinheit mit alias orgeinheit
- mid, name aus tabelle mitarbeiter
sortiert nach orgeinheit, mid
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_de_schema, question)
print(sql)

SELECT o.Bezeichnung AS orgeinheit, m.MID, m.Name
FROM Mitarbeiter m
JOIN Orgeinheit o ON m.OEID = o.OEID
ORDER BY orgeinheit, m.MID;


In [46]:
u.sql_print(db_de.con, sql)

┌─────────────┬───────┬──────────┐
│ orgeinheit  │  MID  │   Name   │
│   varchar   │ int32 │ varchar  │
├─────────────┼───────┼──────────┤
│ Buchhaltung │   106 │ Hansen   │
│ Buchhaltung │   107 │ Nguyen   │
│ Buchhaltung │   108 │ Vogel    │
│ Lager       │   114 │ Popov    │
│ Lager       │   115 │ Hermans  │
│ Lager       │   116 │ Krause   │
│ Lager       │   117 │ Oezdem   │
│ Lager       │   118 │ Okeke    │
│ Personal    │   103 │ Blaschke │
│ Personal    │   104 │ Rot      │
│ Personal    │   105 │ Neumann  │
│ Produktion  │   109 │ Meier    │
│ Unternehmen │   101 │ Kramer   │
│ Verwaltung  │   102 │ Durmaz   │
│ Werk        │   110 │ Schrader │
│ Werk        │   111 │ Dragovic │
│ Werk        │   112 │ Hensen   │
│ Werk        │   113 │ Schimmel │
├─────────────┴───────┴──────────┤
│ 18 rows              3 columns │
└────────────────────────────────┘



## EN

### GPT5MINI

In [47]:
question = """
create a SQL query that outputs the following columns:
- name from table orgunit with alias orgunit
- eid, lastname from table employee
sorted by orgunit, eid
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_en_schema, question)
print(sql)

SELECT o.name AS orgunit, e.eid, e.lastname
FROM OrgUnit o
JOIN Employee e ON e.ouid = o.ouid
ORDER BY orgunit, eid;


In [48]:
u.sql_print(db_en.con, sql)

┌────────────────┬───────┬──────────┐
│    orgunit     │  EID  │ LastName │
│    varchar     │ int32 │ varchar  │
├────────────────┼───────┼──────────┤
│ Accounting     │   106 │ Li       │
│ Accounting     │   107 │ Nguyen   │
│ Accounting     │   108 │ Sanchez  │
│ Administration │   102 │ Durmaz   │
│ Company        │   101 │ Patil    │
│ HR             │   103 │ Blaschke │
│ HR             │   104 │ Stone    │
│ HR             │   105 │ Dalal    │
│ Plant          │   110 │ Ortega   │
│ Plant          │   111 │ Doshi    │
│ Plant          │   112 │ Singh    │
│ Plant          │   113 │ Jadhav   │
│ Production     │   109 │ Umarani  │
│ Warehouse      │   114 │ Popov    │
│ Warehouse      │   115 │ Kumar    │
│ Warehouse      │   116 │ Krause   │
│ Warehouse      │   117 │ Oezdem   │
│ Warehouse      │   118 │ Okeke    │
├────────────────┴───────┴──────────┤
│ 18 rows                 3 columns │
└───────────────────────────────────┘



# Q9

## DE

### GPT5MINI

In [5]:
question = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- titel aus tabelle projekt mit alias projekt
- mid, name aus tabelle mitarbeiter
sortiert nach titel, mid
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_de_schema, question)
print(sql)

SELECT p.titel AS projekt, m.mid, m.name
FROM projekt p
JOIN maproj mp ON p.pid = mp.pid
JOIN mitarbeiter m ON mp.mid = m.mid
ORDER BY p.titel, m.mid;


In [6]:
u.sql_print(db_de.con, sql)

┌────────────────────────┬───────┬──────────┐
│        projekt         │  MID  │   Name   │
│        varchar         │ int32 │ varchar  │
├────────────────────────┼───────┼──────────┤
│ CRM                    │   102 │ Durmaz   │
│ CRM                    │   103 │ Blaschke │
│ Restrukturierung Lager │   109 │ Meier    │
│ Restrukturierung Lager │   114 │ Popov    │
│ Restrukturierung Lager │   117 │ Oezdem   │
│ Restrukturierung Lager │   118 │ Okeke    │
│ Strategie              │   101 │ Kramer   │
│ Strategie              │   102 │ Durmaz   │
│ Strategie              │   109 │ Meier    │
└────────────────────────┴───────┴──────────┘



## EN

### GPT5MINI

In [51]:
question = """
create a SQL query that outputs the following columns:
- title from table project with alias project
- eid, lastname from table employee
sorted by title, eid
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_en_schema, question)
print(sql)

SELECT p.title AS project, e.eid, e.lastname
FROM Project p
JOIN EmpProj ep ON p.pid = ep.pid
JOIN Employee e ON ep.eid = e.eid
ORDER BY p.title, e.eid;


In [52]:
u.sql_print(db_en.con, sql)

┌────────────────────────┬───────┬──────────┐
│        project         │  EID  │ LastName │
│        varchar         │ int32 │ varchar  │
├────────────────────────┼───────┼──────────┤
│ CRM                    │   102 │ Durmaz   │
│ CRM                    │   103 │ Blaschke │
│ Plant Restructurierung │   109 │ Umarani  │
│ Plant Restructurierung │   114 │ Popov    │
│ Plant Restructurierung │   117 │ Oezdem   │
│ Plant Restructurierung │   118 │ Okeke    │
│ Strategy               │   101 │ Patil    │
│ Strategy               │   102 │ Durmaz   │
│ Strategy               │   109 │ Umarani  │
└────────────────────────┴───────┴──────────┘



In [54]:
print(llm.chat_explain_query(chat, db_de_schema, sql, "German"))

Die Abfrage liefert eine Liste von Projekten zusammen mit den zugeordneten Mitarbeitern (ID und Nachname) und sortiert das Ergebnis nach Projektname und Mitarbeiter-ID. Im Einzelnen:

- SELECT p.title AS project, e.eid, e.lastname
  - Es werden drei Spalten ausgegeben:
    - Der Projekttitel aus der Tabelle, auf die das Alias p verweist, umbenannt in die Ausgabe-Spaltenbezeichnung "project".
    - Die Mitarbeiter‑ID aus der Tabelle mit Alias e.
    - Der Nachname des Mitarbeiters aus derselben Tabelle e.
  - Das AS project sorgt dafür, dass die erste Spalte im Ergebnis den Aliasnamen "project" trägt.

- FROM Project p
  - Die Abfrage startet bei der Tabelle mit dem Alias p (Projekt‑Tabelle). Das Alias erleichtert die Kurzschreibweise in den folgenden JOINs und im SELECT.

- JOIN EmpProj ep ON p.pid = ep.pid
  - Es wird eine Verknüpfung (INNER JOIN) zwischen Projekten (p) und der Zuordnungstabelle (ep) hergestellt.
  - Die Bedingung p.pid = ep.pid sorgt dafür, dass nur die Zeilen kombin

# Q10

## DE

### GPT5MINI

In [7]:
question = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- bezeichnung mit alias obereinheit aus tabelle orgeinheit
- bezeichnung mit alias untereinheit aus tabelle orgeinheit
untereinheit soll direkte untereinheit von obereinheit sein
sortiert nach obereinheit, untereinheit
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_de_schema, question)
print(sql)

SELECT p.bezeichnung AS obereinheit, c.bezeichnung AS untereinheit
FROM Orgeinheit p
JOIN Orgeinheit c ON c.Obereinheit = p.OEID
ORDER BY obereinheit, untereinheit;


In [8]:
u.sql_print(db_de.con, sql)

┌─────────────┬──────────────┐
│ obereinheit │ untereinheit │
│   varchar   │   varchar    │
├─────────────┼──────────────┤
│ Produktion  │ Lager        │
│ Produktion  │ Werk         │
│ Unternehmen │ Produktion   │
│ Unternehmen │ Verwaltung   │
│ Verwaltung  │ Buchhaltung  │
│ Verwaltung  │ Personal     │
└─────────────┴──────────────┘



## EN

### GPT5MINI

In [9]:
question = """
create a SQL query that outputs the following columns:
- name with alias parent from table orgunit
- bezeichnung mit alias child from table orgunit
child should be direct subunit of parent
sorted by parent, child
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_en_schema, question)
print(sql)

SELECT p."Name" AS parent, c."Name" AS child
FROM "OrgUnit" p
JOIN "OrgUnit" c ON c."SuperUnit" = p."OUID"
ORDER BY parent, child;


In [10]:
u.sql_print(db_en.con, sql)

┌────────────────┬────────────────┐
│     parent     │     child      │
│    varchar     │    varchar     │
├────────────────┼────────────────┤
│ Administration │ Accounting     │
│ Administration │ HR             │
│ Company        │ Administration │
│ Company        │ Production     │
│ Production     │ Plant          │
│ Production     │ Warehouse      │
└────────────────┴────────────────┘



# Q11

## DE

### GPT5MINI

In [15]:
question = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- mid aus tabelle mitarbeiter
- name mit alias abteilungsleiter aus tabelle mitarbeiter
- bezeichnung mit alias orgeinheit aus tabelle orgeinheit
es sollen nur abteilungsleiter ausgegeben werden
sortiert nach mid
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_de_schema, question)
print(sql)

SELECT m.mid, m.name AS abteilungsleiter, o.bezeichnung AS orgeinheit
FROM mitarbeiter m
JOIN orgeinheit o ON o.leitung = m.mid
ORDER BY m.mid;


In [16]:
u.sql_print(db_de.con, sql)

┌───────┬──────────────────┬─────────────┐
│  MID  │ abteilungsleiter │ orgeinheit  │
│ int32 │     varchar      │   varchar   │
├───────┼──────────────────┼─────────────┤
│   101 │ Kramer           │ Unternehmen │
│   102 │ Durmaz           │ Verwaltung  │
│   103 │ Blaschke         │ Personal    │
│   106 │ Hansen           │ Buchhaltung │
│   109 │ Meier            │ Lager       │
│   109 │ Meier            │ Produktion  │
│   110 │ Schrader         │ Werk        │
└───────┴──────────────────┴─────────────┘



## EN

### GPT5MINI

In [17]:
question = """
create a SQL query that outputs the following columns:
- eid from table employee
- lastname with alias head from table employee
- name with alias orgunit from table orgunit
only for department heads
sorted by eid
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_en_schema, question)
print(sql)

SELECT e.eid, e.lastname AS head, o.name AS orgunit
FROM Employee e
JOIN OrgUnit o ON o.head = e.eid
ORDER BY e.eid;


In [18]:
u.sql_print(db_en.con, sql)

┌───────┬──────────┬────────────────┐
│  EID  │   head   │    orgunit     │
│ int32 │ varchar  │    varchar     │
├───────┼──────────┼────────────────┤
│   101 │ Patil    │ Company        │
│   102 │ Durmaz   │ Administration │
│   103 │ Blaschke │ HR             │
│   106 │ Li       │ Accounting     │
│   109 │ Umarani  │ Warehouse      │
│   109 │ Umarani  │ Production     │
│   110 │ Ortega   │ Plant          │
└───────┴──────────┴────────────────┘



# Q12

## DE

### GPT5MINI

In [21]:
question = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- mid aus tabelle mitarbeiter
- name mit alias mitarbeiter aus tabelle mitarbeiter
es sollen nur mitarbeiter ausgegeben werden, die keine abteilungsleiter sind
sortiert nach mid
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_de_schema, question)
print(sql)

SELECT m.mid, m.name AS mitarbeiter
FROM Mitarbeiter m
WHERE NOT EXISTS (
  SELECT 1 FROM Orgeinheit o WHERE o.leitung = m.mid
)
ORDER BY m.mid;


In [22]:
u.sql_print(db_de.con, sql)

┌───────┬─────────────┐
│  MID  │ mitarbeiter │
│ int32 │   varchar   │
├───────┼─────────────┤
│   104 │ Rot         │
│   105 │ Neumann     │
│   107 │ Nguyen      │
│   108 │ Vogel       │
│   111 │ Dragovic    │
│   112 │ Hensen      │
│   113 │ Schimmel    │
│   114 │ Popov       │
│   115 │ Hermans     │
│   116 │ Krause      │
│   117 │ Oezdem      │
│   118 │ Okeke       │
├───────┴─────────────┤
│ 12 rows   2 columns │
└─────────────────────┘



## EN

### GPT5MINI

In [23]:
question = """
create a SQL query that outputs the following columns:
- eid from table employee
- lastname with alias employee from table employee
only for employees that are not department heads
sorted by eid
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_en_schema, question)
print(sql)

SELECT e.eid, e.lastname AS employee
FROM Employee e
WHERE NOT EXISTS (SELECT 1 FROM OrgUnit o WHERE o.head = e.eid)
ORDER BY e.eid;


In [24]:
u.sql_print(db_en.con, sql)

┌───────┬──────────┐
│  EID  │ employee │
│ int32 │ varchar  │
├───────┼──────────┤
│   104 │ Stone    │
│   105 │ Dalal    │
│   107 │ Nguyen   │
│   108 │ Sanchez  │
│   111 │ Doshi    │
│   112 │ Singh    │
│   113 │ Jadhav   │
│   114 │ Popov    │
│   115 │ Kumar    │
│   116 │ Krause   │
│   117 │ Oezdem   │
│   118 │ Okeke    │
├───────┴──────────┤
│     12 rows      │
└──────────────────┘



# Q13

## DE

### GPT5MINI

In [27]:
question = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- name mit alias mitarbeiter aus tabelle mitarbeiter
- gehalt des mitarbeiters mit alias mgehalt aus tabelle mitarbeiter
- name mit alias chef aus tabelle mitarbeiter
- gehalt des chefs mit alias cgehalt aus tabelle mitarbeiter
chef ist direkte vorgesetzte von mitarbeiter
mitarbeiter verdient mehr als chef
sortiert nach mitarbeiter
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_de_schema, question)
print(sql)

SELECT m.Name AS mitarbeiter,
       m.Gehalt AS mgehalt,
       c.Name AS chef,
       c.Gehalt AS cgehalt
FROM Mitarbeiter m
JOIN Orgeinheit o ON m.OEID = o.OEID
JOIN Mitarbeiter c ON o.Leitung = c.MID
WHERE m.Gehalt > c.Gehalt
ORDER BY mitarbeiter;


In [28]:
u.sql_print(db_de.con, sql)

┌─────────────┬──────────────┬──────────┬──────────────┐
│ mitarbeiter │   mgehalt    │   chef   │   cgehalt    │
│   varchar   │ decimal(9,2) │ varchar  │ decimal(9,2) │
├─────────────┼──────────────┼──────────┼──────────────┤
│ Schimmel    │     91000.00 │ Schrader │     90000.00 │
└─────────────┴──────────────┴──────────┴──────────────┘



## EN

### GPT5MINI

In [29]:
question = """
create a SQL query that outputs the following columns:
- lastname with alias employee from table employee
- salary of the employee with alias esalary from table employee
- lastname with alias boss  from table employee
- salary of the boss with alias bsalary from table employee
boss is direct superior of employee
employee earns more than boss
sorted by employee
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_en_schema, question)
print(sql)

SELECT e.lastname AS employee, e.salary AS esalary, b.lastname AS boss, b.salary AS bsalary
FROM Employee e
JOIN OrgUnit o ON e.ouid = o.ouid
JOIN Employee b ON o.head = b.eid
WHERE e.salary > b.salary
ORDER BY e.lastname;


In [30]:
u.sql_print(db_en.con, sql)

┌──────────┬──────────────┬─────────┬──────────────┐
│ employee │   esalary    │  boss   │   bsalary    │
│ varchar  │ decimal(9,2) │ varchar │ decimal(9,2) │
├──────────┼──────────────┼─────────┼──────────────┤
│ Jadhav   │     91000.00 │ Ortega  │     90000.00 │
└──────────┴──────────────┴─────────┴──────────────┘



# Q14

## DE

### GPT5MINI

In [None]:
question = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- max_gehalt
max_gehalt soll das maximale gehalt aller mitarbeiter sein
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_de_schema, question)
print(sql)

SELECT MAX(Gehalt) AS max_gehalt FROM Mitarbeiter;


In [32]:
u.sql_print(db_de.con, sql)

┌──────────────┐
│  max_gehalt  │
│ decimal(9,2) │
├──────────────┤
│    180000.00 │
└──────────────┘



## EN

### GPT5MINI

In [33]:
question = """
create a SQL query that outputs the following columns:
- max_salary
max_salary should be the maximum salary of all employees
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_en_schema, question)
print(sql)

SELECT MAX(Salary) AS max_salary FROM Employee;


In [34]:
u.sql_print(db_en.con, sql)

┌──────────────┐
│  max_salary  │
│ decimal(9,2) │
├──────────────┤
│    180000.00 │
└──────────────┘



# Q15

## DE

### GPT5MINI

In [42]:
question = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- bezeichnung mit alias abteilung aus tabelle orgeinheit
- max_gehalt_abt
max_gehalt_abt soll das maximale gehalt aller mitarbeiter pro abteilung sein
sortiert nach absteigendem max_gehalt_abt
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_de_schema, question)
print(sql)

SELECT o.Bezeichnung AS abteilung,
       MAX(m.Gehalt) AS max_gehalt_abt
FROM Orgeinheit o
LEFT JOIN Mitarbeiter m ON m.OEID = o.OEID
GROUP BY o.Bezeichnung
ORDER BY max_gehalt_abt DESC;


In [43]:
u.sql_print(db_de.con, sql)

┌─────────────┬────────────────┐
│  abteilung  │ max_gehalt_abt │
│   varchar   │  decimal(9,2)  │
├─────────────┼────────────────┤
│ Unternehmen │      180000.00 │
│ Produktion  │      142000.00 │
│ Verwaltung  │      120000.00 │
│ Personal    │       93000.00 │
│ Werk        │       91000.00 │
│ Buchhaltung │       89000.00 │
│ Lager       │       34000.00 │
└─────────────┴────────────────┘



## EN

### GPT5MINI

In [44]:
question = """
create a SQL query that outputs the following columns:
- name with alias orgunit from table orgunit
- max_salary_dept
max_salary_dept should be the maximum salary of all employees per orgunit
sorted by descending max_salary_dept
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_en_schema, question)
print(sql)

SELECT o.name AS orgunit,
       MAX(e.salary) AS max_salary_dept
FROM OrgUnit o
LEFT JOIN Employee e ON e.ouid = o.ouid
GROUP BY o.ouid, o.name
ORDER BY max_salary_dept DESC;


In [45]:
u.sql_print(db_en.con, sql)

┌────────────────┬─────────────────┐
│    orgunit     │ max_salary_dept │
│    varchar     │  decimal(9,2)   │
├────────────────┼─────────────────┤
│ Company        │       180000.00 │
│ Production     │       142000.00 │
│ Administration │       120000.00 │
│ HR             │        93000.00 │
│ Plant          │        91000.00 │
│ Accounting     │        89000.00 │
│ Warehouse      │        34000.00 │
└────────────────┴─────────────────┘



# Q16

## DE

### GPT5MINI

In [6]:
question = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- eintrittsjahr berechnet aus eintrittsdatum
- gehalt_jahr soll das gesamte gehalt aller mitarbeiter pro eintrittsjahr sein
sortiert nach eintrittsjahr
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_de_schema, question)
print(sql)

SELECT EXTRACT(YEAR FROM Eintrittsdatum)::int AS eintrittsjahr,
       SUM(Gehalt) AS gehalt_jahr
FROM Mitarbeiter
GROUP BY EXTRACT(YEAR FROM Eintrittsdatum)::int
ORDER BY eintrittsjahr;


In [7]:
u.sql_print(db_de.con, sql)

┌───────────────┬───────────────┐
│ eintrittsjahr │  gehalt_jahr  │
│     int32     │ decimal(38,2) │
├───────────────┼───────────────┤
│          2000 │     180000.00 │
│          2001 │      91000.00 │
│          2002 │     182000.00 │
│          2005 │     210000.00 │
│          2006 │     225000.00 │
│          2009 │      34000.00 │
│          2010 │      42000.00 │
│          2011 │      31000.00 │
│          2012 │      43000.00 │
│          2013 │      64000.00 │
│          2014 │      72000.00 │
│          2018 │      38000.00 │
├───────────────┴───────────────┤
│ 12 rows             2 columns │
└───────────────────────────────┘



## EN

### GPT5MINI

In [8]:
question = """
create a SQL query that outputs the following columns:
- entry_year calculated from hiredate
- salary_year should be the total salary of all employees per entry year
sorted by entry year
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_en_schema, question)
print(sql)

SELECT EXTRACT(YEAR FROM hiredate)::INT AS entry_year,
       SUM(salary) AS salary_year
FROM Employee
GROUP BY EXTRACT(YEAR FROM hiredate)::INT
ORDER BY entry_year;


In [9]:
u.sql_print(db_en.con, sql)

┌────────────┬───────────────┐
│ entry_year │  salary_year  │
│   int32    │ decimal(38,2) │
├────────────┼───────────────┤
│       2000 │     180000.00 │
│       2001 │      91000.00 │
│       2002 │     182000.00 │
│       2005 │     210000.00 │
│       2006 │     225000.00 │
│       2009 │      34000.00 │
│       2010 │      42000.00 │
│       2011 │      31000.00 │
│       2012 │      43000.00 │
│       2013 │      64000.00 │
│       2014 │      72000.00 │
│       2018 │      38000.00 │
├────────────┴───────────────┤
│ 12 rows          2 columns │
└────────────────────────────┘



# Q17

## DE

### GPT5MINI

In [10]:
question = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- jahrzehnt berechnet aus eintrittsdatum
- gehalt_jahrzehnt soll das gesamte gehalt aller mitarbeiter pro jahrzehnt sein
sortiert nach jahrzehnt
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_de_schema, question)
print(sql)

SELECT (EXTRACT(YEAR FROM Eintrittsdatum)::int - (EXTRACT(YEAR FROM Eintrittsdatum)::int % 10)) AS jahrzehnt,
       SUM(Gehalt) AS gehalt_jahrzehnt
FROM Mitarbeiter
GROUP BY (EXTRACT(YEAR FROM Eintrittsdatum)::int - (EXTRACT(YEAR FROM Eintrittsdatum)::int % 10))
ORDER BY jahrzehnt;


In [11]:
u.sql_print(db_de.con, sql)

┌───────────┬──────────────────┐
│ jahrzehnt │ gehalt_jahrzehnt │
│   int32   │  decimal(38,2)   │
├───────────┼──────────────────┤
│      2000 │        922000.00 │
│      2010 │        290000.00 │
└───────────┴──────────────────┘



## EN

### GPT5MINI

In [25]:
question = """
create a SQL query that outputs the following columns:
- decade calculated from hiredate
- salary_decade should be the total salary of all employees per decade
sorted by decade
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_en_schema, question)
print(sql)

SELECT decade, SUM(salary) AS salary_decade
FROM (
  SELECT ((floor(EXTRACT(YEAR FROM hiredate)/10)*10)::int) AS decade, salary
  FROM Employee
) t
GROUP BY decade
ORDER BY decade;


In [26]:
u.sql_print(db_en.con, sql)

┌────────┬───────────────┐
│ decade │ salary_decade │
│ int32  │ decimal(38,2) │
├────────┼───────────────┤
│   2000 │     922000.00 │
│   2010 │     290000.00 │
└────────┴───────────────┘



# Q18

## DE

### GPT5MINI

In [39]:
question = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- bezeichnung mit alias orgeinheit aus tabelle orgeinheit
- jahrzehnt berechnet aus eintrittsdatum, nutze floor für die berechnung
- gehalt_jahrzehnt soll das gesamte gehalt aller mitarbeiter pro orgeinheit und jahrzehnt sein
sortiert nach oeid, jahrzehnt
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_de_schema, question)
print(sql)

SELECT o.Bezeichnung AS orgeinheit,
       (floor(EXTRACT(YEAR FROM m.Eintrittsdatum)/10)*10)::int AS jahrzehnt,
       SUM(m.Gehalt) AS gehalt_jahrzehnt
FROM Orgeinheit o
JOIN Mitarbeiter m ON m.OEID = o.OEID
GROUP BY o.OEID, o.Bezeichnung, (floor(EXTRACT(YEAR FROM m.Eintrittsdatum)/10)*10)
ORDER BY o.OEID, jahrzehnt;


In [40]:
u.sql_print(db_de.con, sql)

┌─────────────┬───────────┬──────────────────┐
│ orgeinheit  │ jahrzehnt │ gehalt_jahrzehnt │
│   varchar   │   int32   │  decimal(38,2)   │
├─────────────┼───────────┼──────────────────┤
│ Unternehmen │      2000 │        180000.00 │
│ Verwaltung  │      2000 │        120000.00 │
│ Personal    │      2000 │        135000.00 │
│ Personal    │      2010 │         38000.00 │
│ Buchhaltung │      2000 │        130000.00 │
│ Buchhaltung │      2010 │         39000.00 │
│ Produktion  │      2000 │        142000.00 │
│ Werk        │      2000 │        181000.00 │
│ Werk        │      2010 │         85000.00 │
│ Lager       │      2000 │         34000.00 │
│ Lager       │      2010 │        128000.00 │
├─────────────┴───────────┴──────────────────┤
│ 11 rows                          3 columns │
└────────────────────────────────────────────┘



## EN

### GPT5MINI

In [35]:
question = """
create a SQL query that outputs the following columns:
- name with alias orgunit from table orgunit
- decade calculated from hiredate, use floor for calculation
- salary_decade should be the total salary of all employees per orgunit and decade
sorted by ouid, decade
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_en_schema, question)
print(sql)

SELECT
  ou.name AS orgunit,
  (FLOOR(EXTRACT(YEAR FROM e.hiredate)/10) * 10)::int AS decade,
  SUM(e.salary) AS salary_decade
FROM OrgUnit ou
JOIN Employee e ON e.ouid = ou.ouid
GROUP BY ou.ouid, ou.name, (FLOOR(EXTRACT(YEAR FROM e.hiredate)/10) * 10)
ORDER BY ou.ouid, decade;


In [36]:
u.sql_print(db_en.con, sql)

┌────────────────┬────────┬───────────────┐
│    orgunit     │ decade │ salary_decade │
│    varchar     │ int32  │ decimal(38,2) │
├────────────────┼────────┼───────────────┤
│ Company        │   2000 │     180000.00 │
│ Administration │   2000 │     120000.00 │
│ HR             │   2000 │     135000.00 │
│ HR             │   2010 │      38000.00 │
│ Accounting     │   2000 │     130000.00 │
│ Accounting     │   2010 │      39000.00 │
│ Production     │   2000 │     142000.00 │
│ Plant          │   2000 │     181000.00 │
│ Plant          │   2010 │      85000.00 │
│ Warehouse      │   2000 │      34000.00 │
│ Warehouse      │   2010 │     128000.00 │
├────────────────┴────────┴───────────────┤
│ 11 rows                       3 columns │
└─────────────────────────────────────────┘



# Q19

## DE

### GPT5MINI

In [41]:
question = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- name, gehalt aus tabelle mitarbeiter
nur mitarbeiter, die mehr als der durchschnitt aller mitarbeiter verdienen
sortiert nach mid
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_de_schema, question)
print(sql)

SELECT Name, Gehalt
FROM Mitarbeiter
WHERE Gehalt > (SELECT AVG(Gehalt) FROM Mitarbeiter)
ORDER BY MID;


In [42]:
u.sql_print(db_de.con, sql)

┌──────────┬──────────────┐
│   Name   │    Gehalt    │
│ varchar  │ decimal(9,2) │
├──────────┼──────────────┤
│ Kramer   │    180000.00 │
│ Durmaz   │    120000.00 │
│ Blaschke │     93000.00 │
│ Hansen   │     89000.00 │
│ Meier    │    142000.00 │
│ Schrader │     90000.00 │
│ Schimmel │     91000.00 │
└──────────┴──────────────┘



## EN

### GPT5MINI

In [43]:
question = """
create a SQL query that outputs the following columns:
- name, salary from table employee
only employees who earn more than the average of all employees
sorted by eid
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_en_schema, question)
print(sql)

SELECT LastName AS name, Salary
FROM Employee
WHERE Salary > (SELECT AVG(Salary) FROM Employee)
ORDER BY EID;


In [44]:
u.sql_print(db_en.con, sql)

┌──────────┬──────────────┐
│   name   │    Salary    │
│ varchar  │ decimal(9,2) │
├──────────┼──────────────┤
│ Patil    │    180000.00 │
│ Durmaz   │    120000.00 │
│ Blaschke │     93000.00 │
│ Li       │     89000.00 │
│ Umarani  │    142000.00 │
│ Ortega   │     90000.00 │
│ Jadhav   │     91000.00 │
└──────────┴──────────────┘



# Q20

## DE

### GPT5MINI

In [47]:
question = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- mid, name, gehalt aus tabelle mitarbeiter
- durchschnittsgehalt aller mitarbeiter, alias dgehalt
- diff zum durchschnittsgehalt, alias diff_dgehalt
nur mitarbeiter, die mehr als der durchschnitt aller mitarbeiter verdienen
nutze cte für die berechnung
runde berechnung auf 2 nachkommastellen
sortiert nach mid
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_de_schema, question)
print(sql)

WITH avg_cte AS (
  SELECT AVG(gehalt) AS dgehalt
  FROM mitarbeiter
)
SELECT
  m.mid,
  m.name,
  m.gehalt,
  ROUND(a.dgehalt::numeric, 2) AS dgehalt,
  ROUND((m.gehalt - a.dgehalt)::numeric, 2) AS diff_dgehalt
FROM mitarbeiter m
CROSS JOIN avg_cte a
WHERE m.gehalt > a.dgehalt
ORDER BY m.mid;


In [48]:
u.sql_print(db_de.con, sql)

┌───────┬──────────┬──────────────┬───────────────┬───────────────┐
│  MID  │   Name   │    Gehalt    │    dgehalt    │ diff_dgehalt  │
│ int32 │ varchar  │ decimal(9,2) │ decimal(18,2) │ decimal(18,2) │
├───────┼──────────┼──────────────┼───────────────┼───────────────┤
│   101 │ Kramer   │    180000.00 │      67333.33 │     112666.67 │
│   102 │ Durmaz   │    120000.00 │      67333.33 │      52666.67 │
│   103 │ Blaschke │     93000.00 │      67333.33 │      25666.67 │
│   106 │ Hansen   │     89000.00 │      67333.33 │      21666.67 │
│   109 │ Meier    │    142000.00 │      67333.33 │      74666.67 │
│   110 │ Schrader │     90000.00 │      67333.33 │      22666.67 │
│   113 │ Schimmel │     91000.00 │      67333.33 │      23666.67 │
└───────┴──────────┴──────────────┴───────────────┴───────────────┘



## EN

### GPT5MINI

In [5]:
question = """
create a SQL query that outputs the following columns:
- eid, name, salary from table employee
- average salary of all employees, alias as asalary
- diff to average salary, alias diff_asalary
only employees who earn more than the average of all employees
use cte for the calculation
round calculation to 2 decimal places
sorted by eid
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_en_schema, question)
print(sql)

WITH avg_sal AS (
  SELECT ROUND(AVG(salary)::numeric, 2) AS asalary
  FROM employee
)
SELECT
  e.eid,
  e.lastname AS name,
  e.salary,
  a.asalary,
  ROUND(e.salary - a.asalary, 2) AS diff_asalary
FROM employee e
CROSS JOIN avg_sal a
WHERE e.salary > a.asalary
ORDER BY e.eid;


In [6]:
u.sql_print(db_en.con, sql)

┌───────┬──────────┬──────────────┬───────────────┬───────────────┐
│  EID  │   name   │    Salary    │    asalary    │ diff_asalary  │
│ int32 │ varchar  │ decimal(9,2) │ decimal(18,2) │ decimal(18,2) │
├───────┼──────────┼──────────────┼───────────────┼───────────────┤
│   101 │ Patil    │    180000.00 │      67333.33 │     112666.67 │
│   102 │ Durmaz   │    120000.00 │      67333.33 │      52666.67 │
│   103 │ Blaschke │     93000.00 │      67333.33 │      25666.67 │
│   106 │ Li       │     89000.00 │      67333.33 │      21666.67 │
│   109 │ Umarani  │    142000.00 │      67333.33 │      74666.67 │
│   110 │ Ortega   │     90000.00 │      67333.33 │      22666.67 │
│   113 │ Jadhav   │     91000.00 │      67333.33 │      23666.67 │
└───────┴──────────┴──────────────┴───────────────┴───────────────┘



# Q21

## DE

### GPT5MINI

In [7]:
question = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- bezeichnung mit alias orgeinheit aus tabelle orgeinheit
- mid, name, gehalt aus tabelle mitarbeiter
- durchschnittsgehalt aller mitarbeiter in der gleichen abteilung, alias dgehalt_abt
- diff zum durchschnittsgehalt, alias diff_dgehalt_abt
nutze cte für die berechnung
runde berechnung auf 2 nachkommastellen
sortiert nach oeid, mid
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_de_schema, question)
print(sql)

WITH avg_per_oe AS (
  SELECT oeid, ROUND(AVG(gehalt), 2) AS dgehalt_abt
  FROM Mitarbeiter
  GROUP BY oeid
)
SELECT o.bezeichnung AS orgeinheit,
       m.mid,
       m.name,
       m.gehalt,
       avg_per_oe.dgehalt_abt,
       ROUND(m.gehalt - avg_per_oe.dgehalt_abt, 2) AS diff_dgehalt_abt
FROM Mitarbeiter m
JOIN Orgeinheit o ON m.oeid = o.oeid
JOIN avg_per_oe ON m.oeid = avg_per_oe.oeid
ORDER BY m.oeid, m.mid;


In [8]:
u.sql_print(db_de.con, sql)

┌─────────────┬───────┬──────────┬──────────────┬─────────────┬──────────────────┐
│ orgeinheit  │  MID  │   Name   │    Gehalt    │ dgehalt_abt │ diff_dgehalt_abt │
│   varchar   │ int32 │ varchar  │ decimal(9,2) │   double    │      double      │
├─────────────┼───────┼──────────┼──────────────┼─────────────┼──────────────────┤
│ Unternehmen │   101 │ Kramer   │    180000.00 │    180000.0 │              0.0 │
│ Verwaltung  │   102 │ Durmaz   │    120000.00 │    120000.0 │              0.0 │
│ Personal    │   103 │ Blaschke │     93000.00 │    57666.67 │         35333.33 │
│ Personal    │   104 │ Rot      │     42000.00 │    57666.67 │        -15666.67 │
│ Personal    │   105 │ Neumann  │     38000.00 │    57666.67 │        -19666.67 │
│ Buchhaltung │   106 │ Hansen   │     89000.00 │    56333.33 │         32666.67 │
│ Buchhaltung │   107 │ Nguyen   │     41000.00 │    56333.33 │        -15333.33 │
│ Buchhaltung │   108 │ Vogel    │     39000.00 │    56333.33 │        -17333.33 │
│ Pr

## EN

### GPT5MINI

In [9]:
question = """
create a SQL query that outputs the following columns:
- name with alias orgunit from table orgunit
- eid, name, salary from table employee
- average salary of all employees in the same department, alias asalary_dept
- diff to average salary, alias diff_asalary_dept
use cte for the calculation
round calculation to 2 decimal places
sorted by ouid, eid
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_en_schema, question)
print(sql)

WITH dept_avg AS (
  SELECT ouid, AVG(salary) AS avg_salary
  FROM Employee
  GROUP BY ouid
)
SELECT
  o.name AS orgunit,
  e.eid AS eid,
  e.lastname AS name,
  e.salary AS salary,
  ROUND(d.avg_salary, 2) AS asalary_dept,
  ROUND(e.salary - d.avg_salary, 2) AS diff_asalary_dept
FROM Employee e
JOIN OrgUnit o ON e.ouid = o.ouid
JOIN dept_avg d ON e.ouid = d.ouid
ORDER BY e.ouid, e.eid;


In [10]:
u.sql_print(db_en.con, sql)

┌────────────────┬───────┬──────────┬──────────────┬──────────────┬───────────────────┐
│    orgunit     │  eid  │   name   │    salary    │ asalary_dept │ diff_asalary_dept │
│    varchar     │ int32 │ varchar  │ decimal(9,2) │    double    │      double       │
├────────────────┼───────┼──────────┼──────────────┼──────────────┼───────────────────┤
│ Company        │   101 │ Patil    │    180000.00 │     180000.0 │               0.0 │
│ Administration │   102 │ Durmaz   │    120000.00 │     120000.0 │               0.0 │
│ HR             │   103 │ Blaschke │     93000.00 │     57666.67 │          35333.33 │
│ HR             │   104 │ Stone    │     42000.00 │     57666.67 │         -15666.67 │
│ HR             │   105 │ Dalal    │     38000.00 │     57666.67 │         -19666.67 │
│ Accounting     │   106 │ Li       │     89000.00 │     56333.33 │          32666.67 │
│ Accounting     │   107 │ Nguyen   │     41000.00 │     56333.33 │         -15333.33 │
│ Accounting     │   108 │ Sanch

# Q22

## DE

### GPT5MINI

In [11]:
question = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- mid, name aus tabelle mitarbeiter
nur mitarbeiter die in einer abteilung arbeiten, die von 'Meier' geleitet wird
sortiert nach mid
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_de_schema, question)
print(sql)

SELECT m.mid, m.name
FROM Mitarbeiter m
JOIN Orgeinheit o ON m.oeid = o.oeid
JOIN Mitarbeiter l ON o.leitung = l.mid
WHERE l.name = 'Meier'
ORDER BY m.mid;


In [12]:
u.sql_print(db_de.con, sql)

┌───────┬─────────┐
│  MID  │  Name   │
│ int32 │ varchar │
├───────┼─────────┤
│   109 │ Meier   │
│   114 │ Popov   │
│   115 │ Hermans │
│   116 │ Krause  │
│   117 │ Oezdem  │
│   118 │ Okeke   │
└───────┴─────────┘



## EN

### GPT5MINI

In [19]:
question = """
create a SQL query that outputs the following columns:
- eid, lastname from table employee
only employees who work in a department that is led by 'Umarani'
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_en_schema, question)
print(sql)

SELECT e.eid, e.lastname
FROM Employee e
JOIN OrgUnit o ON e.ouid = o.ouid
JOIN Employee h ON o.head = h.eid
WHERE h.lastname = 'Umarani';


In [20]:
u.sql_print(db_en.con, sql)

┌───────┬──────────┐
│  EID  │ LastName │
│ int32 │ varchar  │
├───────┼──────────┤
│   109 │ Umarani  │
│   114 │ Popov    │
│   115 │ Kumar    │
│   116 │ Krause   │
│   117 │ Oezdem   │
│   118 │ Okeke    │
└───────┴──────────┘



# Q23

## DE

### GPT5MINI

In [25]:
question = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- oeid, bezeichnung mit alias orgeinheit aus tabelle orgeinheit
- anzahl mitarbeiter in der orgeinheit, alias anzahl_mitarbeiter
- nur orgeinheiten mit den wenigsten mitarbeitern
sortiert nach oeid
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_de_schema, question)
print(sql)

SELECT o.oeid,
       o.bezeichnung AS orgeinheit,
       COUNT(m.mid) AS anzahl_mitarbeiter
FROM Orgeinheit o
LEFT JOIN Mitarbeiter m ON o.oeid = m.oeid
GROUP BY o.oeid, o.bezeichnung
HAVING COUNT(m.mid) = (
  SELECT MIN(cnt) FROM (
    SELECT COUNT(m2.mid) AS cnt
    FROM Orgeinheit o2
    LEFT JOIN Mitarbeiter m2 ON o2.oeid = m2.oeid
    GROUP BY o2.oeid
  ) sub
)
ORDER BY o.oeid;


In [26]:
u.sql_print(db_de.con, sql)

┌───────┬─────────────┬────────────────────┐
│ OEID  │ orgeinheit  │ anzahl_mitarbeiter │
│ int32 │   varchar   │       int64        │
├───────┼─────────────┼────────────────────┤
│    11 │ Unternehmen │                  1 │
│    12 │ Verwaltung  │                  1 │
│    15 │ Produktion  │                  1 │
└───────┴─────────────┴────────────────────┘



## EN

### GPT5MINI

In [27]:
question = """
create a SQL query that outputs the following columns:
- ouid, name with alias orgunit from table orgunit
- number of employees in the orgunit, alias num_employees
- only orgunits with the least employees
sorted by ouid
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_en_schema, question)
print(sql)

WITH cnt AS (
  SELECT o.ouid, o.name AS orgunit, COUNT(e.eid) AS num_employees
  FROM orgunit o
  LEFT JOIN employee e ON o.ouid = e.ouid
  GROUP BY o.ouid, o.name
)
SELECT ouid, orgunit, num_employees
FROM cnt
WHERE num_employees = (SELECT MIN(num_employees) FROM cnt)
ORDER BY ouid;


In [28]:
u.sql_print(db_en.con, sql)

┌───────┬────────────────┬───────────────┐
│ OUID  │    orgunit     │ num_employees │
│ int32 │    varchar     │     int64     │
├───────┼────────────────┼───────────────┤
│    11 │ Company        │             1 │
│    12 │ Administration │             1 │
│    15 │ Production     │             1 │
└───────┴────────────────┴───────────────┘



# Q24

## DE

### GPT5MINI

In [29]:
question = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- oeid, bezeichnung mit alias orgeinheit aus tabelle orgeinheit
- durchschnittsgehalt aller mitarbeiter in der orgeinheit, alias dgehalt
nur orgeinheiten maximalen durchschnittsgehalt
sortiert nach oeid
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_de_schema, question)
print(sql)

SELECT o.OEID, o.Bezeichnung AS orgeinheit, AVG(m.Gehalt) AS dgehalt
FROM Orgeinheit o
JOIN Mitarbeiter m ON m.OEID = o.OEID
GROUP BY o.OEID, o.Bezeichnung
HAVING AVG(m.Gehalt) = (
  SELECT MAX(avg_gehalt) FROM (
    SELECT AVG(Gehalt) AS avg_gehalt FROM Mitarbeiter GROUP BY OEID
  ) t
)
ORDER BY o.OEID;


In [30]:
u.sql_print(db_de.con, sql)

┌───────┬─────────────┬──────────┐
│ OEID  │ orgeinheit  │ dgehalt  │
│ int32 │   varchar   │  double  │
├───────┼─────────────┼──────────┤
│    11 │ Unternehmen │ 180000.0 │
└───────┴─────────────┴──────────┘



## EN

### GPT5MINI

In [31]:
question = """
create a SQL query that outputs the following columns:
- ouid, name with alias orgunit from table orgunit
- average salary of all employees in that orgunit, alias asal
only orgunit with max avg salary
sorted by ouid
"""
chat = llm.chat_llm_stats(llm.GPT5MINI)
sql = llm.chat_text_to_sql(chat, db_en_schema, question)
print(sql)

SELECT o.ouid, o.name AS orgunit, AVG(e.salary) AS asal
FROM orgunit o
JOIN employee e ON e.ouid = o.ouid
GROUP BY o.ouid, o.name
HAVING AVG(e.salary) = (
  SELECT MAX(avg_sal) FROM (
    SELECT AVG(salary) AS avg_sal FROM employee GROUP BY ouid
  ) sub
)
ORDER BY o.ouid;


In [32]:
u.sql_print(db_en.con, sql)

┌───────┬─────────┬──────────┐
│ OUID  │ orgunit │   asal   │
│ int32 │ varchar │  double  │
├───────┼─────────┼──────────┤
│    11 │ Company │ 180000.0 │
└───────┴─────────┴──────────┘

