# Install / Import / Config

In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
import os
from pathlib import Path
from dotenv import load_dotenv
import edurel.utils.llm as llmu
import edurel.utils.duckdb as ddbu

load_dotenv() 
BASE_DIR = os.getenv("BASE_DIR")
DB_DIR = f"{BASE_DIR}/databases/"

  from pydantic.v1.fields import FieldInfo as FieldInfoV1


# Database

In [3]:
con = ddbu.mem_con(DB_DIR + "db-company_de")
schema = ddbu.schema(con)

In [4]:
# print(ddbu.schema(con))
# con.close()

# Queries

## q1

In [5]:
q1 = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- mid, name, eintrittsdatum aus tabelle mitarbeiter
- eintrittsjahr pro mitarbeiter 
sortiert nach mid
"""

## q2

In [6]:
q2 = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- mid, name, eintrittsdatum aus tabelle mitarbeiter
- eintrittsjahr pro mitarbeiter 
nur für abteilung 14
sortiert nach mid
"""

## q3

In [7]:
q3 = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- mid, name, eintrittsdatum aus tabelle mitarbeiter
- beschäftigungsjahre pro mitarbeiter 
nur für abteilung 14
sortiert nach mid
"""

## q4

In [8]:
q4 = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- name, gehalt, bonus aus tabelle mitarbeiter
nur mitarbeiter ohne bonus
sortiert nach name
"""

## q5

In [9]:
q5 = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- name, gehalt, bonus aus tabelle mitarbeiter
nur mitarbeiter mit bonus
sortiert nach name
"""

## q6

In [10]:
q6 = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- mid, name, gehalt, bonus aus tabelle mitarbeiter
- gesamteinkommen pro mitarbeiter 
nur für abteilung 17
sortiert nach mid
"""

## q7

In [11]:
q7 = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- mid, name, gehalt aus tabelle mitarbeiter
- gehaltsklasse pro mitarbeiter 
es gibt folgende gehaltsklassen:
- niedrig <= 35000
- mittel > 35000
- hoch > 100000
sortiert nach gehalt
"""

## q8

In [12]:
q8 = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- bezeichung aus tabelle orgeinheit mit alias orgeinheit
- mid, name aus tabelle mitarbeiter
sortiert nach orgeinheit, mid
"""

## q9

In [13]:
q9 = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- titel aus tabelle projekt mit alias projekt
- mid, name aus tabelle mitarbeiter
sortiert nach titel, mid
"""

## q10

In [14]:
q10 = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- bezeichnung mit alias obereinheit aus tabelle orgeinheit
- bezeichnung mit alias untereinheit aus tabelle orgeinheit
untereinheit soll direkte untereinheit von obereinheit sein
sortiert nach obereinheit, untereinheit
"""

## q11

In [15]:
q11 = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- mid aus tabelle mitarbeiter
- name mit alias abteilungsleiter aus tabelle mitarbeiter
- bezeichnung mit alias orgeinheit aus tabelle orgeinheit
es sollen nur abteilungsleiter ausgegeben werden
sortiert nach mid
"""

## q12

In [16]:
q12 = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- mid aus tabelle mitarbeiter
- name mit alias mitarbeiter aus tabelle mitarbeiter
es sollen nur mitarbeiter ausgegeben werden, die keine abteilungsleiter sind
sortiert nach mid
"""

## q13

In [17]:
q13 = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- name mit alias mitarbeiter aus tabelle mitarbeiter
- gehalt des mitarbeiters mit alias mgehalt aus tabelle mitarbeiter
- name mit alias chef aus tabelle mitarbeiter
- gehalt des chefs mit alias cgehalt aus tabelle mitarbeiter
chef ist direkte vorgesetzte von mitarbeiter
mitarbeiter verdient mehr als chef
sortiert nach mitarbeiter
"""

## q14

In [18]:
q14 = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- max_gehalt
max_gehalt soll das maximale gehalt aller mitarbeiter sein
"""

## q15

In [19]:
q15 = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- bezeichnung mit alias abteilung aus tabelle orgeinheit
- max_gehalt_abt
max_gehalt_abt soll das maximale gehalt aller mitarbeiter pro abteilung sein
sortiert nach absteigendem max_gehalt_abt
"""

## q16

In [20]:
q16 = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- eintrittsjahr berechnet aus eintrittsdatum
- gehalt_jahr soll das gesamte gehalt aller mitarbeiter pro eintrittsjahr sein
sortiert nach eintrittsjahr
"""

## q17

In [21]:
q17 = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- jahrzehnt berechnet aus eintrittsdatum
- gehalt_jahrzehnt soll das gesamte gehalt aller mitarbeiter pro jahrzehnt sein
sortiert nach jahrzehnt
"""

## q18

In [22]:
q18 = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- bezeichnung mit alias orgeinheit aus tabelle orgeinheit
- jahrzehnt berechnet aus eintrittsdatum, nutze floor für die berechnung
- gehalt_jahrzehnt soll das gesamte gehalt aller mitarbeiter pro orgeinheit und jahrzehnt sein
sortiert nach oeid, jahrzehnt
"""

## q19

In [23]:
q19 = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- name, gehalt aus tabelle mitarbeiter
nur mitarbeiter, die mehr als der durchschnitt aller mitarbeiter verdienen
sortiert nach mid
"""

## q20

In [24]:
q20 = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- mid, name, gehalt aus tabelle mitarbeiter
- durchschnittsgehalt aller mitarbeiter, alias dgehalt
- diff zum durchschnittsgehalt, alias diff_dgehalt
nur mitarbeiter, die mehr als der durchschnitt aller mitarbeiter verdienen
nutze cte für die berechnung
runde berechnung auf 2 nachkommastellen
sortiert nach mid
"""

## q21

In [25]:
q21 = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- bezeichnung mit alias orgeinheit aus tabelle orgeinheit
- mid, name, gehalt aus tabelle mitarbeiter
- durchschnittsgehalt aller mitarbeiter in der gleichen abteilung, alias dgehalt_abt
- diff zum durchschnittsgehalt, alias diff_dgehalt_abt
nutze cte für die berechnung
runde berechnung auf 2 nachkommastellen
sortiert nach oeid, mid
"""

## q22

In [26]:
q22 = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- mid, name aus tabelle mitarbeiter
nur mitarbeiter die in einer abteilung arbeiten, die von 'Meier' geleitet wird
sortiert nach mid
"""

## q23

In [27]:
q23 = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- oeid, bezeichnung mit alias orgeinheit aus tabelle orgeinheit
- anzahl mitarbeiter in der orgeinheit, alias anzahl_mitarbeiter
- nur orgeinheiten mit den wenigsten mitarbeitern
sortiert nach oeid
"""

## q24

In [28]:
q24 = """
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- oeid, bezeichnung mit alias orgeinheit aus tabelle orgeinheit
- durchschnittsgehalt aller mitarbeiter in der orgeinheit, alias dgehalt
nur orgeinheiten maximalen durchschnittsgehalt
sortiert nach oeid
"""

# ARCTICTEXT2SQL

## q1

In [29]:
sql = llmu.chat_text_to_sql(llmu.ollama_c(llmu.ARCTICTEXT2SQL), schema, q1)
print(sql)

The user wants a simple SELECT statement from the Mitarbeiter table, with an additional column for the year of entry (intrittsjahr). The sorting is straightforward based on the MID field.
</think>
<>
SELECT 
    MID,
    Name,
    Eintrittsdatum,
    strftime('%Y', Eintrittsdatum) AS Eintrittsjahr
FROM 
    Mitarbeiter
ORDER BY 
    MID;
</>


In [30]:
sql = """
SELECT 
    MID,
    Name,
    Eintrittsdatum,
    strftime('%Y', Eintrittsdatum) AS Eintrittsjahr
FROM 
    Mitarbeiter
ORDER BY 
    MID;
"""

In [31]:
ddbu.sql_print(con, sql)

┌───────┬──────────┬────────────────┬───────────────┐
│  MID  │   Name   │ Eintrittsdatum │ Eintrittsjahr │
│ int32 │ varchar  │      date      │    varchar    │
├───────┼──────────┼────────────────┼───────────────┤
│   101 │ Kramer   │ 2000-05-01     │ 2000          │
│   102 │ Durmaz   │ 2005-07-01     │ 2005          │
│   103 │ Blaschke │ 2002-11-01     │ 2002          │
│   104 │ Rot      │ 2006-06-01     │ 2006          │
│   105 │ Neumann  │ 2018-02-02     │ 2018          │
│   106 │ Hansen   │ 2002-12-01     │ 2002          │
│   107 │ Nguyen   │ 2006-07-01     │ 2006          │
│   108 │ Vogel    │ 2014-04-01     │ 2014          │
│   109 │ Meier    │ 2006-07-01     │ 2006          │
│   110 │ Schrader │ 2005-09-02     │ 2005          │
│   111 │ Dragovic │ 2010-01-02     │ 2010          │
│   112 │ Hensen   │ 2012-03-01     │ 2012          │
│   113 │ Schimmel │ 2001-08-01     │ 2001          │
│   114 │ Popov    │ 2009-03-02     │ 2009          │
│   115 │ Hermans  │ 2013-05

# GLM46

In [32]:
glm46 = llmu.stats_c(llmu.GLM46)

In [None]:
q = q1
print(f"q1:{q}")
sql = llmu.chat_text_to_sql(glm46, schema, q)
print(sql)
ddbu.sql_print(con, sql)

q1:
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- mid, name, eintrittsdatum aus tabelle mitarbeiter
- eintrittsjahr pro mitarbeiter 
sortiert nach mid

┌───────┬──────────┬────────────────┬───────────────┐
│  MID  │   Name   │ Eintrittsdatum │ Eintrittsjahr │
│ int32 │ varchar  │      date      │     int64     │
├───────┼──────────┼────────────────┼───────────────┤
│   101 │ Kramer   │ 2000-05-01     │          2000 │
│   102 │ Durmaz   │ 2005-07-01     │          2005 │
│   103 │ Blaschke │ 2002-11-01     │          2002 │
│   104 │ Rot      │ 2006-06-01     │          2006 │
│   105 │ Neumann  │ 2018-02-02     │          2018 │
│   106 │ Hansen   │ 2002-12-01     │          2002 │
│   107 │ Nguyen   │ 2006-07-01     │          2006 │
│   108 │ Vogel    │ 2014-04-01     │          2014 │
│   109 │ Meier    │ 2006-07-01     │          2006 │
│   110 │ Schrader │ 2005-09-02     │          2005 │
│   111 │ Dragovic │ 2010-01-02     │          2010 │
│   112 │ Hensen   │ 2012

In [34]:
q = q2
print(f"q2:{q}")
sql = llmu.chat_text_to_sql(glm46, schema, q)
print(sql)
ddbu.sql_print(con, sql)

q2:
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- mid, name, eintrittsdatum aus tabelle mitarbeiter
- eintrittsjahr pro mitarbeiter 
nur für abteilung 14
sortiert nach mid

SELECT MID, Name, Eintrittsdatum, EXTRACT(YEAR FROM Eintrittsdatum) AS Eintrittsjahr
FROM Mitarbeiter
WHERE OEID = 14
ORDER BY MID;
┌───────┬─────────┬────────────────┬───────────────┐
│  MID  │  Name   │ Eintrittsdatum │ Eintrittsjahr │
│ int32 │ varchar │      date      │     int64     │
├───────┼─────────┼────────────────┼───────────────┤
│   106 │ Hansen  │ 2002-12-01     │          2002 │
│   107 │ Nguyen  │ 2006-07-01     │          2006 │
│   108 │ Vogel   │ 2014-04-01     │          2014 │
└───────┴─────────┴────────────────┴───────────────┘



In [35]:
q = q3
print(f"q3:{q}")
sql = llmu.chat_text_to_sql(glm46, schema, q)
print(sql)
ddbu.sql_print(con, sql)

q3:
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- mid, name, eintrittsdatum aus tabelle mitarbeiter
- beschäftigungsjahre pro mitarbeiter 
nur für abteilung 14
sortiert nach mid

SELECT 
    MID, 
    Name, 
    Eintrittsdatum,
    EXTRACT(YEAR FROM AGE(CURRENT_DATE, Eintrittsdatum)) AS beschäftigungsjahre
FROM Mitarbeiter
WHERE OEID = 14
ORDER BY MID;
┌───────┬─────────┬────────────────┬─────────────────────┐
│  MID  │  Name   │ Eintrittsdatum │ beschäftigungsjahre │
│ int32 │ varchar │      date      │        int64        │
├───────┼─────────┼────────────────┼─────────────────────┤
│   106 │ Hansen  │ 2002-12-01     │                  23 │
│   107 │ Nguyen  │ 2006-07-01     │                  19 │
│   108 │ Vogel   │ 2014-04-01     │                  11 │
└───────┴─────────┴────────────────┴─────────────────────┘



In [36]:
q = q4
print(f"q4:{q}")
sql = llmu.chat_text_to_sql(glm46, schema, q)
print(sql)
ddbu.sql_print(con, sql)

q4:
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- name, gehalt, bonus aus tabelle mitarbeiter
nur mitarbeiter ohne bonus
sortiert nach name


SELECT Name, Gehalt, Bonus
FROM Mitarbeiter
WHERE Bonus IS NULL
ORDER BY Name;

┌──────────┬──────────────┬──────────────┐
│   Name   │    Gehalt    │    Bonus     │
│ varchar  │ decimal(9,2) │ decimal(9,2) │
├──────────┼──────────────┼──────────────┤
│ Blaschke │     93000.00 │         NULL │
│ Dragovic │     42000.00 │         NULL │
│ Durmaz   │    120000.00 │         NULL │
│ Hansen   │     89000.00 │         NULL │
│ Hermans  │     32000.00 │         NULL │
│ Kramer   │    180000.00 │         NULL │
│ Krause   │     31000.00 │         NULL │
│ Meier    │    142000.00 │         NULL │
│ Nguyen   │     41000.00 │         NULL │
│ Popov    │     34000.00 │         NULL │
│ Rot      │     42000.00 │         NULL │
│ Schimmel │     91000.00 │         NULL │
│ Schrader │     90000.00 │         NULL │
├──────────┴──────────────┴───────

In [37]:
q = q5
print(f"q5:{q}")
sql = llmu.chat_text_to_sql(glm46, schema, q)
print(sql)
ddbu.sql_print(con, sql)

q5:
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- name, gehalt, bonus aus tabelle mitarbeiter
nur mitarbeiter mit bonus
sortiert nach name

SELECT Name, Gehalt, Bonus
FROM Mitarbeiter
WHERE Bonus IS NOT NULL
ORDER BY Name;
┌─────────┬──────────────┬──────────────┐
│  Name   │    Gehalt    │    Bonus     │
│ varchar │ decimal(9,2) │ decimal(9,2) │
├─────────┼──────────────┼──────────────┤
│ Hensen  │     43000.00 │      2100.00 │
│ Neumann │     38000.00 │      1000.00 │
│ Oezdem  │     33000.00 │      1900.00 │
│ Okeke   │     32000.00 │      1900.00 │
│ Vogel   │     39000.00 │      1500.00 │
└─────────┴──────────────┴──────────────┘



In [38]:
q = q6
print(f"q6:{q}")
sql = llmu.chat_text_to_sql(glm46, schema, q)
print(sql)
ddbu.sql_print(con, sql)

q6:
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- mid, name, gehalt, bonus aus tabelle mitarbeiter
- gesamteinkommen pro mitarbeiter 
nur für abteilung 17
sortiert nach mid


SELECT 
    MID, 
    Name, 
    Gehalt, 
    Bonus, 
    Gehalt + COALESCE(Bonus, 0) AS gesamteinkommen
FROM Mitarbeiter
WHERE OEID = 17
ORDER BY MID;

┌───────┬─────────┬──────────────┬──────────────┬─────────────────┐
│  MID  │  Name   │    Gehalt    │    Bonus     │ gesamteinkommen │
│ int32 │ varchar │ decimal(9,2) │ decimal(9,2) │  decimal(13,2)  │
├───────┼─────────┼──────────────┼──────────────┼─────────────────┤
│   114 │ Popov   │     34000.00 │         NULL │        34000.00 │
│   115 │ Hermans │     32000.00 │         NULL │        32000.00 │
│   116 │ Krause  │     31000.00 │         NULL │        31000.00 │
│   117 │ Oezdem  │     33000.00 │      1900.00 │        34900.00 │
│   118 │ Okeke   │     32000.00 │      1900.00 │        33900.00 │
└───────┴─────────┴──────────────┴─────────────

In [39]:
q = q7
print(f"q7:{q}")
sql = llmu.chat_text_to_sql(glm46, schema, q)
print(sql)
ddbu.sql_print(con, sql)

q7:
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- mid, name, gehalt aus tabelle mitarbeiter
- gehaltsklasse pro mitarbeiter 
es gibt folgende gehaltsklassen:
- niedrig <= 35000
- mittel > 35000
- hoch > 100000
sortiert nach gehalt


SELECT 
    MID, 
    Name, 
    Gehalt,
    CASE 
        WHEN Gehalt <= 35000 THEN 'niedrig'
        WHEN Gehalt <= 100000 THEN 'mittel'
        ELSE 'hoch'
    END AS Gehaltsklasse
FROM Mitarbeiter
ORDER BY Gehalt;

┌───────┬──────────┬──────────────┬───────────────┐
│  MID  │   Name   │    Gehalt    │ Gehaltsklasse │
│ int32 │ varchar  │ decimal(9,2) │    varchar    │
├───────┼──────────┼──────────────┼───────────────┤
│   116 │ Krause   │     31000.00 │ niedrig       │
│   115 │ Hermans  │     32000.00 │ niedrig       │
│   118 │ Okeke    │     32000.00 │ niedrig       │
│   117 │ Oezdem   │     33000.00 │ niedrig       │
│   114 │ Popov    │     34000.00 │ niedrig       │
│   105 │ Neumann  │     38000.00 │ mittel        │
│   108 │ Vogel

In [40]:
q = q8
print(f"q8{q}")
sql = llmu.chat_text_to_sql(glm46, schema, q)
print(sql)
ddbu.sql_print(con, sql)

q8
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- bezeichung aus tabelle orgeinheit mit alias orgeinheit
- mid, name aus tabelle mitarbeiter
sortiert nach orgeinheit, mid

SELECT o.bezeichnung AS orgeinheit, m.mid, m.name
FROM mitarbeiter m
JOIN orgeinheit o ON m.oeid = o.oeid
ORDER BY orgeinheit, mid
┌─────────────┬───────┬──────────┐
│ orgeinheit  │  MID  │   Name   │
│   varchar   │ int32 │ varchar  │
├─────────────┼───────┼──────────┤
│ Buchhaltung │   106 │ Hansen   │
│ Buchhaltung │   107 │ Nguyen   │
│ Buchhaltung │   108 │ Vogel    │
│ Lager       │   114 │ Popov    │
│ Lager       │   115 │ Hermans  │
│ Lager       │   116 │ Krause   │
│ Lager       │   117 │ Oezdem   │
│ Lager       │   118 │ Okeke    │
│ Personal    │   103 │ Blaschke │
│ Personal    │   104 │ Rot      │
│ Personal    │   105 │ Neumann  │
│ Produktion  │   109 │ Meier    │
│ Unternehmen │   101 │ Kramer   │
│ Verwaltung  │   102 │ Durmaz   │
│ Werk        │   110 │ Schrader │
│ Werk        │   11

In [41]:
q = q9
print(f"q9{q}")
sql = llmu.chat_text_to_sql(glm46, schema, q)
print(sql)
ddbu.sql_print(con, sql)

q9
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- titel aus tabelle projekt mit alias projekt
- mid, name aus tabelle mitarbeiter
sortiert nach titel, mid

SELECT p.titel AS projekt, m.mid, m.name
FROM Mitarbeiter m
JOIN MaProj mp ON m.mid = mp.mid
JOIN Projekt p ON mp.pid = p.pid
ORDER BY p.titel, m.mid;
┌────────────────────────┬───────┬──────────┐
│        projekt         │  MID  │   Name   │
│        varchar         │ int32 │ varchar  │
├────────────────────────┼───────┼──────────┤
│ CRM                    │   102 │ Durmaz   │
│ CRM                    │   103 │ Blaschke │
│ Restrukturierung Lager │   109 │ Meier    │
│ Restrukturierung Lager │   114 │ Popov    │
│ Restrukturierung Lager │   117 │ Oezdem   │
│ Restrukturierung Lager │   118 │ Okeke    │
│ Strategie              │   101 │ Kramer   │
│ Strategie              │   102 │ Durmaz   │
│ Strategie              │   109 │ Meier    │
└────────────────────────┴───────┴──────────┘



In [42]:
q = q10
print(f"q10:{q}")
sql = llmu.chat_text_to_sql(glm46, schema, q)
print(sql)
ddbu.sql_print(con, sql)

q10:
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- bezeichnung mit alias obereinheit aus tabelle orgeinheit
- bezeichnung mit alias untereinheit aus tabelle orgeinheit
untereinheit soll direkte untereinheit von obereinheit sein
sortiert nach obereinheit, untereinheit


SELECT
    o1.Bezeichnung AS obereinheit,
    o2.Bezeichnung AS untereinheit
FROM
    Orgeinheit AS o1
JOIN
    Orgeinheit AS o2 ON o1.OEID = o2.Obereinheit
ORDER BY
    obereinheit,
    untereinheit;

┌─────────────┬──────────────┐
│ obereinheit │ untereinheit │
│   varchar   │   varchar    │
├─────────────┼──────────────┤
│ Produktion  │ Lager        │
│ Produktion  │ Werk         │
│ Unternehmen │ Produktion   │
│ Unternehmen │ Verwaltung   │
│ Verwaltung  │ Buchhaltung  │
│ Verwaltung  │ Personal     │
└─────────────┴──────────────┘



In [43]:
q = q11
print(f"q11:{q}")
sql = llmu.chat_text_to_sql(glm46, schema, q)
print(sql)
ddbu.sql_print(con, sql)

q11:
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- mid aus tabelle mitarbeiter
- name mit alias abteilungsleiter aus tabelle mitarbeiter
- bezeichnung mit alias orgeinheit aus tabelle orgeinheit
es sollen nur abteilungsleiter ausgegeben werden
sortiert nach mid

SELECT m.MID, m.Name AS abteilungsleiter, o.Bezeichnung AS orgeinheit
FROM Mitarbeiter m
JOIN Orgeinheit o ON m.MID = o.Leitung
ORDER BY m.MID;
┌───────┬──────────────────┬─────────────┐
│  MID  │ abteilungsleiter │ orgeinheit  │
│ int32 │     varchar      │   varchar   │
├───────┼──────────────────┼─────────────┤
│   101 │ Kramer           │ Unternehmen │
│   102 │ Durmaz           │ Verwaltung  │
│   103 │ Blaschke         │ Personal    │
│   106 │ Hansen           │ Buchhaltung │
│   109 │ Meier            │ Lager       │
│   109 │ Meier            │ Produktion  │
│   110 │ Schrader         │ Werk        │
└───────┴──────────────────┴─────────────┘



In [44]:
q = q12
print(f"q12:{q}")
sql = llmu.chat_text_to_sql(glm46, schema, q)
print(sql)
ddbu.sql_print(con, sql)

q12:
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- mid aus tabelle mitarbeiter
- name mit alias mitarbeiter aus tabelle mitarbeiter
es sollen nur mitarbeiter ausgegeben werden, die keine abteilungsleiter sind
sortiert nach mid


SELECT 
    m.MID,
    m.Name AS mitarbeiter
FROM Mitarbeiter m
WHERE m.MID NOT IN (SELECT Leitung FROM Orgeinheit WHERE Leitung IS NOT NULL)
ORDER BY m.MID;

┌───────┬─────────────┐
│  MID  │ mitarbeiter │
│ int32 │   varchar   │
├───────┼─────────────┤
│   104 │ Rot         │
│   105 │ Neumann     │
│   107 │ Nguyen      │
│   108 │ Vogel       │
│   111 │ Dragovic    │
│   112 │ Hensen      │
│   113 │ Schimmel    │
│   114 │ Popov       │
│   115 │ Hermans     │
│   116 │ Krause      │
│   117 │ Oezdem      │
│   118 │ Okeke       │
├───────┴─────────────┤
│ 12 rows   2 columns │
└─────────────────────┘



In [45]:
q = q13
print(f"q13:{q}")
sql = llmu.chat_text_to_sql(glm46, schema, q)
print(sql)
ddbu.sql_print(con, sql)

q13:
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- name mit alias mitarbeiter aus tabelle mitarbeiter
- gehalt des mitarbeiters mit alias mgehalt aus tabelle mitarbeiter
- name mit alias chef aus tabelle mitarbeiter
- gehalt des chefs mit alias cgehalt aus tabelle mitarbeiter
chef ist direkte vorgesetzte von mitarbeiter
mitarbeiter verdient mehr als chef
sortiert nach mitarbeiter


SELECT 
    m.Name AS mitarbeiter,
    m.Gehalt AS mgehalt,
    chef.Name AS chef,
    chef.Gehalt AS cgehalt
FROM Mitarbeiter m
JOIN Orgeinheit o ON m.OEID = o.OEID
JOIN Mitarbeiter chef ON o.Leitung = chef.MID
WHERE m.Gehalt > chef.Gehalt
ORDER BY m.Name;

┌─────────────┬──────────────┬──────────┬──────────────┐
│ mitarbeiter │   mgehalt    │   chef   │   cgehalt    │
│   varchar   │ decimal(9,2) │ varchar  │ decimal(9,2) │
├─────────────┼──────────────┼──────────┼──────────────┤
│ Schimmel    │     91000.00 │ Schrader │     90000.00 │
└─────────────┴──────────────┴──────────┴──────────────┘



In [46]:
q = q14
print(f"q14:{q}")
sql = llmu.chat_text_to_sql(glm46, schema, q)
print(sql)
ddbu.sql_print(con, sql)

q14:
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- max_gehalt
max_gehalt soll das maximale gehalt aller mitarbeiter sein


SELECT MAX(Gehalt) AS max_gehalt
FROM Mitarbeiter;

┌──────────────┐
│  max_gehalt  │
│ decimal(9,2) │
├──────────────┤
│    180000.00 │
└──────────────┘



In [47]:
q = q15
print(f"q15:{q}")
sql = llmu.chat_text_to_sql(glm46, schema, q)
print(sql)
ddbu.sql_print(con, sql)

q15:
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- bezeichnung mit alias abteilung aus tabelle orgeinheit
- max_gehalt_abt
max_gehalt_abt soll das maximale gehalt aller mitarbeiter pro abteilung sein
sortiert nach absteigendem max_gehalt_abt

SELECT o.Bezeichnung AS abteilung, MAX(m.Gehalt) AS max_gehalt_abt
FROM Mitarbeiter m
JOIN Orgeinheit o ON m.OEID = o.OEID
GROUP BY o.Bezeichnung
ORDER BY max_gehalt_abt DESC;
┌─────────────┬────────────────┐
│  abteilung  │ max_gehalt_abt │
│   varchar   │  decimal(9,2)  │
├─────────────┼────────────────┤
│ Unternehmen │      180000.00 │
│ Produktion  │      142000.00 │
│ Verwaltung  │      120000.00 │
│ Personal    │       93000.00 │
│ Werk        │       91000.00 │
│ Buchhaltung │       89000.00 │
│ Lager       │       34000.00 │
└─────────────┴────────────────┘



In [48]:
q = q16
print(f"q16:{q}")
sql = llmu.chat_text_to_sql(glm46, schema, q)
print(sql)
ddbu.sql_print(con, sql)

q16:
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- eintrittsjahr berechnet aus eintrittsdatum
- gehalt_jahr soll das gesamte gehalt aller mitarbeiter pro eintrittsjahr sein
sortiert nach eintrittsjahr

SELECT EXTRACT(YEAR FROM Eintrittsdatum) AS eintrittsjahr, SUM(Gehalt) AS gehalt_jahr FROM Mitarbeiter GROUP BY EXTRACT(YEAR FROM Eintrittsdatum) ORDER BY eintrittsjahr;
┌───────────────┬───────────────┐
│ eintrittsjahr │  gehalt_jahr  │
│     int64     │ decimal(38,2) │
├───────────────┼───────────────┤
│          2000 │     180000.00 │
│          2001 │      91000.00 │
│          2002 │     182000.00 │
│          2005 │     210000.00 │
│          2006 │     225000.00 │
│          2009 │      34000.00 │
│          2010 │      42000.00 │
│          2011 │      31000.00 │
│          2012 │      43000.00 │
│          2013 │      64000.00 │
│          2014 │      72000.00 │
│          2018 │      38000.00 │
├───────────────┴───────────────┤
│ 12 rows             2 columns │
└──

In [49]:
q = q17
print(f"q17:{q}")
sql = llmu.chat_text_to_sql(glm46, schema, q)
print(sql)
ddbu.sql_print(con, sql)

q17:
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- jahrzehnt berechnet aus eintrittsdatum
- gehalt_jahrzehnt soll das gesamte gehalt aller mitarbeiter pro jahrzehnt sein
sortiert nach jahrzehnt


SELECT 
    (EXTRACT(YEAR FROM Eintrittsdatum)::INTEGER / 10) * 10 AS jahrzehnt,
    SUM(Gehalt) AS gehalt_jahrzehnt
FROM Mitarbeiter
GROUP BY (EXTRACT(YEAR FROM Eintrittsdatum)::INTEGER / 10) * 10
ORDER BY jahrzehnt;

┌───────────┬──────────────────┐
│ jahrzehnt │ gehalt_jahrzehnt │
│  double   │  decimal(38,2)   │
├───────────┼──────────────────┤
│    2000.0 │        180000.00 │
│    2001.0 │         91000.00 │
│    2002.0 │        182000.00 │
│    2005.0 │        210000.00 │
│    2006.0 │        225000.00 │
│    2009.0 │         34000.00 │
│    2010.0 │         42000.00 │
│    2011.0 │         31000.00 │
│    2012.0 │         43000.00 │
│    2013.0 │         64000.00 │
│    2014.0 │         72000.00 │
│    2018.0 │         38000.00 │
├───────────┴──────────────────┤
│ 12 rows  

In [50]:
q = q18
print(f"q18:{q}")
sql = llmu.chat_text_to_sql(glm46, schema, q)
print(sql)
ddbu.sql_print(con, sql)

q18:
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- bezeichnung mit alias orgeinheit aus tabelle orgeinheit
- jahrzehnt berechnet aus eintrittsdatum, nutze floor für die berechnung
- gehalt_jahrzehnt soll das gesamte gehalt aller mitarbeiter pro orgeinheit und jahrzehnt sein
sortiert nach oeid, jahrzehnt

SELECT o.bezeichnung AS orgeinheit, FLOOR(EXTRACT(YEAR FROM m.eintrittsdatum) / 10) * 10 AS jahrzehnt, SUM(m.gehalt) AS gehalt_jahrzehnt FROM mitarbeiter m JOIN orgeinheit o ON m.oeid = o.oeid GROUP BY o.oeid, o.bezeichnung, FLOOR(EXTRACT(YEAR FROM m.eintrittsdatum) / 10) * 10 ORDER BY o.oeid, jahrzehnt
┌─────────────┬───────────┬──────────────────┐
│ orgeinheit  │ jahrzehnt │ gehalt_jahrzehnt │
│   varchar   │  double   │  decimal(38,2)   │
├─────────────┼───────────┼──────────────────┤
│ Unternehmen │    2000.0 │        180000.00 │
│ Verwaltung  │    2000.0 │        120000.00 │
│ Personal    │    2000.0 │        135000.00 │
│ Personal    │    2010.0 │         38000.00 │


In [51]:
q = q19
print(f"q19:{q}")
sql = llmu.chat_text_to_sql(glm46, schema, q)
print(sql)
ddbu.sql_print(con, sql)

q19:
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- name, gehalt aus tabelle mitarbeiter
nur mitarbeiter, die mehr als der durchschnitt aller mitarbeiter verdienen
sortiert nach mid


SELECT Name, Gehalt
FROM Mitarbeiter
WHERE Gehalt > (SELECT AVG(Gehalt) FROM Mitarbeiter)
ORDER BY MID;

┌──────────┬──────────────┐
│   Name   │    Gehalt    │
│ varchar  │ decimal(9,2) │
├──────────┼──────────────┤
│ Kramer   │    180000.00 │
│ Durmaz   │    120000.00 │
│ Blaschke │     93000.00 │
│ Hansen   │     89000.00 │
│ Meier    │    142000.00 │
│ Schrader │     90000.00 │
│ Schimmel │     91000.00 │
└──────────┴──────────────┘



In [52]:
q = q20
print(f"q20:{q}")
sql = llmu.chat_text_to_sql(glm46, schema, q)
print(sql)
ddbu.sql_print(con, sql)

q20:
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- mid, name, gehalt aus tabelle mitarbeiter
- durchschnittsgehalt aller mitarbeiter, alias dgehalt
- diff zum durchschnittsgehalt, alias diff_dgehalt
nur mitarbeiter, die mehr als der durchschnitt aller mitarbeiter verdienen
nutze cte für die berechnung
runde berechnung auf 2 nachkommastellen
sortiert nach mid


WITH avg_salary AS (
    SELECT ROUND(AVG(gehalt), 2) as dgehalt
    FROM mitarbeiter
)
SELECT 
    m.mid,
    m.name,
    m.gehalt,
    a.dgehalt,
    ROUND(m.gehalt - a.dgehalt, 2) as diff_dgehalt
FROM mitarbeiter m, avg_salary a
WHERE m.gehalt > a.dgehalt
ORDER BY m.mid;

┌───────┬──────────┬──────────────┬──────────┬──────────────┐
│  MID  │   Name   │    Gehalt    │ dgehalt  │ diff_dgehalt │
│ int32 │ varchar  │ decimal(9,2) │  double  │    double    │
├───────┼──────────┼──────────────┼──────────┼──────────────┤
│   101 │ Kramer   │    180000.00 │ 67333.33 │    112666.67 │
│   102 │ Durmaz   │    120000.00 │ 67

In [53]:
q = q21
print(f"q21:{q}")
sql = llmu.chat_text_to_sql(glm46, schema, q)
print(sql)
ddbu.sql_print(con, sql)

q21:
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- bezeichnung mit alias orgeinheit aus tabelle orgeinheit
- mid, name, gehalt aus tabelle mitarbeiter
- durchschnittsgehalt aller mitarbeiter in der gleichen abteilung, alias dgehalt_abt
- diff zum durchschnittsgehalt, alias diff_dgehalt_abt
nutze cte für die berechnung
runde berechnung auf 2 nachkommastellen
sortiert nach oeid, mid


WITH dept_avg_salary AS (
    SELECT 
        OEID,
        ROUND(AVG(Gehalt), 2) as avg_salary
    FROM Mitarbeiter
    GROUP BY OEID
)
SELECT 
    o.Bezeichnung as orgeinheit,
    m.MID,
    m.Name,
    m.Gehalt,
    d.avg_salary as dgehalt_abt,
    ROUND(m.Gehalt - d.avg_salary, 2) as diff_dgehalt_abt
FROM Mitarbeiter m
JOIN Orgeinheit o ON m.OEID = o.OEID
JOIN dept_avg_salary d ON m.OEID = d.OEID
ORDER BY m.OEID, m.MID

┌─────────────┬───────┬──────────┬──────────────┬─────────────┬──────────────────┐
│ orgeinheit  │  MID  │   Name   │    Gehalt    │ dgehalt_abt │ diff_dgehalt_abt │
│   var

In [54]:
q = q22
print(f"q22:{q}")
sql = llmu.chat_text_to_sql(glm46, schema, q)
print(sql)
ddbu.sql_print(con, sql)

q22:
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- mid, name aus tabelle mitarbeiter
nur mitarbeiter die in einer abteilung arbeiten, die von 'Meier' geleitet wird
sortiert nach mid


SELECT
    m.mid,
    m.name
FROM
    mitarbeiter m
JOIN
    orgeinheit o ON m.oeid = o.oeid
JOIN
    mitarbeiter manager ON o.leitung = manager.mid
WHERE
    manager.name = 'Meier'
ORDER BY
    m.mid;

┌───────┬─────────┐
│  MID  │  Name   │
│ int32 │ varchar │
├───────┼─────────┤
│   109 │ Meier   │
│   114 │ Popov   │
│   115 │ Hermans │
│   116 │ Krause  │
│   117 │ Oezdem  │
│   118 │ Okeke   │
└───────┴─────────┘



In [55]:
q = q23
print(f"q23:{q}")
sql = llmu.chat_text_to_sql(glm46, schema, q)
print(sql)
ddbu.sql_print(con, sql)

q23:
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- oeid, bezeichnung mit alias orgeinheit aus tabelle orgeinheit
- anzahl mitarbeiter in der orgeinheit, alias anzahl_mitarbeiter
- nur orgeinheiten mit den wenigsten mitarbeitern
sortiert nach oeid


WITH employee_counts AS (
    SELECT 
        o.OEID, 
        o.Bezeichnung,
        COUNT(m.MID) AS anzahl_mitarbeiter
    FROM Orgeinheit o
    LEFT JOIN Mitarbeiter m ON o.OEID = m.OEID
    GROUP BY o.OEID, o.Bezeichnung
)
SELECT 
    OEID, 
    Bezeichnung AS orgeinheit,
    anzahl_mitarbeiter
FROM employee_counts
WHERE anzahl_mitarbeiter = (SELECT MIN(anzahl_mitarbeiter) FROM employee_counts)
ORDER BY OEID

┌───────┬─────────────┬────────────────────┐
│ OEID  │ orgeinheit  │ anzahl_mitarbeiter │
│ int32 │   varchar   │       int64        │
├───────┼─────────────┼────────────────────┤
│    11 │ Unternehmen │                  1 │
│    12 │ Verwaltung  │                  1 │
│    15 │ Produktion  │                  1 │
└─────

In [56]:
q = q24
print(f"q24:{q}")
sql = llmu.chat_text_to_sql(glm46, schema, q)
print(sql)
ddbu.sql_print(con, sql)

q24:
erstelle eine SQL-abfrage, die folgende spalten ausgibt:
- oeid, bezeichnung mit alias orgeinheit aus tabelle orgeinheit
- durchschnittsgehalt aller mitarbeiter in der orgeinheit, alias dgehalt
nur orgeinheiten maximalen durchschnittsgehalt
sortiert nach oeid


SELECT 
    o.OEID, 
    o.Bezeichnung AS orgeinheit,
    AVG(m.Gehalt) AS dgehalt
FROM Orgeinheit o
JOIN Mitarbeiter m ON o.OEID = m.OEID
GROUP BY o.OEID, o.Bezeichnung
HAVING AVG(m.Gehalt) = (
    SELECT MAX(avg_gehalt)
    FROM (
        SELECT AVG(Gehalt) AS avg_gehalt
        FROM Mitarbeiter
        GROUP BY OEID
    ) AS avg_salaries
)
ORDER BY o.OEID;

┌───────┬─────────────┬──────────┐
│ OEID  │ orgeinheit  │ dgehalt  │
│ int32 │   varchar   │  double  │
├───────┼─────────────┼──────────┤
│    11 │ Unternehmen │ 180000.0 │
└───────┴─────────────┴──────────┘

