In [2]:
import sqlite3
import pandas as pd

# 1) Verbindung mit Encoding-Fix herstellen
conn = sqlite3.connect("northwind2000.sqlite") # Öffnet die DB-Datei
conn.text_factory = str  # <-- Ich hattt eine Fehlermeldung: "UTF-8 encoding Problem". Passiert bei vielen SQL-Lite datensätzen von Kaggle, durch diesen code wird die UTF-8-Prüfung ignoriert. # NUR BEI ENCODING NOTWENDIG

# 2) Cursor erstellen
cur = conn.cursor() # Tool zum SQL-Ausführen

# 3) Tabellen auflisten
cur.execute("SELECT name FROM sqlite_master WHERE type='table' ORDER BY name;")
tables = cur.fetchall() # Holt Tabellenname
print("Tabellen in der DB:")
for table in tables:
    print(f"  - {table[0]}")

Tabellen in der DB:
  - Categories
  - CustomerCustomerDemo
  - CustomerDemographics
  - Customers
  - EmployeeTerritories
  - Employees
  - Order Details
  - Orders
  - Products
  - Regions
  - Shippers
  - Suppliers
  - Territories
  - sqlite_sequence


In [3]:
# ODER AUCH) Welche Tabellen gibt es?
tables = pd.read_sql_query("SELECT name FROM sqlite_master WHERE type='table';", conn)
print("Alle Tabellen:")
print(tables['name'].tolist())

Alle Tabellen:
['Categories', 'sqlite_sequence', 'CustomerCustomerDemo', 'CustomerDemographics', 'Customers', 'Employees', 'EmployeeTerritories', 'Order Details', 'Orders', 'Products', 'Regions', 'Shippers', 'Suppliers', 'Territories']


In [4]:
query_all_customers = "SELECT * FROM CUSTOMERS;"
df_customers = pd.read_sql_query(query_all_customers, conn)
df_customers.head() # erste 5 Zeilen

Unnamed: 0,CustomerID,CompanyName,ContactName,ContactTitle,Address,City,Region,PostalCode,Country,Phone,Fax
0,ALFKI,Alfreds Futterkiste,Maria Anders,Sales Representative,Obere Str. 57,Berlin,,12209,Germany,030-0074321,030-0076545
1,ANATR,Ana Trujillo Emparedados y helados,Ana Trujillo,Owner,Avda. de la Constitución 2222,México D.F.,,05021,Mexico,(5) 555-4729,(5) 555-3745
2,ANTON,Antonio Moreno Taquería,Antonio Moreno,Owner,Mataderos 2312,México D.F.,,05023,Mexico,(5) 555-3932,
3,AROUT,Around the Horn,Thomas Hardy,Sales Representative,120 Hanover Sq.,London,,WA1 1DP,UK,(171) 555-7788,(171) 555-6750
4,BERGS,Berglunds snabbköp,Christina Berglund,Order Administrator,Berguvsvägen 8,Luleå,,S-958 22,Sweden,0921-12 34 65,0921-12 34 67


In [5]:
query_all_orders = "SELECT * FROM ORDERS;"
df_orders = pd.read_sql_query(query_all_orders, conn)
df_orders.head() # erste 5 Zeilen

Unnamed: 0,OrderID,CustomerID,EmployeeID,OrderDate,RequiredDate,ShippedDate,ShipVia,Freight,ShipName,ShipAddress,ShipCity,ShipRegion,ShipPostalCode,ShipCountry
0,10248,VINET,5,1996-07-04 00:00:00.000,1996-08-01 00:00:00.000,1996-07-16 00:00:00.000,3,32.38,Vins et alcools Chevalier,59 rue de l-Abbaye,Reims,,51100,France
1,10249,TOMSP,6,1996-07-05 00:00:00.000,1996-08-16 00:00:00.000,1996-07-10 00:00:00.000,1,11.61,Toms Spezialitäten,Luisenstr. 48,Münster,,44087,Germany
2,10250,HANAR,4,1996-07-08 00:00:00.000,1996-08-05 00:00:00.000,1996-07-12 00:00:00.000,2,65.83,Hanari Carnes,"Rua do Paço, 67",Rio de Janeiro,RJ,05454-876,Brazil
3,10251,VICTE,3,1996-07-08 00:00:00.000,1996-08-05 00:00:00.000,1996-07-15 00:00:00.000,1,41.34,Victuailles en stock,"2, rue du Commerce",Lyon,,69004,France
4,10252,SUPRD,4,1996-07-09 00:00:00.000,1996-08-06 00:00:00.000,1996-07-11 00:00:00.000,2,51.3,Suprêmes délices,"Boulevard Tirou, 255",Charleroi,,B-6000,Belgium


In [6]:
query_all_products = "SELECT * FROM PRODUCTS;"
df_products = pd.read_sql_query(query_all_products, conn)
df_products.head() # erste 5 Zeilen

Unnamed: 0,ProductID,ProductName,SupplierID,CategoryID,QuantityPerUnit,UnitPrice,UnitsInStock,UnitsOnOrder,ReorderLevel,Discontinued
0,1,Chai,1,1,10 boxes x 20 bags,18.0,39,0,10,0
1,2,Chang,1,1,24 - 12 oz bottles,19.0,17,40,25,0
2,3,Aniseed Syrup,1,2,12 - 550 ml bottles,10.0,13,70,25,0
3,4,Chef Anton's Cajun Seasoning,2,2,48 - 6 oz jars,22.0,53,0,0,0
4,5,Chef Anton's Gumbo Mix,2,2,36 boxes,21.35,0,0,0,1


In [7]:
query_all_orderdetails = "SELECT * FROM 'ORDER DETAILS';"
df_orderdetails = pd.read_sql_query(query_all_orderdetails, conn)
df_orderdetails.head() # erste 5 Zeilen

Unnamed: 0,OrderID,ProductID,UnitPrice,Quantity,Discount
0,10248,11,14.0,12,0.0
1,10248,42,9.8,10,0.0
2,10248,72,34.8,5,0.0
3,10249,14,18.6,9,0.0
4,10249,51,42.4,40,0.0


In [8]:
# 4) Select abfrage

query_orders = """
SELECT OrderID, CustomerID, OrderDate, Freight  -- Spalten wählen
FROM Orders                                     -- Tabelle
LIMIT 10;                                       -- 10 Zeilen
"""

df_orders = pd.read_sql_query(query_orders, conn)  # Führt SQL aus + DataFrame
print("Erste 10 Orders:")
df_orders.head(10) # Zeige 10 Zeilen als Tabelle

Erste 10 Orders:


Unnamed: 0,OrderID,CustomerID,OrderDate,Freight
0,10248,VINET,1996-07-04 00:00:00.000,32.38
1,10249,TOMSP,1996-07-05 00:00:00.000,11.61
2,10250,HANAR,1996-07-08 00:00:00.000,65.83
3,10251,VICTE,1996-07-08 00:00:00.000,41.34
4,10252,SUPRD,1996-07-09 00:00:00.000,51.3
5,10253,HANAR,1996-07-10 00:00:00.000,58.17
6,10254,CHOPS,1996-07-11 00:00:00.000,22.98
7,10255,RICSU,1996-07-12 00:00:00.000,148.33
8,10256,WELLI,1996-07-15 00:00:00.000,13.97
9,10257,HILAA,1996-07-16 00:00:00.000,81.91


In [9]:
# 5) Erste Aggregation (Anzahl Orders pro Kunde)

query_count = """
SELECT CustomerID, COUNT(*) AS anzahl_orders -- Zähle die Zeilen (Anzahl Bestellungen) und ändere den spaltennamen zu anzahl_orders
FROM Orders
GROUP BY CustomerID -- Gruppiere/Fasse zusammen nach Kunde (eine Zeile pro Kunde)
ORDER BY anzahl_orders DESC -- DESC = Absteigend
LIMIT 10; -- Nur Top10
""" # Sql liefert rohe Daten/Tupel/Text (macht Datenverarbeitung) während folgender Pandas code Sql ausführt (siehe klammer) ++ formatiert Ergebnis (Präsentation).
# Sql liefert die aggregierten Werte, pandas zeigt sie als übersichtliche DataFrame-Tabelle an.

df_count = pd.read_sql_query(query_count, conn)
print("Top 10 Kunden nach Anzahl Orders:")
df_count

Top 10 Kunden nach Anzahl Orders:


Unnamed: 0,CustomerID,anzahl_orders
0,SAVEA,31
1,ERNSH,30
2,QUICK,28
3,HUNGO,19
4,FOLKO,19
5,RATTC,18
6,HILAA,18
7,BERGS,18
8,BONAP,17
9,WARTH,15


In [10]:
# mehr Aggregationen zum üben

query_stats = """
SELECT COUNT(OrderID) As gesamt_orders, -- Anzahl Bestellungen
SUM(Freight) As gesamt_freight, -- Summe Versandkosten
ROUND(AVG(Freight), 2) AS avg_freight -- Durchschnitt (gerundet)
FROM Orders; -- Alle Freight Kosten zusammenrechnen + Durchschnitt
"""
df_stats = pd.read_sql_query(query_stats,conn)
print("Orders-Übersicht:")
df_stats

Orders-Übersicht:


Unnamed: 0,gesamt_orders,gesamt_freight,avg_freight
0,830,64942.69,78.24


In [11]:
query_year = """
SELECT strftime('%Y', OrderDate) AS Jahr, -- strftime = string from time -> macht aus datum einen text nach folgendem format in diesem fall '%Y' = Format-Code für 4-stelliges Jahr (1996,1997,1998), andere formate wären '%Y-%m-%d' -> "1996-07-04" oder nur '%m' = 07 (Monat) etc
-- wir brauchen die obere Zeile damit wir nach Jahr filtern können Group BY OrderDate wären ansonsten für jede Zeile also 800 Zeilen+
COUNT(*) AS orders
FROM Orders 
GROUP BY strftime('%Y', OrderDate)
ORDER BY jahr;
"""
df_year = pd.read_sql_query(query_year, conn)
print("Orders pro Jahr:")
df_year

Orders pro Jahr:


Unnamed: 0,Jahr,orders
0,1996,152
1,1997,408
2,1998,270


In [12]:
query_having = """
SELECT CustomerID, COUNT(*) AS orders
FROM Orders
GROUP BY CustomerID
HAVING COUNT(*) > 5
ORDER BY orders DESC;
""" -- Das waren beispiele zu Aggregationen also COUNT,SUM,AVG,GROUP BY, HAVING, strftime etc.
df_having = pd.read_sql_query(query_having, conn)
print("Vielkaufende Kunden:")
df_having

SyntaxError: invalid syntax (642848397.py, line 7)

In [13]:
# 6.) JOIN Operator

query_easy = """
SELECT o.OrderID, -- aus Orders
c. CompanyName, -- aus Customers
o.Freight -- aus Orders
FROM Orders o -- Orders = "o" ab hier initialisiert
JOIN Customers c -- Customers = "c" ab hier initialisiert
ON o.CustomerID = c.CustomerID -- Verknüpfung. ON sagt SQL : Verbinde nur Zeilen wo diese Spalten gleich sind
LIMIT 10;
"""

df_easy = pd.read_sql_query(query_easy, conn)
print("Einfacher JOIN:")
df_easy

Einfacher JOIN:


Unnamed: 0,OrderID,CompanyName,Freight
0,10248,Vins et alcools Chevalier,32.38
1,10249,Toms Spezialitäten,11.61
2,10250,Hanari Carnes,65.83
3,10251,Victuailles en stock,41.34
4,10252,Suprêmes délices,51.3
5,10253,Hanari Carnes,58.17
6,10254,Chop-suey Chinese,22.98
7,10255,Richter Supermarkt,148.33
8,10256,Wellington Importadora,13.97
9,10257,HILARION-Abastos,81.91


In [14]:
query_revenue = """ -- Umsatz also geld das reinkommt, leicht zu verwechseln mit profit welches geld das übrigbleibt wäre also revenue (umsatz) - kosten
-- Wieso wollen wir den Umsatz? Busisness fragt immer zuerst Welche kunden bringen Geld, welche Produkte lassen sich verkaufen, Top Regionen?
SELECT c.CompanyName,
       ROUND(SUM(od.Quantity * od.UnitPrice), 0) AS umsatz
FROM Orders o -- Wieso von Orders? wir möchten companyname (von customer) und umsatz von order detail haben, können diese aber nicht joinen lassen da keine "verknüpfung bzw beziehung" zwischen diesen tabellen existiert, deshalb wählt man Order als Brücke und joint beide tabellen mit Order, gruppiert nach Company Name und sortiert nach Umsatz absteigend + limitiert es auf top 10
JOIN Customers c ON o.CustomerID = c.CustomerID
JOIN `Order Details` od ON o.OrderID = od.OrderID
GROUP BY c.CompanyName
ORDER BY umsatz DESC
LIMIT 10;
"""
df_revenue = pd.read_sql_query(query_revenue, conn)
print("Top 10 Kunden Umsatz:")
df_revenue

Top 10 Kunden Umsatz:


Unnamed: 0,CompanyName,umsatz
0,QUICK-Stop,117483.0
1,Save-a-lot Markets,115673.0
2,Ernst Handel,113237.0
3,Hungry Owl All-Night Grocers,57317.0
4,Rattlesnake Canyon Grocery,52246.0
5,Hanari Carnes,34101.0
6,Folk och fä HB,32556.0
7,Mère Paillarde,32204.0
8,Königlich Essen,31746.0
9,Queen Cozinha,30226.0


In [17]:
query_revenue_disc = """
SELECT c.CompanyName,
ROUND(SUM(od.Quantity * od.UnitPrice * (1 - od.Discount)), 0) AS
umsatz_Netto
FROM Orders o -- Haupttabelle, die anderen 2 tabellen werden hierher gejoined weil customer nicht direkt mit order details joinen könnte (keine verbindung/verknüpfung)
JOIN Customers c ON o.CustomerID= c.CustomerID -- customer tabelle join zu order tabelle über customerid spalte
JOIN 'Order Details' od ON o.OrderID = od.OrderID -- order details tabelle join zu order tabelle über orderID spalte
GROUP BY c.CompanyName
ORDER BY umsatz_netto DESC
LIMIT 10;
"""

df_disc = pd.read_sql_query(query_revenue_disc, conn)
print("Top 10 Kunden Umsatz mit Discount:")
df_disc

Top 10 Kunden Umsatz mit Discount:


Unnamed: 0,CompanyName,umsatz_Netto
0,QUICK-Stop,110277.0
1,Ernst Handel,104875.0
2,Save-a-lot Markets,104362.0
3,Rattlesnake Canyon Grocery,51098.0
4,Hungry Owl All-Night Grocers,49980.0
5,Hanari Carnes,32841.0
6,Königlich Essen,30908.0
7,Folk och fä HB,29568.0
8,Mère Paillarde,28872.0
9,White Clover Markets,27364.0


In [3]:
query_year = """
SELECT strftime('%Y', o.OrderDate) AS jahr,
       ROUND(SUM(od.Quantity * od.UnitPrice * (1 - od.Discount)), 0) AS umsatz
FROM Orders o
JOIN `Order Details` od ON o.OrderID = od.OrderID
GROUP BY jahr
ORDER BY jahr;
"""

df_year = pd.read_sql_query(query_year, conn)
print("Umsatz pro Jahr:")
df_year

Umsatz pro Jahr:


Unnamed: 0,jahr,umsatz
0,1996,208084.0
1,1997,617085.0
2,1998,440624.0


In [4]:
query_profit = """
SELECT c.CompanyName,
       ROUND(SUM(od.Quantity * od.UnitPrice * (1 - od.Discount) * 0.4), 0) AS gewinn
FROM Orders o
JOIN Customers c ON o.CustomerID = c.CustomerID
JOIN `Order Details` od ON o.OrderID = od.OrderID
GROUP BY c.CompanyName
ORDER BY gewinn DESC
LIMIT 10;
"""

df_profit = pd.read_sql_query(query_profit, conn)
print("Top 10 Kunden Gewinn (40% Marge):")
df_profit

Top 10 Kunden Gewinn (40% Marge):


Unnamed: 0,CompanyName,gewinn
0,QUICK-Stop,44111.0
1,Ernst Handel,41950.0
2,Save-a-lot Markets,41745.0
3,Rattlesnake Canyon Grocery,20439.0
4,Hungry Owl All-Night Grocers,19992.0
5,Hanari Carnes,13137.0
6,Königlich Essen,12363.0
7,Folk och fä HB,11827.0
8,Mère Paillarde,11549.0
9,White Clover Markets,10945.0


In [5]:
query_complete = """
SELECT c.CompanyName,
       ROUND(SUM(od.Quantity * od.UnitPrice * (1 - od.Discount)), 0) AS umsatz,
       ROUND(SUM(od.Quantity * od.UnitPrice * (1 - od.Discount) * 0.4), 0) AS gewinn,
       ROUND(SUM(od.Quantity * od.UnitPrice * (1 - od.Discount) * 0.6), 0) AS kosten
FROM Orders o JOIN Customers c ON o.CustomerID = c.CustomerID
JOIN `Order Details` od ON o.OrderID = od.OrderID
GROUP BY c.CompanyName
ORDER BY umsatz DESC LIMIT 10;
"""
df_complete = pd.read_sql_query(query_complete, conn)
print("Vollständige KPI-Tabelle:")
df_complete

Vollständige KPI-Tabelle:


Unnamed: 0,CompanyName,umsatz,gewinn,kosten
0,QUICK-Stop,110277.0,44111.0,66166.0
1,Ernst Handel,104875.0,41950.0,62925.0
2,Save-a-lot Markets,104362.0,41745.0,62617.0
3,Rattlesnake Canyon Grocery,51098.0,20439.0,30659.0
4,Hungry Owl All-Night Grocers,49980.0,19992.0,29988.0
5,Hanari Carnes,32841.0,13137.0,19705.0
6,Königlich Essen,30908.0,12363.0,18545.0
7,Folk och fä HB,29568.0,11827.0,17741.0
8,Mère Paillarde,28872.0,11549.0,17323.0
9,White Clover Markets,27364.0,10945.0,16418.0


In [6]:
query_produkte = """
SELECT p.ProductName,
       ROUND(SUM(od.Quantity * od.UnitPrice * (1 - od.Discount)), 0) AS umsatz
FROM Orders o JOIN `Order Details` od ON o.OrderID = od.OrderID
JOIN Products p ON od.ProductID = p.ProductID
GROUP BY p.ProductID, p.ProductName
ORDER BY umsatz DESC LIMIT 10;
"""
df_produkte = pd.read_sql_query(query_produkte, conn)
print("Top Produkte:")
df_produkte

Top Produkte:


Unnamed: 0,ProductName,umsatz
0,Côte de Blaye,141397.0
1,Thüringer Rostbratwurst,80369.0
2,Raclette Courdavault,71156.0
3,Tarte au sucre,47235.0
4,Camembert Pierrot,46825.0
5,Gnocchi di nonna Alice,42593.0
6,Manjimup Dried Apples,41820.0
7,Alice Mutton,32698.0
8,Carnarvon Tigers,29172.0
9,Rössle Sauerkraut,25697.0


In [7]:
df_complete.to_csv('top_kunden_kpis.csv', index=False)
df_year.to_csv('umsatz_trend_jahr.csv', index=False)
df_produkte.to_csv('top_produkte.csv', index=False)
print("Alle CSV für Power BI exportiert!")

✅ Alle CSV für Power BI exportiert!
