# Einführung in SQL - Vorbereitungsauftrag

## Einleitung
In diesem Kurs werden die Grundlagen zur `Structured Query Language (SQL)` vermittelt. Um in vier Lektionen ein gewisses Niveau zu erreichen, möchte ich euch bitten, einige Vorbereitungsarbeiten auszuführen und euch mit SQL und der Arbeitsumgebung vertraut zu machen. Dieses Notebook leitet euch Schritt für Schritt durch den Prozess. 

Technische Voraussetzung für das Notebook sind grundlegende Kenntnisse in Python, Jupyter Notebooks und Deepnote oder Anaconda sowie Erfahrungen mit Datenstrukturen wie Arrays/Listen, Tabellen, etc.
Wenn du schon vertiefte SQL-Kenntnisse hast, bitte ich dich, die Test-Umgebung aufzusetzen und dich mit der Test-Datenbank vertraut zu machen. Die Übungen kannst du weglassen und vielleicht am Schluss noch den Fragebogen ausfüllen.

In diesem Tutorial schlage ich ein eher schnelles Tempo an. Wenn das zu schnell ist oder du detailliertere Infos haben möchtest, kannst du dir auch folgendes Video anzuschauen (ca 1 Stunde):
* https://www.linkedin.com/learning/sql-lernen - Einsteiger-Video auf *Linkedin learning*. *Linkedin Learning* steht allen Studierenden der FHNW kostenlos zur Verfügung, solange sie im FH-Netz sind bzw. sich über https://vpn.fhnw.ch einloggen.

Bei Fragen oder Problemen stehe ich über Microsoft Teams oder per Mail (marco.soldati@fhnw.ch) gerne zur Verfügung.


## Ziele der Vorbereitung
Folgende Fragen und Aussagen solltest du mit Ja beantworten können, um für den Unterricht bereit zu sein. 

**1. SQlite-Datenbank einrichten**
* [ ] Ich habe die lokale Test-Datenbank (sqlite) eingerichtet.
* [ ] Ich kann mit Python auf die Test-Datenbank zugreifen.
* [ ] Ich kenne die grobe Struktur der im Unterricht verwendeten Datenbank.

**2. Grundlagen Relationale Datenbanken**
* [ ] Ich kenne die Grundbegriffe von relationalen Datenkbanken (Tabelle, Reihe, Spalte).
* [ ] Ich verstehe was die Aufgabe von SQL ist (Sprache für Datenzugriff und -manipulation).

**3. Select statements**
* [ ] Ich kenne die Grundlegende Syntax von SELECT-Befehlen.
* [ ] Ich kann eigene, einfache SELECT-Queries auf einer einzelnen Tabelle kreieren.
* [ ] Ich kann Daten sortieren (ORDER BY).
* [ ] Ich kann Duplikate ignorieren (DISTINCT).
* [ ] Ich kann einfache Filter-Regeln (WHERE-Clause) implementieren.
* [ ] Ich kann einfache Aggregationsfunktionen verwenden (SUM, AVG, MIN, MAX, ...)
* [ ] Ich kann einen INNER JOIN auf zwei Tabellen mit einem gemeinsamen Referenz-Feld erstellen.
* [ ] Ich kenne grundsätzlich den Unterschied zwischen INNER JOIN und LEFT (OUTER) JOIN.
* [ ] Ich kann Daten gruppieren (GROUP BY) und mit Aggregationsfunktionen zusammenfassen.


## SQlite-Datenbank einrichten

Für die Test-Datenbank verwenden wir `sqlite`. Diese wird mit Python mitgeliefert und braucht keine weitere Installation.

Für Data Science bietet `sqlite` einige Vorteile gegenüber CSV- oder JSON-Files. Insbesondere dann, wenn Daten aggregiert (also zusammengeführt), gefiltert oder sortiert werden müssen, ist SQL sehr leistungsfähig. Der Nachteil ist die zusätzlich benötigte Technologie, um Daten abzufragen und zu verarbeiten sowie die Notwendigkeit ein Datenbankschema zu erstellen.

Um Datenbanken produktiv nutzen zu können, braucht es etwas Übung und Erfahrung. In vier Lektionen können wir aber nur die Grundlagen anschauen. Deshalb rate ich euch für Projekte im CAS und privat, wenn immer möglich mit einer relationalen Datenbank zu arbeiten. SQL eignet sich relativ gut zum learning-on-the-job. Es ist auf jeden Fall einfacher zu lernen als Python ;-).

In [None]:
# Als erstes werden einige Hilfsfunktionen definiert, die für diesen Kurs nützlich sind. 
# Öffne die Datei ./util/sqlite_util.py und stelle sicher, dass du grundsätzlich verstehst, was die Funktionen machen.

from util.sqlite_util import *

In [None]:
# Jetzt können wir eine neue Datenbank erstellen, Benutzen werden wir sie aber erst später...
path = get_connection_path("sql_kurs.sqlite")
connection = create_connection(path)

# ... deshalb schliessen wir sie gleich wieder
if connection:
    connection.close() # connections immer schliessen, wenn sie nicht mehr gebraucht werden.

# Die Datei ./data/sql_kurs.sqlite bleibt dabei bestehen. 

Connection to SQLite DB 2.6.0 (./data/sql_kurs.sqlite) successful


## Relationale Datenbanken - Begriffe

*Hier einige Begriff für Neulinge. Wer mit SQL bereits vertraut ist, kann diesen Abschnitt überspringen.*

### Relationale Datenbanken 
> Eine relationale Datenbank ist ein Typ von Datenbanken, der die Speicherung und den Zugriff auf miteinander verbundener Datenpunkte ermöglicht. Relationale Datenbanken basieren auf dem relationalen Modell, einer intuitiven und einfachen Art, Daten in Tabellen darzustellen. (Quelle: Oracle Schweiz)


### Structure Query Language (SQL)
Zum Abfragen und Manipulieren der Daten wird überwiegend die Datenbanksprache SQL (Structured Query Language) eingesetzt, deren theoretische Grundlage die relationale Algebra ist.  SQL ist ein offizieller [ISO-Standard](https://www.iso.org/standard/63555.html) und wird von allen bekannten Datenbank Management Systemen umgesetzt. Allfällige produktspezifische Erweiterungen und Abweichungen davon sind meistens gut dokumentiert, so auch für [sqlite](https://www.sqlite.org/lang.html). 

### Database Management System DBMS
Ein DBMS ist ein Softwaresystem zum Erstellen und Verwalten von Datenbanken. Im produktiven Betrieb werden verschiedene relationale DBMS eingesetzt, z.B. IBM DB2, Microsoft SQL Server, MySQL, MariaDB, Oracle, PostgreSQL. Für jede Datenbank muss jeweils eine geeignete Client-Bibliothek, ein sogenannter `connector` in Python eingebunden werden. Dies wird in diesem Kurs nicht behandelt, da die Python-Syntax für die jeweiligen Bibliotheken angepasst werden muss.

DBMS oder kurz einfach Datenbanken laufen im Normalfall auf einem eigenen Server. Python greift dann über die Client-Bibliothek, also dem `connector`, auf die Datenbank zu. Bei `sqlite` läuft die Datenbank direkt auf dem Client bzw. im aktuellen Python-Programm. Die Daten werden in einer lokalen Datei gespeichert. Damit eignet sich `sqlite` sehr gut, um kleinere Datenmengen (im MB bis GB-Bereich) lokal und strukturiert abzulegen.

### Datenbankschema
Eine relationale Datenbank kann man sich als eine Sammlung von *Tabellen* (den *Relationen*) vorstellen, in welchen Datensätze abgespeichert sind. Jede *Zeile* (*Tupel* oder *row*) in einer Tabelle ist ein *Datensatz* (*record*). Jedes *Tupel* besteht aus einer Reihe von *Attributwerten* (Attribute = Eigenschaften). Diese sind in den *Spalten* (*column*) der Tabelle definiert. 

Das Datenbank- oder Relationenschema legt dabei die Anzahl und den Typ der Attribute für eine Relation fest. 

## Beispiel-Datenbank

Diese Einführung basiert auf https://www.sqlitetutorial.net und wurde für Python/Jupyter adaptiert und zusammengefasst. Mehr Details finden sich auf der Original-Webseite.

Untenstehendes Datenbank-Schema beschreibt unsere Beispiels-Datenbank und dürfte mehr oder weniger selbsterklärend sein. Details gibt es unter https://www.sqlitetutorial.net/sqlite-sample-database/.
![Schema](./img/sqlite-sample-database-diagram-color.png)

In [None]:
# Test-Datenbank öffnen
path = get_connection_path("chinook.sqlite")
connection = create_connection(path)

Connection to SQLite DB 2.6.0 (./data/chinook.sqlite) successful


In [None]:
# Um die Datenbank-Struktur anzuschauen gibt es zwei Hilfsmethoden.
print("Zeige alle Tabellen der Datenbank:")
print(show_tables(connection))
print("\nDetails zur Tabelle 'invoices':")
print(desc_table(connection, "invoices"))

Zeige alle Tabellen der Datenbank:
['albums', 'artists', 'customers', 'employees', 'genres', 'invoices', 'invoice_items', 'media_types', 'playlists', 'playlist_track', 'tracks']

Details zur Tabelle 'invoices':
CREATE TABLE "invoices"
(
    [InvoiceId] INTEGER PRIMARY KEY AUTOINCREMENT NOT NULL,
    [CustomerId] INTEGER  NOT NULL,
    [InvoiceDate] DATETIME  NOT NULL,
    [BillingAddress] NVARCHAR(70),
    [BillingCity] NVARCHAR(40),
    [BillingState] NVARCHAR(40),
    [BillingCountry] NVARCHAR(40),
    [BillingPostalCode] NVARCHAR(10),
    [Total] NUMERIC(10,2)  NOT NULL,
    FOREIGN KEY ([CustomerId]) REFERENCES "customers" ([CustomerId]) 
		ON DELETE NO ACTION ON UPDATE NO ACTION
)


Damit sind wir bereit für die eigentliche Einführung in SQL. Wir betrachten die wichtigsten Befehle zur Datenabfrage.

## SELECT statements

Select wird verwendet, um Daten aus einer Tabelle zu laden.

In [None]:
# Mit dieser Query laden wir alle Elemente der Tabelle 'tracks'.
stmt = """SELECT * FROM tracks LIMIT 10;"""

# Nun wird die Query auf der Datenbank ausgeführt, und in einem sogenannten Cursor zurückgegen. 
# Der Cursor zeigt auf die Daten ohne sie bereits zu laden.
cur = execute_query(connection, stmt)

# Zum Laden holen mit .fetchall() auf dem Cursor-Objekt alle Datensätze ab. 
rows = cur.fetchall()

# Das Resultat ist ein Array mit allen Datensätzen. Jeder Datensatz ist wiederum ein Array. 
# Wir haben es also mit einem zweidimensionalen Python-Array zu tun.
print(rows)
print(rows[0])
print(rows[0][0])

# Bitte mache dich mit dieser Datenstruktur vertraut.
# https://www.snakify.org/de/lessons/two_dimensional_lists_arrays/ gibt weitere Hilfe..


[(1, 'For Those About To Rock (We Salute You)', 1, 1, 1, 'Angus Young, Malcolm Young, Brian Johnson', 343719, 11170334, 0.99), (2, 'Balls to the Wall', 2, 2, 1, None, 342562, 5510424, 0.99), (3, 'Fast As a Shark', 3, 2, 1, 'F. Baltes, S. Kaufman, U. Dirkscneider & W. Hoffman', 230619, 3990994, 0.99), (4, 'Restless and Wild', 3, 2, 1, 'F. Baltes, R.A. Smith-Diesel, S. Kaufman, U. Dirkscneider & W. Hoffman', 252051, 4331779, 0.99), (5, 'Princess of the Dawn', 3, 2, 1, 'Deaffy & R.A. Smith-Diesel', 375418, 6290521, 0.99), (6, 'Put The Finger On You', 1, 1, 1, 'Angus Young, Malcolm Young, Brian Johnson', 205662, 6713451, 0.99), (7, "Let's Get It Up", 1, 1, 1, 'Angus Young, Malcolm Young, Brian Johnson', 233926, 7636561, 0.99), (8, 'Inject The Venom', 1, 1, 1, 'Angus Young, Malcolm Young, Brian Johnson', 210834, 6852860, 0.99), (9, 'Snowballed', 1, 1, 1, 'Angus Young, Malcolm Young, Brian Johnson', 203102, 6599424, 0.99), (10, 'Evil Walks', 1, 1, 1, 'Angus Young, Malcolm Young, Brian Johnso

### Aufgabe #1

In [None]:
# Aufgabe #1: In Python iteriere (for-loop) über die 'rows' und drucke (print) von den ersten 10 tracks ('range()') die Attribute 'Name' und 'Composer'.
# Die Lösungen finden sich am Ende dieser Datei, Bitte zuerst selber probieren.


In [None]:
# Die Aufgabe 1 lässt sich auch direkt mit SQL lösen, wobei hier viel weniger Daten geladen werden müssen.
stmt = """SELECT Composer, Name FROM tracks LIMIT 10;"""
cur = execute_query(connection, stmt)
rows = cur.fetchall()
for row in rows:
    print("%s: '%s'" % (row[0], row[1]))


Angus Young, Malcolm Young, Brian Johnson: 'For Those About To Rock (We Salute You)'
None: 'Balls to the Wall'
F. Baltes, S. Kaufman, U. Dirkscneider & W. Hoffman: 'Fast As a Shark'
F. Baltes, R.A. Smith-Diesel, S. Kaufman, U. Dirkscneider & W. Hoffman: 'Restless and Wild'
Deaffy & R.A. Smith-Diesel: 'Princess of the Dawn'
Angus Young, Malcolm Young, Brian Johnson: 'Put The Finger On You'
Angus Young, Malcolm Young, Brian Johnson: 'Let's Get It Up'
Angus Young, Malcolm Young, Brian Johnson: 'Inject The Venom'
Angus Young, Malcolm Young, Brian Johnson: 'Snowballed'
Angus Young, Malcolm Young, Brian Johnson: 'Evil Walks'


`SELECT` ist der wichtigste und zugleich komplexeste Befehl von SQL. Eine sehr gute Erklährung findet sich unter https://www.sqlitetutorial.net/sqlite-select/. Bitte durchlesen (ca. 10 min). 


### Aufgabe #2

In [None]:
# Aufgabe #2: Erstelle eine Query für die Tabelle 'customers'. Lade maximal 10 records mit mindestens 3 attributen nach Wahl.


## Daten sortieren: SELECT ORDER BY 

In [None]:
# Mit SELECT column_list FROM table ORDER BY z; können die Daten aufsteigend oder absteigend sortiert werden.
# Hier werden die 10 teuersten Tracks nach Preis und Name sortiert geladen.
stmt = """
SELECT Name, UnitPrice FROM tracks 
ORDER BY UnitPrice DESC, Name ASC 
LIMIT 10;
"""
cur = execute_query(connection, stmt)

# Anmeerkung: Um das Ausdrucken einfacher zu machen, steht eine weitere Hilfsmethode 
# in 'sqlite_util.sql' zur Verfügung: print_results(cur, max_num_of_rows=5)

print_results(cur)
# Vertiefte Informationen (freiwillig) gibt es hier: https://www.sqlitetutorial.net/sqlite-order-by/

['Name', 'UnitPrice']
('"?"', 1.99)
('...And Found', 1.99)
('...In Translation', 1.99)
('.07%', 1.99)
('A Benihana Christmas, Pts. 1 & 2', 1.99)
('A Day In the Life', 1.99)
('A Measure of Salvation', 1.99)
('A Tale of Two Cities', 1.99)
('Abandoned', 1.99)
('Adrift', 1.99)


### Aufgabe 3

In [None]:
# Aufgabe #3: Experimentiere mit verschiedenen ORDER BY Clauses (z.B nach Composer, Milliseconds oder Bytes oder mit der customers-Tabelle)

## Daten filtern: SELECT DISTINCT

In [None]:
# Mit SELECT DISTINCT column_list FROM table; können Duplikate gelöscht werden.
# Als erstes laden wir die Städte, in welchen unsere 59 customers wohnen. Einige Städte sind Duplikate.
stmt = """
SELECT city FROM customers ORDER BY city;
"""
cur = execute_query(connection, stmt)
rows = cur.fetchall()
print(len(rows), rows);


59 [('Amsterdam',), ('Bangalore',), ('Berlin',), ('Berlin',), ('Bordeaux',), ('Boston',), ('Brasília',), ('Brussels',), ('Budapest',), ('Buenos Aires',), ('Chicago',), ('Copenhagen',), ('Cupertino',), ('Delhi',), ('Dijon',), ('Dublin',), ('Edinburgh ',), ('Edmonton',), ('Fort Worth',), ('Frankfurt',), ('Halifax',), ('Helsinki',), ('Lisbon',), ('London',), ('London',), ('Lyon',), ('Madison',), ('Madrid',), ('Montréal',), ('Mountain View',), ('Mountain View',), ('New York',), ('Orlando',), ('Oslo',), ('Ottawa',), ('Paris',), ('Paris',), ('Porto',), ('Prague',), ('Prague',), ('Redmond',), ('Reno',), ('Rio de Janeiro',), ('Rome',), ('Salt Lake City',), ('Santiago',), ('Sidney',), ('Stockholm',), ('Stuttgart',), ('São José dos Campos',), ('São Paulo',), ('São Paulo',), ('Toronto',), ('Tucson',), ('Vancouver',), ('Vienne',), ('Warsaw',), ('Winnipeg',), ('Yellowknife',)]


In [None]:
# Mit DISTINCT werden die Duplikate entfernt.
stmt = """
SELECT DISTINCT city FROM customers ORDER BY city;
"""
cur = execute_query(connection, stmt)
rows = cur.fetchall()
print(len(rows), rows)

53 [('Amsterdam',), ('Bangalore',), ('Berlin',), ('Bordeaux',), ('Boston',), ('Brasília',), ('Brussels',), ('Budapest',), ('Buenos Aires',), ('Chicago',), ('Copenhagen',), ('Cupertino',), ('Delhi',), ('Dijon',), ('Dublin',), ('Edinburgh ',), ('Edmonton',), ('Fort Worth',), ('Frankfurt',), ('Halifax',), ('Helsinki',), ('Lisbon',), ('London',), ('Lyon',), ('Madison',), ('Madrid',), ('Montréal',), ('Mountain View',), ('New York',), ('Orlando',), ('Oslo',), ('Ottawa',), ('Paris',), ('Porto',), ('Prague',), ('Redmond',), ('Reno',), ('Rio de Janeiro',), ('Rome',), ('Salt Lake City',), ('Santiago',), ('Sidney',), ('Stockholm',), ('Stuttgart',), ('São José dos Campos',), ('São Paulo',), ('Toronto',), ('Tucson',), ('Vancouver',), ('Vienne',), ('Warsaw',), ('Winnipeg',), ('Yellowknife',)]


In [None]:
# Wenn mehrere Spalten angegeben sind, werden die Datensätze nur gelöscht, wenn alle Spalten-Werte gleich sind. 
stmt = """
SELECT DISTINCT city,country FROM customers ORDER BY city;
"""
cur = execute_query(connection, stmt)
rows = cur.fetchall()
print(len(rows), rows)

# Vertiefte Informationen (freiwillig) gibt es hier: https://www.sqlitetutorial.net/sqlite-select-distinct

53 [('Amsterdam', 'Netherlands'), ('Bangalore', 'India'), ('Berlin', 'Germany'), ('Bordeaux', 'France'), ('Boston', 'USA'), ('Brasília', 'Brazil'), ('Brussels', 'Belgium'), ('Budapest', 'Hungary'), ('Buenos Aires', 'Argentina'), ('Chicago', 'USA'), ('Copenhagen', 'Denmark'), ('Cupertino', 'USA'), ('Delhi', 'India'), ('Dijon', 'France'), ('Dublin', 'Ireland'), ('Edinburgh ', 'United Kingdom'), ('Edmonton', 'Canada'), ('Fort Worth', 'USA'), ('Frankfurt', 'Germany'), ('Halifax', 'Canada'), ('Helsinki', 'Finland'), ('Lisbon', 'Portugal'), ('London', 'United Kingdom'), ('Lyon', 'France'), ('Madison', 'USA'), ('Madrid', 'Spain'), ('Montréal', 'Canada'), ('Mountain View', 'USA'), ('New York', 'USA'), ('Orlando', 'USA'), ('Oslo', 'Norway'), ('Ottawa', 'Canada'), ('Paris', 'France'), ('Porto', 'Portugal'), ('Prague', 'Czech Republic'), ('Redmond', 'USA'), ('Reno', 'USA'), ('Rio de Janeiro', 'Brazil'), ('Rome', 'Italy'), ('Salt Lake City', 'USA'), ('Santiago', 'Chile'), ('Sidney', 'Australia'), 

## Daten filtern: SELECT WHERE

`SELECT column_list FROM table WHERE search_condition;` dient dazu Daten zu filtern. 
WHERE ist ziemlich mächtig. Hier schauen wir nur die wichtigsten Funktionen an.

Die `search_condition` ist immer folgendermassen aufgebaut: 

```left_expression COMPARISON_OPERATOR right_expression```

Beim 'COMPARISON_OPERATOR' wird zwischen Vergleichsoperatoren und logischen Operatoren verglichen. Sie definieren auch die Syntax der erlaubten `left und right experession`.


#### Logische Operatoren
| Operator &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; |          Meaning         |
|----------|--------------------------|
| =        | Equal to                 |
| <> or != | Not equal to             |
| <        | Less than                |
| >        | Greater than             |
| <=       | Less than or equal to    |
| >=       | Greater than or equal to |

---

#### Vergleichsoperatoren
| Operator &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; |                                       Meaning                                       |
|----------|-------------------------------------------------------------------------------------|
| ALL      | returns 1 if all expressions are 1.                                                 |
| AND      | returns 1 if both expressions are 1, and 0 if one of the expressions is 0.          |
| ANY      | returns 1 if any one of a set of comparisons is 1.                                  |
| BETWEEN  | returns 1 if a value is within a range.                                             |
| EXISTS   | returns 1 if a subquery contains any rows.                                          |
| IN       | returns 1 if a value is in a list of values.                                        |
| LIKE     | returns 1 if a value matches a pattern                                              |
| NOT      | reverses the value of other operators such as NOT EXISTS, NOT IN, NOT BETWEEN, etc. |
| OR       | returns true if either expression is 1                                              |

---

Wir werden hier nicht alle Operatoren behandeln. Eine detaillierte Einführung bietet https://www.sqlitetutorial.net/sqlite-where/.

In [None]:
# Als nächstes laden wir alle Tracks die zum Album mit der albumid=1 gehören. 
stmt = """SELECT
   name
   albumid
FROM
   tracks
WHERE
   albumid = 1;"""
cur = execute_query(connection, stmt)
rows = cur.fetchall()
print(rows)

[('For Those About To Rock (We Salute You)',), ('Put The Finger On You',), ("Let's Get It Up",), ('Inject The Venom',), ('Snowballed',), ('Evil Walks',), ('C.O.D.',), ('Breaking The Rules',), ('Night Of The Long Knives',), ('Spellbound',)]


In [None]:
# Mit AND und OR können mehrere WHERE-Statements verbunden werden.
stmt = """SELECT
	name,
	milliseconds,
	albumid
FROM
	tracks
WHERE
	albumid = 1
AND milliseconds > 250000;"""
cur = execute_query(connection, stmt)
rows = cur.fetchall()
print(rows)

[('For Those About To Rock (We Salute You)', 343719, 1), ('Evil Walks', 263497, 1), ('Breaking The Rules', 263288, 1), ('Spellbound', 270863, 1)]


In [None]:
# Mit dem LIKE-Operator können Strings verglichen werden. % ist dabei ein Platzhalter für eine beliebige Zeichenfolge.
stmt = """SELECT
	composer
FROM
	tracks
WHERE
	composer LIKE '%Smith%'
ORDER BY
	albumid;"""
cur = execute_query(connection, stmt)
rows = cur.fetchall()
print(rows)

[('F. Baltes, R.A. Smith-Diesel, S. Kaufman, U. Dirkscneider & W. Hoffman',), ('Deaffy & R.A. Smith-Diesel',), ('Adrian Smith',), ('Adrian Smith',), ('Adrian Smith/Bruce Dickinson',), ('Adrian Smith/Bruce Dickinson/Steve Harris',), ('Adrian Smith/Bruce Dickinson/Steve Harris',), ('Adrian Smith/Bruce Dickinson/Steve Harris',), ('Adrian Smith/Steve Harris',), ('Adrian Smith/Steve Harris',), ('Adrian Smith/Bruce Dickinson/Nicko McBrain',), ('Adrian Smith/Steve Harris',), ('Adrian Smith/Bruce Dickinson/Steve Harris',), ('Smith/Dickinson',), ('Smith/Dickinson',), ('Adrian Smith/Bruce Dickinson/Steve Harris',), ('Adrian Smith/Bruce Dickinson',), ('Adrian Smith/Bruce Dickinson',), ('Adrian Smith/Bruce Dickinson',), ('Adrian Smith/Bruce Dickinson/Steve Harris',), ('Adrian Smith/Bruce Dickinson',), ('Smith/Dickinson',), ('Dickinson/Smith',), ('Adrian Smith/Bruce Dickinson/Steve Harris',), ('Adrian Smith/Bruce Dickinson',), ('Adrian Smith/Bruce Dickinson/Steve Harris',), ('Adrian Smith; Bruce Di

In [None]:
# Mit dem IN-Operator kann in einer Liste gesucht werden.
stmt = """SELECT
	name,
	albumid,
	mediatypeid
FROM
	tracks
WHERE
	mediatypeid IN (2, 3);"""
cur = execute_query(connection, stmt)
rows = cur.fetchall()
print(rows)

[('Balls to the Wall', 2, 2), ('Fast As a Shark', 3, 2), ('Restless and Wild', 3, 2), ('Princess of the Dawn', 3, 2), ('Welcome to the Jungle', 90, 2), ("It's So Easy", 90, 2), ('Nightrain', 90, 2), ('Out Ta Get Me', 90, 2), ('Mr. Brownstone', 90, 2), ('Paradise City', 90, 2), ('My Michelle', 90, 2), ('Think About You', 90, 2), ("Sweet Child O' Mine", 90, 2), ("You're Crazy", 90, 2), ('Anything Goes', 90, 2), ('Rocket Queen', 90, 2), ('Right Next Door to Hell', 91, 2), ("Dust N' Bones", 91, 2), ('Live and Let Die', 91, 2), ("Don't Cry (Original)", 91, 2), ('Perfect Crime', 91, 2), ("You Ain't the First", 91, 2), ('Bad Obsession', 91, 2), ('Back off Bitch', 91, 2), ("Double Talkin' Jive", 91, 2), ('November Rain', 91, 2), ('The Garden', 91, 2), ('Garden of Eden', 91, 2), ("Don't Damn Me", 91, 2), ('Bad Apples', 91, 2), ('Dead Horse', 91, 2), ('Coma', 91, 2), ('Different World', 94, 2), ("These Colours Don't Run", 94, 2), ('Brighter Than a Thousand Suns', 94, 2), ('The Pilgrim', 94, 2), 

### Aufgabe #4

In [None]:
# Aufgabe #4: Benutze die Tabelle 'customers':
# 4.a) Suche alle 'customers', welche in Frankreich ('France') wohnen.

In [None]:
# 4.b) Suche alle 'customers', welche nicht in den 'USA' oder in 'Canada' wohnen.


In [None]:
# 4.c) Suche alle 'customers', welche eine 'gmail.com' Mail-Adresse haben.


## Aggregationsfunktionen

Aggregationsfunktionen operieren auf mehreren Zeilen und geben einen einzelnen, aggregierten Wert zurück.

`sqlite` kennt verschiedene Aggregationsfunktionen, wobei wir hier nur eine Auswahl betrachten:
* AVG() – returns the average value of a group.
* COUNT() – returns the number of rows that match a specified condition
* MAX() – returns the maximum value in a group.
* MIN() – returns the minimum value in a group
* SUM() – returns the sum of values
* ROUND() - Round off a floating value to a specified precision

Weitere Funktionen zur String-Manipulation, für Datums-Manipulation, mathematische Funktionen usw. werden hier näher behandelt: https://www.sqlitetutorial.net/sqlite-functions/ (freiwillig).


In [None]:
# COUNT zählt die Anzahl Records in einem Datenset
# AVG berechnet den Durchschnitt eines Attributs.
stmt = """SELECT
   COUNT(*), ROUND(AVG(MILLISECONDS) / 1000)
FROM
   tracks
"""
cur = execute_query(connection, stmt)
row = cur.fetchone()  # <== Anmerkung: hier erwarten wir nur eine Zeile, deshalb fetchone()
print(row)

(3503, 394.0)


In [None]:
# MAX und MIN geben den grössten und kleinsten Wert eines Datensets zurück, SUM die Summe aller Werte (hier in Minuten umgerechnet)
stmt = """SELECT
   MIN(BYTES), MAX(BYTES), SUM(MILLISECONDS) / 60000
FROM
   tracks
"""
cur = execute_query(connection, stmt)
row = cur.fetchone()  
print(row)

(38747, 1059546140, 22979)


**Jetzt ist eine gute Zeit für eine Pause.**

Hol dir einen Kaffee, mach einen kurzen Spaziergang oder halte einen Schwatz mit jemandem.

Danach geht es weiter mit slqintro_2.ipynb

# Lösungen

In [None]:
# Lösung Aufgabe #1
stmt = """SELECT * FROM tracks;"""
cur = execute_query(connection, stmt)
rows = cur.fetchall()

# iterierte über das resultat
for i in range(10):
    row = rows[i]
    print("%s: '%s'" % (row[5], row[1]))

Angus Young, Malcolm Young, Brian Johnson: 'For Those About To Rock (We Salute You)'
None: 'Balls to the Wall'
F. Baltes, S. Kaufman, U. Dirkscneider & W. Hoffman: 'Fast As a Shark'
F. Baltes, R.A. Smith-Diesel, S. Kaufman, U. Dirkscneider & W. Hoffman: 'Restless and Wild'
Deaffy & R.A. Smith-Diesel: 'Princess of the Dawn'
Angus Young, Malcolm Young, Brian Johnson: 'Put The Finger On You'
Angus Young, Malcolm Young, Brian Johnson: 'Let's Get It Up'
Angus Young, Malcolm Young, Brian Johnson: 'Inject The Venom'
Angus Young, Malcolm Young, Brian Johnson: 'Snowballed'
Angus Young, Malcolm Young, Brian Johnson: 'Evil Walks'


In [None]:
# Lösung Aufgabe #2
stmt = """SELECT
	FirstName,
	LastName,
	City
FROM
	customers
LIMIT 10;
"""
cur = execute_query(connection, stmt)
print_results(cur)

['FirstName', 'LastName', 'City']
('Luís', 'Gonçalves', 'São José dos Campos')
('Leonie', 'Köhler', 'Stuttgart')
('François', 'Tremblay', 'Montréal')
('Bjørn', 'Hansen', 'Oslo')
('František', 'Wichterlová', 'Prague')
('Helena', 'Holý', 'Prague')
('Astrid', 'Gruber', 'Vienne')
('Daan', 'Peeters', 'Brussels')
('Kara', 'Nielsen', 'Copenhagen')
('Eduardo', 'Martins', 'São Paulo')


In [None]:
# Lösung Aufgabe #3
# Hier gibt es keine generische Lösungen, da die Aufgabenstellung offen gehalten ist.

In [None]:
# Aufgabe #4: Benutze die Tabelle 'customers'
# 4.a) Suche alle 'customers', welche in Frankreich ('France') wohnen.
stmt = """
SELECT firstname, lastname, city, country FROM customers WHERE country == 'France';
"""
cur = execute_query(connection, stmt)
rows = cur.fetchall()
print(rows)

[('Camille', 'Bernard', 'Paris', 'France'), ('Dominique', 'Lefebvre', 'Paris', 'France'), ('Marc', 'Dubois', 'Lyon', 'France'), ('Wyatt', 'Girard', 'Bordeaux', 'France'), ('Isabelle', 'Mercier', 'Dijon', 'France')]


In [None]:
# 4.b) Suche alle 'customers', welche nicht in den 'USA' oder in 'Canada' wohnen.
# Variante 1

stmt = """
SELECT firstname, lastname, city, country FROM customers WHERE country != 'USA' AND country != 'Canada';
"""
cur = execute_query(connection, stmt)
rows = cur.fetchall()
print(rows);

# Variante 2
stmt = """
SELECT firstname, lastname, city, country FROM customers WHERE NOT country IN ('USA', 'Canada');
"""
cur = execute_query(connection, stmt)
rows = cur.fetchall()
print(rows)

[('Luís', 'Gonçalves', 'São José dos Campos', 'Brazil'), ('Leonie', 'Köhler', 'Stuttgart', 'Germany'), ('Bjørn', 'Hansen', 'Oslo', 'Norway'), ('František', 'Wichterlová', 'Prague', 'Czech Republic'), ('Helena', 'Holý', 'Prague', 'Czech Republic'), ('Astrid', 'Gruber', 'Vienne', 'Austria'), ('Daan', 'Peeters', 'Brussels', 'Belgium'), ('Kara', 'Nielsen', 'Copenhagen', 'Denmark'), ('Eduardo', 'Martins', 'São Paulo', 'Brazil'), ('Alexandre', 'Rocha', 'São Paulo', 'Brazil'), ('Roberto', 'Almeida', 'Rio de Janeiro', 'Brazil'), ('Fernanda', 'Ramos', 'Brasília', 'Brazil'), ('João', 'Fernandes', 'Lisbon', 'Portugal'), ('Madalena', 'Sampaio', 'Porto', 'Portugal'), ('Hannah', 'Schneider', 'Berlin', 'Germany'), ('Fynn', 'Zimmermann', 'Frankfurt', 'Germany'), ('Niklas', 'Schröder', 'Berlin', 'Germany'), ('Camille', 'Bernard', 'Paris', 'France'), ('Dominique', 'Lefebvre', 'Paris', 'France'), ('Marc', 'Dubois', 'Lyon', 'France'), ('Wyatt', 'Girard', 'Bordeaux', 'France'), ('Isabelle', 'Mercier', 'Dij

In [None]:
# 4.c) Suche alle 'customers', welche eine 'gmail.com' Mail-Adresse haben.
stmt = """
SELECT firstname, lastname, email FROM customers WHERE email LIKE '%gmail.com%';
"""
cur = execute_query(connection, stmt)
rows = cur.fetchall()
print(rows)

[('François', 'Tremblay', 'ftremblay@gmail.com'), ('Helena', 'Holý', 'hholy@gmail.com'), ('Heather', 'Leacock', 'hleacock@gmail.com'), ('Frank', 'Ralston', 'fralston@gmail.com'), ('Julia', 'Barnett', 'jubarnett@gmail.com'), ('Martha', 'Silk', 'marthasilk@gmail.com'), ('Dominique', 'Lefebvre', 'dominiquelefebvre@gmail.com'), ('Phil', 'Hughes', 'phil.hughes@gmail.com')]


In [None]:
# auskommentiert, fürs testen behalten wir die datenbank offen.
# if connection:
#    connection.close() # connections immer schliessen, wenn sie nicht mehr gebraucht werden.

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=0715ae06-549d-47db-ade6-5afadbf2cba1' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>