**Der SELECT - Befehl**

Allgemeine Syntax:


---
**SELECT**

	<Liste der gewünschten Spalte(n) und Berechnung(en) oder * für alle Spalten>
**FROM**		

	<Tabelle(n) oder View(s)>
**WHERE**		

	<Bedingung(en) für einzelne Datensätze>
**GROUP BY**	

	<Spalte(n) für Gruppierung>
**HAVING**	 

	<Filterbedingung(en) für Gruppen>

**ORDER BY**	

	<Sortierungmerkmal(e)>

Viele Bestandteile des SELECT-Befehls sind optional, d.h. sie müssen nicht unbedingt vorhanden sein. Fehlt z.B. der
ORDER BY Zusatz, so werden die Datensätze nicht nach einer bestimmten Reihenfolge sortiert.





In [None]:
import sys
!{sys.executable} -m pip install ipython-sql > /dev/null
%reload_ext sql
%sql sqlite:///../Material/countries.db

Der einfachste mögliche SELECT-Befehl liefert nur eine Konstante zurück. Der Einsatzzweck dieses Befehls ist jedoch
eher begrenzt.

In [None]:
%%sql


Der SELECT-Befehl liefer immer eine Menge von Tupeln zurück. Man kann also demnach auch mehrere Konstanten in die
gewünschte Werteliste aufnehmen, zum Beispiel:

In [None]:
%%sql


Ebenso kann man Berechnungen durchführen oder Funktionen nutzen - dazu aber später mehr. Hier nur ein kurzes
Beispiel mit der RANDOM-Funktion, welche eine Zufallszahl erzeugt

In [None]:
%%sql


 Zudem sei noch erwähnt, dass man für jedes Attribut der Ergebnistupel einen Alias vergeben kann - das ist ein
Name für das Attribut. Nehmen wir noch einmal den vorherigen Befehl: das erste Attribut hieß dort "75 + 107", was
kein sonderlich guter Name für verarbeitende Programme ist. Hier macht daher ein Alias Sinn. Diese werden vergeben,
indem das Schlüsselwort AS und der Name des Attributs hinzugefügt werden:

In [None]:
%%sql


Zuletzt noch der Hinweis, dass die Ergebnismengen (wie mathematische Mengen) beliebig viele Datensätze besitzen
können. Zum Beispiel kann man mit dem UNION ALL Befehl die Ergebnisse mehrerer Abfragen an die Ergebnismenge
anfügen:

In [None]:
%%sql


Auch eine leere Ergebnismenge ist möglich, wenn keine Datensätze gefunden werden. Im nachfolgenden Beispiel wird
eine leere Ergebnismenge erzwungen, da die WHERE Bedingung niemals erfüllt ist (mehr zu WHERE in Kürze):

In [None]:
%%sql


**COUNTRY ÜBUNG**

So weit, so gut. Nun wollen wir mit den Daten in unserer Länder-Datenbank arbeiten. Wir beginnen damit, uns die
gesamte Tabelle "countries" anzeigen zu lassen, d.h. alle Attribute und alle Datensätze. Glücklicherweise gibt es
eine Kurzschreibweise für die Anzeige aller Attribute, so dass man nicht die vollständige Liste aller Attribute
abtippen muss. Stattdessen kann man das * Symbol verwenden (Asterisk, oder auch "Sternchen").

In [None]:
%%sql


Nun verwenden wir eine Funktion: Mittels COUNT kann man zählen, wie viele Werte vorhanden sind. Technisch gesehen bedeutet dies, dass die Anzahl der Werte gezählt wird, die nicht NULL sind. Die Anzahl der vorhandenen Datensätze in der Tabelle
ermitteln wir also folgendermaßen:

In [None]:
%%sql


Man kann mit COUNT auch bestimmte Attribute zählen. Zum Beispiel haben einige Datensätze einen NULL-Wert für das
Attribut "Climate" - wie dieser Befehl zeigt (die Anzahl ist kleiner als die der Datensätze in der Tabelle):

In [None]:
%%sql


Jetzt wollen wir alle Attribute eines bestimmten Datensatzes anzeigen. Die Ergebnismenge wird über das Schlüsselwort
WHERE eingeschränkt. Das DBMS prüft für jede Zeile der Ergebnismenge, ob die WHERE-Bedingung erfüllt ist und falls
nicht, wird der Datensatz herausgefiltert. Auf diese Weise können wir ganz bestimmte Datensätze anzeigen, wie zum
Beispiel die Attribute für das Land "Portugal" (bitte Groß- und Kleinschreibung genau beachten - Strings!).

In [None]:
%%sql


Anstelle aller Attribute können wir nun auch etwas spezifischer nach bestimmten Attributen fragen. Wir geben die
gewünschte Attributliste anstelle des Asterisk an. Zum Beispiel wird hier nur der Name des Landes und das GDP für
Norwegen ermittelt:

In [None]:
%%sql


**AUFGABE:** 

Lesen Sie den Namen und die Landfläche (Area) aller Länder der Region "NEAR EAST" (!) heraus.

In [None]:
%%sql


WHERE-Bedingungen müssen nicht nur auf Gleichheit prüfen. Es gibt eine Reihe weiterer Operatoren (z.B. < und >) und
mehrere Bedingungen können logisch verknüpft werden (AND und OR). Für Text gibt es zudem die Möglichkeit, über LIKE
auf bestimmte Muster hin zu prüfen. Die folgende Abfrage findet z.B. alle Länder, die mit "G" beginnen:

In [None]:
%%sql


Und diese Abfrage nutzt den Größer-Operator, um alle Länder anzuzeigen, die eine Küste haben, d.h. für die das
Attribut "Coastline" größer als Null (0) ist.

In [None]:
%%sql


**BONUS: **

Ermitteln Sie den prozentualen Anteil der Länder mit Küste, im Verhältnis zur Gesamtzahl der Länder (in einer
einzigen Abfrage).

In [None]:
%%sql


Falls Sie keine explizite Vorgabe für die Sortierung der Ergebnismenge mittels ORDER BY machen, ist die Ergebnismenge
in SQL **nicht** stabil sortiert, sondern zufällig. Das bedeutet, es gibt keine Garantie, dass Ergebnisse immer in
einer bestimmten Reihenfolge kommen. Sollte die Reihenfolge für Ihren Anwendungszweck von Bedeutung sein, so müssen
Sie immer eine explizite Sortiervorgabe machen. Hierfür nutzen wir ORDER BY, welche gefolgt wird von der oder den
Spalte(n), die für die Sortierung verwendet werden sollen. Nachfolgend kann über die Schlüsselworte ASC (ascending)
oder DESC (decending) bestimmt werden, ob aufsteigend (Standard, ASC muss daher nicht angegeben werden) oder absteigend sortiert werden soll. Mittels LIMIT können wir zudem die Ergebnismenge beschränken, d.h. das DBMS beendetdie Abfrage, sobald die vorgegebene Anzahl an Datensätzen in der Ergebismenge erreicht ist. Das ist insbesondere bei
großen Tabellen sehr hilfreich. Beispiel: Die 10 größten Länder per Einwohner ermitteln wir so:

In [None]:
%%sql


Wollen wir nicht vom Anfang der Ergebnisliste die ersten 10 Datensätze, sondern von einer Stelle in der Mitte, so ist
dies auch möglich mithilfe des zusätzlichen Schlüsselworts OFFSET. Damit kann man eine Anzahl von Datensätzen angeben, die sozusagen "übersprungen" werden soll, bis das DBMS Ergebnisse zurückliefert. Wollen wir also nun die
zehn nächstgrößten Länder ermitteln (also die Datensätze #11 - #20 in der eigentlichen Query), dann machen wir das
folgendermaßen:

In [None]:
%%sql


**WEITERE AUFGABEN**: 

Ermitteln Sie die Länder auf Rang #11 - #15 in der Rangliste der größten Länder Westeuropas, nach ihrer
Landfläche. Hinweis: Die Region heißt "WESTERN EUROPE".

In [None]:
%%sql


Eine weitere, äußerst hilfreiche Funktion ist die DISTINCT-Funktion. Diese ermittelt, welche unterschiedlichen
Werte in einem bestimmten Attribut (oder einer Attributgruppe) enthalten sind. Mehrfach vorhandene Werte werden
somit nur einmal in die Ergebnismenge aufgenommen. Damit können wir zum Beispiel ermitteln, welche unterschiedlichen
Regionen in unserer Tabelle vorhanden sind:

In [None]:
%%sql


Arbeitet man mit umfangreichen Daten, so braucht man häufig auch Zwischensummen oder andere Zwischenfunktionen, die
man auf eine Reihe zusammengehörender Datensätze anwenden will (z.B. Durchschnittswerte oder das einfache Zählen der
vorhandenen Datensätze in der jeweiligen Gruppe). Solche Funktionen, die man auf mehrere Datensätze anwenden kann,
heißen Aggregatsfunktionen - und wir haben mit den beiden Funktionen COUNT und DISTINCT auch schon welche benutzt,
allerdings auf alle Datensätze der Tabelle. Nun wollen wir jedoch zusammengehörende Datensätze gruppieren und
Zwischenwerte bilden. Hierfür verwenden wir den GROUP BY Zusatz, welcher von dem (den) Gruppierungsattribut(en)
gefolgt wird. Gruppierungen machen in der Regel nur dann Sinn, wenn man sie in der Ergebnismenge mit einer
Aggregatsfunktion kombiniert. Zum Beispiel können wir damit ermitteln, wieviele Länder jeder Region zugeordnet sind.

In [None]:
%%sql


Wir können auch eine andere Aggregatsfunktion nutzen, zum Beispiel um das durchschnittliche GDP aller Länder je
Region zu ermitteln:

In [None]:
%%sql


Das vorherige Statement sieht noch etwas unschön aus, daher entfernen wir die Dezimalstellen mit Hilfe der ROUND-Funktion, welche den angegebenen Wert auf die angegebene Anzahl an Dezimalstellen rundet. Zudem sortieren wir die
Regionen nach ihrem Durchschnitts-GDP in absteigender Reihenfolge:

In [None]:
%%sql


Falls wir nur die letzten drei Datensätze wollten, könnten wir dies über das oben eingeführte Schlüsselwort LIMIT in
Kombination mit der umgekehrten, also aufsteigenden Sortierreihenfolge erreichen:

In [None]:
%%sql


**BONUS**: 

Wie oben die kleinsten drei Regionen ermitteln, aber mit absteigender Reihenfolge der Ergebnismenge.

In [None]:
%%sql


Wir haben ja schon gesehen, dass mit der WHERE-Bedingung einzelne Datensätze herausgefiltert werden können.
In SQL gibt es zusätzlich die Möglichkeit, bei der Verwendung von Gruppierungen auch ganze Gruppen herauszufiltern. Dies geschieht mit dem HAVING-Zusatz, welcher eine (oder mehrere, miteinander verknüpfte) Bedingung(en)
definiert, die auf Gruppen angewendet werden.
Beispiel: Sind wir nur an Regionen mit einem durchschnittlichen GDP größer als 10000 USD interessiert, so
können wir per HAVING-Bedingung alle anderen Regionen herausfiltern.

In [None]:
%%sql


Man kann WHERE und HAVING auch miteinander kombinieren. WHERE filtert einzelnen Datensätze (d.h. vor der
Gruppierung), während HAVING ganze Gruppen filtert. Wollen wir zum Beispiel wissen, welche Regionen mindestens
fünf Länder mit einer Nettozuwanderung enthalten (d.h. Net Migration ist positiv), so können wir das folgendermaßen
formulieren:

In [None]:
%%sql


**AUFGABE:** 

Wie würde sich die letzte Abfrage ändern, wenn wir...

 (a) die WHERE-Bedingung entfernen?
 
 (b) die HAVING-Bedingung entfernen?

**AUFGABE:**

Ermitteln Sie die Summe der Landfläche aller Länder einer Region und sortieren Sie die Ergebnisse in
absteigender Reihenfolge

In [None]:
%%sql


**AUFGABE:**

Ermitteln Sie je Region die Summe der Landfläche aller Länder, die eine Küste haben. Sortieren Sie auch hier
in absteigender Reihenfolge.

In [None]:
%%sql


AUFGABE: Ermitteln Sie für jede Region das Land mit der größten Landfläche, das keine Küste hat. Den größten Wert
können Sie mit Hilfe der Aggregatsfunktion MAX() berechnen. Zeigen Sie nur Regionen an, bei denen das größte Land
mindestens 1.000.000 (Quadratkilometer) groß ist.

In [None]:
%%sql
