# Übung SQL

![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)


In [1]:
from IPython.display import Image

## 1. Setup für SQL

Die **IPython SQL magix extension** ermöglicht es, SQL-Abfragen direkt in Code-Zellen zu schreiben sowie die Ergebnisse direkt in **Pandas DataFrames** (was das heißt lernen wir noch) zu lesen. Dies funktioniert sowohl für die traditionellen Notebooks als auch für die modernen Jupyter Labs. Um sicherzugehen, dass alles funktioniert führt Ihr bitte folgenden Code aus:

In [65]:
!pip install ipython-sql



Wenn Ihr mehr Informationen haben wollt, könnt Ihr gerne mal auf das GitHub Repository von **IPython SQL magic extension** schauen: https://github.com/catherinedevlin/ipython-sql

Als nächstes müsst Ihr das SQL-Modul laden:

In [66]:
%load_ext sql

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


Der obige **Magic Command** lädt die ipython-sql-extension. Nun können wir eine Verbindung mit jeder Datenbank herstellen, die von **SQLAlchemy** unterstützt wird. In unserem Beispiel werden wir uns mit einer SQLite-Datenbank verbinden. Geben Sie den folgenden Befehl in die Codezelle ein:

In [67]:
%sql sqlite://

**Aber warte, was ist ein Magic Command**?

**Magic Commands** sind eine Reihe von praktischen Funktionen in Jupyter Notebooks, die einige der häufigsten Probleme bei der Standard-Datenanalyse lösen sollen. Sie können alle verfügbaren Magics mit Hilfe von **%lsmagic** sehen.

In [68]:
%lsmagic

Available line magics:
%alias  %alias_magic  %autoawait  %autocall  %automagic  %autosave  %bookmark  %cat  %cd  %clear  %colors  %conda  %config  %connect_info  %cp  %debug  %dhist  %dirs  %doctest_mode  %ed  %edit  %env  %gui  %hist  %history  %killbgscripts  %ldir  %less  %lf  %lk  %ll  %load  %load_ext  %loadpy  %logoff  %logon  %logstart  %logstate  %logstop  %ls  %lsmagic  %lx  %macro  %magic  %man  %matplotlib  %mkdir  %more  %mv  %notebook  %page  %pastebin  %pdb  %pdef  %pdoc  %pfile  %pinfo  %pinfo2  %pip  %popd  %pprint  %precision  %prun  %psearch  %psource  %pushd  %pwd  %pycat  %pylab  %qtconsole  %quickref  %recall  %rehashx  %reload_ext  %rep  %rerun  %reset  %reset_selective  %rm  %rmdir  %run  %save  %sc  %set_env  %sql  %store  %sx  %system  %tb  %time  %timeit  %unalias  %unload_ext  %who  %who_ls  %whos  %xdel  %xmode

Available cell magics:
%%!  %%HTML  %%SVG  %%bash  %%capture  %%debug  %%file  %%html  %%javascript  %%js  %%latex  %%markdown  %%perl  %%prun  %%py

**Aber warte, was ist SQLAlchemy?**

SQLAlchemy ist das Python-SQL-Toolkit und Object Relational Mapper, das Anwendungsentwicklern die volle Leistungsfähigkeit und Flexibilität von SQL bietet. Es ist eine vollständige Suite bekannter Persitence Pattern, die für einen effizienten und hochperformanten Datenbankzugriff entwickelt wurden, angepasst an eine einfache Python Domain Language: https://www.sqlalchemy.org/

![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)

## 2. Erstellung einer eigenen Datenbank / Tabelle

Das erste was wir in unserer neuen Datenbank brauchen ist eine Tabelle - Tabellen erstellen wir mit einem **CREATE** Operand für welches wir auch das DB-Schema angeben müssen. Danach nutzen wir **INSERT**, damit wir zwei Einträge / Zustände hinzufügen können.

In [69]:
%%sql sqlite://
CREATE TABLE IF NOT EXISTS EMPLOYEE (
    employee_id integer PRIMARY KEY,
    firstname varchar(50) NOT NULL,
    lastname varchar(50) NOT NULL);

Done.


[]

Nun gucken wir uns an, ob diese Tabelle wirklich angelegt wurde.

In [70]:
%%sql sqlite://
SELECT 
    name
FROM 
    sqlite_schema
WHERE 
    type ='table' AND 
    name NOT LIKE 'sqlite_%';

Done.


name
EMPLOYEE


Lasst uns gemeinsam einen Blick auf die **[offizielle Dokumentation](https://www.sqlitetutorial.net/sqlite-create-table/)** werfen.

In [71]:
%%sql
INSERT INTO EMPLOYEE VALUES(1, 'Pelle','John');  
INSERT INTO EMPLOYEE VALUES(2, 'Kai','Neubauer');

 * sqlite://
   sqlite:///src/SQL_SAFI.sqlite
   sqlite:///src/factbook.db
1 rows affected.
1 rows affected.


[]

Hier auch noch einmal die offizielle Einführung für **[INSERT](https://www.sqlitetutorial.net/sqlite-insert/)**

Als nächstes sollten wir einmal prüfen, ob die Daten wirklich in den Tabellen vorhanden sind. Lasst uns den Output der Einträge ansehen....

In [72]:
%%sql sqlite://
SELECT * FROM EMPLOYEE

Done.


employee_id,firstname,lastname
1,Pelle,John
2,Kai,Neubauer


Dokumentation für **[SELECT](https://www.sqlitetutorial.net/sqlite-select/)**

Mit dem folgenden Befehl löschen wir die Tabelle wieder

In [73]:
%sql DROP TABLE EMPLOYEE

 * sqlite://
   sqlite:///src/SQL_SAFI.sqlite
   sqlite:///src/factbook.db
Done.


[]

In [74]:
%sql sqlite://  SELECT name FROM sqlite_schema WHERE type ='table' AND name NOT LIKE 'sqlite_%';

Done.


name


![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)

## 3. Laden und erste Analyse einer existierenden Datenbasis

Für die folgende Übung verwenden wir **SQL_SAFI-Datenbank (Studying African Farmer-led Irrigation (SAFI) database)**. Das SAFI-Projekt ist ein Forschungsprojekt, das sich mit den Bewässerungsmethoden der Bauern in Tansania und Mosambik beschäftigt. Dieser Datensatz besteht aus Umfragedaten, die sich auf Haushalte und Landwirtschaft beziehen.

In [75]:
#Spezifizierung des Datepfades zum Laden der Datenbank
%sql sqlite:///src/SQL_SAFI.sqlite

Als ersten Schritt sollten wir uns einen Überblick der Tabellen verschaffen

In [76]:
%sql SELECT name FROM sqlite_master WHERE type ='table'; 

   sqlite://
 * sqlite:///src/SQL_SAFI.sqlite
   sqlite:///src/factbook.db
Done.


name
Farms
Crops
Plots
crops_rice_old


**AUFGABE**: Lasst und einen genaueren Blick auf die **Crops** Tabelle werfen und nur Zeilen auswählen, für welche **D_curr_crop** den Wert "maize" haben und die **ID kleiner, gleich 3** ist.

In [77]:
%%sql 
SELECT * from Crops 
WHERE 
    D_curr_crop = "maize" AND ID <= 3;

   sqlite://
 * sqlite:///src/SQL_SAFI.sqlite
   sqlite:///src/factbook.db
Done.


Id,plot_Id,crop_Id,D05_times,D_curr_crop,D_repeat_times_count
1,1,1,1,maize,1
1,2,1,1,maize,1
2,1,1,1,maize,1
3,1,1,1,maize,1


**Ausblick:** Du kannst die selectierten Daten als Resultat speichern und anschließend in einen DataFrame für Deine weiteren Analysen und Visualisierungen übernehmen. 

In [78]:
result = %sql SELECT * from Crops where ID <= 3;
crop_selection_df = result.DataFrame()
crop_selection_df.head()

   sqlite://
 * sqlite:///src/SQL_SAFI.sqlite
   sqlite:///src/factbook.db
Done.


Unnamed: 0,Id,plot_Id,crop_Id,D05_times,D_curr_crop,D_repeat_times_count
0,1,1,1,1,maize,1
1,1,2,1,1,maize,1
2,2,1,1,1,maize,1
3,2,2,1,1,tomatoes,1
4,2,3,1,1,vegetable,1


![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)

## 4. Komplexere Joins über mehrere Tabellen

Wenn Ihr SQL zum ersten Mal anwendet, ist es üblich, dass Ihr mit Daten in einer einzigen Tabelle arbeiten. In der realen Welt haben Datenbanken in der Regel Daten in mehr als einer Tabelle. Wenn wir mit diesen Daten arbeiten wollen, müssen wir mehrere Tabellen in einer Abfrage kombinieren.

In [79]:
#Spezifizierung des Datepfades zum Laden der Datenbank
%sql sqlite:///src/factbook.db

Wir werden eine Version der **Datenbank des CIA World Factbook (Factbook)** verwenden, die zwei Tabellen hat. Die erste Tabelle heißt **facts**, und jede Zeile steht für ein Land aus dem Factbook. Hier sind die ersten 5 Zeilen der **facts** Tabelle:

In [80]:
%sql SELECT * FROM facts LIMIT 10;

   sqlite://
   sqlite:///src/SQL_SAFI.sqlite
 * sqlite:///src/factbook.db
Done.


id,code,name,area,area_land,area_water,population,population_growth,birth_rate,death_rate,migration_rate
1,af,Afghanistan,652230,652230,0,32564342,2.32,38.57,13.89,1.51
2,al,Albania,28748,27398,1350,3029278,0.3,12.92,6.58,3.3
3,ag,Algeria,2381741,2381741,0,39542166,1.84,23.67,4.31,0.92
4,an,Andorra,468,468,0,85580,0.12,8.13,6.96,0.0
5,ao,Angola,1246700,1246700,0,19625353,2.78,38.78,11.49,0.46
6,ac,Antigua and Barbuda,442,442,0,92436,1.24,15.85,5.69,2.21
7,ar,Argentina,2780400,2736690,43710,43431886,0.93,16.64,7.33,0.0
8,am,Armenia,29743,28203,1540,3056382,0.15,13.61,9.34,5.8
9,as,Australia,7741220,7682300,58920,22751014,1.07,12.15,7.14,5.65
10,au,Austria,83871,82445,1426,8665550,0.55,9.41,9.42,5.56


Zusätzlich zur Faktentabelle gibt es eine zweite Tabelle mit dem Namen **cities**, die Informationen über die größten städtischen Gebiete der Länder im Factbook enthält. Werfen wir einen Blick auf die ersten Zeilen dieser Tabelle und eine Beschreibung dessen, was jede Spalte darstellt:

In [81]:
%sql SELECT * FROM cities LIMIT 5;

   sqlite://
   sqlite:///src/SQL_SAFI.sqlite
 * sqlite:///src/factbook.db
Done.


id,name,population,capital,facts_id
1,Oranjestad,37000,1,216
2,Saint John'S,27000,1,6
3,Abu Dhabi,942000,1,184
4,Dubai,1978000,0,184
5,Sharjah,983000,0,184


Die letzte Spalte ist für uns von besonderem Interesse, da es sich um eine Spalte handelt, die auch in unserer ursprünglichen **facts** Tabelle existiert. Diese Verknüpfung zwischen den Tabellen ist wichtig, da sie verwendet wird, um die Daten in unseren Abfragen zu kombinieren. Unten sehen Sie ein Schemadiagramm, das die beiden Tabellen in unserer Datenbank, die Spalten darin und die Verknüpfung der beiden zeigt. Die Darstellung im Schemadiagramm zeigt deutlich die Verbindung zwischen der **Spalte id in der Tabelle facts** und der **Spalte facts_id in der Tabelle cities**.

![DB-Schema](./src/factsbook_db_schema.PNG)

Die häufigste Art, Daten mit SQL zu verknüpfen, ist ein **Inner Join**. Die Syntax für eine innere Verknüpfung lautet:
- **INNER JOIN**, der der SQL-Engine den Namen der Tabelle mitteilt, die Sie in Ihrer Abfrage verbinden möchten, und dass Sie eine innere Verknüpfung verwenden möchten
- **ON**, der der SQL-Engine mitteilt, welche Spalten für die Verknüpfung der beiden Tabellen verwendet werden sollen.

```sql
SELECT [column_names] FROM [table_name_one]
INNER JOIN [table_name_two] ON [join_constraint];
```


In [82]:
%%sql
SELECT * FROM facts
/* Teilt SQL-Engine mit, dass Tabelle "cities" über Inner Join mit unserer Abfrage verbindet */
INNER JOIN cities
/* Das die Spalten cities.facts_id und facts.id das verbindende Element der Daten ist */
ON cities.facts_id = facts.id
LIMIT 5;

   sqlite://
   sqlite:///src/SQL_SAFI.sqlite
 * sqlite:///src/factbook.db
Done.


id,code,name,area,area_land,area_water,population,population_growth,birth_rate,death_rate,migration_rate,id_1,name_1,population_1,capital,facts_id
216,aa,Aruba,180,180,0,112162,1.33,12.56,8.18,8.92,1,Oranjestad,37000,1,216
6,ac,Antigua and Barbuda,442,442,0,92436,1.24,15.85,5.69,2.21,2,Saint John'S,27000,1,6
184,ae,United Arab Emirates,83600,83600,0,5779760,2.58,15.43,1.97,12.36,3,Abu Dhabi,942000,1,184
184,ae,United Arab Emirates,83600,83600,0,5779760,2.58,15.43,1.97,12.36,4,Dubai,1978000,0,184
184,ae,United Arab Emirates,83600,83600,0,5779760,2.58,15.43,1.97,12.36,5,Sharjah,983000,0,184


------------------
**Beispiel für United Arab Emirates**

In [83]:
%%sql
SELECT * FROM facts
Where facts.id = 184;

   sqlite://
   sqlite:///src/SQL_SAFI.sqlite
 * sqlite:///src/factbook.db
Done.


id,code,name,area,area_land,area_water,population,population_growth,birth_rate,death_rate,migration_rate
184,ae,United Arab Emirates,83600,83600,0,5779760,2.58,15.43,1.97,12.36


Wir sehen, dass es lediglich eine Zeile für das Land United Arab Emirates gibt

In [84]:
%%sql
SELECT * FROM cities
Where cities.facts_id = 184;

   sqlite://
   sqlite:///src/SQL_SAFI.sqlite
 * sqlite:///src/factbook.db
Done.


id,name,population,capital,facts_id
3,Abu Dhabi,942000,1,184
4,Dubai,1978000,0,184
5,Sharjah,983000,0,184


Wir sehen es gibt in der Tabelle cities 3 Städte: Abu Dhabi, Dubai und Sharjah

In [85]:
%%sql
SELECT * FROM facts
INNER JOIN cities
ON cities.facts_id = facts.id
Where facts.id = 184
LIMIT 5;

   sqlite://
   sqlite:///src/SQL_SAFI.sqlite
 * sqlite:///src/factbook.db
Done.


id,code,name,area,area_land,area_water,population,population_growth,birth_rate,death_rate,migration_rate,id_1,name_1,population_1,capital,facts_id
184,ae,United Arab Emirates,83600,83600,0,5779760,2.58,15.43,1.97,12.36,3,Abu Dhabi,942000,1,184
184,ae,United Arab Emirates,83600,83600,0,5779760,2.58,15.43,1.97,12.36,4,Dubai,1978000,0,184
184,ae,United Arab Emirates,83600,83600,0,5779760,2.58,15.43,1.97,12.36,5,Sharjah,983000,0,184


Bei einem inner Join werden nun die drei Zeilen aus der cities genommen und die Informationen aus der Facts Tabelle für diese 3 Cities aufgeschrieben.

------------------

Eine innere Verknüpfung funktioniert, indem nur Zeilen aus jeder Tabelle einbezogen werden, die eine Übereinstimmung aufweisen, wie mit der ON-Klausel angegeben. Schauen wir uns in einem Diagramm an, wie unsere Verknüpfung aus dem vorherigen Bild funktioniert. Wir haben eine Auswahl von Zeilen eingefügt, die die Verknüpfung am besten veranschaulichen:

**Inner Join**
<div>
<img src="./src/inner-join.png" width="200"/>
</div>


![Inner_Join](./src/factsbook_db_innerjoin.PNG)

**Frage: Welche Zeilen werden durch den Inner Join nicht mit aufgenommen?**

Die Schreibweise kann auch noch etwas vereinfacht werden durch **[aliases](https://www.tutorialspoint.com/sqlite/sqlite_alias_syntax.htm)**

In [86]:
%%sql
SELECT * FROM facts AS f
INNER JOIN cities AS c ON c.facts_id = f.id
LIMIT 5;

   sqlite://
   sqlite:///src/SQL_SAFI.sqlite
 * sqlite:///src/factbook.db
Done.


id,code,name,area,area_land,area_water,population,population_growth,birth_rate,death_rate,migration_rate,id_1,name_1,population_1,capital,facts_id
216,aa,Aruba,180,180,0,112162,1.33,12.56,8.18,8.92,1,Oranjestad,37000,1,216
6,ac,Antigua and Barbuda,442,442,0,92436,1.24,15.85,5.69,2.21,2,Saint John'S,27000,1,6
184,ae,United Arab Emirates,83600,83600,0,5779760,2.58,15.43,1.97,12.36,3,Abu Dhabi,942000,1,184
184,ae,United Arab Emirates,83600,83600,0,5779760,2.58,15.43,1.97,12.36,4,Dubai,1978000,0,184
184,ae,United Arab Emirates,83600,83600,0,5779760,2.58,15.43,1.97,12.36,5,Sharjah,983000,0,184


In [87]:
%%sql
SELECT
/* SQL-Engine saves the aliases, so can select all columns from table c (cities) - declared a little later */
    c.*,
/* Select the name column of facts table and rename it to country name */
    f.name country_name
FROM facts f
INNER JOIN cities c ON c.facts_id = f.id
LIMIT 5;

   sqlite://
   sqlite:///src/SQL_SAFI.sqlite
 * sqlite:///src/factbook.db
Done.


id,name,population,capital,facts_id,country_name
1,Oranjestad,37000,1,216,Aruba
2,Saint John'S,27000,1,6,Antigua and Barbuda
3,Abu Dhabi,942000,1,184,United Arab Emirates
4,Dubai,1978000,0,184,United Arab Emirates
5,Sharjah,983000,0,184,United Arab Emirates


Wie bereits erwähnt, **schließt eine innere Verknüpfung keine Zeilen ein, für die es keine gegenseitige Übereinstimmung aus beiden Tabellen gibt**. Das bedeutet, dass es Informationen geben könnte, die wir in unserer Abfrage nicht sehen, wenn Zeilen nicht übereinstimmen. Lasst uns das einmal versuchen nachzuvollziehen:

In [88]:
%sql SELECT COUNT(DISTINCT(name)) FROM facts;

   sqlite://
   sqlite:///src/SQL_SAFI.sqlite
 * sqlite:///src/factbook.db
Done.


COUNT(DISTINCT(name))
261


In [89]:
%sql SELECT COUNT(DISTINCT(facts_id)) FROM cities;

   sqlite://
   sqlite:///src/SQL_SAFI.sqlite
 * sqlite:///src/factbook.db
Done.


COUNT(DISTINCT(facts_id))
210


Wenn wir diese beiden Abfragen ausführen, können wir sehen, dass es einige Länder in der Faktentabelle gibt, die keine entsprechenden Städte in der Städtetabelle haben, was darauf hindeutet, dass wir möglicherweise unvollständige Daten haben.

Schauen wir uns an, wie wir eine Abfrage erstellen können, um die fehlenden Daten zu untersuchen, indem wir einen neuen Typ von Join verwenden - den linken Join.

Ein **linker Join umfasst alle Zeilen, die ein innerer Join auswählt, plus alle Zeilen aus der ersten (oder linken) Tabelle, die keine Übereinstimmung in der zweiten Tabelle haben**. Wir können dies als Venn-Diagramm darstellen.

**Left Join**
<div>
<img src="./src/left-join.png" width="200"/>
</div>


![Left_Join](./src/factsbook_db_leftjoin.PNG)'

In [90]:
%%sql 
SELECT * FROM facts
LEFT JOIN cities ON cities.facts_id = facts.id
LIMIT 50;

   sqlite://
   sqlite:///src/SQL_SAFI.sqlite
 * sqlite:///src/factbook.db
Done.


id,code,name,area,area_land,area_water,population,population_growth,birth_rate,death_rate,migration_rate,id_1,name_1,population_1,capital,facts_id
1,af,Afghanistan,652230,652230,0,32564342,2.32,38.57,13.89,1.51,6,Kabul,3097000,1,1
2,al,Albania,28748,27398,1350,3029278,0.3,12.92,6.58,3.3,10,Tirana,419000,1,2
3,ag,Algeria,2381741,2381741,0,39542166,1.84,23.67,4.31,0.92,7,Algiers,2916000,1,3
3,ag,Algeria,2381741,2381741,0,39542166,1.84,23.67,4.31,0.92,8,Oran,783000,0,3
4,an,Andorra,468,468,0,85580,0.12,8.13,6.96,0.0,12,Andorra La Vella,23000,1,4
5,ao,Angola,1246700,1246700,0,19625353,2.78,38.78,11.49,0.46,13,Luanda,5068000,1,5
5,ao,Angola,1246700,1246700,0,19625353,2.78,38.78,11.49,0.46,14,Huambo,1098000,0,5
6,ac,Antigua and Barbuda,442,442,0,92436,1.24,15.85,5.69,2.21,2,Saint John'S,27000,1,6
7,ar,Argentina,2780400,2736690,43710,43431886,0.93,16.64,7.33,0.0,16,Buenos Aires,13528000,1,7
7,ar,Argentina,2780400,2736690,43710,43431886,0.93,16.64,7.33,0.0,17,Cordoba,1556000,0,7


**Frage: Was würdet Ihr jetzt in der Tabelle erwarten?**

In [91]:
%%sql 
SELECT
    f.id,
    f.name country,
    f.population,
    c.name
FROM facts f
LEFT JOIN cities c ON c.facts_id = f.id
WHERE c.name IS NULL;

   sqlite://
   sqlite:///src/SQL_SAFI.sqlite
 * sqlite:///src/factbook.db
Done.


id,country,population,name
92,Kosovo,1870981.0,
117,Monaco,30535.0,
123,Nauru,9540.0,
149,San Marino,33020.0,
156,Singapore,5674472.0,
190,Holy See (Vatican City),842.0,
196,Taiwan,23415126.0,
197,European Union,513949445.0,
198,Ashmore and Cartier Islands,,
199,Christmas Island,1530.0,


In [92]:
%%sql
/* 
Hat der Kosovo keine Größen Städte oder fehlen dort einfach Daten in der cities Tabelle?
*/

SELECT *
FROM cities
WHERE facts_id = 92

   sqlite://
   sqlite:///src/SQL_SAFI.sqlite
 * sqlite:///src/factbook.db
Done.


id,name,population,capital,facts_id


Wenn wir uns die Ergebnisse der Abfrage ansehen, können wir eine Reihe von **verschiedenen Gründen** erkennen, warum Länder keine entsprechenden Werte in Städten haben:

- Länder mit kleiner Bevölkerung und/oder ohne größere städtische Gebiete (die als Länder mit einer Bevölkerung von mehr als 750.000 Einwohnern definiert sind), z. B. San Marino, Kosovo und Nauru.
- Stadtstaaten, z. B. Monaco und Singapur.
- Territorien, die selbst keine Länder sind, z. B. Hongkong, Gibraltar und die Cookinseln.
- Regionen und Ozeane, die keine Länder sind, wie z. B. die Europäische Union und der Pazifische Ozean.
- Echte Fälle fehlender Daten, wie z. B. Taiwan.

### RIGHT JOIN und OUTER JOIN

Es gibt zwei weniger gebräuchliche Join-Typen, die von SQLite nicht unterstützt werden. Der erste ist ein **RIGHT JOIN**. Ein **RIGHT JOIN** ist, wie der Name schon sagt, genau das Gegenteil eines **LEFT JOIN** . Während der **LEFT JOIN**  alle Zeilen in der Tabelle vor der JOIN-Klausel einschließt, schließt der rechte Join alle Zeilen in der neuen Tabelle in der JOIN-Klausel ein.

In [93]:
%%sql
SELECT f.name country, c.name city
FROM cities c
RIGHT JOIN facts f ON f.id = c.facts_id
LIMIT 5;

   sqlite://
   sqlite:///src/SQL_SAFI.sqlite
 * sqlite:///src/factbook.db
(sqlite3.OperationalError) RIGHT and FULL OUTER JOINs are not currently supported
[SQL: SELECT f.name country, c.name city
FROM cities c
RIGHT JOIN facts f ON f.id = c.facts_id
LIMIT 5;]
(Background on this error at: https://sqlalche.me/e/14/e3q8)


Der andere Join-Typ, der von SQLite nicht unterstützt wird, ist ein **FULL OUTER JOIN**. Ein Full Outer Join schließt alle Zeilen aus den Tabellen auf beiden Seiten des Joins ein.

In [94]:
%%sql
SELECT f.name country, c.name city
FROM cities c
FULL OUTER JOIN facts f ON f.id = c.facts_id
LIMIT 5;

   sqlite://
   sqlite:///src/SQL_SAFI.sqlite
 * sqlite:///src/factbook.db
(sqlite3.OperationalError) RIGHT and FULL OUTER JOINs are not currently supported
[SQL: SELECT f.name country, c.name city
FROM cities c
FULL OUTER JOIN facts f ON f.id = c.facts_id
LIMIT 5;]
(Background on this error at: https://sqlalche.me/e/14/e3q8)


![Venn_Join](./src/factsbook_db_venn_joins.PNG)'

Zuletzt kannst Du natürlich die Ergebnisse einer SQL-Abfrage in einer **neuen Tabelle speichern**, wenn Du viele weitere Abfragen darauf aufbauen möchtest. **Frage**: Wann kann das sinnvoll sein Redundante Daten zu haben?

In [95]:
%%sql
CREATE TABLE special_country 
AS SELECT
    f.name country,
    f.population
FROM facts f
LEFT JOIN cities c ON c.facts_id = f.id
WHERE c.name IS NULL;

   sqlite://
   sqlite:///src/SQL_SAFI.sqlite
 * sqlite:///src/factbook.db
(sqlite3.OperationalError) table special_country already exists
[SQL: CREATE TABLE special_country AS SELECT
    f.name country,
    f.population
FROM facts f
LEFT JOIN cities c ON c.facts_id = f.id
WHERE c.name IS NULL;]
(Background on this error at: https://sqlalche.me/e/14/e3q8)


In [96]:
%sql SELECT name FROM sqlite_master WHERE type ='table'; 

   sqlite://
   sqlite:///src/SQL_SAFI.sqlite
 * sqlite:///src/factbook.db
Done.


name
sqlite_sequence
facts
cities
special_country


In [97]:
%sql SELECT * FROM special_country LIMIT 10;

   sqlite://
   sqlite:///src/SQL_SAFI.sqlite
 * sqlite:///src/factbook.db
Done.


country,population
Kosovo,1870981.0
Monaco,30535.0
Nauru,9540.0
San Marino,33020.0
Singapore,5674472.0
Holy See (Vatican City),842.0
Taiwan,23415126.0
European Union,513949445.0
Ashmore and Cartier Islands,
Christmas Island,1530.0


![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)

## 5. Aufgaben zum Üben

In [98]:
import IPython.display

**1. Erstelle eine Abfrage mit Ländern und ihren Hauptstädten aus unserer Datenbank. Tipp: Unser erster Schritt ist, darüber nachzudenken, welche Spalten wir in unserer endgültigen Abfrage benötigen.**

In [99]:
%%sql
SELECT
    f.name country,
    c.name capital_city
FROM cities c
INNER JOIN facts as f ON f.id = c.facts_id
WHERE c.capital = 1
LIMIT 10;

   sqlite://
   sqlite:///src/SQL_SAFI.sqlite
 * sqlite:///src/factbook.db
Done.


country,capital_city
Aruba,Oranjestad
Antigua and Barbuda,Saint John'S
United Arab Emirates,Abu Dhabi
Afghanistan,Kabul
Algeria,Algiers
Azerbaijan,Baku
Albania,Tirana
Armenia,Yerevan
Andorra,Andorra La Vella
Angola,Luanda


**2. Erstelle eine Abfrage, um die Hauptstädte und deren korrespondierenden Länder mit der größten Population zu identifizieren (ersten 10). Tipp: Für dieses Vorgehen brauchst Du zum einen JOIN, eine WHERE-Klausel und nach der Identifikation der richtigen Spalten den Operand [ORDER BY](https://www.sqlitetutorial.net/sqlite-order-by/)**

In [100]:
%%sql
SELECT
    c.name as capital_city,
    f.name as country,
    c.population
FROM facts f
INNER JOIN cities c ON c.facts_id = f.id
WHERE c.capital = 1
ORDER BY 3 DESC
LIMIT 10;

   sqlite://
   sqlite:///src/SQL_SAFI.sqlite
 * sqlite:///src/factbook.db
Done.


capital_city,country,population
Tokyo,Japan,37217000
New Delhi,India,22654000
Mexico City,Mexico,20446000
Beijing,China,15594000
Dhaka,Bangladesh,15391000
Buenos Aires,Argentina,13528000
Manila,Philippines,11862000
Moscow,Russia,11621000
Cairo,Egypt,11169000
Jakarta,Indonesia,9769000


**3. Erstelle eine geordnete Liste von Ländern die die höchste Einwohner_pro_qm rate haben und zeige das Land, die Einwohneranzahl, die Fläche des Landes und die Einwohner_pro_qm**

In [101]:
%%sql
Select
    name,
    population,
    area_land,
    population / area_land as Einwohner_pro_qm
FROM facts
ORDER BY 4 DESC
LIMIT 10

   sqlite://
   sqlite:///src/SQL_SAFI.sqlite
 * sqlite:///src/factbook.db
Done.


name,population,area_land,Einwohner_pro_qm
Macau,592731,28,21168
Monaco,30535,2,15267
Singapore,5674472,687,8259
Hong Kong,7141106,1073,6655
Gaza Strip,1869055,360,5191
Gibraltar,29258,6,4876
Bahrain,1346613,760,1771
Maldives,393253,298,1319
Malta,413965,316,1310
Bermuda,70196,54,1299


**4. Berechne den Anteil der Einwohneranzahl der größten Städte pro land an der Gesamtbevölkerung**

In [102]:
%%sql
SELECT
    f.id,
    f.name,
    f.population,
    SUM(c.population) as sum_pop_cities,
    ROUND(SUM(c.population)*1.0 / f.population*1.0*100,1) as pct
FROM facts f
INNER JOIN cities c
ON f.id = c.facts_id
GROUP BY f.id
LIMIT 10

   sqlite://
   sqlite:///src/SQL_SAFI.sqlite
 * sqlite:///src/factbook.db
Done.


id,name,population,sum_pop_cities,pct
1,Afghanistan,32564342,3097000,9.5
2,Albania,3029278,419000,13.8
3,Algeria,39542166,3699000,9.4
4,Andorra,85580,23000,26.9
5,Angola,19625353,6166000,31.4
6,Antigua and Barbuda,92436,27000,29.2
7,Argentina,43431886,18951000,43.6
8,Armenia,3056382,1116000,36.5
9,Australia,22751014,13789000,60.6
10,Austria,8665550,172000,2.0


**(OPTIONAL) 5. Erstelle eine Abfrage mit Nicht-Hauptstädte mit mehr als 10 Millionen Einwohnern inklusive der Länderinformationen. Diese Aufgabe erfordert das Problem, ähnlich einem Algorithmus erst einmal in mehrere Schritte zun unterteilen und mit [SUBQUERIES](https://www.tutorialspoint.com/sql/sql-sub-queries.htm) zu arbeiten.**

In [103]:
%%sql
SELECT
    c.name city,
    f.name country,
    c.population population
FROM facts f
INNER JOIN (
            SELECT * FROM cities
            WHERE capital = 0
            AND population > 10000000
           ) c ON c.facts_id = f.id
ORDER BY 3 DESC;

   sqlite://
   sqlite:///src/SQL_SAFI.sqlite
 * sqlite:///src/factbook.db
Done.


city,country,population
New York-Newark,United States,20352000
Shanghai,China,20208000
Sao Paulo,Brazil,19924000
Mumbai,India,19744000
Marseille-Aix-en-Provence,France,14890100
Kolkata,India,14402000
Karachi,Pakistan,13876000
Los Angeles-Long Beach-Santa Ana,United States,13395000
Osaka-Kobe,Japan,11494000
Istanbul,Turkey,11253000


**Wenn Ihr Lust habt noch weiter einzusteigen, kann ich Euch z. B. diese Websiten / Artikel empfehlen:**
- [Tutorial SQPoint](https://www.tutorialspoint.com/sqlite/)
- [A Complete Guide to SQL for Data Science](https://pub.towardsai.net/a-complete-guide-to-sql-for-data-science-35743e73fd)

Dies sind aber nur einige wenige von vielen Möglichkeiten, die Euch dabei helfen können zum SQL-Experten zu werden.