# SQL

## Vorbereitung des Notebooks

Hier nichts verändern.

In [2]:
# Installiert Paket, damit man SQL-Befehle auf Dataframes anwenden kann
!pip install pandasql

# Lädt Paket, damit man Dataframes (Tabellen in Python) anwenden kann
import pandas as pd
# Lädt Paket, damit man SQL-Befehle auf Dataframes anwenden kann
import pandasql as ps

Collecting pandasql
  Downloading pandasql-0.7.3.tar.gz (26 kB)
Building wheels for collected packages: pandasql
  Building wheel for pandasql (setup.py) ... [?25l[?25hdone
  Created wheel for pandasql: filename=pandasql-0.7.3-py3-none-any.whl size=26784 sha256=022e5e33d0c2a8ad1f28f425db626ae9ed32d03da604055e73eb2a341461ccb9
  Stored in directory: /root/.cache/pip/wheels/5c/4b/ec/41f4e116c8053c3654e2c2a47c62b4fca34cc67ef7b55deb7f
Successfully built pandasql
Installing collected packages: pandasql
Successfully installed pandasql-0.7.3


## Datenbeschreibung

Performance_data ist ein Datensatz über vorangegangene Leistungstests ([VO2_max](https://de.wikipedia.org/wiki/Maximale_Sauerstoffaufnahme)). Zudem enthält es Informationen über das Geschlecht und Alter der Untersuchten, ob diese rauchen oder nicht, deren Körpergröße und Gewicht, sowie die die Diagnostiker:in, die den Test durchgeführt hat. Zudem wird der Erlös erhoben, der bei der Krankenkasse für die Diagnostik verrechnet wurde.

### Aufgabe

Laden die die Daten in einen pandas DataFrame und zeigen Sie diese an. (Hinweis: wir nutzen hier die Möglichkeit mit SQL-Befehlen direkt auf einem Pandas DataFrame in Arbeitsspeicher des PCs zu arbeiten. Hierdurch sparen wir uns das Aufsetzen einer echten Datenbank.)

In [4]:
# Lösung
# Lade die Daten in einen pandas Dataframe namens "performance_data"
performance_data = pd.read_csv("test_data.csv")

# Zeige performance_data an
performance_data


Unnamed: 0.1,Unnamed: 0,VO2_max,age,smoker,height,weight,revenue,diagnostician_id,gender
0,0,45,66,True,165,76,30,2,Male
1,1,37,58,False,180,87,32,1,Female
2,2,54,27,False,155,62,29,0,Male
3,3,58,32,False,183,78,26,0,Male
4,4,45,75,True,166,101,10,2,Female
...,...,...,...,...,...,...,...,...,...
195,195,55,24,True,160,74,11,3,Male
196,196,46,17,False,172,92,18,3,Male
197,197,61,52,False,164,84,29,0,Female
198,198,67,46,True,164,78,39,1,Male


## SQL-Befehle

```ps.sqldf()``` Ist eine Funktion die es erlaubt SQL-Befehle statt auf Daten auf pandas Dataframes auszuführen. Der Funktion wird der eigentliche SQL-Befehl als Sting übergeben:

```"SELECT * FROM performance_data"```

SELECT und FROM sind Schlüsselwörter der SQL-Sprache und werden deswegen großgeschrieben. ```performance_data``` ist der Name der Tabelle/Relation von der wir abfragen wollen. das ```*``` ist eine sogenannte Wildcard und bedeuted, dass wir alle Attribute der Tabelle ausgeben wollen:


```ps.sqldf("SELECT * FROM performance_data") # Gibt die gesamte Tabelle performance_data aus```


[Hier](https://www.dataquest.io/blog/sql-basics/) findet sich eine ausfühliche Erklärung dieser und weiterer SQL-Befehle.

In [5]:
ps.sqldf("SELECT * FROM performance_data") # Gibt die gesamte Tabelle performance_data aus

Unnamed: 0.1,Unnamed: 0,VO2_max,age,smoker,height,weight,revenue,diagnostician_id,gender
0,0,45,66,1,165,76,30,2,Male
1,1,37,58,0,180,87,32,1,Female
2,2,54,27,0,155,62,29,0,Male
3,3,58,32,0,183,78,26,0,Male
4,4,45,75,1,166,101,10,2,Female
...,...,...,...,...,...,...,...,...,...
195,195,55,24,1,160,74,11,3,Male
196,196,46,17,0,172,92,18,3,Male
197,197,61,52,0,164,84,29,0,Female
198,198,67,46,1,164,78,39,1,Male


## Projektion

Durch eine Projektion werden einzelne Attribute aus einer Tabelle abgefragt. Hierzu werden die Attribute hinter der SELECT genannt und mit einen Komma voneinander abgetrennt.

```ps.sqldf("SELECT gender FROM performance_data") # Gibt sex aus```


```ps.sqldf("SELECT gender, age FROM performance_data") # Gibt gender und age aus```

In [6]:
# Beispiel
ps.sqldf("SELECT gender FROM performance_data") # Gibt sex aus

Unnamed: 0,gender
0,Male
1,Female
2,Male
3,Male
4,Female
...,...
195,Male
196,Male
197,Female
198,Male


In [7]:
# Beispiel
ps.sqldf("SELECT gender, age FROM performance_data") # Gibt gender und age aus

Unnamed: 0,gender,age
0,Male,66
1,Female,58
2,Male,27
3,Male,32
4,Female,75
...,...,...
195,Male,24
196,Male,17
197,Female,52
198,Male,46


## Selektion

Auswahl einer Untermenge aller Tupel einer Tabelle.
Die Selektion wird durch zusätzliche Schlüsselwörter hinter der Auswahl der Tabelle (FROM performance_data) angefügt.

Beispielsweise lässt sich die Ausgabe auf fünf Einträge begrenzen:

```ps.sqldf("SELECT gender, age FROM performance_data LIMIT 5")```


In [8]:
# Beispiel
ps.sqldf("SELECT gender, age FROM performance_data LIMIT 5") # Gibt die ersten  Einträge aus

Unnamed: 0,gender,age
0,Male,66
1,Female,58
2,Male,27
3,Male,32
4,Female,75


### Filtern

- Eine besondere Art von Selektion ist das Filtern
- Beim Filtern wird das Schlüsselwort ```WHERE``` genutzt. Darauf folgt eine logische Abfrage z.B. bezüglich des Attributs ```smoker``` ob dieses den Wert False enthält.

```ps.sqldf("""SELECT gender, age, smoker FROM performance_data WHERE smoker=False """)```

*Vorsicht: der SQL-Befehl enthält " um den String zu kennzeichnen. Damit Python diesen nicht mit dem Anfang und Ende der SQL-Abfrage verwechselt, wird diese jetzt mit """ (drei ") gekennzeichnet *

In [11]:
# Beispiel
ps.sqldf("""SELECT gender, age, smoker FROM performance_data WHERE smoker=0 """)

Unnamed: 0,gender,age,smoker
0,Female,58,0
1,Male,27,0
2,Male,32,0
3,Female,71,0
4,Male,28,0
...,...,...,...
96,Female,71,0
97,Male,70,0
98,Male,17,0
99,Female,52,0


Filter-Operationen können auch vergleichend sein (größer, kleiner, etc.) und können mit logischen Operatoren verknüpft werden:


In [12]:
# Beispiel
ps.sqldf("""SELECT * FROM performance_data WHERE weight<70 AND  height>185""") 

Unnamed: 0.1,Unnamed: 0,VO2_max,age,smoker,height,weight,revenue,diagnostician_id,gender
0,13,51,53,1,186,68,27,0,Male
1,135,62,28,0,188,67,39,3,Male
2,175,34,60,0,189,64,15,3,Female
3,184,39,54,0,186,67,13,2,Male


## Ausgaben verarbeiten



### Sortieren

Ausgeben können auch weiterverarbeitet werden, um beispielsweise Reports zu erstellen.

Hier werden durch das Kennwort ```ASC``` die Ausgaben nach dem davor genannten Attribut ```VO2_max``` geordnet ausgegeben. 

```
ps.sqldf("SELECT gender, VO2_max FROM performance_data ORDER BY VO2_max ASC") 
```

In [13]:
# Beispiel
ps.sqldf("SELECT gender, VO2_max FROM performance_data ORDER BY VO2_max ASC") 

Unnamed: 0,gender,VO2_max
0,Female,30
1,Female,30
2,Female,30
3,Male,30
4,Female,30
...,...,...
195,Male,69
196,Female,69
197,Male,69
198,Female,69


### Aggregation

Über der Schlüsselwort ```SUM``` lassen sich Summen über Attribute bilden.

```
ps.sqldf("""SELECT SUM(revenue) FROM performance_data""") 
```


In [19]:
# Beispiel
ps.sqldf("""SELECT SUM(revenue) FROM performance_data""") 

Unnamed: 0,SUM(revenue)
0,5776


Es lassen sich auch Summen über mehrere Attribute erzeugen, z.B. um die Raucher und den gesamten Umsatz zu zählen:

```
ps.sqldf("""SELECT SUM(revenue), SUM(smoker) FROM performance_data""")
```

In [20]:
# Beispiel
ps.sqldf("""SELECT SUM(revenue), SUM(smoker) FROM performance_data""") 

Unnamed: 0,SUM(revenue),SUM(smoker)
0,5776,99


Oder die Summen über ein Subset (Selektion) bilden.

Hier werden z.B. nur die Erlöse der Raucher summiert:

```
ps.sqldf("""SELECT SUM(revenue) FROM performance_data WHERE smoker=1 """)
```


In [21]:
# Beispiel
ps.sqldf("""SELECT SUM(revenue) FROM performance_data WHERE smoker=1 """) 

Unnamed: 0,SUM(revenue)
0,2833


Es gibt auch weitere Befehle zur Aggregation, wie z.B. ```COUNT```
Hier werden alle Tupel (Zeilen in der Tabelle) gezählt:

```
ps.sqldf("""SELECT COUNT(*) FROM performance_data""") 
```


In [22]:
# Beispiel
ps.sqldf("""SELECT COUNT(*) FROM performance_data""") 

Unnamed: 0,COUNT(*)
0,200


Neben der Summation gibt es noch weitere Operationen, um das Minimum (```MIN```), Maximum (```MAX```) oder den Durchschnitt (```AVG```) zu finden.

So lässt sich zum Beispiel die durchschnittliche Leistung der getesteten bestimmen:
```ps.sqldf(""" SELECT AVG(VO2_max) FROM performance_data """) ```

In [23]:
# Lösung
ps.sqldf(""" SELECT AVG(VO2_max) FROM performance_data WHERE weight < 80 """) 

Unnamed: 0,AVG(VO2_max)
0,48.170455


### Gruppieren

Operationen, wie ```AVG``` lassen sich mit den Schlüsselwort ```GROUP BY``` automatisiert für mehrere Gruppen durchführen.

Z.B. lässt sich der VO2_max getrennt nach Geschlecht auswerten.

``` """ SELECT AVG(VO2_max), gender FROM performance_data GROUP BY gender """ ```

In [24]:
# Beispiel
ps.sqldf("""SELECT gender, SUM(revenue) FROM performance_data GROUP BY gender""") 

Unnamed: 0,gender,SUM(revenue)
0,Female,2752
1,Male,3024


In [25]:
# Lösung
ps.sqldf("""SELECT diagnostician_id, SUM(revenue) FROM performance_data GROUP BY diagnostician_id""") 

Unnamed: 0,diagnostician_id,SUM(revenue)
0,0,1012
1,1,1494
2,2,1562
3,3,1708


### Speichern der Ergebnisse

Die Ergebnisse lassen sich über eine Zuweisung in einem neuen DataFrame speichern.

In [26]:
# Beispiel
new_table = ps.sqldf(""" SELECT COUNT(age) FROM performance_data GROUP BY smoker """) 
print(new_table)

   COUNT(age)
0         101
1          99


### Logische Verknüpfungen

Durch die logischen Operatoren ```OR```und ```AND``` lassen sich auch komplexere Abfragen gestalten. Zum Beispiel die Suche nach besonders untersetzten Personen:

```ps.sqldf(""" SELECT AVG(VO2_max), height, weight FROM performance_data WHERE height < 170 AND weight > 90 """)```

In [27]:
# Beispiel
ps.sqldf(""" SELECT AVG(VO2_max), height, weight FROM performance_data WHERE height < 170 AND weight > 90 """) 


Unnamed: 0,AVG(VO2_max),height,weight
0,48.309524,162,107


## Übung

1. Wer sind die größten drei weiblichen Teilnehmerinnen?

In [33]:
ps.sqldf(""" """)

Unnamed: 0.1,Unnamed: 0,VO2_max,age,smoker,height,weight,revenue,diagnostician_id,gender
0,9,62,86,0,189,83,25,0,Female
1,175,34,60,0,189,64,15,3,Female
2,54,55,69,0,187,89,46,0,Female


2. Was sind die höchsten vier Erlöse, die von Diagnostiker:in 2 erzielt wurden?

Unnamed: 0,diagnostician_id,revenue
0,2,49
1,2,48
2,2,47
3,2,47


3. Wie leistungsfähig sind Personen mit einer Größe über 170 cm verglichen mit kleineren Personen? (2 Befehle)

Unnamed: 0,AVG (VO2_max)
0,48.953488


Unnamed: 0,AVG (VO2_max)
0,48.947368


4. Was ist die Durchschnittsleistung von Männern unter 80kg?

Unnamed: 0,AVG (VO2_max)
0,47.946809


5. Wie viel Umsatz wird mir Rauchern und Nicht-Rauchern erzielt (ein Befehl)?

Unnamed: 0,revenue
0,36
1,39


6. Wie ist die durchschnittliche Leistung mit einem über-und unterdurchschnittlichen Gewicht? Wie sieht der Einfluss bei der größe aus?

Unnamed: 0,AVG (height)
0,168.54


Unnamed: 0,AVG (VO2_max)
0,49.747368


Unnamed: 0,AVG (VO2_max)
0,48.228571
