# Challenge 1: Die Daten sichten

Alle Tankstellen in Deutschland müssen innerhalb von 15 Minuten ihre akteullen Preise bei einer Änderung an die Martktranzparenztstelle (Kartellbehörde) übermittelt. Dies ist gesetzlich vorgeschrieben, damit der Wettbewerb überwacht und die Fairniss sichergestellt ist.

Ein so genannter Verbraucher Informations Dienst (VID) kann diese Daten abfragen und diese Verbrauchen zur Verfügungstellen (z.B. Clever Tanken, 1-2-3 Tanken, usw.). Mittels eines VID haben Verbraucher die Möglichket informierte Entscheidungen beim Tanken vorzunehmen und denn für sie passenden Preis herauszusuchen.

Im Folgenden arbeiten wir mit Daten des VID [Tankerkönig](https://tankerkoenig.de/) der seine Daten tageweise als CSV Datei zur Verfügung stellt.
Für jeden Tag gibt es zwei Dateien. Eine mit Stammdaten der Stationen und eine mit den Preisbewegungen aller Tankstellen in Deutschland.

## Importieren der notwendigen Bibliotheken

Die Biliothek [Pandas](https://de.wikipedia.org/wiki/Pandas_(Software)) wird import und über das Kürzel "pd" zur Verfügung gestellt.
Pandas ist eine Biblothek zur Daten-Analyse und wird standardmäßig im Python-Umfeld für Datamining und Statistik verwendet.

In [1]:
import pandas as pd

## Stadations-Stammdaten laden und Kopfdaten anzeigen

Über die Funktion "read_csv" können [CSV-Dateien](https://de.wikipedia.org/wiki/CSV_(Dateiformat)) eingelesen und als [Pandas-Dataframe](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html) bereitgestellt werden.

Mit der Funktion [Head](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html) kann man sich einen schnelle Übersicht über die Daten verschaffen, da Spaltennamen sowie die ersten fünf Daten ausgegeben werden.

### Aufgabe

Ändere den Programmcode in der folgenden Zelle um 10 Zeilen auszugeben!

In [7]:
stationsdaten = pd.read_csv (r'../../daten/2022-06-11-stations.csv')
stationsdaten.head()

Unnamed: 0,uuid,name,brand,street,house_number,post_code,city,latitude,longitude,first_active,openingtimes_json
0,0e18d0d3-ed38-4e7f-a18e-507a78ad901d,OIL! Tankstelle München,OIL!,Eversbuschstraße 33,,80999,München,48.1807,11.4609,1970-01-01 01:00:00+01,"{""openingTimes"":[{""applicable_days"":192,""perio..."
1,44e2bdb7-13e3-4156-8576-8326cdd20459,bft Tankstelle,,Schellengasse,53.0,36304,Alsfeld,50.752009,9.279039,1970-01-01 01:00:00+01,"{""openingTimes"":[{""applicable_days"":63,""period..."
2,ad812258-94e7-473d-aa80-d392f7532218,bft Bonn-Bad Godesberg,bft,Godesberger Allee,55.0,53175,Bonn,50.6951,7.14276,1970-01-01 01:00:00+01,"{""openingTimes"":[{""applicable_days"":30,""period..."
3,e18286e5-ef00-4b4f-a81d-371b665f265d,AVIA Tankstelle,AVIA,Hohenloher Straße,4.0,74547,Untermünkheim,49.15158,9.73444,2014-03-18 16:45:31+01,{}
4,e17ed0cd-65fc-48fa-9f25-45d6a1b928f2,Tankstelle Kirchlengern,Hempelmann,Hüllerstraße,20.0,32278,Kirchlengern,52.2174,8.63816,2014-03-18 16:45:31+01,"{""openingTimes"":[{""applicable_days"":63,""period..."


## Daten Filtern

Über die Klammern [] kann man auf Inhalte des DatenFrames zugreifen. Gibt man z.B. einen Spaltennamen an wird ein neuer DatenFrame erzeugt indem nur diese Spalte enhalten ist. [] stellen in Python Operationen auf Collections dar, dies können z.B. Listen, Mengen, Frame oder ähnliches sein. Mit [1,2,3] stellt man eine Liste mit 3 Zahlen dar. ["eins", "zwei", "drei"] stellt wiederum eine Liste von Zeichenketten dar.

### Aufgabe
Erstelle mit Hilfe der Klammern einen neuen Datenframe in dem neben dem "brand" auch der "name" enthalten ist!

In [13]:
stationsdaten['brand'].head()

0          OIL!
1           NaN
2           bft
3          AVIA
4    Hempelmann
Name: brand, dtype: object

Man kann zudem logische Ausdrücke in den Klammern an das DataFrame übergeben um somit filtern zu können. "==" prüft auf Gleicheit, "!=" prüft auf Ungleichheit.

### Aufgabe
Erstelle einen neuen DataFrame mit dem Namen "oil_tankstellen" und filtere dadrin alle Tankstellen der Firma "OIL!"!

In [27]:
oil_tankstellen = stationsdaten[stationsdaten['brand'] == 'OIL!']
oil_tankstellen.head()

Unnamed: 0,uuid,name,brand,street,house_number,post_code,city,latitude,longitude,first_active,openingtimes_json
0,0e18d0d3-ed38-4e7f-a18e-507a78ad901d,OIL! Tankstelle München,OIL!,Eversbuschstraße 33,,80999,München,48.1807,11.4609,1970-01-01 01:00:00+01,"{""openingTimes"":[{""applicable_days"":192,""perio..."
39,2327eaed-c0f3-493b-8762-e7b96b953a0e,OIL! Tankstelle Bernkastel-Kues,OIL!,Bornwiese 1,,54470,Bernkastel-Kues,49.9269,7.06178,2014-03-18 16:45:31+01,{}
55,2330ac9d-9376-4fd9-90aa-e5f9934bcf3d,OIL! tank & go Automatentankstelle Marl,OIL!,Zechenstr. 49,,45772,Marl,51.664,7.08381,2014-03-18 16:45:31+01,{}
115,dee4a1bb-bf2c-4485-9754-fc870b3b19d9,OIL! Tankstelle Oldenburg,OIL!,Gartenstraße 27,,26122,Oldenburg,53.1336,8.20468,2014-03-18 16:45:31+01,"{""openingTimes"":[{""applicable_days"":192,""perio..."
153,de4e73f0-47f8-44d9-b47b-24f4521bbd8a,OIL! Tankstelle Schenefeld,OIL!,Lornsenstr. 142,,22869,Schenefeld,53.6106,9.84013,2014-03-18 16:45:31+01,{}


## Preisdaten laden
Analog zu den Statationsdaten finden sich die Preise in der Datei "2022-06-11-prices.csv".

### Aufgabe
Lade die Preisinformationen aller Stationen in die Variable "preisinformationen" und zeige die Kopfdaten an.

In [33]:
preisinformationen = pd.read_csv (r'../../daten/2022-06-11-prices.csv')
preisinformationen.head()

Unnamed: 0,date,station_uuid,diesel,e5,e10,dieselchange,e5change,e10change
0,2022-06-11 00:00:09+02,0ff87eee-daf2-4966-a573-515d1458883a,2.019,2.009,1.949,1,1,1
1,2022-06-11 00:00:09+02,234fcf78-f25e-4327-b0cc-f29fd01c2293,2.099,2.049,1.989,1,1,1
2,2022-06-11 00:00:09+02,57f207da-80a0-4e61-b98d-d6eef0d79cfe,1.989,1.979,1.919,1,1,1
3,2022-06-11 00:00:09+02,7f6ec850-f413-46b9-992d-0cb2671e25dd,1.989,1.969,1.909,1,1,1
4,2022-06-11 00:00:09+02,4b35ab2e-7b19-44f8-b448-69764e7523b2,2.039,2.029,1.969,0,1,1


## Zeiten
In der Spalte "date" findet sich der Zeitstempel, wann diese Preiskonstellation an welcher Tankstelle gemessen wurde.
Die Tankstelle ist eindeutig über die "station_uuid" bezeichnet.
Bisher steht in der Spale lediglich eine Zeichenkette, wir möchten aber Pandas sagen, dass es sich hierbei um Werte vom Typ Zeitstempel (DateTime) handelt.
Dies kann man über die Funktion "pd.to_datetime" erledigen.

Jeder DataFrame hat einen Index um eine Zeile eindeutig zu identifizieren. Standardmässig ist die eine fortlaufende Nummer 0,1,2 ... N.
Man kann jedoch auch eine Spalte als Index festlegen über die Funktion "set_index".

## Aufgabe
Weise der Spalte "date" des DatenFrame "preisinformation" einen echten Zeitstempel zu und setze die Spalte "date" als Index fest.


In [34]:
preisinformationen['date'] = pd.to_datetime(preisinformationen['date'])
preisinformationen = preisinformationen.set_index('date')

Mit einem Zeitstempel als Index kann man jetzt Zeit-Funktionen benutzen um Bereichen einzugrenzen.
So kann man z.B. einen neuen Datenframe über die Funktion [between_time](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.between_time.html) erzeugen indem man einfach zwei Parameter von,bis übergibt. 

**Beispiel**: df.between_time('23:30', '23:45')

### Aufgabe
Erzeuge zwei neue DataFrames berufsverkehr_morgens und berufsverkehr_abends und sortiere diesen DataFrames respektive die Zeitbreiche 7Uhr - 9Uhr und 16Uhr - 19Uhr zu.


In [35]:
berufsverkehr_morgens = preisinformationen.between_time('7:00', '09:00')
berufsverkehr_abends = preisinformationen.between_time('16:00', '19:00')

## Mittelwerte berechnen
Mit der Funktion "mean" kann man den Mittelwert einer Zahlenfolge berechnen.
Hierzu sucht man aus einem DatenFrame über die Spalteneinschränkung eine Zahlenfolge heraus und wendet die Funktion an.

### Aufgabe
Erstelle zwei Variabeln "durchschnitt_e5_morgens" und "durchschnitt_e5_abends" und berechne den Mittelwert des Kraftstoffes E5 für den jeweils passenden DatenFrame des Berufsverkehrs (aus der vorherigen Aufgabe)!

**Frage** Wann ist es günstiger zu Tanken? Gilt dies auch für E10 und Diesel?

TIP: Mit print(variable1, variable2) kann man beide Variabeln ausgeben.

In [36]:
durchschnitt_e5_morgens = berufsverkehr_morgens['e5'].mean()
durchschnitt_e5_abends = berufsverkehr_abends['e5'].mean()

print(durchschnitt_e5_morgens, durchschnitt_e5_abends)

1.9806325918317704 1.9625007219125645
