# Python Basics 2

Dieses Notebook klärt folgende Fragen:
- Wie kann ich Daten einlesen?
- Wie kann ich die eingelesenen Daten anzeigen?
- Wie kann ich die Datentypen der einzelnen Merkmale (Variablen) anzeigen?
- Indexierung: Wie greife ich auf einzelne Elemente des Datensatzes zu?
- Indexierung bei Zeitreihen: Wie kann ich auf elegante Art und Weise mit Zeitstempeln arbeiten?

Hilfreich bei der Bearbeitung ist das Cheat Sheet, welches die wichtigsten grundlegenden Python Befehle zur Datenanalyse zusammenfasst. Sie finden das Cheat Sheet auf ILIAS.

## Benötigte Bibliothek pandas einbinden

In [4]:
# Importieren sie die Bibliothek pandas, vergeben Sie dazu das Kürzel pd
# s. Cheat Sheet unter "Dateien einlesen
import pandas as pd

## Daten einlesen über Pandas Funktion pd.read_csv('Pfadname')

In [3]:
# Lesen Sie datensatz1.csv ein
# s. Cheat Sheet unter "Dateien einlesen"

#from google.colab import drive
#drive.mount('/content/drive')




ModuleNotFoundError: No module named 'google'

In [6]:
#raw_data = pd.read_csv('/content/drive/My Drive/datensatz1.csv')
raw_data = pd.read_csv('datensatz1.csv')

# Die Daten sind nun in einem pandas data frame gespeichert. 
# Die Anzahl der Zeilen und Spalten des data frames kann über das Attribut shape ausgegeben werden: 
# (bitte im Folgenden immer vervollständigen)



In [19]:
# die Datentypen der einzelnen Spalten können mit dtypes angezeigt werden (bitte vervollständigen):
raw_data.dtypes

Date            object
Consumption    float64
Wind           float64
Solar          float64
dtype: object

In [9]:
# ersten paar Zeilen anzeigen mit head():
raw_data.head(1)

Unnamed: 0,Date,Consumption,Wind,Solar
0,2012-01-01,948.128,227.465,6.587


In [51]:
# letzten paar Zeilen anzeigen mit tail():
raw_data.tail(1)

Unnamed: 0,Date,Consumption,Wind,Solar
2182,2017-12-27,1263.94091,394.507,16.53
2183,2017-12-28,1299.86398,506.424,14.162
2184,2017-12-29,1295.08753,584.277,29.854
2185,2017-12-30,1215.44897,721.247,7.467
2186,2017-12-31,1107.11488,721.176,19.98


In [42]:
# 7 zufällige Zeilen ausgeben:
raw_data.sample(7)

Unnamed: 0,Date,Consumption,Wind,Solar
1951,2017-05-10,1425.515,107.246,204.901
945,2014-08-08,1336.572,46.413,168.66
1195,2015-04-15,1455.666,290.28,193.77
1943,2017-05-02,1452.669,403.34,91.07
1584,2016-05-08,1072.653,390.557,217.819
553,2013-07-09,1305.309,31.469,195.691
834,2014-04-19,1146.115,162.251,142.375


## Indexierung mit Zeilen- und Spaltennummer
- Funktioniert mit data.iloc[Zeilenindex, Spaltenindex]

In [55]:
# Wert in Zeile 1, Spalte 3 ausgeben
raw_data.iloc[0,2]

227.4650000000001

In [30]:
# Wert in letzter Zeile, Spalte 3 ausgeben
raw_data.iloc[-1,2]

19.98

In [None]:
# zur Kontrolle tail()


In [53]:
# 1. Zeile ausgeben
raw_data.tail().iloc[0]

Date           2017-12-27
Consumption    1263.94091
Wind              394.507
Solar               16.53
Name: 2182, dtype: object

In [54]:
# 2. Spalte ausgeben
raw_data.tail().iloc[:,1]

2182    1263.94091
2183    1299.86398
2184    1295.08753
2185    1215.44897
2186    1107.11488
Name: Consumption, dtype: float64

In [None]:
# zur Kontrolle head()


In [58]:
# Zeilen mit den Indizes 5 bis 15 ausgeben
raw_data.head(16).iloc[5:, :]

Unnamed: 0,Date,Consumption,Wind,Solar
5,2012-01-06,1291.215,286.265,13.16
6,2012-01-07,1175.688,368.288,4.115
7,2012-01-08,1103.383,220.851,8.44
8,2012-01-09,1443.371,151.837,5.264
9,2012-01-10,1434.631,175.995,17.827
10,2012-01-11,1449.768,197.434,10.849
11,2012-01-12,1442.448,446.327,18.023
12,2012-01-13,1403.402,415.106,18.778
13,2012-01-14,1203.165,174.69,26.772
14,2012-01-15,1150.92,34.468,36.609


In [59]:
# Zeilen 5 bis 15 von Spalten 1 bis 3 ausgeben
raw_data.head(16).iloc[5:, 1:]

Unnamed: 0,Consumption,Wind,Solar
5,1291.215,286.265,13.16
6,1175.688,368.288,4.115
7,1103.383,220.851,8.44
8,1443.371,151.837,5.264
9,1434.631,175.995,17.827
10,1449.768,197.434,10.849
11,1442.448,446.327,18.023
12,1403.402,415.106,18.778
13,1203.165,174.69,26.772
14,1150.92,34.468,36.609


## Zeitstempel als Index setzen
Da eine Indexierung über Zeilen- und Spaltennummer bei dem Datensatz eher umständlich ist, wollen wir lieber über das Datum und den Spaltennamen gehen. 
Dazu setzen wir den Zeitstempel als Index und verwenden später diesen anstatt der Zeilennummer

In [65]:
# 1. Schritt (optional): Erzeuge ein neues Data Frame mit einer Kopie der Rohdaten. Das neue data frame wird data genannt.
data = raw_data.copy()

# 2. Schritt: Ändere im neuen data frame das Format der Spalte 'Date' zu datetimes. 
# s. Cheat sheet unter "Mit dem Zeitstempel indizieren"
data["Date"] = pd.to_datetime(data['Date'])

In [66]:
# Überprüfe, ob die Umwandlung geklappt hat
print('Rohdatensatz:')
print(raw_data['Date'].head(), '\n')

print('Neuer Datensatz:')
print(data['Date'].head(),'\n')

print('Alle Datentypen des Datensatzes:')
print(data.dtypes)

Rohdatensatz:
0    2012-01-01
1    2012-01-02
2    2012-01-03
3    2012-01-04
4    2012-01-05
Name: Date, dtype: object 

Neuer Datensatz:
0   2012-01-01
1   2012-01-02
2   2012-01-03
3   2012-01-04
4   2012-01-05
Name: Date, dtype: datetime64[ns] 

Alle Datentypen des Datensatzes:
Date           datetime64[ns]
Consumption           float64
Wind                  float64
Solar                 float64
dtype: object


In [95]:
# 3. Schritt: Setze die Spalte 'Date' als neuen Index, siehe Cheat sheet:
data.set_index("Date", inplace=True)
# Überprüfen durch Ausgabe der ersten Spalten des data frames:


KeyError: "None of ['Date'] are in the columns"

In [96]:
data.head(1)

Unnamed: 0_level_0,Consumption,Wind,Solar
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2012-01-01,948.128,227.465,6.587


## Mit Zeitstempel indexieren

In [70]:
# Alle Daten aus dem Jahr 2013:
data.loc["2013"]

Unnamed: 0_level_0,Consumption,Wind,Solar
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2013-01-01,906.910,262.438,14.218
2013-01-02,1160.174,224.867,26.010
2013-01-03,1199.565,387.143,6.058
2013-01-04,1198.952,342.443,4.976
2013-01-05,1108.271,140.410,4.970
...,...,...,...
2013-12-27,1166.552,395.736,41.011
2013-12-28,1089.790,208.514,21.028
2013-12-29,1031.149,213.978,20.933
2013-12-30,1149.097,254.119,47.097


In [85]:
# Überprüfen mit sample():
data.loc["2013"].sample()

Unnamed: 0_level_0,Consumption,Wind,Solar
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2013-02-14,1481.417,119.019,41.343


In [81]:
# alle Daten aus dem März 2014:
data.loc["2014-03"]

Unnamed: 0_level_0,Consumption,Wind,Solar
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2014-03-01,1310.863,42.38,74.222
2014-03-02,1205.382,79.034,58.509
2014-03-03,1479.361,174.177,83.837
2014-03-04,1521.878,19.16,70.862
2014-03-05,1550.944,18.679,74.279
2014-03-06,1546.473,54.556,91.283
2014-03-07,1514.897,114.278,120.06
2014-03-08,1279.162,107.357,131.284
2014-03-09,1161.496,175.888,145.585
2014-03-10,1479.23,94.246,145.402


In [86]:
# Überprüfen mit head und tail:
data.loc["2014-03"].head()

Unnamed: 0_level_0,Consumption,Wind,Solar
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2014-03-01,1310.863,42.38,74.222
2014-03-02,1205.382,79.034,58.509
2014-03-03,1479.361,174.177,83.837
2014-03-04,1521.878,19.16,70.862
2014-03-05,1550.944,18.679,74.279


In [87]:
data.loc["2014-03"].tail()

Unnamed: 0_level_0,Consumption,Wind,Solar
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2014-03-25,1521.834,39.216,107.847
2014-03-26,1522.582,94.095,131.795
2014-03-27,1510.903,192.194,156.117
2014-03-28,1470.81,110.056,121.595
2014-03-31,1446.114,14.138,112.798


In [82]:
# alle Daten von März 2014 bis Februar 2015:
data.loc["2014-03":"2015-02"]

Unnamed: 0_level_0,Consumption,Wind,Solar
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2014-03-01,1310.863,42.380,74.222
2014-03-02,1205.382,79.034,58.509
2014-03-03,1479.361,174.177,83.837
2014-03-04,1521.878,19.160,70.862
2014-03-05,1550.944,18.679,74.279
...,...,...,...
2015-02-24,1604.991,317.556,50.806
2015-02-25,1585.249,107.047,72.248
2015-02-26,1579.350,177.505,106.263
2015-02-27,1569.187,136.122,65.845


In [88]:
# Überprüfen mit head und tail:
data.loc["2014-03":"2015-02"].head()

Unnamed: 0_level_0,Consumption,Wind,Solar
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2014-03-01,1310.863,42.38,74.222
2014-03-02,1205.382,79.034,58.509
2014-03-03,1479.361,174.177,83.837
2014-03-04,1521.878,19.16,70.862
2014-03-05,1550.944,18.679,74.279


In [89]:
data.loc["2014-03":"2015-02"].tail()

Unnamed: 0_level_0,Consumption,Wind,Solar
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2015-02-24,1604.991,317.556,50.806
2015-02-25,1585.249,107.047,72.248
2015-02-26,1579.35,177.505,106.263
2015-02-27,1569.187,136.122,65.845
2015-02-28,1340.489,207.35,82.594


## Mit Zeitstempel und Spaltenname indexieren

In [90]:
# Der Energieverbrauch (Consumption) in den Jahren 2014 bis 2015:
data["Consumption"].loc["2014":"2015"]

Date
2014-01-01    1080.080
2014-01-02    1343.101
2014-01-03    1379.776
2014-01-04    1271.029
2014-01-05    1182.416
                ...   
2015-12-27    1068.214
2015-12-28    1219.075
2015-12-29    1233.660
2015-12-30    1238.863
2015-12-31    1158.103
Name: Consumption, Length: 727, dtype: float64

In [93]:
# Spalten "Solar" und "Wind" am 01.12.2013:
data[["Solar", "Wind"]].loc["2013-01-12"]

Solar    20.777
Wind     33.461
Name: 2013-01-12 00:00:00, dtype: float64