# Python Basics 2

Dieses Notebook klärt folgende Fragen:
- Wie kann ich Daten einlesen?
- Wie kann ich die eingelesenen Daten anzeigen?
- Wie kann ich die Datentypen der einzelnen Merkmale (Variablen) anzeigen?
- Indexierung: Wie greife ich auf einzelne Elemente des Datensatzes zu?
- Indexierung bei Zeitreihen: Wie kann ich auf elegante Art und Weise mit Zeitstempeln arbeiten?

Hilfreich bei der Bearbeitung ist das Cheat Sheet, welches die wichtigsten grundlegenden Python Befehle zur Datenanalyse zusammenfasst. Sie finden das Cheat Sheet auf ILIAS.

## Benötigte Bibliothek pandas einbinden

In [None]:
# Importieren sie die Bibliothek pandas, vergeben Sie dazu das Kürzel pd
# s. Cheat Sheet unter "Dateien einlesen
import pandas as pd

## Daten einlesen über Pandas Funktion pd.read_csv('Pfadname')

In [None]:
# Lesen Sie datensatz1.csv ein
# s. Cheat Sheet unter "Dateien einlesen"

from google.colab import drive
drive.mount('/content/drive', force_remount = True)

Mounted at /content/drive


In [None]:
raw_data = pd.read_csv('/content/drive/My Drive/datasets/datensatz1.csv')

# Die Daten sind nun in einem pandas data frame gespeichert.
# Die Anzahl der Zeilen und Spalten des data frames kann über das Attribut shape ausgegeben werden:
# (bitte im Folgenden immer vervollständigen)

raw_data.shape

(2187, 4)

In [None]:
# die Datentypen der einzelnen Spalten können mit dtypes angezeigt werden (bitte vervollständigen):
raw_data.dtypes

Date            object
Consumption    float64
Wind           float64
Solar          float64
dtype: object

In [None]:
# ersten paar Zeilen anzeigen mit head():

# die ersten 10 Zeilen ausgeben
raw_data.head(10)

Unnamed: 0,Date,Consumption,Wind,Solar
0,2012-01-01,948.128,227.465,6.587
1,2012-01-02,1269.581,207.327,6.574
2,2012-01-03,1334.745,473.468,24.679
3,2012-01-04,1347.136,499.804,14.681
4,2012-01-05,1376.658,523.851,5.071
5,2012-01-06,1291.215,286.265,13.16
6,2012-01-07,1175.688,368.288,4.115
7,2012-01-08,1103.383,220.851,8.44
8,2012-01-09,1443.371,151.837,5.264
9,2012-01-10,1434.631,175.995,17.827


In [None]:
# letzten paar Zeilen anzeigen mit tail():

# die letzten 10 Zeilen ausgeben
raw_data.tail(10)

Unnamed: 0,Date,Consumption,Wind,Solar
2177,2017-12-22,1423.23782,228.773,10.065
2178,2017-12-23,1272.17085,748.074,8.45
2179,2017-12-24,1141.7573,812.422,9.949
2180,2017-12-25,1111.28338,587.81,15.765
2181,2017-12-26,1130.11683,717.453,30.923
2182,2017-12-27,1263.94091,394.507,16.53
2183,2017-12-28,1299.86398,506.424,14.162
2184,2017-12-29,1295.08753,584.277,29.854
2185,2017-12-30,1215.44897,721.247,7.467
2186,2017-12-31,1107.11488,721.176,19.98


In [None]:
# 7 zufällige Zeilen ausgeben:
raw_data.sample(7)

Unnamed: 0,Date,Consumption,Wind,Solar
136,2012-05-16,1331.02,218.675,103.286
279,2012-10-06,1113.446,154.938,66.6
1273,2015-07-02,1470.2,218.79,212.962
1657,2016-07-20,1419.223,139.192,221.746
1501,2016-02-15,1565.899,213.62,23.473
1320,2015-08-18,1374.693,104.856,94.329
427,2013-03-03,1062.452,113.621,82.995


## Indexierung mit Zeilen- und Spaltennummer
- Funktioniert mit data.iloc[Zeilenindex, Spaltenindex]

In [None]:
# Wert in Zeile 1, Spalte 3 ausgeben
raw_data.iloc[1,3]

6.574000000000002

In [None]:
# Wert in letzter Zeile, Spalte 3 ausgeben
raw_data.iloc[-1,3]

19.98

In [None]:
# zur Kontrolle tail()
raw_data.tail(1)

Unnamed: 0,Date,Consumption,Wind,Solar
2186,2017-12-31,1107.11488,721.176,19.98


In [None]:
# 1. Zeile ausgeben
raw_data.iloc[0]

Date           2012-01-01
Consumption       948.128
Wind              227.465
Solar               6.587
Name: 0, dtype: object

In [None]:
# 2. Spalte ausgeben
raw_data.iloc[0, 2]

227.4650000000001

In [None]:
# zur Kontrolle head()
raw_data.head(1)

Unnamed: 0,Date,Consumption,Wind,Solar
0,2012-01-01,948.128,227.465,6.587


In [None]:
# Zeilen mit den Indizes 5 bis 15 ausgeben
raw_data.iloc[5:16]

Unnamed: 0,Date,Consumption,Wind,Solar
5,2012-01-06,1291.215,286.265,13.16
6,2012-01-07,1175.688,368.288,4.115
7,2012-01-08,1103.383,220.851,8.44
8,2012-01-09,1443.371,151.837,5.264
9,2012-01-10,1434.631,175.995,17.827
10,2012-01-11,1449.768,197.434,10.849
11,2012-01-12,1442.448,446.327,18.023
12,2012-01-13,1403.402,415.106,18.778
13,2012-01-14,1203.165,174.69,26.772
14,2012-01-15,1150.92,34.468,36.609


In [None]:
# Zeilen 5 bis 15 von Spalten 1 bis 3 ausgeben
raw_data.iloc[5:16,[1,2,3]]

Unnamed: 0,Consumption,Wind,Solar
5,1291.215,286.265,13.16
6,1175.688,368.288,4.115
7,1103.383,220.851,8.44
8,1443.371,151.837,5.264
9,1434.631,175.995,17.827
10,1449.768,197.434,10.849
11,1442.448,446.327,18.023
12,1403.402,415.106,18.778
13,1203.165,174.69,26.772
14,1150.92,34.468,36.609


## Zeitstempel als Index setzen
Da eine Indexierung über Zeilen- und Spaltennummer bei dem Datensatz eher umständlich ist, wollen wir lieber über das Datum und den Spaltennamen gehen.
Dazu setzen wir den Zeitstempel als Index und verwenden später diesen anstatt der Zeilennummer

In [None]:
# 1. Schritt (optional): Erzeuge ein neues Data Frame mit einer Kopie der Rohdaten. Das neue data frame wird data genannt.
data = raw_data.copy()

# 2. Schritt: Ändere im neuen data frame das Format der Spalte 'Date' zu datetimes.
# s. Cheat sheet unter "Mit dem Zeitstempel indizieren"
data['Date'] = pd.to_datetime(data['Date'])

In [None]:
# Überprüfe, ob die Umwandlung geklappt hat
print('Rohdatensatz:')
print(raw_data['Date'].head(), '\n')

print('Neuer Datensatz:')
print(data['Date'].head(),'\n')

print('Alle Datentypen des Datensatzes:')
print(data.dtypes)

Rohdatensatz:
0    2012-01-01
1    2012-01-02
2    2012-01-03
3    2012-01-04
4    2012-01-05
Name: Date, dtype: object 

Neuer Datensatz:
0   2012-01-01
1   2012-01-02
2   2012-01-03
3   2012-01-04
4   2012-01-05
Name: Date, dtype: datetime64[ns] 

Alle Datentypen des Datensatzes:
Date           datetime64[ns]
Consumption           float64
Wind                  float64
Solar                 float64
dtype: object


In [None]:
# 3. Schritt: Setze die Spalte 'Date' als neuen Index, siehe Cheat sheet:
data.set_index('Date', inplace=True)

# Überprüfen durch Ausgabe der ersten Spalten des data frames:
data.head()

Unnamed: 0_level_0,Consumption,Wind,Solar
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2012-01-01,948.128,227.465,6.587
2012-01-02,1269.581,207.327,6.574
2012-01-03,1334.745,473.468,24.679
2012-01-04,1347.136,499.804,14.681
2012-01-05,1376.658,523.851,5.071


## Mit Zeitstempel indexieren

In [None]:
# Alle Daten aus dem Jahr 2013:
data.loc['2013']

Unnamed: 0_level_0,Consumption,Wind,Solar
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2013-01-01,906.910,262.438,14.218
2013-01-02,1160.174,224.867,26.010
2013-01-03,1199.565,387.143,6.058
2013-01-04,1198.952,342.443,4.976
2013-01-05,1108.271,140.410,4.970
...,...,...,...
2013-12-27,1166.552,395.736,41.011
2013-12-28,1089.790,208.514,21.028
2013-12-29,1031.149,213.978,20.933
2013-12-30,1149.097,254.119,47.097


In [None]:
# Überprüfen mit sample():
data.loc['2013'].sample(10)

Unnamed: 0_level_0,Consumption,Wind,Solar
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2013-03-16,1192.547,226.415,124.196
2013-07-21,983.663,32.487,204.441
2013-12-31,1068.429,174.67,43.219
2013-05-07,1333.693,78.471,89.723
2013-11-27,1493.989,160.495,40.126
2013-01-20,1162.583,185.719,4.096
2013-02-18,1406.563,29.527,34.831
2013-10-01,1356.25,151.379,103.343
2013-04-07,1065.085,42.472,113.686
2013-12-10,1474.226,46.505,27.425


In [None]:
# alle Daten aus dem März 2014:
data.loc['2014-03']

Unnamed: 0_level_0,Consumption,Wind,Solar
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2014-03-01,1310.863,42.38,74.222
2014-03-02,1205.382,79.034,58.509
2014-03-03,1479.361,174.177,83.837
2014-03-04,1521.878,19.16,70.862
2014-03-05,1550.944,18.679,74.279
2014-03-06,1546.473,54.556,91.283
2014-03-07,1514.897,114.278,120.06
2014-03-08,1279.162,107.357,131.284
2014-03-09,1161.496,175.888,145.585
2014-03-10,1479.23,94.246,145.402


In [None]:
# Überprüfen mit head:
data.loc['2014-03'].head(5)

Unnamed: 0_level_0,Consumption,Wind,Solar
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2014-03-01,1310.863,42.38,74.222
2014-03-02,1205.382,79.034,58.509
2014-03-03,1479.361,174.177,83.837
2014-03-04,1521.878,19.16,70.862
2014-03-05,1550.944,18.679,74.279


In [None]:
# Überprüfen mit tail:
data.loc['2014-03'].tail(5)

Unnamed: 0_level_0,Consumption,Wind,Solar
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2014-03-25,1521.834,39.216,107.847
2014-03-26,1522.582,94.095,131.795
2014-03-27,1510.903,192.194,156.117
2014-03-28,1470.81,110.056,121.595
2014-03-31,1446.114,14.138,112.798


In [None]:
# alle Daten von März 2014 bis Februar 2015:
data.loc['2014-03':'2015-02']

Unnamed: 0_level_0,Consumption,Wind,Solar
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2014-03-01,1310.863,42.380,74.222
2014-03-02,1205.382,79.034,58.509
2014-03-03,1479.361,174.177,83.837
2014-03-04,1521.878,19.160,70.862
2014-03-05,1550.944,18.679,74.279
...,...,...,...
2015-02-24,1604.991,317.556,50.806
2015-02-25,1585.249,107.047,72.248
2015-02-26,1579.350,177.505,106.263
2015-02-27,1569.187,136.122,65.845


In [None]:
# Überprüfen mit head:
data.loc['2014-03':'2015-02'].head(5)

Unnamed: 0_level_0,Consumption,Wind,Solar
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2014-03-01,1310.863,42.38,74.222
2014-03-02,1205.382,79.034,58.509
2014-03-03,1479.361,174.177,83.837
2014-03-04,1521.878,19.16,70.862
2014-03-05,1550.944,18.679,74.279


In [None]:
# Überprüfen mit tail:
data.loc['2014-03':'2015-02'].tail(5)

Unnamed: 0_level_0,Consumption,Wind,Solar
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2015-02-24,1604.991,317.556,50.806
2015-02-25,1585.249,107.047,72.248
2015-02-26,1579.35,177.505,106.263
2015-02-27,1569.187,136.122,65.845
2015-02-28,1340.489,207.35,82.594


## Mit Zeitstempel und Spaltenname indexieren

In [None]:
# Der Energieverbrauch (Consumption) in den Jahren 2014 bis 2015:
data['Consumption'].loc['2014':'2015']

Date
2014-01-01    1080.080
2014-01-02    1343.101
2014-01-03    1379.776
2014-01-04    1271.029
2014-01-05    1182.416
                ...   
2015-12-27    1068.214
2015-12-28    1219.075
2015-12-29    1233.660
2015-12-30    1238.863
2015-12-31    1158.103
Name: Consumption, Length: 727, dtype: float64

In [None]:
# Spalten "Solar" und "Wind" am 01.12.2013:
data[['Solar', 'Wind']].loc['2013-12-01']

Solar     24.464
Wind     211.319
Name: 2013-12-01 00:00:00, dtype: float64