# Python Basics 2

Dieses Notebook klärt folgende Fragen:
- Wie kann ich Daten einlesen?
- Wie kann ich die eingelesenen Daten anzeigen?
- Wie kann ich die Datentypen der einzelnen Merkmale (Variablen) anzeigen?
- Indexierung: Wie greife ich auf einzelne Elemente des Datensatzes zu?
- Indexierung bei Zeitreihen: Wie kann ich auf elegante Art und Weise mit Zeitstempeln arbeiten?

Hilfreich bei der Bearbeitung ist das Cheat Sheet, welches die wichtigsten grundlegenden Python Befehle zur Datenanalyse zusammenfasst. Sie finden das Cheat Sheet auf ILIAS.

## Benötigte Bibliothek pandas einbinden

In [1]:
# Importieren sie die Bibliothek pandas, vergeben Sie dazu das Kürzel pd
# s. Cheat Sheet unter "Dateien einlesen
import pandas as pd

## Daten einlesen über Pandas Funktion pd.read_csv('Pfadname')

In [3]:
# Lesen Sie datensatz1.csv ein
# s. Cheat Sheet unter "Dateien einlesen"

data = pd.read_csv("../data/datensatz1.csv")

data.describe()


Unnamed: 0,Consumption,Wind,Solar
count,2187.0,2187.0,2187.0
mean,1347.519037,183.431878,89.231604
std,166.551363,153.390542,58.549772
min,899.827,6.511,1.968
25%,1222.042,72.367,35.1615
50%,1380.22,136.842,86.39
75%,1460.0725,245.0275,135.038
max,1682.002,826.278,241.58


In [4]:
# Das ist doch das gleiche wie oben wtf? -> raw_data = pd.read_csv('/content/drive/My Drive/datensatz1.csv')

# Die Daten sind nun in einem pandas data frame gespeichert. 
# Die Anzahl der Zeilen und Spalten des data frames kann über das Attribut shape ausgegeben werden: 
# (bitte im Folgenden immer vervollständigen)

data.shape


(2187, 4)

In [5]:
# die Datentypen der einzelnen Spalten können mit dtypes angezeigt werden (bitte vervollständigen):
data.dtypes

Date            object
Consumption    float64
Wind           float64
Solar          float64
dtype: object

In [6]:
# ersten paar Zeilen anzeigen mit head():
data.head()

Unnamed: 0,Date,Consumption,Wind,Solar
0,2012-01-01,948.128,227.465,6.587
1,2012-01-02,1269.581,207.327,6.574
2,2012-01-03,1334.745,473.468,24.679
3,2012-01-04,1347.136,499.804,14.681
4,2012-01-05,1376.658,523.851,5.071


In [7]:
# letzten paar Zeilen anzeigen mit tail():
data.tail()

Unnamed: 0,Date,Consumption,Wind,Solar
2182,2017-12-27,1263.94091,394.507,16.53
2183,2017-12-28,1299.86398,506.424,14.162
2184,2017-12-29,1295.08753,584.277,29.854
2185,2017-12-30,1215.44897,721.247,7.467
2186,2017-12-31,1107.11488,721.176,19.98


In [8]:
# 7 zufällige Zeilen ausgeben:
data.sample(7)

Unnamed: 0,Date,Consumption,Wind,Solar
839,2014-04-24,1450.887,50.662,146.985
1038,2014-11-09,1168.962,110.421,46.333
1928,2017-04-17,1086.456,211.533,92.953
797,2014-03-10,1479.23,94.246,145.402
467,2013-04-14,1026.336,110.457,132.771
846,2014-05-01,1099.884,52.133,108.002
1197,2015-04-17,1432.894,151.659,104.332


## Indexierung mit Zeilen- und Spaltennummer
- Funktioniert mit data.iloc[Zeilenindex, Spaltenindex]

In [9]:
# Wert in Zeile 1, Spalte 3 ausgeben
data.iloc[1,3]

6.574000000000002

In [10]:
# Wert in letzter Zeile, Spalte 3 ausgeben
data.iloc[-1,3]


19.98

In [11]:
# zur Kontrolle tail()
data.tail()

Unnamed: 0,Date,Consumption,Wind,Solar
2182,2017-12-27,1263.94091,394.507,16.53
2183,2017-12-28,1299.86398,506.424,14.162
2184,2017-12-29,1295.08753,584.277,29.854
2185,2017-12-30,1215.44897,721.247,7.467
2186,2017-12-31,1107.11488,721.176,19.98


In [12]:
# 1. Zeile ausgeben
data.iloc[0,:]


Date           2012-01-01
Consumption       948.128
Wind              227.465
Solar               6.587
Name: 0, dtype: object

In [13]:
# 2. Spalte ausgeben
data.iloc[:,1]


0        948.12800
1       1269.58100
2       1334.74500
3       1347.13600
4       1376.65800
           ...    
2182    1263.94091
2183    1299.86398
2184    1295.08753
2185    1215.44897
2186    1107.11488
Name: Consumption, Length: 2187, dtype: float64

In [14]:
# zur Kontrolle head()
data.head()

Unnamed: 0,Date,Consumption,Wind,Solar
0,2012-01-01,948.128,227.465,6.587
1,2012-01-02,1269.581,207.327,6.574
2,2012-01-03,1334.745,473.468,24.679
3,2012-01-04,1347.136,499.804,14.681
4,2012-01-05,1376.658,523.851,5.071


In [15]:
# Zeilen mit den Indizes 5 bis 15 ausgeben
data.iloc[5:16,:]

Unnamed: 0,Date,Consumption,Wind,Solar
5,2012-01-06,1291.215,286.265,13.16
6,2012-01-07,1175.688,368.288,4.115
7,2012-01-08,1103.383,220.851,8.44
8,2012-01-09,1443.371,151.837,5.264
9,2012-01-10,1434.631,175.995,17.827
10,2012-01-11,1449.768,197.434,10.849
11,2012-01-12,1442.448,446.327,18.023
12,2012-01-13,1403.402,415.106,18.778
13,2012-01-14,1203.165,174.69,26.772
14,2012-01-15,1150.92,34.468,36.609


In [17]:
# Zeilen 5 bis 15 von Spalten 1 bis 3 ausgeben
data.iloc[5:16,1:4]


Unnamed: 0,Consumption,Wind,Solar
5,1291.215,286.265,13.16
6,1175.688,368.288,4.115
7,1103.383,220.851,8.44
8,1443.371,151.837,5.264
9,1434.631,175.995,17.827
10,1449.768,197.434,10.849
11,1442.448,446.327,18.023
12,1403.402,415.106,18.778
13,1203.165,174.69,26.772
14,1150.92,34.468,36.609


## Zeitstempel als Index setzen
Da eine Indexierung über Zeilen- und Spaltennummer bei dem Datensatz eher umständlich ist, wollen wir lieber über das Datum und den Spaltennamen gehen. 
Dazu setzen wir den Zeitstempel als Index und verwenden später diesen anstatt der Zeilennummer

In [19]:
# 1. Schritt (optional): Erzeuge ein neues Data Frame mit einer Kopie der Rohdaten. Das neue data frame wird data genannt.
data_copy = data.copy()

# 2. Schritt: Ändere im neuen data frame das Format der Spalte 'Date' zu datetimes. 
# s. Cheat sheet unter "Mit dem Zeitstempel indizieren"
data_copy["Date"] = pd.to_datetime(data_copy["Date"])


In [20]:
# Überprüfe, ob die Umwandlung geklappt hat
print('Rohdatensatz:')
print(data['Date'].head(), '\n')

print('Neuer Datensatz:')
print(data_copy['Date'].head(),'\n')

print('Alle Datentypen des Datensatzes:')
print(data_copy.dtypes)

Rohdatensatz:
0    2012-01-01
1    2012-01-02
2    2012-01-03
3    2012-01-04
4    2012-01-05
Name: Date, dtype: object 

Neuer Datensatz:
0   2012-01-01
1   2012-01-02
2   2012-01-03
3   2012-01-04
4   2012-01-05
Name: Date, dtype: datetime64[ns] 

Alle Datentypen des Datensatzes:
Date           datetime64[ns]
Consumption           float64
Wind                  float64
Solar                 float64
dtype: object


In [30]:
# 3. Schritt: Setze die Spalte 'Date' als neuen Index, siehe Cheat sheet:
#data_copy = data_copy.set_index("Date")

# Überprüfen durch Ausgabe der ersten Spalten des data frames:
data_copy.iloc[:,0:0]

2012-01-01
2012-01-02
2012-01-03
2012-01-04
2012-01-05
...
2017-12-27
2017-12-28
2017-12-29
2017-12-30
2017-12-31


## Mit Zeitstempel indexieren

In [31]:
# Alle Daten aus dem Jahr 2013:
data_copy.loc["2013"]

Unnamed: 0_level_0,Consumption,Wind,Solar
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2013-01-01,906.910,262.438,14.218
2013-01-02,1160.174,224.867,26.010
2013-01-03,1199.565,387.143,6.058
2013-01-04,1198.952,342.443,4.976
2013-01-05,1108.271,140.410,4.970
...,...,...,...
2013-12-27,1166.552,395.736,41.011
2013-12-28,1089.790,208.514,21.028
2013-12-29,1031.149,213.978,20.933
2013-12-30,1149.097,254.119,47.097


In [32]:
# Überprüfen mit sample():
data_copy.sample(5)

Unnamed: 0_level_0,Consumption,Wind,Solar
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2014-07-30,1421.525,75.132,81.03
2016-04-24,1126.023,174.225,136.642
2017-08-03,1389.445,402.361,120.167
2015-07-18,1186.873,150.581,148.598
2015-03-26,1521.241,120.271,38.513


In [33]:
# alle Daten aus dem März 2014:
data_copy.loc["2014-03"]

Unnamed: 0_level_0,Consumption,Wind,Solar
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2014-03-01,1310.863,42.38,74.222
2014-03-02,1205.382,79.034,58.509
2014-03-03,1479.361,174.177,83.837
2014-03-04,1521.878,19.16,70.862
2014-03-05,1550.944,18.679,74.279
2014-03-06,1546.473,54.556,91.283
2014-03-07,1514.897,114.278,120.06
2014-03-08,1279.162,107.357,131.284
2014-03-09,1161.496,175.888,145.585
2014-03-10,1479.23,94.246,145.402


In [35]:
# Überprüfen mit head und tail:
data_copy.head()
data_copy.tail()

Unnamed: 0_level_0,Consumption,Wind,Solar
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2017-12-27,1263.94091,394.507,16.53
2017-12-28,1299.86398,506.424,14.162
2017-12-29,1295.08753,584.277,29.854
2017-12-30,1215.44897,721.247,7.467
2017-12-31,1107.11488,721.176,19.98


In [36]:
# alle Daten von März 2014 bis Februar 2015:
data_copy.loc["2014-03":"2015-02"]

Unnamed: 0_level_0,Consumption,Wind,Solar
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2014-03-01,1310.863,42.380,74.222
2014-03-02,1205.382,79.034,58.509
2014-03-03,1479.361,174.177,83.837
2014-03-04,1521.878,19.160,70.862
2014-03-05,1550.944,18.679,74.279
...,...,...,...
2015-02-24,1604.991,317.556,50.806
2015-02-25,1585.249,107.047,72.248
2015-02-26,1579.350,177.505,106.263
2015-02-27,1569.187,136.122,65.845


In [37]:
# Überprüfen mit head und tail:
data_copy.head()
data_copy.tail()

Unnamed: 0_level_0,Consumption,Wind,Solar
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2017-12-27,1263.94091,394.507,16.53
2017-12-28,1299.86398,506.424,14.162
2017-12-29,1295.08753,584.277,29.854
2017-12-30,1215.44897,721.247,7.467
2017-12-31,1107.11488,721.176,19.98


## Mit Zeitstempel und Spaltenname indexieren

In [38]:
# Der Energieverbrauch (Consumption) in den Jahren 2014 bis 2015:
data_copy.loc["2014":"2015","Consumption"]

Date
2014-01-01    1080.080
2014-01-02    1343.101
2014-01-03    1379.776
2014-01-04    1271.029
2014-01-05    1182.416
                ...   
2015-12-27    1068.214
2015-12-28    1219.075
2015-12-29    1233.660
2015-12-30    1238.863
2015-12-31    1158.103
Name: Consumption, Length: 727, dtype: float64

In [39]:
# Spalten "Solar" und "Wind" am 01.12.2013:
data_copy.loc["2013-12-01",["Solar", "Wind"]]

Solar     24.464
Wind     211.319
Name: 2013-12-01 00:00:00, dtype: float64