## Übung zu Kapitel 3

In der ersten Übung machen wir uns mit dem Arbeiten mit Merkmalen in Python durch *Dataframes* vertraut. Hierbei lernen wir Daten zu laden und zu filtern. Für diese Übung müssen Sie eigenständig die benötigten Funktionen aus der Programmbibliothek [`pandas`](https://pandas.pydata.org/) heraussuchen. Sollten Sie wenig Erfahrung mit Python (oder Programmierung) haben, können Sie diese Übung auch überspringen und sich stattdessen an den Quelltextbeispielen der folgenden Kapitel orientieren. Sie sollten sich aber in jedem Fall zumindest die Aufgaben durchlesen, da das Konzept der Dataframes dort erklärt wird.

### Laden von CSV Daten

Oft liegen Daten als CSV-Dateien vor. Die erste Zeile beinhaltet die Namen der Merkmale, die folgenden Zeilen jeweils die Werte einer Instanz. Laden Sie sich zuerst die für uns [angepassten Daten über Insolvenzen](https://data-science-crashkurs.de/exercises/data/analcatdata_bankruptcy.csv) herunter. Das Original finden Sie im [*UCI Archive*](https://archive.ics.uci.edu/ml/index.php), einer großen Sammlung von Beispieldatensätzen für maschinelles Lernen. Wir haben diese Daten angepasst, indem wir die Werte einiger Merkmale gelöscht haben.

Laden Sie die CSV-Datei in einen *Dataframe* mithilfe der Bibliothek `pandas`. Dataframes sind ähnlich zu Matrizen. Es gibt jedoch einige wesentliche Unterschiede:

- Dataframes können einfacher verändert werden, indem man Zeilen/Spalten entfernt.
- Die Zeilen und Spalten von Dataframes können benannt sein, werden also nicht nur mithilfe ihres numerischen Indexes identifiziert.
- Jede Spalte kann einen anderen Typ haben. Eine Spalte könnte zum Beispiel Zeichenketten beinhalten und eine andere Gleitkommazahlen.

Nachdem die Daten geladen sind, geben Sie einige Informationen über die Daten aus:

- Wie viele Instanzen gibt es?
- Wie viele Merkmale gibt es?
- Was sind die Namen der Merkmale?

In [1]:
import pandas as pd

# load the data directly from the URL. This is supported since pandas 0.19.2
data = pd.read_csv('data/analcatdata_bankruptcy.csv')
# since jupyter notebooks show the return value of the last statement, this shows the data frame
# jupyter also provides a nice HTML rendering for the data
data

Unnamed: 0,Company,WC/TA,RE/TA,EBIT/TA,S/TA,BVE/BVL,Bankrupt
0,360Networks,9.3,-7.7,1.6,9.1,3.726,1.0
1,Advanced_Radio_Telecom,42.6,-60.1,-10.1,0.3,4.13,1.0
2,Ardent_Communications,-28.8,-203.2,-51.0,14.7,0.111,1.0
3,At_Home_Corp.,2.5,-433.1,-6.0,29.3,1.949,1.0
4,Convergent_Communications,26.1,-57.4,-23.5,54.2,0.855,1.0
5,Covad_Communications,39.2,-111.8,-77.8,10.5,0.168,1.0
6,e.spire,-5.4,-105.2,-5.8,38.9,0.028,1.0
7,eGlobe,-35.2,-92.4,-32.5,48.5,11.28,1.0
8,Exodus_Communications,10.5,-12.4,-2.3,21.0,2.5,1.0
9,General_Datacomm_Industries,-22.4,-124.5,-7.9,125.6,1.595,1.0


In [2]:
# we just use len for the number of instances and features
# you can also try data.shape to get both at once
print('Anzahl der Instanzen:', len(data))
print('Anzahl der Merkmale:', len(data.columns))
print('Namen der Merkmale:', data.columns)

Anzahl der Instanzen: 55
Anzahl der Merkmale: 7
Namen der Merkmale: Index(['Company', 'WC/TA', 'RE/TA', 'EBIT/TA', 'S/TA', 'BVE/BVL', 'Bankrupt'], dtype='object')


### Entfernen von Merkmalen

Entfernen Sie das Merkmal `Company`. 

In [3]:
# Now we drop the column company
# inplace means that the current data frame is modified
# without inplace, a copy is created that we would have to assign again
data.drop(labels='Company', axis='columns', inplace=True)
data

Unnamed: 0,WC/TA,RE/TA,EBIT/TA,S/TA,BVE/BVL,Bankrupt
0,9.3,-7.7,1.6,9.1,3.726,1.0
1,42.6,-60.1,-10.1,0.3,4.13,1.0
2,-28.8,-203.2,-51.0,14.7,0.111,1.0
3,2.5,-433.1,-6.0,29.3,1.949,1.0
4,26.1,-57.4,-23.5,54.2,0.855,1.0
5,39.2,-111.8,-77.8,10.5,0.168,1.0
6,-5.4,-105.2,-5.8,38.9,0.028,1.0
7,-35.2,-92.4,-32.5,48.5,11.28,1.0
8,10.5,-12.4,-2.3,21.0,2.5,1.0
9,-22.4,-124.5,-7.9,125.6,1.595,1.0


### Entfernen von Instanzen mit fehlenden Werten

Entfernen Sie alle Instanzen, bei denen ein Wert fehlt. Die fehlenden Werte sind als `NA` in der CSV Datei markiert. Hierdurch sollten fünf Instanzen entfernt werden. 

In [4]:
print('Anzahl der Instanzen (inkl. unvollständiger Datenpunkte):', len(data))
data.dropna(inplace=True)
print('Anzahl der Instanzen (exkl. unvollständiger Datenpunkte):', len(data))

Anzahl der Instanzen (inkl. unvollständiger Datenpunkte): 55
Anzahl der Instanzen (exkl. unvollständiger Datenpunkte): 50


### Rechnen mit Dataframes

Man kann mit Dataframes einfach rechnen. Ergänzen Sie zwei Spalten mit den Ergebnissen folgender Berechnungen:
- Die Summe der Spalten `WC/TA` und `RE/TA`
- Das Produkt der Spalten `EBIT/TA` und `S/TA`

In [5]:
# columns can be access by their name
# new columns can be added by using their desired name
data['WC/TA+RE/TA'] = data['WC/TA']+data['RE/TA']
# the above way to access the columns is shorthand for using loc (location)
# : selects all rows (or columns, if used as second argument of loc)
data.loc[:, 'EBIT/TA*S/TA'] = data.loc[:, 'EBIT/TA']*data.loc[:, 'S/TA']
data

Unnamed: 0,WC/TA,RE/TA,EBIT/TA,S/TA,BVE/BVL,Bankrupt,WC/TA+RE/TA,EBIT/TA*S/TA
0,9.3,-7.7,1.6,9.1,3.726,1.0,1.6,14.56
1,42.6,-60.1,-10.1,0.3,4.13,1.0,-17.5,-3.03
2,-28.8,-203.2,-51.0,14.7,0.111,1.0,-232.0,-749.7
3,2.5,-433.1,-6.0,29.3,1.949,1.0,-430.6,-175.8
4,26.1,-57.4,-23.5,54.2,0.855,1.0,-31.3,-1273.7
5,39.2,-111.8,-77.8,10.5,0.168,1.0,-72.6,-816.9
6,-5.4,-105.2,-5.8,38.9,0.028,1.0,-110.6,-225.62
7,-35.2,-92.4,-32.5,48.5,11.28,1.0,-127.6,-1576.25
8,10.5,-12.4,-2.3,21.0,2.5,1.0,-1.9,-48.3
9,-22.4,-124.5,-7.9,125.6,1.595,1.0,-146.9,-992.24


### Zusammenfügen von Dataframes

Laden Sie die Daten ein zweites Mal aus der CSV-Datei. Vereinigen Sie den Dataframe aus der vorigen Aufgabe mit den neu geladenen Daten, sodass gilt:

- Das Merkmal `Company` ist wieder Teil des neuen Dataframes.
- Die Instanzen mit fehlenden Werten sind weiterhin entfernt.
- Die berechneten Merkmale (Summe, Produkt) sind Teil des neuen Dataframes.

In [6]:
data2 = pd.read_csv(
    'https://data-science-crashkurs.de/exercises/data/analcatdata_bankruptcy.csv')
# merge combines two data frames with a join operation
# by default an "inner join" on the index is performed, i.e., all instances with the same index are joined
merged_data = data.merge(data2)
merged_data

Unnamed: 0,WC/TA,RE/TA,EBIT/TA,S/TA,BVE/BVL,Bankrupt,WC/TA+RE/TA,EBIT/TA*S/TA,Company
0,9.3,-7.7,1.6,9.1,3.726,1.0,1.6,14.56,360Networks
1,42.6,-60.1,-10.1,0.3,4.13,1.0,-17.5,-3.03,Advanced_Radio_Telecom
2,-28.8,-203.2,-51.0,14.7,0.111,1.0,-232.0,-749.7,Ardent_Communications
3,2.5,-433.1,-6.0,29.3,1.949,1.0,-430.6,-175.8,At_Home_Corp.
4,26.1,-57.4,-23.5,54.2,0.855,1.0,-31.3,-1273.7,Convergent_Communications
5,39.2,-111.8,-77.8,10.5,0.168,1.0,-72.6,-816.9,Covad_Communications
6,-5.4,-105.2,-5.8,38.9,0.028,1.0,-110.6,-225.62,e.spire
7,-35.2,-92.4,-32.5,48.5,11.28,1.0,-127.6,-1576.25,eGlobe
8,10.5,-12.4,-2.3,21.0,2.5,1.0,-1.9,-48.3,Exodus_Communications
9,-22.4,-124.5,-7.9,125.6,1.595,1.0,-146.9,-992.24,General_Datacomm_Industries


### Auswahl von Teilmengen

Nutzen Sie den zusammengefügten Dataframe, um Teilmengen der Instanzen und Merkmale zu bestimmen:

- Die Instanzen 10 bis 20 und alle Merkmale
- Die Merkmale in den ersten vier Spalten und alle Instanzen
- Die Merkmale `WC/TA` und `EBIT/TA` und alle Instanzen
- Alle Merkmale und nur die Instanzen, bei denen `RE/TA` kleiner als -20 ist. 
- Alle Merkmale und nur die Instanzen, bei denen `RE/RA` kleiner als -20 ist und `bankrupt` null ist.
- Nur die Merkmale `WC/TA` und `EBIT/TA` und nur die Instanzen, bei denen `RE/RA` kleiner als -20 ist und `bankrupt` null ist.

In [7]:
# integer based indexing fetches rows, in this case from 10 (inclusive) to 21 (exclusive)
merged_data[10:21]

Unnamed: 0,WC/TA,RE/TA,EBIT/TA,S/TA,BVE/BVL,Bankrupt,WC/TA+RE/TA,EBIT/TA*S/TA,Company
10,24.6,-29.0,-2.0,21.3,1.968,1.0,-4.4,-42.6,Global_Telesystems
11,6.6,-50.9,-2.6,28.9,0.258,1.0,-44.3,-75.14,GST_Telecom
12,33.9,-46.5,-17.5,0.9,0.828,1.0,-12.6,-15.75,Metricom
13,19.1,-66.3,-25.5,22.3,0.46,1.0,-47.2,-568.65,Net2000_Communications
14,-21.1,-46.0,-26.8,81.4,0.698,1.0,-67.1,-2181.52,NetVoice_Technologies
15,2.5,-228.7,-6.7,38.6,0.03,1.0,-226.2,-258.62,PSINet
16,47.0,-78.2,-42.0,4.4,0.168,1.0,-31.2,-184.8,Rhythms_NetConnections
17,9.1,-40.2,-0.7,81.5,0.522,1.0,-31.1,-57.05,RSL_Communications
18,43.0,-49.2,-87.4,119.9,2.919,1.0,-6.2,-10479.26,SSE_Telecom
19,-34.9,-79.0,-13.5,127.8,0.197,1.0,-113.9,-1725.3,Startec_Global_Communications


In [8]:
# in general, we can use iloc for integer based locations
merged_data.iloc[:, 0:4]

Unnamed: 0,WC/TA,RE/TA,EBIT/TA,S/TA
0,9.3,-7.7,1.6,9.1
1,42.6,-60.1,-10.1,0.3
2,-28.8,-203.2,-51.0,14.7
3,2.5,-433.1,-6.0,29.3
4,26.1,-57.4,-23.5,54.2
5,39.2,-111.8,-77.8,10.5
6,-5.4,-105.2,-5.8,38.9
7,-35.2,-92.4,-32.5,48.5
8,10.5,-12.4,-2.3,21.0
9,-22.4,-124.5,-7.9,125.6


In [9]:
# with lists of strings we get columns
merged_data[['WC/TA', 'EBIT/TA']]

Unnamed: 0,WC/TA,EBIT/TA
0,9.3,1.6
1,42.6,-10.1
2,-28.8,-51.0
3,2.5,-6.0
4,26.1,-23.5
5,39.2,-77.8
6,-5.4,-5.8
7,-35.2,-32.5
8,10.5,-2.3
9,-22.4,-7.9


In [10]:
# we can also use boolean formulas to filter the rows of data frames
merged_data[merged_data['RE/TA'] < -20]

Unnamed: 0,WC/TA,RE/TA,EBIT/TA,S/TA,BVE/BVL,Bankrupt,WC/TA+RE/TA,EBIT/TA*S/TA,Company
1,42.6,-60.1,-10.1,0.3,4.13,1.0,-17.5,-3.03,Advanced_Radio_Telecom
2,-28.8,-203.2,-51.0,14.7,0.111,1.0,-232.0,-749.7,Ardent_Communications
3,2.5,-433.1,-6.0,29.3,1.949,1.0,-430.6,-175.8,At_Home_Corp.
4,26.1,-57.4,-23.5,54.2,0.855,1.0,-31.3,-1273.7,Convergent_Communications
5,39.2,-111.8,-77.8,10.5,0.168,1.0,-72.6,-816.9,Covad_Communications
6,-5.4,-105.2,-5.8,38.9,0.028,1.0,-110.6,-225.62,e.spire
7,-35.2,-92.4,-32.5,48.5,11.28,1.0,-127.6,-1576.25,eGlobe
9,-22.4,-124.5,-7.9,125.6,1.595,1.0,-146.9,-992.24,General_Datacomm_Industries
10,24.6,-29.0,-2.0,21.3,1.968,1.0,-4.4,-42.6,Global_Telesystems
11,6.6,-50.9,-2.6,28.9,0.258,1.0,-44.3,-75.14,GST_Telecom


In [11]:
# when we combine multiple conditions, we must use () because we have bitmasks
# we also need to use the bitwise operators & and | instead of the keywords 'and' and 'or'
merged_data[(merged_data['RE/TA'] < -20) & (merged_data['Bankrupt'] == 0)]

Unnamed: 0,WC/TA,RE/TA,EBIT/TA,S/TA,BVE/BVL,Bankrupt,WC/TA+RE/TA,EBIT/TA*S/TA,Company
26,9.8,-33.8,-7.1,3.2,5.965,0.0,-24.0,-22.72,Akamai_Technologies
27,37.8,-45.4,-7.1,17.1,3.45,0.0,-7.6,-121.41,Allegiance_Telecom
35,13.8,-37.6,-13.0,32.3,13.768,0.0,-23.8,-419.9,Digex
41,20.3,-61.3,1.9,27.0,35.178,0.0,-41.0,51.3,Openwave_Systems
49,1.1,-39.5,15.7,41.8,1.449,0.0,-38.4,656.26,Western_Wireless


In [12]:
# we can use the conditions also with loc and also select the columns we want
merged_data.loc[(merged_data['RE/TA'] < -20) &
                (merged_data['Bankrupt'] == 0), ['WC/TA', 'EBIT/TA']]

Unnamed: 0,WC/TA,EBIT/TA
26,9.8,-7.1
27,37.8,-7.1
35,13.8,-13.0
41,20.3,1.9
49,1.1,15.7
