# Einführung in pandas

pandas ist eine mächtige Bibliothek für die Arbeit mit heterogenen Daten in tabellenartiger Form. In pandas können wir Daten laden, säubern, transformieren, aggregieren und analysieren. Diese Schritte kommen vor der weiteren Verarbeitung in Machine Learning Algorithmen oder der weitergehenden Visualisierung. Das Ergebnis eines pandas-Programms ist häufig ein homogenes NumPy-Array mit numerischen Werten. Gemeinsam mit NumPy ist der array-basierte Ansatz - eine For-Schleife über die Reihen eines Datensatzes verstößt mit hoher Wahrscheinlichkeit gegen Best Practices. 

Um pandas in Python zu nutzen bietet es sich an der Standard-Konvention zu folgen und es als `pd` zu importieren:

In [29]:
from pickletools import long1

import pandas as pd

<div class="alert alert-info"><b>INFO</b>
    <p>Die Übungen und Beispiele basieren auf Daten über 
    weltweite Systeme des öffentlichen Nahverkehrs von <a href="https://www.citylines.co">https://www.citylines.co</a></p>
</div>

## pandas Series

Die grundlegende Datenstruktur in pandas ist die Series: eine eindimensionale Datenstruktur ähnlich eines eindimensionalen Arrays: 

In [30]:
countries = pd.Series(['Sweden', 'Australia', 'Singpaore', 'Austria'])
countries

0       Sweden
1    Australia
2    Singpaore
3      Austria
dtype: object

Links neben den Einträgen sehen wir den Index - da wir nichts anderes angegeben haben, werden ähnlich wie beim Array die ganzen Zahlen aufsteigend nummeriert von 0 an genommen. Mit `.values` können wir das NumPy-Array einer Series abfragen:

In [31]:
countries.values

array(['Sweden', 'Australia', 'Singpaore', 'Austria'], dtype=object)

In [32]:
type(countries.values)

numpy.ndarray

Mit `.index` können wir auf den Index der Series zugreifen. Mit `[]` können wir per Index auf einzelne Elemente der Series zugreifen.

In [34]:
countries.index

RangeIndex(start=0, stop=4, step=1)

In [35]:
countries.index.values

array([0, 1, 2, 3])

In [36]:
countries[0]

'Sweden'

Anders als die Indizes eines Arrays bleiben die Indizes einer Series auch bei Selektionen erhalten:

In [37]:
countries[2:3]

2    Singpaore
dtype: object

In [38]:
countries[[0,2]]

0       Sweden
2    Singpaore
dtype: object

Ebenso können ähnlich wie beim `dict` andere Index-Elemente gesetzt werden, z.B.

In [39]:
countries = pd.Series(['Sweden', 'Australia', 'Singapore', 'Austria'],
                index=['Stockholm', 'Sydney', 'Singapore', 'Vienna'])
countries

Stockholm       Sweden
Sydney       Australia
Singapore    Singapore
Vienna         Austria
dtype: object

Bei nicht-numerischen Index ist die Range-Selection über `:` sowohl bei Start als auch Ende inklusive:

In [40]:
countries['Stockholm':'Singapore']

Stockholm       Sweden
Sydney       Australia
Singapore    Singapore
dtype: object

Series können wie NumPy-Arrays miteinander kombiniert werden, dabei werden einzelne Werte über die Indizes gematcht, z.B.: 

In [41]:
# Erstelle Series mit anderer Reihenfolge und einem Datensatz weniger
continents = pd.Series(['Europe', 'Europe', 'Asia'],
                      index=['Vienna', 'Stockholm', 'Singapore'])
# Kombiniere Series countries mit continents per String-Konkatenation
countries + ', ' + continents

Singapore    Singapore, Asia
Stockholm     Sweden, Europe
Sydney                   NaN
Vienna       Austria, Europe
dtype: object

Series bieten neben den aus NumPy bekannten Funktionen (z.B. `max`, `min`) noch viele weitere: https://pandas.pydata.org/docs/reference/series.html

Zum Beispiel kann mit dem `str`-Accessor auf viele String-Funktionen zurückgegriffen werden:

In [42]:
countries.str.startswith('S')

Stockholm     True
Sydney       False
Singapore     True
Vienna       False
dtype: bool

Das Ergebnis der vorherigen Operation ist wiederum eine Series mit dem gleichen Index und Boolean-Werten. Diese Series kann nun wiederum als Index für ein Array mit gleichen Indizes verwendet werden:

In [43]:
countries[countries.str.startswith('S')]

Stockholm       Sweden
Singapore    Singapore
dtype: object

In [45]:
filt_s = countries.str.startswith('S')
continents[filt_s]

Stockholm    Europe
Singapore      Asia
dtype: object

## pandas DataFrame

Ein `DataFrame` bündelt mehrere `Series` in eine tabellarische Datenstruktur zusammen. Jede `Series` wird unter einem Label (Spaltenname) abgelegt und beinhaltet die Wert einer Spalte. Die Series haben im Normalfall den gleichen Index (oder zumindest überschneidend). Die Werte aus den unterschiedlichen Series mit dem gleichen Index bilden eine Reihe.
Ein DataFrame kann z.B. über ein dict erstellt werden - key ist der Spaltenname, value die Series mit den Werten:

In [44]:
df = pd.DataFrame({"country": countries, "continent": continents})
df

Unnamed: 0,country,continent
Singapore,Singapore,Asia
Stockholm,Sweden,Europe
Sydney,Australia,
Vienna,Austria,Europe


Es gibt zahlreiche weitere Konstruktoren für DataFrames, z.B. basierend auf Arrays, Dicts. Siehe https://pandas.pydata.org/docs/user_guide/dsintro.html#dataframe

Wir werden meist DataFrames aus Dateien laden. Diese können in unterschiedlichen Formaten sein (z.B. csv, Excel, JSON) und sowohl auf dem lokalen Dateisystem als auch auf einem Webserver liegen. Siehe https://pandas.pydata.org/docs/user_guide/io.html

In [46]:
# Read city data direkt von citylines.co
# cities = pd.read_csv("https://data.heroku.com/dataclips/wmeilvvkgqrderovlbhfbktsnxlm.csv")
# Wir lesen aus einer lokal gecachten Version, um den gleichen
# Datenstand für Skript und Übungen festzuhalten
cities = pd.read_csv("data/cities.csv")

In [48]:
# Jupyer Notebook stellt DataFrames in einer gewohnten tabellarischen Ansicht dar
cities

Unnamed: 0,id,name,coords,start_year,url_name,country,country_state,length
0,5,Aberdeen,POINT(-2.15 57.15),2017,aberdeen,Scotland,,0
1,6,Adelaide,POINT(138.6 -34.91666667),2017,adelaide,Australia,,0
2,7,Algiers,POINT(3 36.83333333),2017,algiers,Algeria,,0
3,9,Ankara,POINT(32.91666667 39.91666667),2017,ankara,Turkey,,0
4,16,Belém,POINT(-48.48333333 -1.466666667),2017,belem,Brazil,,0
...,...,...,...,...,...,...,...,...
397,360,Santa Fe,POINT(-60.7 -31.633333),2008,santa-fe-argentina,Argentina,Santa Fe,9939
398,361,Tegal,POINT(109.133333 -6.866667),2020,tegal,Indonesia,Central Java,51496
399,342,Istanbul,POINT(28.955 41.013611),1989,istanbul,Turkey,,38096
400,356,Seoul,POINT(126.977966 37.566536),1971,seoul,South Korea,,1418234


In [49]:
# Da DataFrames oftmals sehr viele Zeilen haben bietet sich die head-Methode an
# Sie zeigt die ersten n Zeilen an - Default-Wert ist n=5
cities.head(10)

Unnamed: 0,id,name,coords,start_year,url_name,country,country_state,length
0,5,Aberdeen,POINT(-2.15 57.15),2017,aberdeen,Scotland,,0
1,6,Adelaide,POINT(138.6 -34.91666667),2017,adelaide,Australia,,0
2,7,Algiers,POINT(3 36.83333333),2017,algiers,Algeria,,0
3,9,Ankara,POINT(32.91666667 39.91666667),2017,ankara,Turkey,,0
4,16,Belém,POINT(-48.48333333 -1.466666667),2017,belem,Brazil,,0
5,10,Asunción,POINT(-57.66666667 -25.25),2017,asuncion,Paraguay,,0
6,395,Málaga,POINT(-4.416667 36.716667),2020,malaga,Spain,Andalucía,0
7,12,Auckland,POINT(174.75 -36.86666667),2017,auckland,New Zealand,,0
8,407,Tel Aviv,POINT(34.783333 32.066667),2021,tel-aviv,Israel,,0
9,17,Belfast,POINT(-5.933333333 54.61666667),2017,belfast,Northern Ireland,,0


pandas hat beim Einlesen automatisch einen numerischen Index vergeben (ganz linke Spalte ohne Spaltenname). Im Datensatz ist jedoch eine schon eine Spalte "id" vorhanden, die als Index dienen kann. Im Prinzip könnten wir auch den Namen der Städte als Index setzen, aber wenn wir die Stadttabelle mit weiteren Tabellen verknüpfen wollen wird dort die city id als Schlüssel verwendet. Mit set_index können wir eine Spalte des DataFrames als Index setzen. Wie die meisten anderen transformativen Methoden auf einem DataFrame verändert die set_index Methode standardmäßig das DataFrame nicht, sondern generiert ein neues. Dies können wir übernehmen, indem wir den inplace=True Parameter setzen oder das neue generierte DataFrame wiederum in der ursprünglichen Variable speichern.

In [50]:
# Erzeugt ein neues DataFrame mit der Spalte id als Index
cities.set_index('id').head()

Unnamed: 0_level_0,name,coords,start_year,url_name,country,country_state,length
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
5,Aberdeen,POINT(-2.15 57.15),2017,aberdeen,Scotland,,0
6,Adelaide,POINT(138.6 -34.91666667),2017,adelaide,Australia,,0
7,Algiers,POINT(3 36.83333333),2017,algiers,Algeria,,0
9,Ankara,POINT(32.91666667 39.91666667),2017,ankara,Turkey,,0
16,Belém,POINT(-48.48333333 -1.466666667),2017,belem,Brazil,,0


In [51]:
# Das DataFrame cities ist unverändert:
cities.head()

Unnamed: 0,id,name,coords,start_year,url_name,country,country_state,length
0,5,Aberdeen,POINT(-2.15 57.15),2017,aberdeen,Scotland,,0
1,6,Adelaide,POINT(138.6 -34.91666667),2017,adelaide,Australia,,0
2,7,Algiers,POINT(3 36.83333333),2017,algiers,Algeria,,0
3,9,Ankara,POINT(32.91666667 39.91666667),2017,ankara,Turkey,,0
4,16,Belém,POINT(-48.48333333 -1.466666667),2017,belem,Brazil,,0


In [52]:
# Die Änderung übernehmen können wir entweder (nur eins funktioniert - danach
# ist der Index schon gesetzt und die Spalte id nicht mehr vorhanden, daher
# ist Option 1 auskommentiert
# Option 1: Abspeichern des transformierten DataFrames in der ursprünglichen Variable
# cities = cities.set_index('id')
# Option 2: inplace=True Parameter bestimmt, dass das DataFrame verändert werden soll
cities.set_index('id', inplace=True)

Beachten Sie, dass Operationen mit inplace=True keinen Rückgabewert haben. Das sehen Sie daran, dass im Jupyter Notebook nichts angezeigt wird.

## Selektionen

Auf einzelne Spalten (Series) kann per `[spalten_name]` zugegriffen werden.

In [56]:
cities['name'].head()

id
5     Aberdeen
6     Adelaide
7      Algiers
9       Ankara
16       Belém
Name: name, dtype: object

Alternativ für Namen ohne Leer- und Sonderzeichen kann auch per `.spalten_name` zugegriffen werden - wir vermeiden das im Folgenden aber Sie werden es häufig in Beispiel-Code finden.

In [57]:
cities.name

id
5      Aberdeen
6      Adelaide
7       Algiers
9        Ankara
16        Belém
         ...   
360    Santa Fe
361       Tegal
342    Istanbul
356       Seoul
114       Tokyo
Name: name, Length: 402, dtype: object

Ähnlich wie bei Series können Selektionen mit `[]` durchgeführt werden. Da pandas hier gemäß einer Logik erschließt, ob Selektionen auf Spaltennamen, Zeilen-Labels (aus dem Index) oder Zeilen-Positionen gewünscht sind, kommt es manchmal zu unerwünschten Ergebnissen, insbesondere bei Spaltennamen die Zahlen sind. Beispiel: 

In [58]:
# DataFrame mit Zahlen als Index-Labels und Spaltennamen
df = pd.DataFrame({0: [1, 2, 3], 1: [4, 5, 6], 2: [7, 8, 9]}, index=[1, 2, 3])
df

Unnamed: 0,0,1,2
1,1,4,7
2,2,5,8
3,3,6,9


In [59]:
# Zugriff auf eine Spalte mit []
df[0]

1    1
2    2
3    3
Name: 0, dtype: int64

In [60]:
# Zugriff auf Zeile per Label-Slice mit []
df[0:1]

Unnamed: 0,0,1,2
1,1,4,7


Um Missverständnisse zu vermeiden, verwenden wir folgende Zugriffe auf ein DataFrame df:
- `df[spalten]` Zugriff auf einzelne Spalte (Series) oder Spalten (DataFrame) per Spaltenname(n)
- `df[boolean_series]` um auf alle Zeilen zuzugreifen, deren Index in `boolean_series` vorkommen und dort den Wert `True` haben
- `df.loc[zeilen]`: Zugriff auf einzelne Zeile oder Zeilen per Label(s)
- `df.loc[zeilen,spalten]`: Zugriff auf Zeilen und Spalten per Label(s) und Spaltenname(n)
- `df.iloc[zeilen]`: Zugriff auf einzelne Zeile oder Zeilen per Integer-Positionen
- `df.iloc[zeilen,spalten]`: Zugriff auf Zeilen und Spalten per Integer-Positionen


Um Spalten, Zeilen auszuwählen gibt es 3 Möglichkeiten:
- Einzelner Wert (Spaltenname, Index-Label, Integer-Position): selektiert genau diesen Wert
- Liste von Spaltennamen, Index-Labeln, Integer-Positionen: selektiert, wenn Wert in Liste
- Slices mit `start:ende`: selektiert zusammenhängenden Bereich zwischen `start` und `ende`
    - wenn `start` weggelassen wird, dann wird der erste Wert eingesetzt
    - wenn `ende` weggelassen wird, dann wird der letzte Wert eingesetzt
    - wenn beides weggelassen wird, wird der gesamte Bereich selektiert
    
Beispiele:

In [61]:
# Einzelne Spalte als Series
cities['name']

id
5      Aberdeen
6      Adelaide
7       Algiers
9        Ankara
16        Belém
         ...   
360    Santa Fe
361       Tegal
342    Istanbul
356       Seoul
114       Tokyo
Name: name, Length: 402, dtype: object

In [62]:
# DataFrame mit den Spalten in der Liste (in der angegeben Reihenfolge)
cities[['country', 'name']].head()

Unnamed: 0_level_0,country,name
id,Unnamed: 1_level_1,Unnamed: 2_level_1
5,Scotland,Aberdeen
6,Australia,Adelaide
7,Algeria,Algiers
9,Turkey,Ankara
16,Brazil,Belém


In [63]:
# Boolean-Series (Ergebnis einer Series Operation)
cities[cities['start_year'] < 1821]

Unnamed: 0_level_0,name,coords,start_year,url_name,country,country_state,length
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
139,Boston,POINT(-71.08333333 42.35),1806,boston,United States,Mass.,615505
206,New York,POINT(-73.96666667 40.78333333),1817,new-york,United States,N.Y.,1089854


In [64]:
# Auswahl per Label-Ranges sowohl bei Zeilen als auch Spalten
cities.loc[300:305, 'start_year':'country']

Unnamed: 0_level_0,start_year,url_name,country
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
300,1996,montpellier,France
228,1997,salt-lake-city,United States
261,1908,concepcion,Chile
256,1988,valencia,Spain
305,2009,dijon,France


In [65]:
# Selektiere die letzten beiden Zeilen und geraden Spaltennummern
cities.iloc[-3:-1,[0, 2, 4, 6]]

Unnamed: 0_level_0,name,start_year,country,length
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
342,Istanbul,1989,Turkey,38096
356,Seoul,1971,South Korea,1418234


<div class="alert alert-warning">
<b>ÜBUNG:</b> DataFrames and Series
    <p>Geben Sie alle Städte aus, die (a) eine Netzlänge von über 500km haben und (b) nicht in Japan sind.
    Beachten Sie, dass die Spalten des DataFrames wiederum Series sind. Dabei sollen neben dem Stadtnamen auch die Start-Jahr, das Land und die Länge ausgegeben werden</p>
</div>

In [72]:
filt_len = cities['length'] > 500000
filt_country = cities['country'] == 'Japan'
filter = filt_len & ~filt_country

cities.loc[filter, ['name', 'start_year', 'country', 'length']]

Unnamed: 0_level_0,name,start_year,country,length
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
139,Boston,1806,United States,615505
206,New York,1817,United States,1089854
364,Chengdu,2006,China,553993
32,Guangzhou,1997,China,681074
48,Glasgow,1891,Scotland,528652
22,Mumbai,1910,India,601802
1,Buenos Aires,1854,Argentina,1141979
27,Brussels,2017,Belgium,530739
71,Madrid,1869,Spain,577574
69,London,1833,England,1663529


## Werte zuweisen

Sämtliche Zugriffsarten liefern eine `View` auf das originale DataFrame. Das heißt, dass Änderungen auf der View auch im DatenFrame wiederzufinden sind. Eine Zuweisung funktioniert auch, wenn die Selektion bisher nicht im DataFrame vorhanden ist.

Beispiele:





In [73]:
df = pd.DataFrame({'a': [1, 2, 3], 'b': [4, 5, 6], 'c': [7, 8, 9]})
df

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


In [74]:
# Neue Spalte
df['d'] = [10, 11, 12]
df

Unnamed: 0,a,b,c,d
0,1,4,7,10
1,2,5,8,11
2,3,6,9,12


In [75]:
# Zuweisung für zweidimensional selektierten Bereich
df.loc[0:1, 'a':'b'] = [[100, 101], [102, 103]]
df

Unnamed: 0,a,b,c,d
0,100,101,7,10
1,102,103,8,11
2,3,6,9,12


Wenn einer bestimmten Selektion ein Skalar oder ein Array von kleinerer Dimension zugewiesen wird, dann versucht pandas per `Broadcasting` die entsprechende Zuordnung vorzunehmen. Wir verwenden das vor allem, wenn wir einer Spalte einen konstanten Wert zuweisen wollen, z.B.

In [76]:
df['e'] = 1001
df

Unnamed: 0,a,b,c,d,e
0,100,101,7,10,1001
1,102,103,8,11,1001
2,3,6,9,12,1001


<div class="alert alert-warning">
<b>ÜBUNG:</b> DataFrames Werte zuweisen
    <p>Fügen Sie drei neue Spalten zum cities DataFrame hinzu:
    <ol><li>age: Alter des Schienennetzes (aktuelles Jahr - start_year). Die Spalte soll direkt nach der start_year Spalte eingefügt werden. Nutzen Sie dazu die <a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.insert.html">insert</a> Methode des DataFrames</li>
        <li>length_km: Länge des Liniennetzes in km statt in Metern. Nutzen Sie danach die <a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html?highlight=drop#pandas.DataFrame.drop">drop</a> Methode um die Spalte length zu löschen</li>
        <li>status: 'planning', wenn die Länge 0 ist, sonst abhängig vom Startjahr 'new' (>= 2000), 'medium' (>= 1950), 'old' (ansonsten)</li><ol>
</div>

In [83]:
import datetime

year = datetime.date.today().year
pos = cities.columns.get_loc('start_year') + 1
age = year - cities['start_year']

cities.insert(pos, 'age', age)
cities

Unnamed: 0_level_0,name,coords,start_year,age,url_name,country,country_state,length
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
5,Aberdeen,POINT(-2.15 57.15),2017,8,aberdeen,Scotland,,0
6,Adelaide,POINT(138.6 -34.91666667),2017,8,adelaide,Australia,,0
7,Algiers,POINT(3 36.83333333),2017,8,algiers,Algeria,,0
9,Ankara,POINT(32.91666667 39.91666667),2017,8,ankara,Turkey,,0
16,Belém,POINT(-48.48333333 -1.466666667),2017,8,belem,Brazil,,0
...,...,...,...,...,...,...,...,...
360,Santa Fe,POINT(-60.7 -31.633333),2008,17,santa-fe-argentina,Argentina,Santa Fe,9939
361,Tegal,POINT(109.133333 -6.866667),2020,5,tegal,Indonesia,Central Java,51496
342,Istanbul,POINT(28.955 41.013611),1989,36,istanbul,Turkey,,38096
356,Seoul,POINT(126.977966 37.566536),1971,54,seoul,South Korea,,1418234


## Beispiel Data Wrangling 

Eine Hauptaufgabe von pandas ist die Daten aus diversen Input-Formaten in das passende Output-Format zu bringen. Unser bisheriger Datensatz ist recht wohlgeformt aber in der Praxis sind die Input-Formate häufig recht schwer auslesbar und es muss mit den Daten gerangelt/gestritten werden, um sie ins richtige Format zu bringen - daher der Begriff Data Wrangling.

In unserem Datensatz müssen wir uns um die Spalte coords kümmern, die lattitude und longitude zusammengepackt in String-Form enthält. Wir werden schrittweise vorgehen:

In [84]:
# Entfernen von POINT und den Klammern
# Der str-Accessor der coords-Series bietet entsprechende Funktionen

# Per Slice mit Integer-Positionen
cities['coords'].str.slice(6,-2)

id
5                    -2.15 57.1
6             138.6 -34.9166666
7                  3 36.8333333
9        32.91666667 39.9166666
16     -48.48333333 -1.46666666
                 ...           
360             -60.7 -31.63333
361         109.133333 -6.86666
342             28.955 41.01361
356         126.977966 37.56653
114           139.75 35.6666666
Name: coords, Length: 402, dtype: object

In [85]:
# Per Ersetzen
cities['coords'].str.replace(pat='POINT(',repl='',regex=False).str.replace(pat=')',repl='', regex=False)

id
5                    -2.15 57.15
6             138.6 -34.91666667
7                  3 36.83333333
9        32.91666667 39.91666667
16     -48.48333333 -1.466666667
                 ...            
360             -60.7 -31.633333
361         109.133333 -6.866667
342             28.955 41.013611
356         126.977966 37.566536
114           139.75 35.66666667
Name: coords, Length: 402, dtype: object

In [86]:
# Beide Ergebnisse beinhalten nun beide Koordinaten per Leerzeichen getrennt
# Hier hilft uns die str.split Methode weiter:
cities['coords'].str.slice(6,-2).str.split(' ', expand=True)

Unnamed: 0_level_0,0,1
id,Unnamed: 1_level_1,Unnamed: 2_level_1
5,-2.15,57.1
6,138.6,-34.9166666
7,3,36.8333333
9,32.91666667,39.9166666
16,-48.48333333,-1.46666666
...,...,...
360,-60.7,-31.63333
361,109.133333,-6.86666
342,28.955,41.01361
356,126.977966,37.56653


In [87]:
# Beide Schritte inklusive Benennung der Spalten, können auch
# per Regular-Expression Matching durchgeführt werden
cities['coords'].str.extract(r'(?P<long>[-+0-9.]+) (?P<lat>[-+0-9.]+)')

Unnamed: 0_level_0,long,lat
id,Unnamed: 1_level_1,Unnamed: 2_level_1
5,-2.15,57.15
6,138.6,-34.91666667
7,3,36.83333333
9,32.91666667,39.91666667
16,-48.48333333,-1.466666667
...,...,...
360,-60.7,-31.633333
361,109.133333,-6.866667
342,28.955,41.013611
356,126.977966,37.566536


Das Ergebnis der letzten Operation ist ein DataFrame mit den zwei neuen Spalten lat und long mit dem passenden Index zu unserem cities DataFrame. Um nun beide DataFrames in eins zu packen verwenden wir die <a href="https://pandas.pydata.org/docs/reference/api/pandas.concat.html">pd.concat</a> Funktion. Die Funktion hat viele Möglichkeiten, wir nutzen Sie, um zwei DataFrames "nebeneinander" zu setzen, so dass das neue DataFrame die Spalten beider DataFrames besitzt. Die Funktion verändert die übergebenen DataFrames nicht, sondern liefert ein neues DataFrame zurück.

<div class="alert alert-warning">
<b>ÜBUNG:</b> DataFrames kombinieren
    <p>
    <ol><li>Speichern Sie das Ergebnis der obigen Operation mit den extrahierten lat und long Spalten in eine neue DataFrame-Variable</li>
        <li>Wandeln Sie Datentypen der lat und long Spalten auf float</li>
        <li>Nutzen Sie pd.concat, um dieses DataFrame "rechts" an das cities DataFrame zu hängen</li>
        <li>Speichern Sie das zusammengebaute DataFrame wieder in der cities Variable</li></ol></p>
</div>

In [105]:
coord = cities['coords'].str.extract(r'(?P<long>[-+0-9.]+) (?P<lat>[-+0-9.]+)').astype(float)
# cities = pd.concat([cities, coord], axis=1)
cities.drop(22)

Unnamed: 0_level_0,name,coords,start_year,age,url_name,country,country_state,length,long,lat,...,long,lat,long,lat,long,lat,long,lat,long,lat
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
5,Aberdeen,POINT(-2.15 57.15),2017,8,aberdeen,Scotland,,0,-2.150000,57.150000,...,-2.150000,57.150000,-2.150000,57.150000,-2.150000,57.150000,-2.150000,57.150000,-2.150000,57.150000
6,Adelaide,POINT(138.6 -34.91666667),2017,8,adelaide,Australia,,0,138.600000,-34.916667,...,138.600000,-34.916667,138.600000,-34.916667,138.600000,-34.916667,138.600000,-34.916667,138.600000,-34.916667
7,Algiers,POINT(3 36.83333333),2017,8,algiers,Algeria,,0,3.000000,36.833333,...,3.000000,36.833333,3.000000,36.833333,3.000000,36.833333,3.000000,36.833333,3.000000,36.833333
9,Ankara,POINT(32.91666667 39.91666667),2017,8,ankara,Turkey,,0,32.916667,39.916667,...,32.916667,39.916667,32.916667,39.916667,32.916667,39.916667,32.916667,39.916667,32.916667,39.916667
16,Belém,POINT(-48.48333333 -1.466666667),2017,8,belem,Brazil,,0,-48.483333,-1.466667,...,-48.483333,-1.466667,-48.483333,-1.466667,-48.483333,-1.466667,-48.483333,-1.466667,-48.483333,-1.466667
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
360,Santa Fe,POINT(-60.7 -31.633333),2008,17,santa-fe-argentina,Argentina,Santa Fe,9939,-60.700000,-31.633333,...,-60.700000,-31.633333,-60.700000,-31.633333,-60.700000,-31.633333,-60.700000,-31.633333,-60.700000,-31.633333
361,Tegal,POINT(109.133333 -6.866667),2020,5,tegal,Indonesia,Central Java,51496,109.133333,-6.866667,...,109.133333,-6.866667,109.133333,-6.866667,109.133333,-6.866667,109.133333,-6.866667,109.133333,-6.866667
342,Istanbul,POINT(28.955 41.013611),1989,36,istanbul,Turkey,,38096,28.955000,41.013611,...,28.955000,41.013611,28.955000,41.013611,28.955000,41.013611,28.955000,41.013611,28.955000,41.013611
356,Seoul,POINT(126.977966 37.566536),1971,54,seoul,South Korea,,1418234,126.977966,37.566536,...,126.977966,37.566536,126.977966,37.566536,126.977966,37.566536,126.977966,37.566536,126.977966,37.566536


## Daten speichern

pandas kann nicht nur Daten einlesen, sondern auch wieder in diverse Format abspeichern, siehe https://pandas.pydata.org/docs/reference/io.html

Beim Abspeichern in eine Datei sollten Sie beachten, dass existierende Dateien ohne Nachfrage überschrieben werden. Es ist immer eine gute Idee, die original Daten zu behalten, um Analysen nachvollziehbar zu machen und bei Bedarf verbessern zu können.

<div class="alert alert-warning">
<b>ÜBUNG:</b> DataFrame abspeichern
    <p>Speichern Sie Ihre Daten in eine Datei 'cities_non_zero.csv'. Es sollen folgende Daten abgespeichert werden:
    <ol><li>Nur Cities mit einer Netzlänge > 0km. Dazu können Sie die status Spalte nutzen</li>
        <li>Nur die Spalten name, country, lat, long, start_year, age, length_km - in dieser Reihenfolge</li></ol></p>
</div>

In [95]:
filt_len = cities['length'] > 0

cities.loc[filt_len, ['name', 'country', 'lat', 'long', 'start_year', 'age', 'length']]

Unnamed: 0_level_0,name,country,lat,lat,long,long,start_year,age,length
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
11,Athens,Greece,37.966667,37.966667,23.716667,23.716667,1867,158,86834
139,Boston,United States,42.350000,42.350000,-71.083333,-71.083333,1806,219,615505
206,New York,United States,40.783333,40.783333,-73.966667,-73.966667,1817,208,1089854
54,Helsinki,Finland,60.166667,60.166667,25.000000,25.000000,2017,8,639
231,San Francisco,United States,37.783333,37.783333,-122.433333,-122.433333,1863,162,351531
...,...,...,...,...,...,...,...,...,...
360,Santa Fe,Argentina,-31.633333,-31.633333,-60.700000,-60.700000,2008,17,9939
361,Tegal,Indonesia,-6.866667,-6.866667,109.133333,109.133333,2020,5,51496
342,Istanbul,Turkey,41.013611,41.013611,28.955000,28.955000,1989,36,38096
356,Seoul,South Korea,37.566536,37.566536,126.977966,126.977966,1971,54,1418234


## Abschluss

Wir haben nun erste Transformationen und Filterungen mit pandas durchgeführt und das Ergebnis in einer Datei abgespeichert. Nachdem wir die Grundlagen von pandas kennengelernt haben, werden wir uns im Folgenden eher aus Richtung der Fragestellung zu den benötigten pandas-Funktionen annähern, anstatt diese systematisch durchzugehen.