## Einen DataFrame in Pandas erstellen
*Erstellt von:* Thomas Schlögl\
*Datum:* 2024/08/10

**Beispiel:** Mehrere Personen mit Alter, Körpergröße und Geburtsdatum.
Im DataFrame werden für jeden Namen alle Daten gespeichert.

In [9]:
import pandas as pd

people = {
    "Name" : ["Anna", "Ben", "Clara", "David", "Eva"],
    "Alter" : [17, 18, 14, 16, 15],
    "Groesse" : [170, 168, 181, 167, 192],
    "Geburtsdatum" : ["2007-03-15", "2006-07-22", "2010-09-10", "2008-11-04", "2009-05-10"]
}

df = pd.DataFrame(people)
print(df)

    Name  Alter  Groesse Geburtsdatum
0   Anna     17      170   2007-03-15
1    Ben     18      168   2006-07-22
2  Clara     14      181   2010-09-10
3  David     16      167   2008-11-04
4    Eva     15      192   2009-05-10


Einen **Dataframe** aus mehreren Series erstellen.

In [10]:
namen = pd.Series(['Anna', 'Ben', 'Clara', 'David', 'Eva'])
groesse = pd.Series([170, 168, 181, 167, 192])
alter = pd.Series([17, 18, 14, 16, 15])

df = pd.DataFrame({
    'Name': namen,
    'Alter': alter,
    'Groesse': groesse
})

print(df)

    Name  Alter  Groesse
0   Anna     17      170
1    Ben     18      168
2  Clara     14      181
3  David     16      167
4    Eva     15      192


Einen DataFrame aus einem CSV-File einlesen. Der Index ist die Zeile.

In [11]:
df = pd.read_csv('data/personen.csv', usecols=['Name', 'Alter', 'Groesse'])
print(df)

    Name  Alter  Groesse
0   Anna     17      170
1    Ben     18      168
2  Clara     14      181
3  David     16      167
4    Eva     15      192


Lies einen DataFrame so ein, dass der Index der Name ist und die beiden Spalten Alter und Groesse.

In [12]:
df = pd.read_csv('data/personen.csv')
df = df.set_index('Name')[['Alter', 'Groesse']]

print(df)

       Alter  Groesse
Name                 
Anna      17      170
Ben       18      168
Clara     14      181
David     16      167
Eva       15      192


Lies einen DataFrame mit allen Spalte ein. Der Name soll der Index sein.

In [13]:
df = pd.read_csv('data/personen.csv')

# Name als Index setzen
# inplace = True stellt sicher, dass der Index direkt im DataFrame
# gesetzt wird, ohne eine Kopie anzulegen.
df.set_index('Name', inplace=True)

print(df)

       Alter  Groesse Geburtsdatum
Name                              
Anna      17      170   2007-03-15
Ben       18      168   2006-07-22
Clara     14      181   2010-09-10
David     16      167   2008-11-04
Eva       15      192   2009-05-18


Auch aus einem **JSON-File** kann ein DataFrame eingelesen werden.

In [14]:
df = pd.read_json('data/personen.json')

# Nur die Spalten 'Alter' und 'Groesse' auswählen und Name als Index setzen
df = df.set_index('Name')[['Alter', 'Groesse']]

print(df)

       Alter  Groesse
Name                 
Anna      25      170
Ben       30      168
Clara     22      181
David     28      167
Eva       26      192


Eine Series aus einem DataFrame extrahieren.
Variante mit dem Namen als Index. Da der DataFrame den Namen ohnehin als Index hat, hat auch die extrahierte Series den Namen als DataFrame.

In [15]:
alter_series = df['Alter']

print(alter_series)

Name
Anna     25
Ben      30
Clara    22
David    28
Eva      26
Name: Alter, dtype: int64


Eine Series aus einem DataFrame extrahieren.
Variante mit der Zeilennummer als Index. Dafür muss der Name als Index entfernt werden.
Das geschieht durch reset_index. drop=True bedeutet, dass die Namensspalte auch entfernt wird.

In [16]:
alter_series = df['Alter'].reset_index(drop=True)

print(alter_series)

0    25
1    30
2    22
3    28
4    26
Name: Alter, dtype: int64
