# Pandas - Tutorial Basics

## DataFrame und Series:

In [1]:
import pandas as pd
import numpy as np
import openpyxl

Wir können ein Pandas - DataFrame erstellen, indem wir ein Dictionary übergeben.<br>
Die Keys sind die Spaltennamen des DataFrame, die Values (Listen) sind die Werte der jeweiligen Spalte. <br>
Ein Pandas - DataFrame ist zweidimensional (Matrix) und vergleichbar mit einer Excel - Tabelle, einer Tabelle in einer relationalen Datenbank, etc.

In [2]:
df = pd.DataFrame({
    'id': [0,1,2],
    'name': ['ingo', 'julleth', 'itleichtgemacht'],
    'age': [49,49,49]
}) # Alle Spalten müssen die gleiche Anzahl an Einträgen besitzen

In [3]:
print(df) # Gibt den DataFrame als geordnete Tabelle zurück

   id             name  age
0   0             ingo   49
1   1          julleth   49
2   2  itleichtgemacht   49


Jedes DataFrame besteht in Pandas aus mehreren Series. Jede Spalte ist eine Series:

In [4]:
print(df['name'])
print(type(df['name'])) # Eine Spalte wird in pandas als Series bezeichnet ! Ein DataFrame besteht also aus mehreren Series

0               ingo
1            julleth
2    itleichtgemacht
Name: name, dtype: object
<class 'pandas.core.series.Series'>


Eine Series kann man auch direkt erstellen und sogar einen eigenen Index vorgeben:

In [5]:
data = [28, 42, 1337, 43]
index = ['A', 'B', 'C', 'D'] # Eigenen Index erstellen
s = pd.Series(data, name='Age', index=index)
print(s)

A      28
B      42
C    1337
D      43
Name: Age, dtype: int64


Auch mit einem Dictionary können wir eine Series erstellen:

In [6]:
my_dict = {
    "A": 28,
    "B": 42,
    "C": 73,
    "D": 4273
}
s = pd.Series(my_dict)
print(s)

A      28
B      42
C      73
D    4273
dtype: int64


Wir können eine Series auch mit einem NumPy-Array erstellen. Auch der dtype läßt sich vorgeben:

In [7]:
s = pd.Series(np.random.randn(10), dtype=np.float64)
print(s)

0    1.209859
1   -0.317665
2   -1.554950
3    0.959075
4    0.617488
5   -1.184300
6    0.517173
7    0.018340
8   -0.852516
9   -1.665373
dtype: float64


Auch hier sind wieder coole Slicing - Operationen möglich:

In [8]:
print(s[s < s.mean()]) # Zeige alle Einträge die unter dem Durchschnitt aller Einträge liegen

1   -0.317665
2   -1.554950
5   -1.184300
8   -0.852516
9   -1.665373
dtype: float64


## Indizes für Spalten und Zeilen

Pandas erlaubt eine sehr verschachtelte Verwendung von Indizes für Spalten und Zeilen:

In [9]:
var = {
    ("a", "x"): {"A": 0, "B": 1},
    ("a", "y"): {"A": 0, "B": 1},
    ("a", "z"): {"A": 0, "B": 1},
    ("b", "x"): {"A": 0, "B": 1},
    ("b", "y"): {"A": 0, "B": 1},
    ("b", "z"): {"A": 0, "B": 1}
}
df = pd.DataFrame(var)
print(df) # Parent - Indizes, Sub - Indizes für die Spalten
print(df["a"]) # Alles unter dem Parent - Index "a"
print(df["a"]["y"]["B"]) # Parent Index a, Sub - Index "y" in Zeile "B"

   a        b      
   x  y  z  x  y  z
A  0  0  0  0  0  0
B  1  1  1  1  1  1
   x  y  z
A  0  0  0
B  1  1  1
1


## Etwas auswerten

Jetzt wollen wir ein paar Auswertungen mittels eines Beispiels tätigen.<br>
Zunächst unser Beispiel - DataFrame: 

In [10]:
df = pd.DataFrame(
    {
        "Name": [
            "Braund, Mr. Owen Harris",
            "Allen, Mr. William Henry",
            "Bonnell, Miss. Elizabeth",
        ],
        "Age": [22, 35, 58],
        "Sex": ["male", "male", "female"],
    }
)

In [11]:
df['Age'].max() # Gibt das höchste Alter an

58

In [12]:
ages = df['Age'] # Wir nehmen eine Spalte aus dem DataFrame und es entsteht daraus eine Series
print(type(ages))
ages.max() # Auch an einer Series können wir das Maximum ausgeben

<class 'pandas.core.series.Series'>


58

Die Methode describe() lifert uns statistische Daten aus den Spalten, welche numerisch sind:

In [13]:
df.describe(include='all') # include='all' zeigt auch die nichtnumerischen Spalten an mit nützlichen Informationen

Unnamed: 0,Name,Age,Sex
count,3,3.0,3
unique,3,,2
top,"Braund, Mr. Owen Harris",,male
freq,1,,2
mean,,38.333333,
std,,18.230012,
min,,22.0,
25%,,28.5,
50%,,35.0,
75%,,46.5,


## Lesen und Schreiben von Tabellendaten

In [14]:
titanic = pd.read_csv('titanic.csv')

In [15]:
titanic.describe(include='all')

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
count,891.0,891.0,891.0,891,891,714.0,891.0,891.0,891.0,891.0,204,889
unique,,,,891,2,,,,681.0,,147,3
top,,,,"Braund, Mr. Owen Harris",male,,,,347082.0,,B96 B98,S
freq,,,,1,577,,,,7.0,,4,644
mean,446.0,0.383838,2.308642,,,29.699118,0.523008,0.381594,,32.204208,,
std,257.353842,0.486592,0.836071,,,14.526497,1.102743,0.806057,,49.693429,,
min,1.0,0.0,1.0,,,0.42,0.0,0.0,,0.0,,
25%,223.5,0.0,2.0,,,20.125,0.0,0.0,,7.9104,,
50%,446.0,0.0,3.0,,,28.0,0.0,0.0,,14.4542,,
75%,668.5,1.0,3.0,,,38.0,1.0,0.0,,31.0,,


Beim Anzeigen eines größeren DataFrames mit vielen Zeilen, werden die ersten und die letzten 5 Zeilen per default angezeigt:

In [16]:
print(titanic)

     PassengerId  Survived  Pclass  \
0              1         0       3   
1              2         1       1   
2              3         1       3   
3              4         1       1   
4              5         0       3   
..           ...       ...     ...   
886          887         0       2   
887          888         1       1   
888          889         0       3   
889          890         1       1   
890          891         0       3   

                                                  Name     Sex   Age  SibSp  \
0                              Braund, Mr. Owen Harris    male  22.0      1   
1    Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                               Heikkinen, Miss. Laina  female  26.0      0   
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                             Allen, Mr. William Henry    male  35.0      0   
..                                                 ...     ...   ... 

In [17]:
titanic.head(8) # Zeigt die ersten 8 Zeilen an

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S


In [18]:
titanic.tail(10) # Zeigt die letzten 10 Zeilen

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
881,882,0,3,"Markun, Mr. Johann",male,33.0,0,0,349257,7.8958,,S
882,883,0,3,"Dahlberg, Miss. Gerda Ulrika",female,22.0,0,0,7552,10.5167,,S
883,884,0,2,"Banfield, Mr. Frederick James",male,28.0,0,0,C.A./SOTON 34068,10.5,,S
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.05,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.125,,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [19]:
titanic.dtypes # Zeigt die Datentypen für alle Spalten an

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

In [20]:
titanic.to_excel("titanic.xlsx", sheet_name="passengers", index=False)

Die Methode info() liefert uns weitere Informationen.<br>
Interessant ist die Information, wieviele Zellen der Spalte non-null sind.

In [21]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


## Einzelne Bereiche eines DataFrame auswählen

Eine Spalte aus dem DataFrame auswählen:

In [22]:
print(titanic['Survived'].sum()) # Wählt die Spalte 'Survived' aus und gibt die Summe der Überlebenden zurück
titanic['Survived'].shape # shape gibt die Dimensionen einer Series oder eines DataFrame zurück. Eine Series ist eindimensional und die shape gibt die Anzahl der Zeilen zurück

342


(891,)

Mehrere Spalten aus dem DataFrame auswählen:

In [23]:
age_sex = titanic[["Age", "Sex"]] # Wählt 2 Spalten aus dem DataFrame titanic und speichert es als neues DataFrame age_sex
age_sex.head()

Unnamed: 0,Age,Sex
0,22.0,male
1,38.0,female
2,26.0,female
3,35.0,female
4,35.0,male


Beachte: Die Spalten werden als Liste angegeben. Daher sind 2 eckige Klammerpärchen notwendig !

In [24]:
age_sex.shape # Zweidimensionales DataFrame mit 891 Zeilen und 2 Spalten

(891, 2)

In [25]:
above_35 = titanic[titanic['Age'] > 35]
above_35.head()


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S
13,14,0,3,"Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.275,,S
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0,,S


In [26]:
above_35.shape # Wieviele Passagiere waren über 35 Jahre alt ?

(217, 12)

Die Abfrage in den obigen eckigen Klammern prüft, ob eine Bedingung (>35) erfüllt ist oder nicht.<br>
Als Rückgabe dieser Abfrage erhalten wir True/False Werte:<br>
In der obigen Abfrage werden nur die Zeilen in above_35 gespeichert, die als Ergebnis ein True liefern.

In [27]:
titanic['Age'] > 35

0      False
1       True
2      False
3      False
4      False
       ...  
886    False
887    False
888    False
889    False
890    False
Name: Age, Length: 891, dtype: bool

Auswertung: Welche Passagiere hatten die Preisklasse 2 oder 3 gebucht ?

In [28]:
pclass_2_or_3 = titanic[titanic['Pclass'].isin([2, 3])]
print(pclass_2_or_3.shape)
pclass_2_or_3.head()

(675, 12)


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S


Die obige Abfrage kommt folgender gleich:

In [29]:
pclass_2_or_3 = titanic[(titanic['Pclass'] == 2) | (titanic['Pclass'] == 3)] # Pclass gleich 2 oder (| - Operator) gleich 3
pclass_2_or_3.shape

(675, 12)

Beachte, dass bei einer Oder- (|) oder einer Und- (&) Verknüpfung die beiden Bedingungen in runden Klammern stehen müssen.<br>
Ausserdem darf nicht <b style='color: red;'>or</b> oder <b style='color: red;'>and</b> verwendet werden.<br>

Auswertung: Welche Passagiere haben ein bekanntes Alter ?

In [30]:
age_not_na = titanic[titanic['Age'].notna()] # notna() gibt alle Zeilen zurück (Bedingung True), die nicht ohne Angabe des Alters sind
print(age_not_na.shape)
age_not_na.head()

(714, 12)


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Auswertung: Wie heißen die Passagiere, die älter als 35 sind ?

In [31]:
adult_names = titanic.loc[titanic['Age'] > 35, "Name"] # loc sucht nach Zeilen und Spalten. Der erste Parameter ist das Suchkriterium für die Zeilen, der zweite Parameter für die Spalten
adult_names.head()

1     Cumings, Mrs. John Bradley (Florence Briggs Th...
6                               McCarthy, Mr. Timothy J
11                             Bonnell, Miss. Elizabeth
13                          Andersson, Mr. Anders Johan
15                     Hewlett, Mrs. (Mary D Kingcome) 
Name: Name, dtype: object

Auswertung: Ich möchte die Zeilen 10-25 und die Spalten 3-5 sehen

In [32]:
titanic.iloc[9:25, 2:5] # Mit iloc suche ich nach den Indizes für Zeilen und Spalten. Die Zeile Index 9 ist die zehnte Zeile ! Die Spalte Index 2 ist die dritte Spalte !!


Unnamed: 0,Pclass,Name,Sex
9,2,"Nasser, Mrs. Nicholas (Adele Achem)",female
10,3,"Sandstrom, Miss. Marguerite Rut",female
11,1,"Bonnell, Miss. Elizabeth",female
12,3,"Saundercock, Mr. William Henry",male
13,3,"Andersson, Mr. Anders Johan",male
14,3,"Vestrom, Miss. Hulda Amanda Adolfina",female
15,2,"Hewlett, Mrs. (Mary D Kingcome)",female
16,3,"Rice, Master. Eugene",male
17,2,"Williams, Mr. Charles Eugene",male
18,3,"Vander Planke, Mrs. Julius (Emelia Maria Vande...",female


Wir können auch ganz bestimmte Inhalte ändern:<br>
In diesem Beispiel setzten wir die Namen der Passagiere auf "anonymous" in den ersten drei Zeilen

In [33]:
titanic.iloc[0:3, 3] = "anonymous"

In [34]:
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,anonymous,male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,anonymous,female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,anonymous,female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
