In **Pandas** sind **DataFrames** und **Series** die beiden grundlegenden Datenstrukturen

Sie stehen in enger Beziehung zueinander, unterscheiden sich jedoch in ihrer Natur und ihrem Einsatzbereich.

# Syllabus

Explain the conceptual differences and connections between DataFrames and Series in Pandas.

# Series

- **Series** = eine eindimensionale Datenstruktur
- ähnelt einer Liste oder einem Array, jedoch mit einem zugeordneten **Index**
- der Index ermöglicht es, jedem Wert in der Series einen eindeutigen Schlüssel zuzuweisen

Eine Series besteht also aus zwei Komponenten:
- **Werte**: Daten selbst<br>
   wie Zahlen, Strings, etc.
- **Index**: Label, die den Werten zugeordnet sind

Man kann sich eine Series als eine Spalte in einer Tabelle vorstellen, wobei jede Spalte durch den Index identifiziert wird.<br>
Eine Series kann verschiedene Datentypen enthalten (numerisch, kategorisch, usw.).



## eine Series erstellen

In [1]:
import pandas as pd
import numpy as np

# Erstelle eine Series
series = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])
series


a    10
b    20
c    30
d    40
dtype: int64

# Dataframe

- **DataFrame** = zweidimensionale Datenstruktur
- ähnelt einer Tabelle, bestehend aus Zeilen und Spalten
- jede **Spalte** eines DataFrames ist im Grunde genommen eine **Series**

Ein DataFrame setzt sich also aus mehreren Series zusammen:
- jede **Spalte** ist eine **Series**, die unter einem bestimmten Spaltennamen (= Spaltenindex) gespeichert ist.
- der Zeilenindex bezeichnet die Zeile

Man kann sich einen DataFrame als eine Sammlung mehrerer Series vorstellen, die alle einen gemeinsamen **Zeilenindex** teilen, aber verschiedene **Spaltennamen** haben.

## einen Dataframe erstellen

In [2]:
# Erstelle einen DataFrame
data = {'Name': ['Anna', 'Ben', 'Chris'], 'Alter': [23, 30, 35], 'Stadt': ['Berlin', 'Hamburg', 'München']}
df = pd.DataFrame(data)
df

Unnamed: 0,Name,Alter,Stadt
0,Anna,23,Berlin
1,Ben,30,Hamburg
2,Chris,35,München


# Verbindung zwischen Series und DataFrame

Jede Spalte in einem DataFrame ist eine Series.<br>
Ein DataFrame ist also eine Sammlung von Series, die zusammen eine Tabelle bilden.

<br>

**Ein DataFrame besteht aus mehreren Series:** <br>
Jede Spalte in einem DataFrame ist eine Series mit demselben Index wie der DataFrame. Die Kombination dieser Series bildet die zweidimensionale Struktur des DataFrames.

<br>

**Series als einzelne Spalte eines DataFrames:** <br>
Wählt man eine einzelne Spalte aus einem DataFrame aus (z.B. `df['Spalte']`), erhält man eine Series. Umgekehrt kann man auch eine oder mehrere Series zu einem DataFrame kombinieren.

In [3]:
# Extrahiere die 'Name'-Spalte als Series
df['Name']

0     Anna
1      Ben
2    Chris
Name: Name, dtype: object