# Pandas-Series

Eine `Series`  in `Pandas` ist ein eindimensionales `Numpy`-Array, das um einen Index erweitert ist (_Wrapper_), über den auf den Wert zugegriffen werden kann. Der Index einer Series in Pandas ist standardmäßig eine Folge von Ganzzahlen (beginnend mit 0), kann aber auch aus Datumsangaben, Zeichenfolgen oder anderen Typen bestehen, was eine hohe Flexibilität in der Datenmanipulation und -analyse ermöglicht.

Wie `Numpy`-Array sind die Daten homogen, d. h. dass alle Daten innerhalb einer Series  vom gleichen Datentyp (z.B. Integer, Float, String usw.) sein müssen. Damit sind die meisten Opertationen, die es auf Arrays in `Numpy` gibt, auch auf `Series` möglich, vor allem Slicing, aber auch Summen- oder Mittelwertbildungen

Im Zusammenhang mit einem `DataFrame` repräsentiert eine `Series`eine einzelne Spalte oder auch eine Zeile (wobei diese dann transponiert wird.) Zusätzlich enthält eine `Series`noch weitere Metadaten, vor allem einen Namen (der im `DataFrame` dem Namen der Spalte entspricht).

In [2]:
import numpy as np
import pandas as pd

## Erzeugung einer Series

In [60]:
kosten = pd.Series(data = [1150,100,60,380], index = ['Miete','Strom','Wasser','Lebensmittel'], name = 'Monatliche Kosten')
gehalt = pd.Series(data = {'Schmidt': 6520,'Meier': 3950,'von Schneider': 5590,'Hansen': np.NaN},name = 'Monatliches Gehalt')
juli = pd.date_range("2023-07-01", periods=10, freq="d")
temperatur = pd.Series([20,23,25,22,24,25,29,21,30,30], juli, name ='Höchsttemperatur')

for s in [kosten, gehalt, temperatur]:
    print(f'{s}\n')

Miete           1150
Strom            100
Wasser            60
Lebensmittel     380
Name: Monatliche Kosten, dtype: int64

Schmidt          6520.0
Meier            3950.0
von Schneider    5590.0
Hansen              NaN
Name: Monatliches Gehalt, dtype: float64

2023-07-01    20
2023-07-02    23
2023-07-03    25
2023-07-04    22
2023-07-05    24
2023-07-06    25
2023-07-07    29
2023-07-08    21
2023-07-09    30
2023-07-10    30
Freq: D, Name: Höchsttemperatur, dtype: int64



## Zugriff auf die Daten

Wie beim `Numpy-Array ist der Zugriff auf einzelne Daten über die fortlaufende Numerierung möglich, ebenso Slicing und boolesche Abfragen. Zusätzlich gibt es aber die Möglichkeit, auch über den Index Werte abzufragen. Dabei können die Indexwerte auch als Attribute verwendet werden, wenn dies syntaktisch möglich ist (also keine Leer- oder Sonderzeichen enthalten sind).

In [51]:
print(f'{kosten.Miete = }')
print(f'{gehalt["von Schneider"] = :,.2f}')
print(f'{gehalt.loc["Schmidt"] = :,.2f}')
print(gehalt.iloc[:2])

kosten.Miete = 1150
gehalt["von Schneider"] = 5,590.00
gehalt.loc["Schmidt"] = 6,520.00
Schmidt    6520.0
Meier      3950.0
Name: Monatliches Gehalt, dtype: float64


In [39]:
print(kosten.values)
print(kosten.index)
print(kosten.index.values)

[1150  100   60  380]
Index(['Miete', 'Strom', 'Wasser', 'Lebensmittel'], dtype='object')
['Miete' 'Strom' 'Wasser' 'Lebensmittel']


### Slicing und boolesche Auswahl

In [37]:
print(f'{temperatur["2023-07-03":"2023-07-05"]  }')
print(f'{kosten[kosten > 300]}')

2023-07-03    25
2023-07-04    22
2023-07-05    24
Freq: D, Name: Höchsttemperatur, dtype: int64
Miete           1150
Lebensmittel     380
Name: Monatliche Kosten, dtype: int64


### Operationen

In [18]:
print(f'Gesamtkosten: {kosten.sum()}')
print(f'Durchschnittsgehalt: {gehalt.mean(): .2f}')
print(f'Höchsttemperatur: {temperatur.max()}')

Gesamtkosten: 1690
Durchschnittsgehalt:  5353.33
Höchsttemperatur: 30


#### Gehaltserhöhung

In [66]:
neues_gehalt = 1.1 * gehalt
neues_gehalt.name = "Neues monatliches Gehalt"
print(gehalt)
print(neues_gehalt)
gehalt2 = gehalt + neues_gehalt
gehalt2.name = "Gehalt für zwei Monate"
print(gehalt2)

Schmidt          6520.0
Meier            3950.0
von Schneider    5590.0
Hansen              NaN
Name: Monatliches Gehalt, dtype: float64
Schmidt          7172.0
Meier            4345.0
von Schneider    6149.0
Hansen              NaN
Name: Neues monatliches Gehalt, dtype: float64
Schmidt          13692.0
Meier             8295.0
von Schneider    11739.0
Hansen               NaN
Name: Gehalt für zwei Monate, dtype: float64


## Fehlende Werte

In [42]:
print(f'{gehalt.Hansen = }')
print(f'{gehalt.hasnans =}')

gehalt.Hansen = nan
gehalt.hasnans =True


## Anzeige

In [55]:
temperatur.head(3)

2023-07-01    20
2023-07-02    23
2023-07-03    25
Freq: D, Name: Höchsttemperatur, dtype: int64

In [56]:
temperatur.tail(2)

2023-07-09    30
2023-07-10    30
Freq: D, Name: Höchsttemperatur, dtype: int64

In [57]:
temperatur.take([5,3,7])

2023-07-06    25
2023-07-04    22
2023-07-08    21
Name: Höchsttemperatur, dtype: int64