# Pandas-Bibliothek

[Pandas](https://pandas.pydata.org/) ist eine Python-Bibliothek, die sehr effektiv die Analyse und die grafische Darstellung großer Datenmengen unterstützt. Pandas ist eine sehr komplexe Bibliothek, welche auf anderen grundlegenden Python-Bibliotheken zum wissenschaftlichen Rechnen wie [matplotlib](https://matplotlib.org/) zur Visualisierung von Datenmengen oder [numPy](https://numpy.org/) zur performanten numerischen Datenverarbeitung aufbaut.

## Testdatensatz

Bei dem Testdatensatz (siehe data/testdata.csv) handelt es sich um Messdaten, die von Temperatur- und Feuchtesensoren im Zeitraum vom 16.2.2022 bis zum 23.4.2022 gewonnen wurden, die in der nach Westen ausgerichteten Testfassade des [Rooftop-Gebäudes](http://www.solar-rooftop.de) im Bauteilquerschnitt integriert sind.

Die Fassade besteht aus folgenden Schichten (von innen nach außen):

1. Lehmputz (1,5 cm)
2. Holzfaser (10 cm)
3. Kalziumsilikat (3 cm) 
4. Ziegel (11,5 cm)

Die nachfolgende Abbildung zeigt die Positionen der Sensoren, welche an den Schichtübergängen und den Bauteiloberflächen angeordnet sind, sowie den Luftzustand im Raum erfassen.

<img src="./img/FassadenSensoren.png" width="400">

1. **TrH_Air_Sem**: Temperatur- und Feuchte-Sensor (Luft Seminarraum)
2. **TF2_PI_iLiS**: Temperatur- und Feuchte-Sensor (Oberfläche Lehmputz)
3. **TF2_PI_iLoB**: Temperatur- und Feuchte-Sensor (Schichtübergang Lehmputz/Holzfaser)
4. **TF2_CaS_mLiB**: Temperatur- und Feuchte-Sensor (Schichtübergang Holzfaser/Calicumsilikat)
5. **TF2_Br_oLiB**: Temperatur- und Feuchte-Sensor (Schichtübergang Calicumsilikat/Ziegel)
6. **TF2_Br_oLoS**: Temperatur- und Feuchte-Sensor (Oberfläche Ziegel)

## NumPy arrays

Einlesen des Rohdatensatzes mit Hilfe der NumPy-Bibliothek

In [None]:
import numpy as np

data = np.genfromtxt(
    'data/testdata.csv', delimiter=',', 
    names=True, dtype=None, encoding='UTF'
)
data

Bestimmen der Länge des Datensatzes (Anzahl der Messwerte abzüglich Kopfzeile)

In [None]:
data.shape

Bestimmen der Datentypen des Datensatzes

In [None]:
data.dtype

Die vierte Spalte enthält Messwerte (nacheinander Feuchte und Temperatur)

-> Bestimmen des größten Wertes in der vierten Spalte:

In [None]:
max([row[3] for row in data])

Wievel Zeit benötigt hierfür der Computer ?

In [None]:
%%timeit
max([row[3] for row in data])

Alternatives Verwenden der viel schnelleren NumPy-arrays (in der Sprache C implementiert)

In [None]:
array_dict1 = {
    # Use of fast Numpy arrays (implemented in C)
    col: np.array([row[i] for row in data])
    for i, col in enumerate(data.dtype.names)
}
array_dict1

In [None]:
array_dict1['_value'].max()

In [None]:
%%timeit
array_dict1['_value'].max()

## Pandas Series

Mit der **Series** class aus der Pandas-Bibliothek kann eine einzelne Spalte aus einem Datensatz herausgelöst werden:

In [None]:
import pandas as pd

place = pd.Series(array_dict['_value'], name='measure values')
place

In [None]:
import pandas as pd

place = pd.Series(array_dict['_field'], name='physical property')
place

Erstellen eines Pandas-Series

In [None]:
np.random.seed(0) # set a seed for reproducibility
s = pd.Series(np.random.rand(10), name='random')
s

## Pandas DataFrames

Mit der **DataFrame** class der Pandas-Bibliothek werden mehrere Instanzen eines **NumPy-Arrays** oder einer **Series** class zu einer übergeordneten Datenstruktur zusammengefasst, auf welche effektiv zugegriffen werden kann:

DataFrame, definiert über NumPy-Arrays:

In [None]:
np.random.seed(0) # set a seed for reproducibility
a1 = np.array(np.random.rand(10))
df1 = pd.DataFrame(a1)
df1

In [None]:
a2 = np.array(range(10))
df2 = pd.DataFrame(a2)
df2

Addition von zwei DataFrames (die Struktur beider DataFames muss identisch sein):

In [None]:
df3 = df1+df2
df3

Definition mehrspaltiger DataFrames über NumPy-Dictiniaries

In [None]:
array_dict2 = {'a1':a1,'a2':a2}
df4 = pd.DataFrame(array_dict2)
df4

Schreiben von DataFrames in in CSV-File

In [None]:
df4.to_csv('output.csv', index=False)

DataFrame definiert über Series:

In [None]:
np.random.seed(0) # set a seed for reproducibility
s = pd.Series(np.random.rand(10), name='random')
s

In [None]:
df =s.to_frame()
df

Angewandt auf den Testdatensatz (mit NumPy_Array):

In [None]:
df = pd.DataFrame(array_dict1) 
df

oder auch einfacher

In [None]:
# remember
# data = np.genfromtxt('data/testdata.csv', delimiter=',', names=True, dtype=None, encoding='UTF')
df = pd.DataFrame(data)
df

oder noch viel einfacher

In [None]:
df = pd.read_csv('data/testdata.csv')

Zufallsauswahl von 10 Einträgen im Dataframe

In [None]:
df.sample(10)

Die ersten 10 Einträge

In [None]:
df.head(10)

und die letzten 10 Einträge

In [None]:
df.tail(10)

nur Werte des Sensors 'CaS-mLiB'

In [None]:
df[df['sensor']=='CaS-mLiB']

nur Temperatur-Werte des Sensors 'CaS-mLiB'

In [None]:
selection = df[df['sensor']=='CaS-mLiB']
df_CaS_mLiB_temperature = selection[selection['_field']=='temperature']

Temperatur-Mittelwert des Sensors 'CaS-mLiB'

In [None]:
df_CaS_mLiB_temperature['_value'].mean(), df_CaS_mLiB_temperature['_value'].max(), df_CaS_mLiB_temperature['_value'].min()