# Pandas

Pandas ist eine Python-Bibliothek, die vorrangig zum Auswerten und Bearbeiten tabellarischer Daten gedacht ist. Dafür sind in Pandas drei Arten von Objekten definiert:

- Eine **Series** entspricht in vielerlei Hinsicht einer “eindimensionalen” Liste, beispielsweise einer Zeitreihe, einer Liste, einem Dict, oder einem Numpy-Array.

- Ein **DataFrame** besteht aus einer “zweidimensionalen” Tabelle. Die einzelnen Reihen beziehungsweise Spalten dieser Tabelle können wie Series-Objekte bearbeitet werden.

Tutorial z.B. unter https://pandas.pydata.org/pandas-docs/stable/tutorials.html

In [None]:
import pandas as pd
s = pd.Series([5,10,15,20,25])
s

**Ein 2D Dataframe erstellen**

In [None]:
import pandas as pd
import numpy as np
df2 = pd.DataFrame({
    'A': 1.,
    'B': pd.date_range('2000-01-01', '2000-01-07'),
    'C': pd.Series(range(7), dtype='float32'),
    'D': np.random.rand(7),
    'E': pd.Categorical(['on','off', 'off', 'on','on', 'on', 'off']),
    'F': 'foo'})
df2

**Daten einlesen und ein wenig damit spielen**

In [None]:
%matplotlib inline
import pandas as pd
from pandas.plotting import scatter_matrix
import matplotlib.pyplot as plt
url = 'data/winequality-white.csv'
names = ['fixed acidity', 'citric acid', 'residual sugar', 'alcohol']
df = pd.read_csv(url, sep=";", header=None, 
    usecols=[0, 2, 3, 10], names = names, skipinitialspace=True)

Daten ausgeben mit `head()`

In [None]:
df.head()

In [None]:
df.shape

In [None]:
df.index

In [None]:
df.columns

In [None]:
df.sort_values(by='alcohol')

Daten auswählen

In [None]:
#Einzelne Spalte
df['alcohol'] # äquivalent zu df.alcohol

In [None]:
#Slicing
df[10:18:2]

Neue Spalte berechnen mit loc

In [None]:
df['Alkoholgehalt'] = 'niedrig'
df.loc[(df['alcohol']>=13),'Alkoholgehalt'] = 'hoch'
df.loc[(df['alcohol']>=10) & (df['alcohol']<13),'Alkoholgehalt'] = 'moderat'
df.head()

Basisstatistik

In [None]:
df.describe()

Ein paar Grafiken

In [None]:
# box and whisker plots
df.plot(kind='box', subplots=True, layout=(2,2), 
    sharex=False, sharey=False)
plt.show()

In [None]:
# histograms
df.hist()
plt.show()

In [None]:
# scatter plot matrix
scatter_matrix(df)
plt.show()