# Pandas

Pandas ist eine Python-Bibliothek, die vorrangig zum Auswerten und Bearbeiten tabellarischer Daten gedacht ist. Dafür sind in Pandas drei Arten von Objekten definiert:

- Eine **Series** entspricht in vielerlei Hinsicht einer “eindimensionalen” Liste, beispielsweise einer Zeitreihe, einer Liste, einem Dict, oder einem Numpy -Array.

- Ein **DataFrame** besteht aus einer “zweidimensionalen” Tabelle. Die einzelnen Reihen beziehungsweise Spalten dieser Tabelle können wie Series-Objekte bearbeitet werden.

- Ein **Panel** besteht aus einer “dreidimensionalen” Tabelle. Die einzelnen Ebenen dieser Tabelle bestehen wiederum aus Dataframe-Objekten.

Tutorial z.B. unter https://pandas.pydata.org/pandas-docs/stable/tutorials.html

In [None]:
import pandas as pd
s = pd.Series([5,10,15,20,25])
s


**Ein 2D Dataframe erstellen**

In [None]:
import pandas as pd
import numpy as np
df2 = pd.DataFrame({
    'A': 1.,
    'B': pd.date_range('2000-01-01', '2000-01-07'),
    'C': pd.Series(range(7), dtype='float32'),
    'D': np.random.rand(7),
    'E': pd.Categorical(['on','off', 'off', 'on','on', 'on', 'off']),
    'F': 'foo'})
df2

**Daten einlesen und ein wenig damit spielen**

In [None]:
%matplotlib inline
import pandas
from pandas.plotting import scatter_matrix
import matplotlib.pyplot as plt
url = 'data/winequality-white.csv'
names = ['fixed acidity', 'citric acid', 'residual sugar', 'alcohol']
dataset = pandas.read_csv(url, sep=";", header=None, 
    usecols=[0, 2, 3, 10], names = names, skipinitialspace=True)
# shape
print(dataset.shape)
# head
print(dataset.head(20))
# descriptions
print(dataset.describe())
# box and whisker plots
dataset.plot(kind='box', subplots=True, layout=(2,2), 
    sharex=False, sharey=False)
plt.show()
# histograms
dataset.hist()
plt.show()
# scatter plot matrix
scatter_matrix(dataset)
plt.show()