# Analysieren

Template mit strukturiertem Ablauf und einigen Befehlen.

Vollständige Liste der Befehle im [Cheat-Sheet](https://github.com/MAZ-CAS-DDJ/kurs_20_21/blob/master/00%20weitere%C2%A0Dokumente/hilfsmaterial/pandas.md)

## Setup

#### Basic libraries

In [11]:
import pandas as pd

In [12]:
import numpy as np

#### Display Settings

In [13]:
%matplotlib inline

Diese Werte ändern, um mehr Zeilen / Spalten / Zeichen / Kommastellen anzuzeigen: [Reference](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.set_option.html)

In [18]:
pd.set_option("display.max_rows", 10)
pd.set_option("display.max_columns", 10)
pd.set_option("display.max_colwidth", 60)
pd.set_option("display.float_format", "{:,.4f}".format)

## Daten laden

#### Einzene Dateien

- Für csv-Dateien: [Reference](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)

In [None]:
# df = pd.read_csv("meinedaten.csv")

- Für Excel-Dateien: [Reference](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html)

In [None]:
# df = pd.read_excel("meinedaten.xlsx")

#### Viele Dateien

- Glob: [Dokumentation](https://docs.python.org/3/library/glob.html)

In [42]:
import glob

In [43]:
# filenames = glob.glob('*.csv')

In [44]:
# dfs = [pd.read_csv(filename) for filename in filenames]

## Daten checken

In [5]:
# df.dtypes

In [6]:
# df.shape

## Daten putzen

- NaNs ersetzen:

In [8]:
# df.fillna()

In [9]:
# df.ffill()

- Werte korrigieren: [Regex-Cheatsheet](https://github.com/MAZ-CAS-DDJ/kurs_20_21/blob/master/00%20weitere%C2%A0Dokumente/hilfsmaterial/regex.md)

In [10]:
# df['Spalte'].replace("123", "456")

In [None]:
# df['Spalte'].str.replace(r"1.3", "456")

- Werte filtern und ersetzen:

In [50]:
# df.loc[df['Spalte1'] == xxx, "Spalte2"] = "Wert"

- Datentypen ändern:

In [11]:
# df['Spalte'].astype(float / int / str)

- Spalten entfernen:

In [12]:
# df.pop("Spalte")

- Spalten umbenennen:

In [13]:
# df.rename(columns={"Name_Vorher": "Name_Nachher"})

## Daten arrangieren

- Datumsindex generieren: Datetime [Liste der Codes](https://github.com/MAZ-CAS-DDJ/kurs_20_21/blob/master/11%20Pandas%20Teil%203/Date+Time%20Basics.ipynb)

In [7]:
# df.index = pd.to_datetime(df['date'], format="%Y-%m-%d")

- Long to wide Format: [Reference](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.pivot.html)

In [14]:
# df.pivot(index="Spalte1", columns="Spalte2", values="Spalte3")

- Wide to long Format:

In [41]:
# df.unstack().reset_index().rename(columns={'level_1': 'time', 0: 'value'})

- Achsen-Switch (Transponieren)

In [15]:
# df.T

- Informationen hinzufügen: [Reference](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html)

In [16]:
# df.merge(df2, how="inner", left_on="Spalte1", right_on="Spalte2")

## Daten analysieren

- Aggregierungsfunktionen: [Liste](https://cmdlinetips.com/2019/10/pandas-groupby-13-functions-to-aggregate/)

In [46]:
# df.sum()
# df['Spalte'].mean()
# ...

- Einfache Auszählung:

In [49]:
# df['Spalte'].value_counts()

- Groupby: [Reference](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html)

In [47]:
# df.groupby('Spalte1')['Spalte2'].sum()

- Resample: [Reference](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.resample.html)

In [48]:
# df.resample('A').mean()

## Spezielle Plots

#### Libraries importieren

In [4]:
import matplotlib
import matplotlib.pyplot as plt

#### Plot-Setup

- Varianten in der [Plotting-Übersicht](https://github.com/MAZ-CAS-DDJ/kurs_20_21/blob/master/11%20Pandas%20Teil%204/Beautiful%20Charts.ipynb)
- Parameter: [Cheat-Sheet](https://github.com/MAZ-CAS-DDJ/kurs_20_21/blob/master/00%20weitere%C2%A0Dokumente/hilfsmaterial/plotting.md)

In [9]:
# df.plot(kind="bar"/"barh"/"scatter")

In [6]:
# fig, ax = plt.subplots()

# ax.bar()
# ax.scatter()
# ...

In [8]:
# plt.fill_between(xvalues, ymins, ymaxes)

#### Chart-Formatting

- siehe [Cheat-Sheet](https://github.com/MAZ-CAS-DDJ/kurs_20_21/blob/master/00%20weitere%C2%A0Dokumente/hilfsmaterial/plotting.md)

In [None]:
# ax.set_title()
# ax.xaxis.set_ticks...)
# ax.grid(...)
# ...

#### Plots exportieren

In [None]:
# matplotlib.rcParams['pdf.fonttype'] = 42

In [None]:
# plt.savefig("...pdf / ...svg")

## Daten exportieren

- als CSV speichern: [Reference](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html)

In [1]:
# df.to_csv()

- als JSON speichern: [Reference](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_json.html)

In [2]:
# df.to_json()