# Datenverarbeitung mit Pandas

## Inhaltsverzeichnis
- [Pandas importieren](#Pandas-importieren)
- [DataFrames anlegen und laden](#DataFrames-anlegen-und-laden)
- [Profiling](#Profiling)
- [Modifikation](#Modifikation)
  - [Fehlende Werte](#Fehlende-Werte)
  - [Normalisierung](#Normalisierung)
  - [Rechnen mit mehreren Spalten](#Rechnen-mit-mehreren-Spalten)
  - [Diskretisierung](#Diskretisierung)
  - [Sampling](#Sampling)
- [Relationale Operationen](#Relationale-Operationen)
  - [Projektion](#Projektion)
  - [Selektion](#Selektion)
  - [Natural Join](#Natural-Join)
  - [Sortierung](#Sortierung)
  - [Aggregation und Gruppierung](#Aggregation-und-Gruppierung)
- [Darstellung](#Darstellung)

## Pandas importieren

In [None]:
import pandas as pd
import numpy as np

## DataFrames anlegen und laden

In [None]:
erzeuger = pd.DataFrame([
    ['Creek', 'Barossa Valley', 'Südaustralien'],
    ['Helena', 'Napa Valley', 'Kalifornien'],
    ['Château La Rose', 'Saint-Emilion', 'Bordeaux'],
    ['Müller', 'Rheingau', 'Hessen'],
    ['Bighorn', 'Napa Valley', np.nan],
], columns=['Weingut', 'Anbaugebiet', 'Region'])
erzeuger

In [None]:
weine = pd.read_csv('weine.csv')
weine

## Profiling

In [None]:
weine.describe()

In [None]:
weine.hist(bins=20, figsize=(30, 5))

## Modifikation

### Fehlende Werte

In [None]:
erzeuger.fillna('Unbekannt')

### Normalisierung

In [None]:
def usd_to_eur(x):
    eur = float(x[:-1])
    if x.endswith('$'):
        eur *= 0.92

    return eur

weine['EuroPreis'] = weine['Preis'].map(usd_to_eur)
weine

### Rechnen mit mehreren Spalten

In [None]:
weine['Beschreibung'] = weine['Jahrgang'].astype(str) + 'er ' + weine['Name']
weine

### Diskretisierung

In [None]:
weine['Kategorie'] = pd.cut(weine['EuroPreis'], 2, labels=['günstig', 'teuer'])
weine

### Sampling

In [None]:
weine.sample(3)

## Relationale Operationen

### Projektion

In [None]:
weine[['Name', 'Farbe']]

### Selektion

In [None]:
weine[weine['Farbe'] == 'Weiß']

### Natural Join

In [None]:
pd.merge(weine, erzeuger)

### Sortierung

In [None]:
weine.sort_values('Jahrgang', ascending=False)

### Aggregation und Gruppierung

In [None]:
weine['Jahrgang'].min()

In [None]:
weine.groupby('Farbe')['Jahrgang'].mean()

## Darstellung

In [None]:
import plotly.express as px
px.scatter(weine, x='Jahrgang', y='Preis')