# Mit Pandas mehr aus den Daten herausholen
## Pandas
* Pandas ist ein neueres Paket, das auf NumPy aufbaut.
* NumPy ist sehr nützlich für numerische Berechnungen.
* Pandas bietet mehr Flexibilität: Anbringen von Beschriftungen an Daten, Arbeiten mit fehlenden Daten, usw.

In [4]:
import pandas as pd
pd.__version__

'1.3.4'

In [5]:
import numpy as np # We will need NumPy throughout this course day
np.__version__

'1.21.4'

## Die Pandas - Objekte
* Pandas-Objekte sind erweiterte Versionen von NumPy-Arrays: Die Zeilen und Spalten werden mit Beschriftungen anstelle von einfachen Integer-Indizes identifiziert
* `Series` object: Ein eindimensionales Array mit indizierten Daten
* `DataFrame` object: Ein zweidimensionales Array mit sowohl flexiblen Zeilenindizes als auch flexiblen Spaltennamen

## The Pandas `Series` Object
* Ein Pandas `Series` Objekt ist ein eindimensionales Array mit indizierten Daten
 * NumPy-Array: hat einen _implizit_ definierten Integer-Index
 * Ein "Series"-Objekt verwendet standardmäßig Integer-Indizes:

In [3]:
data1 = pd.Series([100,200,300])
data1

0    100
1    200
2    300
dtype: int64

* Ein `Series`-Objekt kann einen _explizit_ definierten Index haben, der mit den Werten verbunden ist:

In [4]:
data2 = pd.Series([100,200,300], index=["a","b","c"])
data2

a    100
b    200
c    300
dtype: int64

* Wir können auf die Indexbezeichnungen mit dem Attribut `index` zugreifen:

In [5]:
d2ind = data2.index
d2ind

Index(['a', 'b', 'c'], dtype='object')

* Ein Python-dictionary bildet beliebige Schlüssel auf eine Menge beliebiger Werte ab.
* Ein "Series"-Objekt bildet _typisierte_ Schlüssel auf eine Menge von _typisierten_ Werten ab.
 * Typisiert" bedeutet, dass wir den Typ der Indizes und Elemente im Voraus kennen, was Pandas Serienobjekte für bestimmte Operationen viel effizienter macht als Python-dictionaries
* Wir können ein "Series"-Objekt direkt aus einem Python-Wörterbuch konstruieren:

In [6]:
data_dict = pd.Series({"c":123,"a":30,"b":100})
data_dict

c    123
a     30
b    100
dtype: int64

* _Hinweis_: Der Index für die `Series` wird aus den sortierten Schlüsseln gezogen

## The Pandas `DataFrame` Object
* A `DataFrame`-Objekt ist ein Analogon zu einem zweidimensionalen Array mit flexiblen Zeilenindizes und flexiblen Spaltennamen.
 * Sowohl die Zeilen als auch die Spalten haben einen generalisierten Index für den Zugriff auf die Daten.
 * Auf die Zeilenindizes kann mit dem Attribut `index` zugegriffen werden.
 * Auf die Spaltenindizes kann mit dem Attribut `Spalten` zugegriffen werden.
 
## Ein `DataFrame` Objekt Konstruieren
* Man kann sich einen `DataFrame` als eine Folge von ausgerichteten `Series`-Objekten vorstellen, was bedeutet, dass jede Spalte eines `DataFrame` eine `Series` ist.

In [10]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135,
                    'Alabama': 232323232}
population = pd.Series(population_dict)

area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297, 'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)


In [11]:
population

California     38332521
Texas          26448193
New York       19651127
Florida        19552860
Illinois       12882135
Alabama       232323232
dtype: int64

In [12]:
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [13]:
states = pd.DataFrame({'population': population,'area': area})
states

Unnamed: 0,population,area
Alabama,232323232,
California,38332521,423967.0
Florida,19552860,170312.0
Illinois,12882135,149995.0
New York,19651127,141297.0
Texas,26448193,695662.0


In [11]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [12]:
states.columns

Index(['population', 'area'], dtype='object')

* Es gibt mehrere Möglichkeiten, ein `DataFrame`-Objekt zu konstruieren
 * Aus einem einzelnen `Series`-Objekt

In [13]:
pd.DataFrame(population, columns=["population"])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


* Aus einer Liste von dictionaries:

In [14]:
x = pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])
print(x)
value = 3

     a  b    c
0  1.0  2  NaN
1  NaN  3  4.0


* Aus einem dictionary von `Series`-Objekten:

In [15]:
pd.DataFrame({'population': population, 'area': area})

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


* Aus einem zweidimensionalen NumPy-Array:

In [28]:
rng = np.random.RandomState(0) # Ensure that the same random numbers are generated each time we run this code
pd.DataFrame(rng.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])

## Data Selection in `Series`

`Series` als dictionary:
 * Elemente nach Schlüssel auswählen, z.B. `Daten['a']`
 * Ändern Sie das Objekt "Serie" mit der bekannten Syntax, z. B. "Daten['e'] = 100".
 * Prüfen, ob ein Schlüssel existiert, indem man den Operator "in" verwendet
 * Zugriff auf alle Schlüssel mit Hilfe der Methode `keys()`.
 * Zugriff auf alle Werte mit der Methode `items()`.

In [30]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [18]:
data['b']

0.5

In [19]:
'a' in data

True

In [20]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [38]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

In [22]:
data['e'] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

* `Series` als eindimensionales Array:
 * Auswahl der Elemente durch den impliziten Integer-Index, z.B. `data[0]`
 * Auswahl von Elementen durch den expliziten Index, z.B. `data['a']`
 * Auswahl von Slices (mit Hilfe eines impliziten ganzzahligen Index oder eines expliziten Index)
   * _Wichtig_: Beim Slicen mit einem expliziten Index (z.B. `data['a':'c']`) wird der letzte Index in das Slice _eingeschlossen_, während beim Slicen mit einem impliziten Index (z.B. `data[0:3]`) der letzte Index aus dem Slice _ausgeschlossen_ wird
 * Maskierungsoperationen verwenden, z.B. `data[data < 3]`

In [23]:
data['a':'c'] # Slicing by explicit index

a    0.25
b    0.50
c    0.75
dtype: float64

In [24]:
data[0:2] # Slicing by implicit index

a    0.25
b    0.50
dtype: float64

In [25]:
data[(data > 0.3) & (data < 0.8)] # Masking operation

b    0.50
c    0.75
dtype: float64

## Data Selection in `DataFrame`
* `DataFrame` als ein Wörterbuch von verwandten `Series` Objekten:
 * Wählen Sie `Series` über den Spaltennamen aus, z.B. `df['area']`
 * Ändern Sie das `DataFrame`-Objekt mit der bekannten Syntax, z.B. `df['c3'] = df['c2']/ df['c1']`

In [26]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})

population = pd.Series({'California': 38332521, 'Texas': 26448193,
                        'New York': 19651127, 'Florida': 19552860,
                        'Illinois': 12882135})

data = pd.DataFrame({'area': area, 'population': population})
data

Unnamed: 0,area,population
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [27]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [28]:
data['density'] = data['population'] / data['area']
data

Unnamed: 0,area,population,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


* `DataFrame` als zweidimensionales Array:
 * Zugriff auf das zugrundeliegende NumPy-Datenarray durch Verwendung des Attributs `values`
   * `df.values[0]` wird die erste Zeile auswählen
 * Verwenden Sie den Indexer `iloc`, um die Daten zu indizieren, aufzuschlitzen und zu verändern, indem Sie den impliziten Integer-Index verwenden.
 * Verwenden Sie den `loc`-Indexer, um die Daten mit Hilfe des expliziten Indexes zu indizieren, aufzuschlitzen und zu verändern.

In [29]:
data.values

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01]])

In [30]:
data.values[0]

array([4.23967000e+05, 3.83325210e+07, 9.04139261e+01])

In [None]:
data.iloc[:3, :2] # Use implicit indices

In [None]:
data.loc[:'Illinois', :'population'] # Use explicit indices

In [None]:
data.iloc[0, 2] = 90
data

## Ufuncs and Pandas
* Pandas ist für die Zusammenarbeit mit Numpy konzipiert, daher funktioniert jede NumPy-ufunc mit Pandas Series- und `DataFrame`-Objekten
* _Index-Erhaltung_: Indizes bleiben erhalten, wenn ein neues Pandas-Objekt nach der Anwendung von ufuncs herauskommt
* _Index-Ausrichtung_: Pandas richtet Indizes während der Durchführung einer Operation aus
 * Fehlende Daten werden mit `NaN` ("Not a Number") markiert
 * Mit dem optionalen Schlüsselwort fill_value kann angegeben werden, wie die fehlenden Elemente aufgefüllt werden sollen: `A.add(B, fill_value=0)`
 * Wir können auch die Methode `dropna()` verwenden, um fehlende Werte zu löschen
* _Hinweis_: Jeder der für NumPy besprochenen ufuncs kann in ähnlicher Weise mit Pandas-Objekten verwendet werden

### Ufuncs: Index Preservation

In [None]:
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0, 10, 4))
ser

In [None]:
df = pd.DataFrame(rng.randint(0, 10, (3, 4)),
                  columns=['A', 'B', 'C', 'D'])
df

In [None]:
np.exp(ser)

In [None]:
np.sin(df * np.pi / 4)

### Ufuncs: Index Alignment

In [None]:
area = pd.Series({'Alaska': 1723337, 'Texas': 695662,
                  'California': 423967}, name='area')

population = pd.Series({'California': 38332521, 'Texas': 26448193,
                        'New York': 19651127}, name='population')


In [None]:
population / area

In [None]:
(population / area).dropna()

In [None]:
test = pd.DataFrame(rng.randint(0, 20, (2, 2)), columns=list('AB'))
test

In [None]:
test2 = pd.DataFrame(rng.randint(0, 10, (3, 3)), columns=list('BAC'))
test2

In [None]:
test + test2

In [None]:
test.add(test2, fill_value=0)

## Ufuncs: Operationen zwischen DataFrame und Series
* Operationen zwischen einem `DataFrame` und einer `Series` sind ähnlich wie Operationen zwischen einem zweidimensionalen und einem eindimensionalen NumPy-Array (z.B. Berechnung der Differenz zwischen einem zweidimensionalen Array und einer seiner Zeilen)

In [None]:
rng = np.random.RandomState(2)
A = rng.randint(10, size=(3, 4))
A

In [None]:
A - A[0] # Subtract the first row of A from A itself

In [None]:
B = rng.randint(10, size=(3, 4))
B

In [None]:
df = pd.DataFrame(B, columns=list('QRST'))
df

In [None]:
df - df.iloc[0]

In [None]:
df.subtract(df['R'], axis=0) # We can also subtract column-wise

## Lesen und Schreiben von Daten mit Pandas
### Datei-Typen
* Wir werden in dieser Sitzung nur mit _Klartextdateien_ arbeiten; diese enthalten nur einfache Textzeichen und keine Schriftart-, Größen- oder Farbinformationen
 * _Binärdateien_ sind alle anderen Dateitypen, wie PDFs, Bilder, ausführbare Programme usw.
 
### Das aktuelle Arbeitsverzeichnis
* Jedes Programm, das auf Ihrem Computer läuft, hat ein _aktuelles Arbeitsverzeichnis_.
 * Es ist das Verzeichnis, von dem aus das Programm ausgeführt wird.
 * _Ordner_ ist die modernere Bezeichnung für ein Verzeichnis.
* Das _Wurzelverzeichnis_ ist das oberste Verzeichnis und wird mit `/` angesprochen.
 * Ein Verzeichnis `mydir1` im Wurzelverzeichnis kann mit `/mydir1` angesprochen werden
 * Ein Verzeichnis `mydir2` innerhalb des Verzeichnisses `mydir1` kann mit `/mydir/mydir2` adressiert werden, und so weiter
 
### Absolute und relative Pfade
* Ein _absoluter Pfad_ beginnt immer mit dem Stammverzeichnis, z.B. `/my/path/...`
* Ein _relativer Pfad_ ist immer relativ zum aktuellen Arbeitsverzeichnis des Programms.
 * Wenn das aktuelle Arbeitsverzeichnis eines Programms `/myprogram` ist und das Verzeichnis einen Ordner files mit einer Datei `test.txt` enthält, dann ist der relative Pfad zu dieser Datei einfach `files/test.txt`
 * Der absolute Pfad zu `test.txt` wäre `/myprogram/files/test.txt` (beachten Sie den Stammordner `/`)

In [None]:
!ls # List folder content / for windows use !dir
!pwd # current working directory

### Reading Data mit Pandas
* Pandas offeriert `pandas.read_csv()` Funktion zum Laden von Daten aus einer CSV-Datei (oder einer Datei, die ein anderes Trennzeichen als ein Komma verwendet)

In [None]:
planets = pd.read_csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/planets.csv")

In [55]:
planets.shape

(1035, 6)

In [74]:
planets.head(20)

NameError: name 'planets' is not defined

In [57]:
planets.dropna().describe()

Unnamed: 0,number,orbital_period,mass,distance,year
count,498.0,498.0,498.0,498.0,498.0
mean,1.73494,835.778671,2.50932,52.068213,2007.37751
std,1.17572,1469.128259,3.636274,46.596041,4.167284
min,1.0,1.3283,0.0036,1.35,1989.0
25%,1.0,38.27225,0.2125,24.4975,2005.0
50%,1.0,357.0,1.245,39.94,2009.0
75%,2.0,999.6,2.8675,59.3325,2011.0
max,6.0,17337.5,25.0,354.0,2014.0


### Einige interessante Datenquellen
* Federal Statistical Office: https://www.bfs.admin.ch/bfs/en/home/statistics/catalogues-databases/data.html 
* OpenData: https://opendata.swiss/en/ 
* United Nations: http://data.un.org/ 
* World Health Organization: http://apps.who.int/gho/data/node.home 
* World Bank: https://data.worldbank.org/ 
* Kaggle: https://www.kaggle.com/datasets 
* Cern: http://opendata.cern.ch/
* Nasa: https://data.nasa.gov/ 
* FiveThirtyEight: https://github.com/fivethirtyeight/data 

## Aggregieren und Gruppieren von Daten in Pandas

### Einfache Aggregation in Pandas
* Wie bei einem eindimensionalen NumPy-Array geben die Aggregate für eine Pandas "Serie" einen einzelnen Wert zurück.
* Für einen `DataFrame` geben die Aggregate standardmäßig Ergebnisse innerhalb jeder Spalte zurück.
* Pandas `Series` und `DataFrames` enthalten alle gängigen NumPy-Aggregate.
 * Zusätzlich gibt es eine komfortable Methode `describe()`, die mehrere allgemeine Aggregate für jede Spalte berechnet und das Ergebnis zurückgibt

In [58]:
rng = np.random.RandomState(3)
ser = pd.Series(rng.rand(5))
ser

0    0.550798
1    0.708148
2    0.290905
3    0.510828
4    0.892947
dtype: float64

In [59]:
ser.sum()

2.9536250236509423

In [60]:
ser.mean()

0.5907250047301884

In [61]:
df = pd.DataFrame({'A': rng.rand(5), 'B': rng.rand(5)})
df

Unnamed: 0,A,B
0,0.896293,0.029876
1,0.125585,0.456833
2,0.207243,0.649144
3,0.051467,0.278487
4,0.44081,0.676255


In [62]:
df.mean()

A    0.344280
B    0.418119
dtype: float64

In [80]:
df.mean(axis='columns')

In [64]:
df.describe()

Unnamed: 0,A,B
count,5.0,5.0
mean,0.34428,0.418119
std,0.341461,0.270062
min,0.051467,0.029876
25%,0.125585,0.278487
50%,0.207243,0.456833
75%,0.44081,0.649144
max,0.896293,0.676255


### Split, Apply, Combine
* _Split_: Aufteilen und Gruppieren eines DataFrame in Abhängigkeit vom Wert des angegebenen Schlüssels
* _Apply_: Eine Funktion, normalerweise ein Aggregat, eine Transformation oder eine Filterung, innerhalb der einzelnen Gruppen anwenden
* _Combine_: Die Ergebnisse dieser Operationen in einem Ausgabe-Array zusammenführen

### Das `GroupBy` Object
* Die Methode `groupBy()` gibt ein `DataFrameGroupBy` zurück: Es ist eine spezielle Ansicht des `DataFrame`.
 * Hilft dabei, Informationen über die Gruppen zu erhalten, führt aber keine eigentlichen Berechnungen durch, bis die Aggregation angewendet wird ("lazy evaluation", d.h. nur bei Bedarf auswerten)
 * Wendet ein Aggregat auf dieses `DataFrameGroupBy` Objekt an: Dies führt die entsprechenden Anwendungs-/Verknüpfungsschritte durch, um das gewünschte Ergebnis zu erzielen.
   * Sie können jede Pandas- oder NumPy-Aggregationsfunktion anwenden.
 * Andere wichtige Operationen, die von einem `GroupBy` zur Verfügung gestellt werden, sind _filter_, _transform_ und _apply_.


In [65]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'], 'data': range(1,7)})
df

Unnamed: 0,key,data
0,A,1
1,B,2
2,C,3
3,A,4
4,B,5
5,C,6


In [66]:
groupby_key = df.groupby('key')
groupby_key.groups

{'A': Int64Index([0, 3], dtype='int64'),
 'B': Int64Index([1, 4], dtype='int64'),
 'C': Int64Index([2, 5], dtype='int64')}

In [67]:
df.groupby('key').sum()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,5
B,7
C,9


### Column Indexing and Iterating Over Groups
* The `GroupBy`-Objekt unterstützt die Spaltenindizierung auf die gleiche Weise wie der `DataFrame` und gibt ein modifiziertes `GroupBy`-Objekt zurück.
* The `GroupBy`-Objekt unterstützt auch die direkte Iteration über die Gruppen und gibt jede Gruppe als Serie oder `DataFrame` zurück.

In [81]:
planets.groupby('method')

NameError: name 'planets' is not defined

In [69]:
planets.groupby('method')['orbital_period']

<pandas.core.groupby.generic.SeriesGroupBy object at 0x000001DE15F32748>

In [70]:
planets.groupby('method')['orbital_period'].median()

method
Astrometry                         631.180000
Eclipse Timing Variations         4343.500000
Imaging                          27500.000000
Microlensing                      3300.000000
Orbital Brightness Modulation        0.342887
Pulsar Timing                       66.541900
Pulsation Timing Variations       1170.000000
Radial Velocity                    360.200000
Transit                              5.714932
Transit Timing Variations           57.011000
Name: orbital_period, dtype: float64

In [71]:
for (method, group) in planets.groupby('method'):
    print("{0:30s} shape={1}".format(method, group.shape))

Astrometry                     shape=(2, 6)
Eclipse Timing Variations      shape=(9, 6)
Imaging                        shape=(38, 6)
Microlensing                   shape=(23, 6)
Orbital Brightness Modulation  shape=(3, 6)
Pulsar Timing                  shape=(5, 6)
Pulsation Timing Variations    shape=(1, 6)
Radial Velocity                shape=(553, 6)
Transit                        shape=(397, 6)
Transit Timing Variations      shape=(4, 6)


### Aggregate, Filter, Transform, und Apply
* _Aggregate_: Die Methode `aggregate()` kann mehrere Aggregate auf einmal berechnen
* _Filter_: Mit der Methode `filter()` können Sie Daten auf der Grundlage von Gruppeneigenschaften ausschließen
 * _Hinweis_: `filter()` nimmt als Argument eine Funktion, die einen booleschen Wert zurückgibt, der angibt, ob die Gruppe die Filterung besteht
* _Transformation_: Während die Aggregation eine reduzierte Version der Daten zurückgeben muss, kann `transform()` eine transformierte Version der vollständigen Daten zur Rekombination zurückgeben (was bedeutet, dass wir immer noch die gleiche Anzahl von Einträgen vor und nach der Transformation haben)
* _Apply_: Mit der Methode `apply()` kann man eine beliebige Funktion auf die Gruppenergebnisse (oder sogar auf `DataFrame` im Allgemeinen) anwenden. Die beliebige Funktion sollte einen `DataFrame` nehmen und entweder ein Pandas-Objekt oder einen Skalar zurückgeben

In [72]:
rng = np.random.RandomState(4)
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data1': range(6),
                   'data2': rng.randint(0, 10, 6),
                   'price': ['$ 123.00', '$ 112.00', '$ 123.00', '$ 12.32', '$ 14.32', '$ 0.123']})
df

Unnamed: 0,key,data1,data2,price
0,A,0,7,$ 123.00
1,B,1,5,$ 112.00
2,C,2,1,$ 123.00
3,A,3,8,$ 12.32
4,B,4,7,$ 14.32
5,C,5,8,$ 0.123


In [73]:
df.groupby('key').aggregate(['min', np.median, max]) # Aggregation

Unnamed: 0_level_0,data1,data1,data1,data2,data2,data2
Unnamed: 0_level_1,min,median,max,min,median,max
key,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,0,1.5,3,7,7.5,8
B,1,2.5,4,5,6.0,7
C,2,3.5,5,1,4.5,8


In [74]:
df.groupby('key').std()

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,2.12132,0.707107
B,2.12132,1.414214
C,2.12132,4.949747


In [75]:
def filter_func(x):
    return x['data2'].std() > 1

In [76]:
df.groupby('key').filter(filter_func)

Unnamed: 0,key,data1,data2,price
1,B,1,5,$ 112.00
2,C,2,1,$ 123.00
4,B,4,7,$ 14.32
5,C,5,8,$ 0.123


In [77]:
def cleanup_price(x):
    return float(x[2:])

df["price"] = df["price"].apply(cleanup_price)
df

Unnamed: 0,key,data1,data2,price
0,A,0,7,123.0
1,B,1,5,112.0
2,C,2,1,123.0
3,A,3,8,12.32
4,B,4,7,14.32
5,C,5,8,0.123


In [78]:
df.groupby('key').std()

Unnamed: 0_level_0,data1,data2,price
key,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,2.12132,0.707107,78.262579
B,2.12132,1.414214,69.07019
C,2.12132,4.949747,86.88716


### Transformieren: ein Beispiel anhand von Verkaufsdaten
Quelle: http://pbpython.com/pandas_transform.html

In [79]:
sales = pd.read_excel("https://github.com/chris1610/pbpython/blob/master/data/sales_transactions.xlsx?raw=true")

In [80]:
sales.head()

Unnamed: 0,account,name,order,sku,quantity,unit price,ext price
0,383080,Will LLC,10001,B1-20000,7,33.69,235.83
1,383080,Will LLC,10001,S1-27722,11,21.12,232.32
2,383080,Will LLC,10001,B1-86481,3,35.99,107.97
3,412290,Jerde-Hilpert,10005,S1-06532,48,55.82,2679.36
4,412290,Jerde-Hilpert,10005,S1-82801,21,13.62,286.02


In [81]:
sales["cost"] = sales["quantity"] * sales["unit price"]

In [82]:
sales.head()

Unnamed: 0,account,name,order,sku,quantity,unit price,ext price,cost
0,383080,Will LLC,10001,B1-20000,7,33.69,235.83,235.83
1,383080,Will LLC,10001,S1-27722,11,21.12,232.32,232.32
2,383080,Will LLC,10001,B1-86481,3,35.99,107.97,107.97
3,412290,Jerde-Hilpert,10005,S1-06532,48,55.82,2679.36,2679.36
4,412290,Jerde-Hilpert,10005,S1-82801,21,13.62,286.02,286.02


In [83]:
groupby_order = sales.groupby('order')
sales["order total"] = groupby_order["cost"].transform(np.sum)

In [84]:
sales.head()

Unnamed: 0,account,name,order,sku,quantity,unit price,ext price,cost,order total
0,383080,Will LLC,10001,B1-20000,7,33.69,235.83,235.83,576.12
1,383080,Will LLC,10001,S1-27722,11,21.12,232.32,232.32,576.12
2,383080,Will LLC,10001,B1-86481,3,35.99,107.97,107.97,576.12
3,412290,Jerde-Hilpert,10005,S1-06532,48,55.82,2679.36,2679.36,8185.49
4,412290,Jerde-Hilpert,10005,S1-82801,21,13.62,286.02,286.02,8185.49


In [85]:
sales["percentage"] = sales["cost"] / sales["order total"] * 100

In [86]:
sales.head()

Unnamed: 0,account,name,order,sku,quantity,unit price,ext price,cost,order total,percentage
0,383080,Will LLC,10001,B1-20000,7,33.69,235.83,235.83,576.12,40.93418
1,383080,Will LLC,10001,S1-27722,11,21.12,232.32,232.32,576.12,40.324932
2,383080,Will LLC,10001,B1-86481,3,35.99,107.97,107.97,576.12,18.740887
3,412290,Jerde-Hilpert,10005,S1-06532,48,55.82,2679.36,2679.36,8185.49,32.733043
4,412290,Jerde-Hilpert,10005,S1-82801,21,13.62,286.02,286.02,8185.49,3.494232
