# Übungen zu Pivottabellen

## Aufgabe 1
Arbeiten Sie das Tutorial in der Datei [Pandas-Pivot-Table-Explained.ipynb](Pandas-Pivot-Table-Explained.ipynb) durch und beantworten Sie dann folgende Fragen:

### 1.1 Festlegen einer Ordnung
Angenommen, man hätte in einem Data Frame eine Spalte, in der Monate mit Namenskürzeln `JAN, FEB, MRZ, ..., NOV, DEZ` erfasst sind statt mit den Zahlen von 1-12. Was könnte man dann tun, um bei Verwendung dieser Spalte in Pivottabellen sicher zu stellen, dass diese Werte in der gewünschten Ordnung ausgegeben werden?

**Antwort:** Man könnte dies wie folgt lösen (der Spaltenname sei `Monat`):
```python
df["Monat"] = df["Monat"].astype("category")
df["Monat"].cat.set_categories(["JAN","FEB","MRZ","APR","MAI","JUN","JUL","AUG","SEP","OKT","NOV","DEZ"],inplace=True)
```

### 1.2 Spalten und Aggregatfunktionen
Was ist von den Pivottabellen in den Zellen 7-9 zu halten? Gehen Sie in Ihrer Antwort insbesondere auf die Verwendung der Spalte `Postal Code` sowie die verwendete Aggregatfunktion ein.

**Antwort:** In den Pivottabellen wird die Standard-Aggregatfunktion `mean`, also der Mittelwert, verwendet und zwar für sämtliche Spalten, die einen numerischen Datentyp haben. Vermutlich wäre hier `sum` als Aggregatfunktion besser geeignet. Vor allem aber ergibt eine Aggregation der Spalte `Postal Code` überhaupt keinen Sinn, denn dies ist sicherlich keine Maßzahl, mit der man rechnen kann.

### 1.3 `margins`
Wozu dient der Parameter `margins` und `margins_name` der Funtion `pivot_table()`?

**Antwort:** Mit Hilfe dieses Parameters wird eine Summenzeile bzw. Summenspalte hinzugefügt. Die Benennung erfolgt durch `margins_name`.

### 1.4 Aggregation nach Datum
Wie würden Sie verfahren, wenn Sie in Zelle 13 statt der Aggregation nach Regionen, eine Aggregation nach Jahren erhalten möchten?

**Antwort:** Leider geschieht durch `pivot_table()` kein automatisches Drill-up der Datetime-Werte in `Order Date`. Eine Spalte `year` muss daher aus der Spalte `Order Date` erzeugt werden. Beispielsweise durch `df['Year']=df['Order Date'].dt.year`.

### 1.5 Aggregation von Quantity
Ist die Verwendung der Aggregatfunktion `len` für das Attribut `Quantity` sinnvoll (wie z.B. in Zelle 18)? Was könnte hier evtl. schief gehen?

**Antwort:** Die Verwendung von `len` entspräche der Verwendung von `COUNT` in SQL und ist daher *nicht* sinnvoll, denn man muss summieren, da es Anzahlen größer als 1 gibt. Zur Verdeutlichung wiederhole man etwa Zelle 18 mit `np.sum` anstelle von `len`.

### 1.6 Multi-dimensionale Operationen
Den in dem Tutorial verwendeten Daten könnte folgendes (qualitativ nicht sehr hochwertiges) *Sternschema* zu Grunde liegen.

![ER-Modell Sternschema](img/StoreSalesStar.png)

Welche multi-dimensionalen Operationen wurden dann mit den Pivottabellen in den Zellen 

1. 10 $\rightarrow$ *Drill-down* in der Dimension `DimProduct`
2. 21 $\rightarrow$ *Split* der Werte für die Kategorien nach dem Kundensegment 
3. 25 $\rightarrow$ *Slicing*, da der Wert für Category festgelegt wird 
4. 17 $\rightarrow$ Kombination aus *Drill-down* (Category-SubCategory) und *Split* (Region)

umgesetzt? (**Antworten** s.o.; jeweils sichtbar in den Zeilenfeldern)

## Aufgabe 2
Erweitern Sie die Datei [Pandas-Pivot-Table-Explained.ipynb](Pandas-Pivot-Table-Explained.ipynb) um die Möglichkeit, die dortigen Pivottabellen nochmals mit `pivottablejs` zu erstellen. Tun Sie das dann auch für die Tabellen in den Zellen 10, 17 und 21. Machen Sie davon jeweils *Screenshots*, die Sie hier als Lösung einfügen.

**Hinweis 1:** Wie man Bilder in Markdown einfügt, erklärt das [Cheat Sheet](https://guides.github.com/pdfs/markdown-cheatsheet-online.pdf). Sie können aber auch eine Zelle mit einem Bild aus der Themenausarbeitung mal im Edit mode öffnen. Dort sehen Sie dann eine Möglichkeit, ein Bild mit normalem HTML *skaliert* einzufügen.

**Hinweis 2:** Je nach Betriebssystem, sowie Version und Art Ihrer Pythoninstallation kann es vorkommen, dass Sie bei Verwendung von `pivottablejs` Null-Werte erhalten (der Datensatz enthält keine Null-Werte). Dies hängt mit der Art der Zeilenumbrüche zusammen und kann mit einer Neudefinition der `pivot_ui()`-Funktion behoben werden. Sollten zusätzliche Null-Werte bei Ihnen auftreten, definieren Sie die Funktion wie folgt:

In [None]:
def pivot_ui(df, **kwargs):
    import pivottablejs
    class _DataFrame(pd.DataFrame):
        def to_csv(self, **kwargs):
            return super().to_csv(**kwargs).replace("\r\n", "\n")
    return pivottablejs.pivot_ui(_DataFrame(df), **kwargs)

Dieser Workaround stammt von GitHub-User [s13i](https://github.com/nicolaskruchten/jupyter_pivottablejs/issues/52#issuecomment-528409060)

### Zelle 10

![Pivottabelle Zelle 10](img/ptcell_new_10.png)

### Zelle 17

![Pivottabelle Zelle 13](img/ptcell_new_13.png)

### Zelle 21

![Pivottabelle Zelle 17](img/ptcell_new_17.png)

**Zu beachten:** Mit `pivottablejs` werden immer die Summenwerte mit berechnet (entsprechend `margins=True`)!
