# Beautiful Tables

**Inhalt:** Lesbare Tabellen in Pandas

**Nötige Skills:** Erste Schritte mit Pandas

**Lernziele:**
- Zahlenformate kennenlernen und anwenden
- Tabellen-Leserlichkeit mit Styles optimieren
- Chartform: Heatmaps

**Weitere Ressourcen:**
- Cookbook für String Formats: https://mkaz.blog/code/python-string-format-cookbook/
- User Guide zu Styles: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.io.formats.style.Styler.format.html
- Reference Style-Funktion: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.io.formats.style.Styler.format.html

In [None]:
import pandas as pd

In [None]:
import numpy as np

## Das Beispiel

Eine Liste von Ländern mit ihrer Grösse und diversen Eigenschaften.

Quelle: Weltbank (https://data.worldbank.org/indicator)

## Daten laden

In [None]:
path = "dataprojects/Worldbank/worldbank_countries.xlsx"

In [None]:
df = pd.read_excel(path)

In [None]:
df.head(3)

## Pandas Display Options

Wir interessieren uns also für Länder und deren diverse Eigenschaften. Was in Pandas zuweilen aber gar nicht so easy ist: Einfach mal durch die Daten schauen.

Dataframes werden in der Übersicht abgekürzt, wir sehen nur die ersten und letzten fünf Zeilen:

In [None]:
df

Ein erster, simpler Schritt: Wir wollen einfach mal sämtliche Daten sehen, statt nur die Vorschau der ersten und letzten fünf Zeilen. Wir können dazu eine Einstellung vornehmen, die ab diesem Punkt für das gesamte weitere Notebook gilt:

In [None]:
pd.set_option("display.max_rows", 1000)

Ab jetzt zeigt Pandas jedesmal bis zu 1000 Zeilen einer Tabelle an. Das genügt uns.

In [None]:
df

Für eine unbeschränkte Ansicht könnten wir hier statt einem Zahlenwert auch `None` setzen.

Es gibt weitere Display-Optionen, die wir einstellen können:
- `display.max_columns`: Maximale Spaltenzahl, analog zur Zeilenzahl. Damit wir auch alle Spalten sehen, falls es sehr viele sind.
- `display.max_colwidth`: Maximale Zeichenzahl, die in einer Zelle angezeigt werden soll. Damit der ganze Text in einer Zelle angezeigt wird, falls wir nicht nur eine abgekürzte Variante davon sehen wollen.

Eine vollständige Liste der Optionen findet sich hier: https://pandas.pydata.org/pandas-docs/stable/user_guide/options.html

Praktisch für uns ist zum Beispiel auch die folgende Option:

In [None]:
pd.set_option("display.precision", 2)

Wir erhalten nun nicht mehr zig Dezimalstellen angezeigt, sondern nur noch eine. Das erleichtert das Lesen.

In [None]:
df.head(5)

Das ist besser, aber immer noch nicht schön. Zum Beispiel würden wir die Arbeitslosenquote gerne in Prozent sehen (7,1% statt 0.07) und hätten bei der Bevölkerung gerne Tausender-Trennzeichen (4'270'563).

Um das zu tun, bietet Pandas / Python eine Reihe von Formatierungscodes an.

## Exkurs: Zahlen formatieren

### Das Prinzip

Zahlen zu formatieren, funktioniert in Python etwas schräg.

Wir starten mit einem Format-Ausdruck (einem String):

In [None]:
'{:.2f}'

Ausgehend von diesem String können wir eine Funktion aufrufen: `.format()`

Der Parameter, den wir dieser Funktion mitgeben, ist die Zahl, die wir formatieren wollen.

In [None]:
'{:.2f}'.format(5.39120)

Note: Bei dieser Prozedur haben wir auch eine Typenumwandlung vollzogen:
- Unsere ursprüngliche Zahl (`5.39120`) war eine Floating-Point-Number

In [None]:
type(5.39120)

- Der Output dieser Funktion (`'5.39'`) ist ein String.

In [None]:
type('5.39')

Nach dem Formatieren können wir also keine mathematischen Berechnungen mehr mit der Zahl machen!

### Format-Strings

Wie funktionieren diese Formatierungs-Strings?

#### 1. Die Hülle

Der einfachste Formatstring macht - gar nichts, sondern gibt die Zahl einfach tel quel zurück: `{}`

In [None]:
'{}'.format(3.1415926)

Damit wir die Zahl bearbeiten können, braucht es zunächst mal einen Doppelpunkt: `:`

Wenn wir den einsetzen, passiert aber immer noch nichts.

In [None]:
'{:}'.format(3.1415926)

Es braucht also noch weitere Angaben.

#### 2. Runden

Wir können eine Zahl nach dem Komma runden mit folgendem Ausdruck: `.2f`

Das f steht dabei für "float" und die 2 für die Anzahl Ziffern nach dem Komma.

In [None]:
'{:.2f}'.format(3.1415926)

#### 3. Prozentzahlen

Um die Zahl in Prozent anzugeben, Prozentzeichen: `%`

In [None]:
'{:%}'.format(3.1415926)

Man kann auch Prozentzahlen runden:

In [None]:
'{:.2%}'.format(3.1415926)

#### 4. Plus- und Minuszeichen

Um explizit ein Pluszeichen anzugeben, falls die Zahl grösser als null ist: `+`

In [None]:
'{:+.2%}'.format(3.1415926)

#### 5. Nullen vorneanstellen

Kann zB hilfreich sein, wenn man die Zahlen später als Text sortieren muss oder wenn es sich um bestimmte Codes handelt: `03d`

Das "d" steht dabei für digits (ganze Zahlen) und die 3 für die Gesamtzahl der Ziffern.

In [None]:
'{:03d}'.format(42)

Das funktioniert ähnlich auch bei Floats. Allerdings muss man hier sowohl die Gesamtzahl der Zeichen (zB 6) als auch die Länge hinter dem Komma angeben (zB 2):

In [None]:
'{:06.2f}'.format(3.1415926)

**6. Tausendertrennzeichen**

Trägt auch stark zur Lesbarkeit bei: Tausenderzeichen. Der Code dafür ist ein Komma: `,`

In [None]:
'{:,}'.format(31415926)

Leider müssen wir uns mit der amerikanischen Variante (,) begnügen. Die deutschen Hochkommas (') gehen nicht.

#### 7. Währungen

Um eine bestimmte Währung vor oder hinter der Zahl anzuzeigen: Einfach ausserhalb der geschweiften Klammern die Einheit hinschreiben, zB `CHF`

In [None]:
'CHF {:,}'.format(31415926)

#### 8. Grosse zahlen runden

Wenn zB die genauen Frankenbeträge nicht wichtig sind, können wir sie auch vor dem Komma runden.

In [None]:
# code fehlt noch. gibt es das überhaupt?

**Übersicht und weitere Formate:**

Hier eine Übersicht, kopiert von: https://mkaz.blog/code/python-string-format-cookbook/

| Number | Format | Output | Description |
| -------|--------|--------|------------- |
| 3.1415926 | {:.2f} | 3.14 | Format float 2 decimal places |
| 3.1415926 | {:+.2f} | +3.14 | Format float 2 decimal places with sign |
| -1 | {:+.2f} | -1.00 | Format float 2 decimal places with sign |
| 2.71828 | {:.0f} | 3 | Format float with no decimal places |
| 5 | {:0>2d} | 05 | Pad number with zeros (left padding, width 2) |
| 5 | {:x<4d} | 5xxx | Pad number with x’s (right padding, width 4) |
| 10 | {:x<4d} | 10xx | Pad number with x’s (right padding, width 4) |
| 1000000 | {:,} | 1,000,000 | Number format with comma separator |
| 0.25 | {:.2%} | 25.00% | Format percentage |
| 1000000000 | {:.2e} | 1.00e+09 | Exponent notation |
| 13 | {:10d} |         13 | Right aligned (default, width 10) |
| 13 | {:<10d} | 13 | Left aligned (width 10) |
| 13 | {:^10d} |     13 | Center aligned (width 10) |

Weitere Infos zB hier: https://pyformat.info/

## Tabellen separat formatieren

Wir können die Format-Strings nun nutzen, um Spalten separat zu formatieren. 

Dazu definieren wir in einem Dictionary für jede Spalte das passende Format.

In [None]:
col_formats = {
    'Country Name': '{}',
    'Country Code': '{}',
    'Population': '{:,}',
    'Forest Area': '{:.0%}',
    'GDP per Capita': '$ {:,}',
    'Unemployment': '{:.0%}',
    'Renewable Energy': '{:.0%}',
    'Life Expectancy': '{:.1f}',
    'Female Labor Participation': '{:.0%}',
    'Urban Population': '{:.0%}',
    'CO2 Emissions per Capita': '{:.1f} t',
    'Fertility Rate': '{:.1f}',
    'Population Growth': '{:.1%}'
}

Wir können diesen Dictionary verwenden, um den `style` der Tabelle zu definieren:

In [None]:
df.style.format(col_formats)

**Achtung:** Was wir hier sehen, ist kein Dataframe mehr, sondern nur noch eine Repräsentation davon.

Der folgende Code funktioniert deshalb nicht:

In [None]:
# df.style.format(col_formats).head()

Das heisst leider: Wir können den Style eines Dataframes immer nur ganz am Schluss setzen, wenn wir keine Berechnungen mehr machen müssen und nur noch das Endergebnis sehen wollen.

Aber immerhin: Wir können die definierten Spaltenformate auf beliebige Modifikationen unseres Dataframes anwenden, sofern einzelne Spalten immmer noch gleich heissen.

In [None]:
df[df['Country Name'] == 'Switzerland'][['Population', 'GDP per Capita']].style.format(col_formats)

## Coole Dinge, die man mit Styles tun kann

Da wir nun aber schonmal mit Styles arbeiten, hier einige hübsche Anwendungen, die es uns noch leichter machen, die Daten in unserem DF zu lesen, Muster zu erkennen und evtl auch Fehler zu bemerken.

### Einzelne Werte herausstreichen

#### 1. Fehlende Zahlen

Angenommen, es hätte sich irgendwo ein `NaN`-Wert in unsere Daten reingeschlichen:

In [None]:
df.loc[df['Country Name'] == 'Bulgaria', 'Renewable Energy'] = np.nan

Es gibt eine einfache Style-Funktion, die uns darauf hinweist: `highlight_null()`

In [None]:
df.style.highlight_null(null_color='yellow')

#### Kleinste und grösste Werte

Wir können für jede Spalte anzeigen:
- wo der Maximalwert zu finden ist: `highlight_max()`
- wo der Minimalwert zu finden ist: `highlight_min()`

In [None]:
df.style.highlight_max()

### Farbcodierte Werte

Wir können Styles auch benutzen, um eine Tabelle Heatmap-ähnlich einzufärben.

Dazu gibt es die Funktion `background_gradient()`:

In [None]:
df[['Country Name', 'Unemployment']].style.background_gradient(cmap='coolwarm')

Uns stehen eine Reihe von verschiedenen Colormaps zur Verfügung: https://matplotlib.org/2.0.2/examples/color/colormaps_reference.html

Zusätzlich können wir definieren, an welchen Eckpunkten die Range angesetzt werden soll.

Zum Beispiel:
- Minimum bei 0.05 (unterhalb davon ist alles blau)
- Maximum bei 0.15 (oberhalb davon ist alles tiefrot)

In [None]:
df[['Country Name', 'Unemployment']].style.background_gradient(cmap='coolwarm', vmin=0.05, vmax=0.15)

Wir können Colormaps auch nur auf einzelne Spalten anwenden mit dem Parameter `subset=`

In [None]:
df.style.background_gradient(cmap='coolwarm', vmin=0.05, vmax=0.15, subset=['Unemployment'])

Und wir können unterschiedliche Colormaps auf unterschiedliche Spalten anwenden.

Dazu verketten wir einfach zwei `background_gradient()` aneinander:

In [None]:
df.style.background_gradient(
    cmap='coolwarm',
    vmin=0.05,
    vmax=0.15,
    subset=['Unemployment']
).background_gradient(
    cmap='Greens',
    vmin=0,
    vmax=1,
    subset=['Forest Area']
)

Diese Verkettung funktioniert auch, wenn wir zum Schluss noch die Zahlen formatieren wollen:

In [None]:
df.style.background_gradient(
    cmap='coolwarm',
    vmin=0.05,
    vmax=0.15,
    subset=['Unemployment']
).background_gradient(
    cmap='Greens',
    vmin=0,
    vmax=1,
    subset=['Forest Area']
).format(col_formats)

### Mini Bar Charts

Eine weitere Darstellungsmöglichkeit: kleine Barcharts in die Tabelle integrieren mit `bar()`:

In [None]:
df.style.bar(subset=['Urban Population'], color='#d65f5f')

## Styles wiederverwenden

Sagen wir, wir haben einen wunderschönen Style generiert – inklusive Heatmap, Barchart, Highlights und Zahlenformaten.

In [None]:
df.style.background_gradient(
    cmap='coolwarm',
    vmin=0.05,
    vmax=0.15,
    subset=['Unemployment']
).background_gradient(
    cmap='Greens',
    vmin=0,
    vmax=1,
    subset=['Forest Area']
).bar(
    subset=['Urban Population'],
    color='#d65f5f'
).format(
    col_formats
).highlight_max().highlight_min()

Um diesen Style wiederzuverwenden, müssen wir nicht jedesmal den ganzen Wust erneut schreiben.

Wir können den Style speichern mit `export()`...

In [None]:
my_style = df.style.background_gradient(
    cmap='coolwarm',
    vmin=0.05,
    vmax=0.15,
    subset=['Unemployment']
).background_gradient(
    cmap='Greens',
    vmin=0,
    vmax=1,
    subset=['Forest Area']
).bar(
    subset=['Urban Population'],
    color='#d65f5f'
).format(
    col_formats
).highlight_max().highlight_min().export()

... und den Style erneut anwenden mit `use()`:

In [None]:
df.style.use(my_style)

## Formatierte Daten exportieren

### nach Excel

Wir können formatierte Dataframes ins Excel transportieren. Das funktioniert aber nur mässig: Bei unserem Beispiel klappt es mit den Heatmaps und Highlights, aber nicht mit den Barcharts und Zahlenformaten :-/

In [None]:
df.style.use(my_style).to_excel("dataprojects/Worldbank/formatted_table.xlsx", index=False)

### als csv-Datei

Beim Export in ein csv sollte man sich grundsätzlich gut überlegen, wie viel Formatierung man überhaupt exportieren will!
- **Tausenderzeichen** im CSV festzuhalten macht sehr wahrscheinlich keinen Sinn, da das nächste Programm, das diese Daten bearbeitet, diese erst wieder mühsam erkennen will.
- Dasselbe gilt für **Währungsangaben** oder auch für **Prozentzeichen**. Normalerweise würde man diese Formatierungen im weiterverarbeitenden Programm (zB in einem Charttool) wieder separat vornehmen. Das heisst, wir exportieren nicht "5.1%" sondern "0.051".
- Was allerdings Sinn machen kann, ist, Zahlen zu runden, also die Zahl der **Dezimalstellen** zu beschränken. Dafür gibt es in der Export-Funktion einen passenden Parameter.

In [None]:
df.to_csv("dataprojects/Worldbank/rounded_table.csv", float_format="%.3f", index=False)

Falls wir bestimmte Formatierungen doch unbedingt vornehmen wollen (zum Beispiel für eine bestimmte Beschriftung), empfiehlt es sich, eine separate Textspalte dafür zu kreieren:

In [None]:
df_exp = df[['Country Name', 'GDP per Capita']].copy()

df_exp['Beschriftung'] = df_exp['GDP per Capita']

df_exp.head(5)

Diese Spalte kann man nun formatieren.

In [None]:
df_exp['Beschriftung'] = df_exp['Beschriftung'].apply(lambda value: '$ {:,}'.format(value))

In [None]:
df_exp.head(5)

Achtung: Die Spalte ist jetzt keine Zahl mehr, sondern ein String!

In [None]:
df_exp.dtypes

Das formatierte Dataframe können wir nun wie gewöhnlich exportieren:

In [None]:
df_exp.to_csv("dataprojects/Worldbank/formatted_table_with_caption.csv", index=False)