# Datenvisualisierung mit Altair

Im ersten Beispiel "Datenvisualisierung mit Seaborn" haben wir gesehen, wie wir Daten aus einer MySQL-Datenbank in ein Pandas Dataframe holen und dann die Visualisierung dieser Daten mit dem Dataframe machen. In diesem Beispiel fokusieren wir auf die Visualisierung der Daten und nehmen dazu vorgefertigte Dataframes von pyDataset. Vorteil: Dieses Notebook funktioniert ohne Datenbank.

> Informiere Dich zuerst mit folgendem Video, was Altair eigentlich ist: https://www.youtube.com/embed/AAuPPorsmJc?si=c85CFvJtKI895aar

Wie im Video (ab Min. 4:15) zusammengefasst: Das alles geschieht im Hintergrund Wir kümmern uns nur um darum, in Python die benötigten Infos (Daten und Formatierungswünsche) zu übergeben. Der Rest geschieht im Hintergrund.

## Installieren der benötigtenPython Module

Installieren wir nun die benötigten Python Module für Pandas, Altair und die "Datasets for educational purposes" von pyDataset in unserem Python-Environment.
> Informiere Dich auch über die "Datasets for educational purposes" von pyDataset auf: https://pydataset.readthedocs.io

In [None]:
%%bash
/home/pkmlp/anaconda3/bin/pip install pandas
/home/pkmlp/anaconda3/bin/pip install altair
/home/pkmlp/anaconda3/bin/pip install pydataset

## Funktionstest der installierten Python Module

Für unseren Funktionstest (nach all den Installationen) werden wir das Dataframe "Duncan" aus den soeben installierten Modul pydataset verwenden. Sehen wir uns dies einmal an, damit wir wissen wie die Daten aussehen, die wir anschliessend visualisieren möchten.

In [None]:
import pandas as pd
from pydataset import data
df = data('Duncan')
df

Die Installation der Dataset um damit zu spielen hat schon mal funktioniert. Um zu testen ob auch die Visualisierung mit Altair funktioniert, schnell ein minimales (noch unschönes) Beispiel und ohne Erklärung was da genau passiert.

In [None]:
import altair as alt
alt.Chart(df).mark_bar().encode(
    x = 'type',
    y = 'prestige'
)

Es wird ein Bar-Chart mit den angegbenen x- und y-Achsen erstellt. Das heisst, es funktioniert wohl alles wie gewünscht. 

Damit haben wir den Funktionstest abgeschlossen und können uns nun im Detail mit der Visualisierung von Daten mit Altair befassen.

## Altair's Visualisierungs-Grammatik

> Informiere Dich mit folgendem Video zur Altair's Visualisierungs-Grammatik: https://youtu.be/U7w1XumKK60?si=9SXUtkBqZfo3Dzgq 


Nehmen wir wieder unser Dataset 'Duncan' und schauen uns die Daten etwas genauer an:

In [None]:
df

## Daten "verstehen"

Um Daten sinnvoll visualisieren zu können, muss ich die Daten, die Bedeeutung der Daten verstehen:

Dieses Dataset enthält eine Tabelle mit verschiedenen Berufen (Zeilen der Tabelle). Zu jedem Beruf sind die Attribute (Spalten der Tabelle) Beufsbezeichung (), Berufskategorie (type), Einkommen (income), Ausbildung (education) und Ansehen (prestige) jeweils mit einem Wert erfasst. Dabei gilt:
- Berfuskategorie (type):
  - bc   = BlueCollar -> siehe Definition/Bedeutung unten
  - wc   = WhiteCollar -> siehe Definition/Bedeutung unten
  - prof = Professional -> siehe Definition/Bedeutung unten
- Einkommen (income):
  - Die Höhe des Einkommens auf einer Skala von 1 - 100 (je höher die Zahl, desto Höher das Einkommen)
- Ausbildung (education)
  - Die Höhe der Ausbildung auf einer Skala von 1 - 100 (je höher die Zahl, desto Höher der Ausbildungsabschluss)
- Ansehen (prestige)
  - Die Höhe des Ansehens auf einer Skala von 1 - 100 (je höher die Zahl, desto Höher das Ansehen des Berufes in der Gesellschaft)


Die englischen Ausdrücke "BlueCollar", "WhiteCollar" und "Professional" beziehen sich auf verschiedene Arten von Berufen und Arbeitsumgebungen:

BlueCollar:
- Definition: Bezieht sich auf Berufe, die manuelle oder handwerkliche Arbeiten ausführen.
- Merkmale: Diese Jobs erfordern oft körperliche Anstrengung und werden in Branchen wie Bauwesen, Fertigung, Bergbau, Landwirtschaft und ähnlichen Bereichen gefunden.
- Beispiele: Mechaniker, Elektriker, Fabrikarbeiter, Bauarbeiter.
- Herkunft: Der Begriff kommt von den blauen Overalls, die traditionell von Angestellten in diesen Berufen getragen werden.

WhiteCollar:
- Definition: Bezieht sich auf Berufe, die eher geistige als körperliche Arbeit erfordern und typischerweise in Büros oder Verwaltungseinrichtungen ausgeübt werden.
- Merkmale: Diese Jobs beinhalten oft Aufgaben in Bereichen wie Verwaltung, Management, Beratung, Finanzen, Recht und Bildung.
- Beispiele: Anwälte, Buchhalter, Büroangestellte, Manager, Lehrer.
- Herkunft: Der Begriff kommt von den weisssen Hemden, die traditionell von Angestellten in diesen Berufen getragen werden.

Professional:
- Definition: Bezieht sich auf Personen, die in einem Beruf tätig sind, der spezielle Schulungen oder Qualifikationen erfordert und oft mit einem höheren Mass an Expertise und Verantwortung verbunden ist.
- Merkmale: Professionals arbeiten oft in Berufen, die akademische Abschlüsse und berufliche Zertifizierungen erfordern. Sie können sowohl in WhiteCollar- als auch in anderen spezialisierten Bereichen tätig sein.
- Beispiele: Ärzte, Rechtsanwälte, Ingenieure, Architekten, Wissenschaftler.
- Konnotation: Der Begriff „Professional“ hebt die Qualifikation und das Fachwissen der Person hervor, unabhängig davon, ob sie in einem traditionellen Büro arbeitet oder nicht.

Zusammengefasst:

- BlueCollar: Handwerkliche oder körperliche Arbeiten.
- WhiteCollar: Geistige oder verwaltungstechnische Tätigkeiten.
- Professional: Personen mit speziellen Schulungen oder Qualifikationen, die in Berufen mit hoher Expertise und Verantwortung arbeiten.

## Daten "visualisieren"

Als erstes möchte ich visualisieren, wie sich die Ausbildung auf das Ansehen eines Berufs in der Gesellschaft auswirkt:

In [None]:
import altair as alt
alt.Chart(df).mark_point().encode(
    x = 'education',
    y = 'prestige'
)

Die Visualisierung zeigt, dass höhere Ausbildungen / Berufsabschlüsse ein höheres Ansehen in der Gesellschaft haben,

Interessant wäre auch zu sehen, wie sich die Berufskategorie in diesem Bild darstellt: 

In [None]:
import altair as alt
alt.Chart(df).mark_point().encode(
    x = 'education',
    y = 'prestige',
    color = 'type'
)

Die Visualisierung zeigt, dass die meisten 'Professionals" (= Personen mit speziellen Schulungen oder Qualifikationen, die in Berufen mit hoher Expertise und Verantwortung arbeiten) grosses Ansehen in der Gesellchaft geniessen. Es gibt aber auch 'Professionals', die trotz der hochwertigen Ausbildung wenig Ansehen in der Gesellschaft haben.

Wie verhält sich das Salär der einzelnen Berufe dazu?

In [None]:
import altair as alt
alt.Chart(df).mark_point().encode(
    x = 'education',
    y = 'prestige',
    color = 'type',
    size = 'income'
)

Wenig überraschend erhalten Personen in Berufen mit höherer Ausbildung nicht nur ein höheres Ansehen in der Gesellschaft, sondern auch höhere Löhne.

Stören mich die vielen Kreise, kann ich diese auch als gefüllte Kreise darstellen:

In [None]:
import altair as alt
alt.Chart(df).mark_circle().encode(
    x = 'education',
    y = 'prestige',
    color = 'type',
    size = 'income'
)

Das Salär weckt mein Interesse. Ich möchte darum nicht nur ein ungefähres Verhältnis der Saläre zu einander sehen, sondern konkrete Zahlenwerte:

In [None]:
import altair as alt
alt.Chart(df).mark_circle().encode(
    x = 'education',
    y = 'prestige',
    color = 'type',
    size = 'income',
    tooltip = 'income'
)

Alle Informationen in einem Chart kann "ganz schön viel" werden. Teilen wir diese Informationen auf mehrere Charts (z.B. ein Chart pro Berufskategorie) auf. Dazu legene wir die drei Charts in je einer Variablen ab:

In [None]:
import altair as alt
bcChart = alt.Chart(df).mark_circle().encode(
    x = 'education',
    y = 'prestige',
    color = 'type',
    size = 'income',
    tooltip = 'income'
).transform_filter(
    alt.datum.type == 'bc'
)


In [None]:
import altair as alt
wcChart = alt.Chart(df).mark_circle().encode(
    x = 'education',
    y = 'prestige',
    color = 'type',
    size = 'income',
    tooltip = 'income'
).transform_filter(
    alt.datum.type == 'wc'
)


In [None]:
import altair as alt
profChart = alt.Chart(df).mark_circle().encode(
    x = 'education',
    y = 'prestige',
    color = 'type',
    size = 'income',
    tooltip = 'income'
).transform_filter(
    alt.datum.type == 'prof'
)


Und geben dann alle drei Charts neben einander aus:

In [None]:
bcChart | wcChart | profChart

Was uns bis hierhin sehr zu Gute kam, ist, dass Altair selbständig optimale "Dinge" für die Darstellung der Informationen setzt (z.B. die Skalen der x- und y-Achse abhängig von den konkreten Werten in Daten des jeweiligen Charts. Damit diese vergleichbar werden, müssen alle drei Charts die selben x- und y-Werte haben. Erstellen wir die drei Charts nochmals mit definierten Ranges für die x- und y-Achse und geben dann die drei Charts wieder aus:

In [None]:
import altair as alt
bcChart = alt.Chart(df).mark_circle().encode(
    x = alt.X('education', scale=alt.Scale(domain=[0, 100])),
    y = alt.Y('prestige', scale=alt.Scale(domain=[0, 100])),
    color = 'type',
    size = 'income',
    tooltip = 'income'
).transform_filter(
    alt.datum.type == 'bc'
)

import altair as alt
wcChart = alt.Chart(df).mark_circle().encode(
    x = alt.X('education', scale=alt.Scale(domain=[0, 100])),
    y = alt.Y('prestige', scale=alt.Scale(domain=[0, 100])),
    color = 'type',
    size = 'income',
    tooltip = 'income'
).transform_filter(
    alt.datum.type == 'wc'
)

import altair as alt
profChart = alt.Chart(df).mark_circle().encode(
    x = alt.X('education', scale=alt.Scale(domain=[0, 100])),
    y = alt.Y('prestige', scale=alt.Scale(domain=[0, 100])),
    color = 'type',
    size = 'income',
    tooltip = 'income'
).transform_filter(
    alt.datum.type == 'prof'
)

bcChart | wcChart | profChart

Sieht schon ganz cool aus. Ein Titel pro Chart würde dem ganzen doch die Krone aufsetzen: 

In [None]:
import altair as alt
bcChart = alt.Chart(df).mark_circle().encode(
    x = alt.X('education', scale=alt.Scale(domain=[0, 100])),
    y = alt.Y('prestige', scale=alt.Scale(domain=[0, 100])),
    color = 'type',
    size = 'income',
    tooltip = 'income'
).properties(
    title = alt.TitleParams(
        text = ['BlueCollar:',
                'Berufe mit handwerklichen oder körperlichen Tätigkeiten.',
                '',
                '']
    )
).transform_filter(
    alt.datum.type == 'bc'
)

import altair as alt
wcChart = alt.Chart(df).mark_circle().encode(
    x = alt.X('education', scale=alt.Scale(domain=[0, 100])),
    y = alt.Y('prestige', scale=alt.Scale(domain=[0, 100])),
    color = 'type',
    size = 'income',
    tooltip = 'income'
).properties(
).properties(
    title = alt.TitleParams(
        text = ['WhiteCollar:', 
                'Berufe, mit geistigen, administrativen Tätigkeiten',
                'und die typischerweise in Büros ausgeübt werden.',
                '']
    )
).transform_filter(
    alt.datum.type == 'wc'
)

import altair as alt
profChart = alt.Chart(df).mark_circle().encode(
    x = alt.X('education', scale=alt.Scale(domain=[0, 100])),
    y = alt.Y('prestige', scale=alt.Scale(domain=[0, 100])),
    color = 'type',
    size = 'income',
    tooltip = 'income'
).properties(
    title = alt.TitleParams(
        text = ['Professional:', 
                'Berufe mit spezieller Ausbildung und Qualifikation',
                'und mit hoher Expertise und teils hoher Verantwortung.',
                '']
    )
).transform_filter(
    alt.datum.type == 'prof'
)

bcChart | wcChart | profChart

Als letztes ändern wir noch die Beschriftung der X- ud Y.Achsen:

In [None]:
import altair as alt
bcChart = alt.Chart(df).mark_circle().encode(
    x = alt.X('education', scale=alt.Scale(domain=[0, 100]), axis=alt.Axis(title='Ausbildung')),
    y = alt.Y('prestige', scale=alt.Scale(domain=[0, 100]), axis=alt.Axis(title='Ansehen in der Gesellschaft')),
    color = 'type',
    size = 'income',
    tooltip = 'income'
).properties(
    title = alt.TitleParams(
        text = ['BlueCollar:',
                'Berufe mit handwerklichen oder körperlichen Tätigkeiten.',
                '',
                '']
    )
).transform_filter(
    alt.datum.type == 'bc'
)

import altair as alt
wcChart = alt.Chart(df).mark_circle().encode(
    x = alt.X('education', scale=alt.Scale(domain=[0, 100]), axis=alt.Axis(title='Ausbildung')),
    y = alt.Y('prestige', scale=alt.Scale(domain=[0, 100]), axis=alt.Axis(title='Ansehen in der Gesellschaft')),
    color = 'type',
    size = 'income',
    tooltip = 'income'
).properties(
).properties(
    title = alt.TitleParams(
        text = ['WhiteCollar:', 
                'Berufe, mit geistigen, administrativen Tätigkeiten',
                'und die typischerweise in Büros ausgeübt werden.',
                '']
    )
).transform_filter(
    alt.datum.type == 'wc'
)

import altair as alt
profChart = alt.Chart(df).mark_circle().encode(
    x = alt.X('education', scale=alt.Scale(domain=[0, 100]), axis=alt.Axis(title='Ausbildung')),
    y = alt.Y('prestige', scale=alt.Scale(domain=[0, 100]), axis=alt.Axis(title='Ansehen in der Gesellschaft')),
    color = 'type',
    size = 'income',
    tooltip = 'income'
).properties(
    title = alt.TitleParams(
        text = ['Professional:', 
                'Berufe mit spezieller Ausbildung und Qualifikation',
                'und mit hoher Expertise und teils hoher Verantwortung.',
                '']
    )
).transform_filter(
    alt.datum.type == 'prof'
)

bcChart | wcChart | profChart

Empfehlung: Schaut den Code mit der erstellten Grafik an. Damit sind die Parameter im Code ziemlich selbsterklärend. Sonst helfen untenstehende Links, Google, Youtube oder ChatGPT gerne weiter 

## Dataset erstellen aus CSV-File  

Obige Beispiele sind schon recht informativ. Schön wäre es, wenn in den Grafiken im Tooltip nicht nur das Salär agegeben wird, sondern auch der entspechende Beruf. Mit dem enthaltenen Dataset 'Duncan' ist dies nur mit viel Aufwand zu machen, da die Beruf dem Index des Dataframes entsprechen.

Verwenden wir darum ein eigenes Dataframe, das wir aus einer CSV-Datei erstellen. 

In [None]:
import pandas as pd
df = pd.read_csv('Berufslandschaft.csv')
df

Inhaltlich ist dies das gleiche Dataframe, jedoch sind hier die Berufsbezeichungen nicht als Index verwendet. Das CSV-File ist im gleichen Verzeichnis wie dieses Notebook abgelegt. Schau dir dieses File ebenfalls an.

Nun können wir sehr einfach den Tooltip mit der Berufsbezeichung ergänzen und auch gleich die Legende noch bearbeiten.

In [None]:
import altair as alt
bcChart = alt.Chart(df).mark_circle().encode(
    x = alt.X('education', scale=alt.Scale(domain=[0, 100]), axis=alt.Axis(title='Ausbildung')),
    y = alt.Y('prestige', scale=alt.Scale(domain=[0, 100]), axis=alt.Axis(title='Ansehen in der Gesellschaft')),
    color = alt.Color('type', legend=alt.Legend(title='Berufskategorie', orient='bottom', titleFontSize=14, labelFontSize=14, symbolSize=175)),
    size = alt.Size('income', legend=alt.Size(title='Einkommen', orient='bottom', titleFontSize=14, labelFontSize=14)),
    tooltip = ['jobtitle','income']
).properties(
    title = alt.TitleParams(
        text = ['BlueCollar:',
                'Berufe mit handwerklichen oder körperlichen Tätigkeiten.',
                '',
                '']
    )
).transform_filter(
    alt.datum.type == 'bc'
)

import altair as alt
wcChart = alt.Chart(df).mark_circle().encode(
    x = alt.X('education', scale=alt.Scale(domain=[0, 100]), axis=alt.Axis(title='Ausbildung')),
    y = alt.Y('prestige', scale=alt.Scale(domain=[0, 100]), axis=alt.Axis(title='Ansehen in der Gesellschaft')),
    color = alt.Color('type', legend=alt.Legend(title='Berufskategorie', orient='bottom', titleFontSize=14, labelFontSize=14, symbolSize=175)),
    size = alt.Size('income', legend=alt.Size(title='Einkommen', orient='bottom', titleFontSize=14, labelFontSize=14)),
    tooltip = ['jobtitle','income']
).properties(
).properties(
    title = alt.TitleParams(
        text = ['WhiteCollar:', 
                'Berufe, mit geistigen, administrativen Tätigkeiten',
                'und die typischerweise in Büros ausgeübt werden.',
                '']
    )
).transform_filter(
    alt.datum.type == 'wc'
)

import altair as alt
profChart = alt.Chart(df).mark_circle().encode(
    x = alt.X('education', scale=alt.Scale(domain=[0, 100]), axis=alt.Axis(title='Ausbildung')),
    y = alt.Y('prestige', scale=alt.Scale(domain=[0, 100]), axis=alt.Axis(title='Ansehen in der Gesellschaft')),
    color = alt.Color('type', legend=alt.Legend(title='Berufskategorie', orient='bottom', titleFontSize=14, labelFontSize=14, symbolSize=175)),
    size = alt.Size('income', legend=alt.Size(title='Einkommen', orient='bottom', titleFontSize=14, labelFontSize=14)),
    tooltip = ['jobtitle','income']
).properties(
    title = alt.TitleParams(
        text = ['Professional:', 
                'Berufe mit spezieller Ausbildung und Qualifikation',
                'und mit hoher Expertise und teils hoher Verantwortung.',
                '']
    )
).transform_filter(
    alt.datum.type == 'prof'
)

bcChart | wcChart | profChart

Oder alles zusammen in einem einzigen Chart, dieses dafür etwas grösser.

In [None]:
import pandas as pd
import altair as alt
alt.Chart(df).mark_circle().encode(
    x = alt.X('education', scale=alt.Scale(domain=[0, 105]), axis=alt.Axis(title='Ausbildung')),
    y = alt.Y('prestige', scale=alt.Scale(domain=[0, 105]), axis=alt.Axis(title='Ansehen in der Gesellschaft')),
    color = alt.Color('type', legend=alt.Legend(title='Berufskategorie', orient='right', titleFontSize=14, labelFontSize=14, symbolSize=175)),
    size = alt.Size('income', legend=alt.Size(title='Einkommen', orient='right', titleFontSize=14, labelFontSize=14)),
    tooltip = ['jobtitle','income']
).properties(
    width = 750,
    height = 750,
    title = alt.TitleParams(
        text = ['',
                'Berufe und ihr Ansehen in der Gesellschaft, sowie deren Salär und Ausbildung.',
                '']
    )
).configure_title(
    fontSize = 25,   
    font = 'Arial',  
    anchor='start', 
    color='black'
)

Jetzt fehlt uns nur noch ein Untertitel für die Grafik und die Zuweisung von eigenen Farben auf die Berufskategorie.

In [None]:
import pandas as pd
import altair as alt
grafik = alt.Chart(df).mark_circle().encode(
    x = alt.X('education', scale=alt.Scale(domain=[0, 105]), axis=alt.Axis(title='Ausbildung', labelFontSize=13, titleFontSize=17)),
    y = alt.Y('prestige', scale=alt.Scale(domain=[0, 105]), axis=alt.Axis(title='Ansehen in der Gesellschaft', labelFontSize=13, titleFontSize=17)),
    color = alt.Color('type', scale=alt.Scale(domain=['bc', 'wc', 'prof'], range=['blue', 'orange', 'green']), legend=alt.Legend(title='Berufskategorie', orient='right', titleFontSize=14, labelFontSize=14, symbolSize=175)),
    size = alt.Size('income', scale=alt.Scale(range=[100, 1000]), legend=alt.Size(title='Einkommen', orient='right', titleFontSize=14, labelFontSize=14)),
    tooltip = ['jobtitle','income']
).properties(
    width = 750,
    height = 750,
    title = alt.TitleParams(
        text = ['',
                'Berufe und ihr Ansehen in der Gesellschaft, sowie deren Salär und Ausbildung.',
                ''],
        fontSize = 21,   
        font = 'Arial',  
        anchor='start', 
        color='black'
    )
)


# Erstellen der Daten für die Unterschrift
untertitel_zeilen = pd.DataFrame({
    'text': ['Grafik-Skala ist von 1 - 105, damit Kreise in der Grafik bleiben',
             'Die Ratings sind jeweils in einer Skala von 1 - 100,'],
    'y': [30, 45] 
})


# Unterschrift über zwei Zeilen 
untertitel = alt.Chart(untertitel_zeilen).mark_text(
    align='center',
    fontSize=16,
    color='black'
).encode(
    y=alt.Y('y:Q', axis=None), 
    text='text:N'
).properties(
    width=750,
    height=60  
)


# Hauptgrafik und Unterschrift kombinieren
finale_grafik = alt.vconcat(grafik, untertitel).configure_concat(
    spacing = 20 
).configure_view(
    stroke = None,
    strokeWidth = 0  
)


finale_grafik


## Wichtige Links

> Altair's Visualization Grammar: https://www.youtube.com/watch?v=U7w1XumKK60

> Introduction to Altair in Python: https://www.geeksforgeeks.org/introduction-to-altair-in-python

> Altair in Python Tutorial Data Visualizations: https://www.datacamp.com/tutorial/altair-in-python


## That's All Folks