# Vega-Altair

Altair is a declarative statistical visualization library for Python, based on Vega and Vega-Lite. It offers a powerful and concise grammar that enables you to quickly build a wide range of statistical visualizations. 

You can install Altair with the terminal command: 

`pip install "altair[all]"`

* More infos: Check the [installation guide](https://altair-viz.github.io/getting_started/installation.html) 
* Inspiration: Browse the [Example gallery](https://altair-viz.github.io/gallery/index.html#example-gallery) 
* Great Youtube tutorial: [Buy the guy who encoded Altair](https://youtu.be/ms29ZPUKxbU?feature=shared&t=6)

## 01 Plot Types

In [None]:
#import libraries
import altair as alt
import pandas as pd


In [None]:
#load data
df_raw = pd.read_csv("data/pokemon.csv")
df_raw.head(2)

### Data Cleaning

In [None]:
df_raw.columns

In [None]:
# select the columns we really want

df = df_raw[['name', 'type1',	'type2', 'classfication', 'height_m', 'weight_kg','year',
              'is_legendary', 'attack','speed','hp', 'base_happiness',  'capture_rate']]

In [None]:
# wir schauen nur Pokemons der 1. Generation an
df = df[df['year']==1996]

In [None]:
# sind alle spalten im richtigen Datentyp?
df.dtypes

In [None]:
# ... capture rate könnte ein integer sein.

df['capture_rate'] = df['capture_rate'].astype(int)

In [None]:
# Wir speichern das df als csv für spätere Notebooks
df.to_csv('data/pokemon_gen1.csv', index =False)

## Exkurs: Mehr pandas-funktionen

In [None]:
df['type1'].value_counts()

In [None]:
df['type1'].value_counts().reset_index()

groupby.() führt eine Funktion (z.B. Durchschnitt, Maximum, Summe, ect) pro Kategorie aus. Format: <br>
`df.groupby(<Kategorie>)[<Werte>].<funktion()>`

In [None]:
# groupby
df.groupby('type1')['weight_kg'].mean()

## Plotting




### Anatomy of an Altair chart
An altair plot always follows this schema:

    alt.Chart(df).mark_bar().encode(
        x = 'column_A',
        y = 'column_B
    )

`Chart()`: variable inside sets from which dataframe data should be plotted <br>
`mark_bar()`: choose which form the plot should take<br>
`encode`: set what to plot


##### Bar chart

In [None]:
df_top_height = df.sort_values('height_m', ascending = False).head(10)
df_top_height

In [None]:
# Bar chart
alt.Chart(df_top_height).mark_bar().encode(
    x = 'height_m',
    y = alt.Y('name', sort='-x' )
)

### Plot types

There is 
* `mark_bar`
* `mark_line`
* `mark_area` 
* `mark_point`
* `mark_boxplot`
* `mark_square`

Nicht in diesem Notebook
* `mark_arc` <- [Donut-Chart](https://altair-viz.github.io/gallery/donut_chart.html)


##### Line chart
Line charts machen besonders bei zeitlichen Abläufen Sinn.

In [None]:
# wir nehmen wieder den gesamten DF vom Anfang (vor der selektion auf Generation 1)
df_raw.head(2)

In [None]:
# wie viele Pokemons gab es pro Generation?
df_generation = df_raw.value_counts('year').reset_index().sort_values('year')
df_generation

In [None]:
# Line chart
alt.Chart(df_generation).mark_line().encode(
    x = 'year',
    y = 'count'
)

### Flächenchart

In [None]:
# Line chart
alt.Chart(df_generation).mark_area().encode(
    x = 'year',
    y = 'count'
)

#### Scatterplot
Dot plots eignen sich gut um Zusammenhänge zwischen Zahlenwerten aufzuzeigen.

In [None]:
df.head(2)

In [None]:
# Je grösser desto schwerer?

alt.Chart(df).mark_point().encode(
    x = 'weight_kg',
    y = 'height_m', 
    tooltip = ['name', 'weight_kg', 'height_m']
)

In [None]:
# Wähle zwei eigene Spalten und vergleiche sie mit einem Scatterplot



### Boxplot
Boxplots zeigen die Verteilung von Werten nach Kategorie an.

In [None]:
df.head(1)

In [None]:
alt.Chart(df).mark_boxplot().encode(
    x = 'type1', 
    y = 'attack', 
    tooltip=['name', 'type1']
)

### Heatmap
Heatmap eignen sich gut um Werte in Farbe darzustellen, wobei die Achsen direkt miteinader im Bezug stehen. Sie kommen vor allem bei zeitlichen Daten zur Anwendung, z.B. um Werte über ein Jahr hinweg pro Tage & Monat darzustellen.

In [None]:
# Weil unser Dataframe noch keine Zeitdaten hat fügen wir fiktive Daten ein, wann wir das Pokemon gefangen haben. 
import numpy as np

# S
# eries von zufälligen Daten 
df_raw["capture_date"] = pd.to_datetime(
    np.random.choice(pd.date_range("2024-01-01", "2024-12-31"), size=len(df_raw))
)

In [None]:
# Wir prüfen, dass die Datumszeile mit dabei ist
df_raw.head(2)

In [None]:
# sicherstellen, dass "capture_date" im Datumsformat ist
df_raw.dtypes

In [None]:
df_capture_grouped = df_raw.groupby('capture_date')['name'].count().reset_index()
df_capture_grouped = df_capture_grouped.rename(columns={'name':'count'})

In [None]:
df_capture_grouped

In [None]:
alt.Chart(df_capture_grouped).mark_rect().encode(
    x = alt.X('date(capture_date):O'),
    y = alt.Y('month(capture_date):O'),
    color = alt.Color('count'), 
    tooltip = ['capture_date', 'count']
)

## Quizz


In [None]:
df

1. Erstelle einen Barchart mit den 10 langsamtsen Pokemons. 
* X-Achse: speed
* Y-Achse: name


2. Zeige die durchschnittliche Attack-Werte nach Jahr an mit dem df `df_mean_attack_year`

In [None]:
# Neuer Dataframe, der nach Jahr gruppiert und für 'attack' den Durchschnitt ausrechnet
df_mean_attack_year = df_raw.groupby('year')['attack'].mean().reset_index()
df_mean_attack_year

In [None]:
alt.Chart(df_mean_attack_year).mark_line().encode(
    x = 'year', 
    y = 'attack'
)

In [None]:
df

3. Erstelle ein Punktdiagramm von speed vs. hp. (Basis: df)
* Füge ein Tooltip mit name, speed & hp hinzu.

In [None]:
alt.Chart(df).mark_point().encode(
    x = 'speed',
    y = 'hp',
    tooltip=['name', 'hp', 'speed']
    
)

4. Erstelle einen Boxplot mit type2 als x-Achse und capture_rate auf der y-Achse (Basis: df)

In [None]:
df.head(1)

In [None]:
alt.Chart(df).mark_boxplot().encode(
    x = 'type2', 
    y = 'capture_rate', 
    tooltip='name'
)

5. Bonus: erstelle ein Heatmap, welche type1 und type2 als Achsen hat. <br>
Tipp: verwende `color = alt.Color('count(name)')` um die Anzahl Werte pro Feld einzufärben

In [None]:
alt.Chart(df).mark_rect().encode(
    x = 'type1', 
    y = 'type2', 
    color = alt.Color('count(name)'),
    tooltip = ['count(name)']
)