# Teil 1: Daten laden, Bereinigen und Visualisieren
## Mit Polars und Seaborn

In diesem Notebook werden die Daten geladen, bereinigt und visualisiert. Dabei werden die Polars und Seaborn Bibliotheken verwendet.

Polars bietet uns Datentypen um mit tabellarischen Daten zu arbeiten (DataFrame und Series). Außerdem werden eine Menge von Methoden bereitgestellt um Daten zu bereinigen und zu transformieren. Polars ist eine sehr performante Bibliothek, die auf Apache Arrow basiert und somit sehr gut mit dem Apache Big Data Ökosystem kompatibel ist.  
Sie ist dazu sehr performant und kann, im Gegenzug zur Pandas Bibliothek, sehr große Datenmengen verarbeiten (Out-of-Memory Query Engine).

Seaborn bietet uns eine einfache Möglichkeit um Grafiken übersichtlich und visuell ansprechend aufzubereiten, ohne uns in den komplexen Einstellungsmöglichkeiten von matplotlib zu verlieren, auf welcher seaborn basiert.  

Numpy und Scipy sind Mathematik bzw. Wissenschaftliche quasi-Standard Bibliotheken und bieten uns eine Vielfalt an bekannten Funktionen und Methoden.


Damit haben wir bereits alles, was wir benötigen, um eine erste Analyse der Daten durchzuführen und mit diesen Ergebnissen später ein Modell zu entwickeln, um eine Vorhersage zu treffen.

In [20]:
import random
import numpy as np
import scipy as sp
import polars as pl
import seaborn as sns
sns.set_theme()

Zur Veranschaulichung des Analytics/Modeling Prozesses verwenden wir einen kleinen Datensatz der einfach verständlich ist. In der Praxis hat man es oft mit komplexeren Daten zu tun, die eine Menge an Vorverarbeitung und Reduktion benötigen, um sie für das Modellieren zu nutzen.  
Öffentlich verfügbare, reale Datensätze sind leider oft anonymisiert und daher nicht leicht verständlich.

Daten können in unterschiedlichen Formaten vorliegen. Da jedes Unternehmen eine eigene Dateninfrastruktur besitzt, verwenden wir für diesesn Workshop Dateien als universelle und menschenlesbare Datenquelle.  

Polars macht es einfach, direkt aus solchen Dateiformaten in einen DataFrame einzulesen: 

In [6]:
# polars doku unter https://pola-rs.github.io/polars-book/user-guide/index.html

# datensatz: https://www.kaggle.com/datasets/vinayakshanawad/cement-manufacturing-concrete-dataset
df = pl.read_csv("00_resources/data/concrete.csv")
print(type(df))
print(df)
# print(
#     pl.lazy()
#     .filter(pl.col("sepal_length") > 2)
#     .groupby("species", maintain_order=True)
#     .agg(pl.all().mean())
#     .collect()
# )


<class 'polars.internals.dataframe.frame.DataFrame'>
shape: (1030, 9)
┌────────┬───────┬───────┬───────┬─────┬───────────┬─────────┬─────┬──────────┐
│ cement ┆ slag  ┆ ash   ┆ water ┆ ... ┆ coarseagg ┆ fineagg ┆ age ┆ strength │
│ ---    ┆ ---   ┆ ---   ┆ ---   ┆     ┆ ---       ┆ ---     ┆ --- ┆ ---      │
│ f64    ┆ f64   ┆ f64   ┆ f64   ┆     ┆ f64       ┆ f64     ┆ i64 ┆ f64      │
╞════════╪═══════╪═══════╪═══════╪═════╪═══════════╪═════════╪═════╪══════════╡
│ 141.3  ┆ 212.0 ┆ 0.0   ┆ 203.5 ┆ ... ┆ 971.8     ┆ 748.5   ┆ 28  ┆ 29.89    │
│ 168.9  ┆ 42.2  ┆ 124.3 ┆ 158.3 ┆ ... ┆ 1080.8    ┆ 796.2   ┆ 14  ┆ 23.51    │
│ 250.0  ┆ 0.0   ┆ 95.7  ┆ 187.4 ┆ ... ┆ 956.9     ┆ 861.2   ┆ 28  ┆ 29.22    │
│ 266.0  ┆ 114.0 ┆ 0.0   ┆ 228.0 ┆ ... ┆ 932.0     ┆ 670.0   ┆ 28  ┆ 45.85    │
│ ...    ┆ ...   ┆ ...   ┆ ...   ┆ ... ┆ ...       ┆ ...     ┆ ... ┆ ...      │
│ 531.3  ┆ 0.0   ┆ 0.0   ┆ 141.8 ┆ ... ┆ 852.1     ┆ 893.7   ┆ 3   ┆ 41.3     │
│ 276.4  ┆ 116.0 ┆ 90.3  ┆ 179.6 ┆ ... ┆ 870.1    

Ein `print()` des DataFrame liefert einen gekürzten Auszug der Header und des Inhalts und die Dimensionen der Tabelle (shape: Zeilen, Spalten).  
Da wir die harte Arbeit aber dem Computer überlassen wollen, sollte dies nur als Gedankenstütze dienen.  
Weitere Methoden sind `.head(n)` und `.tail(n)` um die ersten bzw. letzten n Zeilen des DataFrame anzuzeigen.  

Mit der Methode `.describe()` kann eine statistische Übersicht über die Daten gegeben werden.

In [7]:
print(df.describe())

shape: (7, 10)
┌───────────┬───────────┬───────────┬───────────┬─────┬─────────┬───────────┬───────────┬──────────┐
│ describe  ┆ cement    ┆ slag      ┆ ash       ┆ ... ┆ coarsea ┆ fineagg   ┆ age       ┆ strength │
│ ---       ┆ ---       ┆ ---       ┆ ---       ┆     ┆ gg      ┆ ---       ┆ ---       ┆ ---      │
│ str       ┆ f64       ┆ f64       ┆ f64       ┆     ┆ ---     ┆ f64       ┆ f64       ┆ f64      │
│           ┆           ┆           ┆           ┆     ┆ f64     ┆           ┆           ┆          │
╞═══════════╪═══════════╪═══════════╪═══════════╪═════╪═════════╪═══════════╪═══════════╪══════════╡
│ count     ┆ 1030.0    ┆ 1030.0    ┆ 1030.0    ┆ ... ┆ 1030.0  ┆ 1030.0    ┆ 1030.0    ┆ 1030.0   │
│ null_coun ┆ 0.0       ┆ 0.0       ┆ 0.0       ┆ ... ┆ 0.0     ┆ 0.0       ┆ 0.0       ┆ 0.0      │
│ t         ┆           ┆           ┆           ┆     ┆         ┆           ┆           ┆          │
│ mean      ┆ 281.16786 ┆ 73.895825 ┆ 54.18835  ┆ ... ┆ 972.918 ┆ 773.58048 

Dies ist eine gute Möglichkeit um einen ersten Eindruck über die Daten zu bekommen.
Zum Beispiel kann das Verhältnis von `mean` zu `std` eine erste Einschätzung über die Präsenz von Außenseitern geben.
Auch ist es wichtig, um die Skalen der Daten zu verstehen - dies wird beim Modellieren wichtig.

Ein weiterer wichtiger Aspekt ist, ob invalide Datenpunkte vorhanden sind. Das können z.b. fehlende Werte sein (Sensorausfall), aber auch ungültige Werte, die nicht in den erwarteten Bereich fallen (Nicht abgefangene Eingaben). 
Typischerweise werden diese in Polars als `null` dargestellt (Pandas: `NA`) und machen den gesamten Datenpunkt unbrauchbar. Numerisch nicht verwendbare Werte wie `+/-inf` oder `nan` sind ebenfalls ein Problem (allerdings sind dies keine _fehlenden_ Werte).

Oft wird man diese Werte einfach aus dem Datensatz entfernen, um das Ergebnis nicht zuverfälschen.
Allerdings kann dies zu einem Verlust von Informationen führen, wenn die Anzahl der ungültigen Werte zu groß ist.
Daher _kann_ es sinnvoll sein, diese Werte mit speziellen Werten zu ersetzen.
Eine weitere Möglichkeit ist "Clipping" - also das Setzen von Grenzwerten, die außerhalb des erwarteten Bereichs liegen.


In der Praxis ist dies nahezu immer erforderlich, da "echte" Daten häufig "verunreinigt" sind.

Mit folgender Zeile können wir die Anzahl der `null` Werte pro Spalte ausgeben lassen (`.describe()` kann in der Übersicht einige Spalten auslassen):

In [16]:
for col in df.get_columns():
    print(f'{col.name : <24} {col.is_null().sum()}')

cement                   0
slag                     0
ash                      0
water                    0
superplastic             0
coarseagg                0
fineagg                  0
age                      0
strength                 0


In diesem Beispiel haben wir Glück - diese Daten sind bereits bereinigt und wir könnten direkt mit der Visualisierung beginnen.  
Sonst gibt es einen einfachen Weg, alle Zeilen (Datenpunkte) mit mindestens einem `null`-Wert zu entfernen:

In [28]:
df.drop_nulls(); # dieses semikolon unterdrückt den grafischen output, wir wissen ja dass sich nichts ändert
#oder 
df.fill_null(0); # ersetzt alle nullwerte mit 0
# bei heterogenen daten jedoch pro spalte mit dem jeweiligen typen (float, int, text, etc.)
df.select(
    pl.col("cement").fill_null(0)
);