## Blatt 2

#### Einleitung / Erklärung

Hier werden wir mittels Pandas die CSV-Dateien mergen. Wir benutzen nun Pandas, da die Aufgabenstellungen so langsam zu viel Arbeit werden und Atzmüller setzt sowieso voraus, dass man mit Pandas arbeitet, auch ich füge mich nun dieser Anweisung.

Imports:
 - Pandas, um eine möglichst allumfassende Lösung zum Verarbeiten von Datensätzen zu haben.
 - OS, um Pfade zielsicher erstellen zu können.
 - Numpy, um den Durchschnitt und den maximalen Wert zu berechnen.


In [1]:
import pandas as pd
import numpy as np
import os

Erstellen wir nun unsere Pfade für das Arbeitsverzeichnis, sowie den Ordner mit den CSV-Dateien.

In [2]:
BASE_DIR: str = os.getcwd()
CSV_DIR: str = os.path.join(BASE_DIR, 'csv')

Jetzt müssen wir noch die Operation zum Lesen und zum Schreiben aus und in die CSV überarbeiten.

Die Operation '**read_csv_data**' bekommt einen Dateipfad und versucht diesen einzulesen.

Die Operation '**write_csv_data**' bekommt einen Dateipfad, sowie einen DataFrame, den es in die Datei schreiben soll.

So einfach kann es gehen, wenn man nicht so stur ist wie ich....

In [3]:
def read_csv_data(file_name: str) -> list:
    return pd.read_csv(filepath_or_buffer=file_name, sep=';', quotechar='"')

In [4]:
def write_csv_data(file_name: str, df: pd.DataFrame) -> None:
    return df.to_csv(file_name)

#### JOIN

Schreiben wir nun unsere Join-Anweisung, wir müssen über mehrere Spalten joinen, diese sind in der Liste '**merge_on**' hinterlegt und kommen aus der Aufgabenstellung.

Wir mergen die zwei Dataframes df1 und df2 nach dem Literal '**how**' mit den Attributen aus der Liste. Wir benutzen '**on**' benutzen, da die Attribute in den DataFrames gleich sind.

In [5]:
def join_df(df1: pd.DataFrame, df2: pd.DataFrame, how):
    merge_on = ['school', 'sex', 'age', 'address', 'famsize', 'Pstatus', 'Medu', 'Fedu', 'Mjob', 'Fjob', 'reason', 'nursery', 'internet']
    return pd.merge(left=df1, right=df2, how=how, on=merge_on)
    pass

#### Testlauf

Testen wir unsere neue Operation. Dazu laden wir die beiden CSV-Dateien in zwei DataFrames und rufen anschließend die Merge Operation auf. Die Rückgabe in die CSV Datei beweist, dass hier alles richtig geschehen ist und somit sind wir auch hier fertig.

In [6]:
# Create DataFrames for testing
df1 = read_csv_data(file_name=os.path.join(CSV_DIR, 'student-mat.csv'))
df2 = read_csv_data(file_name=os.path.join(CSV_DIR, 'student-por.csv'))

# Merge DataFrames with different Literals
df_merged_left = join_df(df1=df1, df2=df2, how='left')
cells_count_left = len(df_merged_left.index)

df_merged_right = join_df(df1=df1, df2=df2, how='right')
cells_count_right = len(df_merged_right.index)

df_merged_inner = join_df(df1=df1, df2=df2, how='inner')
cells_count_inner = len(df_merged_inner.index)

# Output the length of the new lists to console
print(f'Left-Merge results in {cells_count_left} cell(s)')
print(f'Right-Merge results in {cells_count_right} cell(s)')
print(f'Inner-Merge results in {cells_count_inner} cell(s)')

# Write CSV data to file
write_csv_data(df=df_merged_left, file_name=os.path.join(CSV_DIR, 'student-merged-left.csv'))
write_csv_data(df=df_merged_right, file_name=os.path.join(CSV_DIR, 'student-merged-right.csv'))
write_csv_data(df=df_merged_inner, file_name=os.path.join(CSV_DIR, 'student-merged-inner.csv'))

Left-Merge results in 407 cell(s)
Right-Merge results in 657 cell(s)
Inner-Merge results in 382 cell(s)


#### BUT WAIT!

That's not everything! Wir müssen am besten noch die alten Sachen mit Pandas umsetzen! Es ist Sonntag, ich genieße ein [Havana Club Verde & Tonic](https://havana-club.com/de-de/rum/havana-club-verde-tonic-dose/), also ist meine Laune gut genug, um das vergangene Aufgabenblatt Revue passieren zu lassen.

Ich habe nämlich die Aufgabenstellung falsch verstanden; ich dachte, dass die Aufgabe den Maximalwert, sowie die Durchschnittsnote jedes einzelnen Studenten meinte, dabei war eigentlich der allgemeine Durchschnitt, sowie die beste Note aller Studenten gemeint.

In [7]:
def analyze_student_results(df: pd.DataFrame) -> tuple[pd.DataFrame, dict]:
    dict_analysis = []
    g_columns = ["G1", "G2", "G3"]

    for grade in g_columns:
        dict_analysis.append([grade, round(np.mean(df[grade]), 2), np.max(df[grade])])

    df_analysis = pd.DataFrame(dict_analysis, columns=['Grade', 'Mean', 'Max'])
    return df, df_analysis

In [8]:
# Create DataFrames for testing
df1 = read_csv_data(file_name=os.path.join(CSV_DIR, 'student-mat.csv'))
analyze_student_results(df=df1)

(    school sex  age address famsize Pstatus  Medu  Fedu      Mjob      Fjob   
 0       GP   F   18       U     GT3       A     4     4   at_home   teacher  \
 1       GP   F   17       U     GT3       T     1     1   at_home     other   
 2       GP   F   15       U     LE3       T     1     1   at_home     other   
 3       GP   F   15       U     GT3       T     4     2    health  services   
 4       GP   F   16       U     GT3       T     3     3     other     other   
 ..     ...  ..  ...     ...     ...     ...   ...   ...       ...       ...   
 390     MS   M   20       U     LE3       A     2     2  services  services   
 391     MS   M   17       U     LE3       T     3     1  services  services   
 392     MS   M   21       R     GT3       T     1     1     other     other   
 393     MS   M   18       R     LE3       T     3     2  services     other   
 394     MS   M   19       U     LE3       T     1     1     other   at_home   
 
      ... famrel freetime  goout  Dalc