## Datenimport und Vorbereitung
In diesem Abschnitt des Notebooks kümmern wir uns um den Import und die Vorbereitung unserer Daten. Die Daten, mit denen wir arbeiten, stammen aus der "Open University Learning Analytics Dataset" (OULAD). Dieses Dataset enthält Informationen über die Interaktionen der Studierenden mit der virtuellen Lernumgebung (VLE) der Open University sowie allgemeine Informationen über die Studierenden selbst.

Zwei spezifische Teile des OULAD werden in diesem Notebook verwendet: die studentInfo.csv und die studentVle.csv Dateien. Die studentInfo.csv Datei enthält allgemeine Informationen über die Studierenden, darunter demografische Daten, vorherige Versuche und das Endergebnis des Studiengangs. Die studentVle.csv Datei enthält Daten über die Interaktionen der Studierenden mit der VLE, einschließlich der Anzahl der Klicks und der spezifischen Ressource, auf die zugegriffen wurde.

Um die Daten für unsere spätere Analyse vorzubereiten, führen wir zunächst einige grundlegende Datentransformationen durch. Zuerst entfernen wir alle Zeilen, in denen Daten fehlen, um sicherzustellen, dass unsere Analyse nur auf vollständigen Daten basiert.

Anschließend fügen wir in der studentInfo.csv Datei eine neue Spalte namens has_withdrawn hinzu. Diese Spalte ist ein boolesches Flag, das angibt, ob ein Student seinen Studiengang abgebrochen hat oder nicht. Wir erstellen diese Spalte, indem wir das final_result Feld jedes Studenten überprüfen und True setzen, wenn das Ergebnis 'Withdrawn' ist, und False sonst. Diese neue Spalte wird uns später helfen, das Muster des Studienabbruchs besser zu verstehen und zu analysieren.

In [1]:
import pandas as pd
import logging
from cassandra.cluster import Cluster, BatchStatement, ExecutionProfile,  EXEC_PROFILE_DEFAULT
from cassandra.policies import DCAwareRoundRobinPolicy


In [2]:
student_info = pd.read_csv('../data/studentInfo.csv')
student_vle = pd.read_csv('../data/studentVle.csv')

In [3]:
# Data cleaning: removing lines with missing values
student_info = student_info.dropna()
student_vle = student_vle.dropna()

In [4]:
# Create a new column indicating whether a student has withdrawn
student_info['has_withdrawn'] = student_info['final_result'] == 'Withdrawn'

## Einrichtung der Cassandra-Datenbank

Zur Einrichtung unserer Datenbank in Cassandra führen wir zunächst einen Befehl aus, um einen neuen Keyspace namens 'oulad' zu erstellen. Ein Keyspace in Cassandra ist vergleichbar mit einer Datenbank in relationalen Datenbanksystemen und dient als Container für unsere Tabellen.

Danach erstellen wir vier Tabellen innerhalb unseres Keyspace: student_info und student_vle. Jede dieser Tabellen entspricht einer der CSV-Dateien in unserem Dataset und enthält eine Reihe von Spalten, die den Feldern in der entsprechenden CSV-Datei entsprechen. Bei der Erstellung dieser Tabellen definieren wir auch die Primärschlüssel für jede Tabelle, die bestimmen, wie die Daten in der Tabelle verteilt und gespeichert werden.

In [5]:
# Create Cassandra tables

# Create the cluster with contact points and load balancing policy
cluster = Cluster(['cassandra'], port=9042)

# Create a session
session = cluster.connect()

In [6]:
session.execute("""
    CREATE KEYSPACE IF NOT EXISTS oulad 
    WITH REPLICATION = { 'class' : 'SimpleStrategy', 'replication_factor' : 1 }
""")
session.set_keyspace('oulad')

In [7]:
# Define table for student_info
session.execute("""
    CREATE TABLE IF NOT EXISTS student_info (
        id_student int,
        code_module text,
        code_presentation text,
        gender text,
        region text,
        highest_education text,
        imd_band text,
        age_band text,
        num_of_prev_attempts int,
        studied_credits int,
        disability text,
        final_result text,
        has_withdrawn boolean,
        PRIMARY KEY(id_student, code_module, code_presentation)
    )
""")

<cassandra.cluster.ResultSet at 0x7f9f431ea080>

In [8]:
# Create table for student_vle
session.execute("""
    CREATE TABLE IF NOT EXISTS student_vle (
        code_module text,
        code_presentation text,
        id_student int,
        id_site int,
        date int,
        sum_click int,
        PRIMARY KEY (id_student, id_site, date)
    )
""")

<cassandra.cluster.ResultSet at 0x7f9f431e9870>

## Daten in Cassandra einfügen
Das Einfügen von Daten in Cassandra wird über die execute-Methode einer Session realisiert. In unserem Fall verwenden wir jedoch eine spezielle Methode namens BatchStatements, um die Effizienz zu verbessern.

BatchStatements erlauben es uns, mehrere Anweisungen als ein einzelnes Paket auszuführen, das zur Ausführung an Cassandra gesendet wird. Es handelt sich um eine praktische Möglichkeit, mehrere Aktualisierungen auf einmal durchzuführen und Netzwerkroundtrips zu minimieren.

Zunächst wird ein BatchStatement-Objekt erstellt. Dann wird eine vorbereitete Einfügeanweisung erstellt, die auf die zuvor erstellten Cassandra-Tabellen abzielt. Die Platzhalter ? in der Einfügeanweisung werden später durch die tatsächlichen Datenwerte ersetzt.

Danach durchlaufen wir jede Zeile des Pandas-Dataframe und fügen die Datenwerte in das BatchStatement ein. Wenn das BatchStatement zehn Datenzeilen erreicht, wird es ausgeführt und das BatchStatement geleert. Dieser Prozess wird wiederholt, bis alle Daten in das BatchStatement eingefügt und in Cassandra eingefügt sind.

Dieses Verfahren ist nicht nur effizient, sondern ermöglicht auch eine ordnungsgemäße Verwaltung der Datenladung. Sollte ein Fehler während der Ausführung eines Batchs auftreten, werden nur die Anweisungen in diesem speziellen Batch nicht ausgeführt, während die vorherigen und nachfolgenden Batches nicht betroffen sind.

Es ist zu beachten, dass, obwohl BatchStatements effizient sind, ihre übermäßige Verwendung vermieden werden sollte, da sie mehr Ressourcen als einzelne Anweisungen verbrauchen können. In unserem Fall ist die Verwendung von BatchStatements gerechtfertigt, da wir mit einer großen Menge an Daten arbeiten.


In [9]:
# Function to insert data into Cassandra using batches
def insert_into_cassandra(data_frame, table_name):
    batch = BatchStatement()
    query = session.prepare(f"INSERT INTO {table_name} ({','.join(data_frame.columns)}) VALUES ({','.join(['?' for _ in data_frame.columns])})")

    for _, row in data_frame.iterrows():
        batch.add(query, tuple(row))
        if len(batch) == 10:
            session.execute(batch)
            batch.clear()

    if len(batch) > 0:
        session.execute(batch)

In [10]:
# Insert data into Cassandra for student_info table
insert_into_cassandra(student_info, 'student_info')

In [None]:
# Insert data into Cassandra for student_vle table
insert_into_cassandra(student_vle, 'student_vle')

## Erstellung einer erweiterten Tabelle und Zusammenführung der Daten

Nachdem die grundlegenden Tabellen in Cassandra erstellt und mit Daten gefüllt wurden, wollen wir nun eine erweiterte Tabelle erstellen. Diese erweiterte Tabelle soll zusätzliche Informationen enthalten, die für unsere Analyse von Bedeutung sind.

Die Tabelle student_vle_extended wird erstellt, um Daten aus der student_vle-Tabelle mit Informationen aus der student_info-Tabelle zusammenzuführen. Die Absicht dabei ist es, eine umfassendere Datenansicht zu erzeugen, die sowohl Informationen über die Interaktion der Studierenden mit dem virtuellen Lernumfeld (VLE) als auch über ihre persönlichen Informationen enthält.

Besonders wichtig für unsere Analyse ist das Feld has_withdrawn, das wir zuvor in der student_info-Tabelle erstellt haben. Diese Information wird nun in die student_vle_extended-Tabelle aufgenommen, damit wir leichter Untersuchungen zum Studienabbruch durchführen können.

Um die Zusammenführung der Daten zu bewerkstelligen, verwenden wir die Merge-Funktion der pandas-Bibliothek. Dies erlaubt es uns, die beiden Dataframes anhand von gemeinsamen Spalten, in diesem Fall id_student, code_module und code_presentation, zu verbinden. Das Ergebnis dieser Operation ist ein neuer Dataframe, der alle Spalten aus beiden ursprünglichen Dataframes enthält.

Schließlich werden die Daten aus dem zusammengeführten Dataframe in die student_vle_extended-Tabelle in Cassandra eingefügt, ähnlich wie wir es zuvor getan haben. Nun haben wir eine erweiterte und bereinigte Datenansicht, die bereit für die weitere Analyse ist.


In [None]:
# Create table
session.execute("""
    CREATE TABLE IF NOT EXISTS student_vle_extended (
        id_student int,
        code_module text,
        code_presentation text,
        id_site int,
        date int,
        sum_click int,
        has_withdrawn boolean,
        PRIMARY KEY (id_student, code_module, code_presentation, id_site, date)
    )
""")

# Merge two dataframes
merged_data = pd.merge(student_vle, student_info[['id_student', 'code_module', 'code_presentation', 'final_result']], on=['id_student', 'code_module', 'code_presentation'], how='left')
merged_data['has_withdrawn'] = merged_data['final_result'] == 'Withdrawn'

# Insert data into table
batch = BatchStatement()

# Function to insert data into student_vle_extended
def insert_into_student_vle_extended(row, batch):
    prepared = session.prepare("""
        INSERT INTO student_vle_extended (id_student, code_module, code_presentation, id_site, date, sum_click, has_withdrawn)
        VALUES (?, ?, ?, ?, ?, ?, ?)
    """)
    batch.add(prepared, (int(row['id_student']), row['code_module'], row['code_presentation'], int(row['id_site']), int(row['date']), int(row['sum_click']), bool(row['has_withdrawn'])))
    if len(batch) == 10:
        session.execute(batch)
        batch.clear()

# Apply the insertion function to merged_data
merged_data.apply(insert_into_student_vle_extended, args=(batch,), axis=1)

# Execute the remaining batch
if len(batch) > 0:
    session.execute(batch)


Am Ende des Prozesses trennen wir die Verbindung zur Datenbank, um Ressourcen freizugeben.

In [None]:
# Close the connection
session.shutdown()
cluster.shutdown()