# Verbindung zur Datenbank und Laden der Daten

Zunächst stellen wir eine Verbindung zu Cassandra her und laden die Daten aus der erweiterten Studenten-Tabelle. Wir messen auch die Zeit, die das Laden der Daten benötigt.

In [1]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split, cross_val_score
from cassandra.cluster import Cluster
from sklearn.preprocessing import LabelEncoder
import time 
import pandas as pd

In [2]:
# Connect to Cassandra
cluster = Cluster(['cassandra'])
session = cluster.connect('oulad')  # connect to your keyspace

In [3]:
# Time the query execution
start_time = time.time()
rows = session.execute('SELECT * FROM student_vle_extended')
end_time = time.time()

In [4]:
student_vle_extended = pd.DataFrame(list(rows))

# Vorbereitung der Daten

Um mit den Daten arbeiten zu können, müssen wir einige Vorverarbeitungsschritte durchführen. Wir verwenden den LabelEncoder, um kategoriale Variablen in numerische Werte umzuwandeln. Dann mischen wir die Daten, um sicherzustellen, dass unser Modell nicht von der ursprünglichen Sortierung der Daten beeinflusst wird.

In [5]:
student_vle_extended.head()

Unnamed: 0,id_student,code_module,code_presentation,id_site,date,has_withdrawn,sum_click
0,113295,AAA,2013J,546614,-9,False,2
1,113295,AAA,2013J,546614,-7,False,1
2,113295,AAA,2013J,546614,1,False,6
3,113295,AAA,2013J,546614,2,False,9
4,113295,AAA,2013J,546614,3,False,8


In [6]:
# Transform categorical columns to numeric
le = LabelEncoder()
student_vle_extended['code_module'] = le.fit_transform(student_vle_extended['code_module'])
student_vle_extended['code_presentation'] = le.fit_transform(student_vle_extended['code_presentation'])

In [7]:
student_vle_extended.head()

Unnamed: 0,id_student,code_module,code_presentation,id_site,date,has_withdrawn,sum_click
0,113295,0,1,546614,-9,False,2
1,113295,0,1,546614,-7,False,1
2,113295,0,1,546614,1,False,6
3,113295,0,1,546614,2,False,9
4,113295,0,1,546614,3,False,8


Anschließend trennen wir die Zielvariable (has_withdrawn) von den Merkmalen und teilen die Daten in Trainings- und Testsätze auf.

In [8]:
student_vle_extended = student_vle_extended.sample(frac=1, random_state=42)

# Prepare the data
X = student_vle_extended.drop(columns=['has_withdrawn'])
y = student_vle_extended['has_withdrawn']

# Split the data into training and test sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


## Modelltraining und -evaluation

Wir verwenden den Random Forest Classifier zur Klassifizierung. Nachdem wir das Modell trainiert und Vorhersagen getroffen haben, berechnen wir die Genauigkeit des Modells auf dem Testset.

In [9]:
# Create a classifier
clf = RandomForestClassifier(n_estimators=100, random_state=42)

# Train the classifier
clf.fit(X_train, y_train)

# Make predictions
y_pred = clf.predict(X_test)

# Evaluate the model
accuracy = clf.score(X_test, y_test)
print(f'Accuracy: {accuracy}')

Accuracy: 0.9286202516918424


Zusätzlich führen wir eine Kreuzvalidierung durch, um eine robustere Schätzung der Modellleistung zu erhalten.


In [None]:
# Perform cross-validation
scores = cross_val_score(clf, X, y, cv=5)

print("Accuracy: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std() * 2))


Merkmalswichtigkeiten

Zum Schluss schauen wir uns die Wichtigkeit der Merkmale an. Dies hilft uns zu verstehen, welche Merkmale das Modell für seine Vorhersagen als besonders nützlich ansieht.

In [None]:
# Create a pandas DataFrame with the feature importances
feature_importances = pd.DataFrame({'feature': X.columns, 'importance': clf.feature_importances_})

# Sort the DataFrame by importance
feature_importances = feature_importances.sort_values('importance', ascending=False)

# Print the DataFrame
print(feature_importances)

Am Ende des Prozesses trennen wir die Verbindung zur Datenbank, um Ressourcen freizugeben.

In [None]:
session.shutdown()
cluster.shutdown()