In [9]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.preprocessing import LabelEncoder

# 1. CSV-Datei einlesen
df = pd.read_csv("MathE dataset.csv", encoding='latin1', sep=';', on_bad_lines='skip')

# 2. Überblick über die Datentypen
print("Daten-Typen der Spalten:")
print(df.dtypes)

# 3. Überprüfen auf fehlende Werte (NaN)
print("\nFehlende Werte in den Spalten:")
print(df.isnull().sum())

# 4. Überprüfen, ob numerische Spalten als Strings interpretiert werden
for col in df.columns:
    if df[col].dtype == 'object':
        try:
            df[col] = pd.to_numeric(df[col], errors='raise')
        except ValueError:
            print(f"Spalte '{col}' enthält nicht-numerische Werte, die konvertiert werden müssen.")

# 5. Nach doppelten Zeilen suchen
print("\nDoppelte Zeilen:")
print(df.duplicated().sum())

# 6. Textspalten kombinieren (Subtopic und Keywords zusammenführen)
if 'Subtopic' in df.columns and 'Keywords' in df.columns:
    df['Combined'] = df['Subtopic'] + ',' + df['Keywords']
else:
    print("Spalten 'Subtopic' oder 'Keywords' fehlen.")

# 7. Bag-of-Words anwenden
if 'Combined' in df.columns:
    vectorizer = CountVectorizer(tokenizer=lambda x: x.split(','), token_pattern=None)
    bow_matrix = vectorizer.fit_transform(df['Combined'])

    # In DataFrame umwandeln
    bow_df = pd.DataFrame(bow_matrix.toarray(), columns=vectorizer.get_feature_names_out(), index=df.index)
    print("Bag-of-Words erfolgreich angewendet.")
else:
    bow_df = pd.DataFrame()
    print("Bag-of-Words wurde übersprungen, da 'Combined' fehlt.")

# 8. Kategorische Spalten in numerische Werte umwandeln
categorical_columns = df.select_dtypes(include=['object', 'category']).columns
label_encoders = {}

for col in categorical_columns:
    le = LabelEncoder()
    df[col] = le.fit_transform(df[col].astype(str))  # Konvertieren und kodieren
    label_encoders[col] = le
    print(f"Spalte '{col}' wurde in numerische Werte umgewandelt.")

# 9. Ursprüngliche Daten ohne Textspalten
numerical_data = df.drop(columns=['Subtopic', 'Keywords', 'Combined'], errors='ignore')

# 10. Kombinieren von Bag-of-Words-Matrix und restlichen Daten
final_df = pd.concat([numerical_data, bow_df], axis=1)

# 11. Ergebnisse speichern
processed_file_path = 'processed_dataset.csv'
final_df.to_csv(processed_file_path, index=False)
print(f"Die Daten wurden verarbeitet und in '{processed_file_path}' gespeichert.")


Daten-Typen der Spalten:
Student ID          int64
Student Country    object
Question ID         int64
Type of Answer      int64
Question Level     object
Topic              object
Subtopic           object
Keywords           object
dtype: object

Fehlende Werte in den Spalten:
Student ID         0
Student Country    0
Question ID        0
Type of Answer     0
Question Level     0
Topic              0
Subtopic           0
Keywords           0
dtype: int64
Spalte 'Student Country' enthält nicht-numerische Werte, die konvertiert werden müssen.
Spalte 'Question Level' enthält nicht-numerische Werte, die konvertiert werden müssen.
Spalte 'Topic' enthält nicht-numerische Werte, die konvertiert werden müssen.
Spalte 'Subtopic' enthält nicht-numerische Werte, die konvertiert werden müssen.
Spalte 'Keywords' enthält nicht-numerische Werte, die konvertiert werden müssen.

Doppelte Zeilen:
2083
Bag-of-Words erfolgreich angewendet.
Spalte 'Student Country' wurde in numerische Werte umgewandelt.
S

In [10]:
final_df


Unnamed: 0,Student ID,Student Country,Question ID,Type of Answer,Question Level,Topic,and inequalities,and total probability rules,equations,image and graphics,...,trigonometric substitution,unconstrained optimization,undetermined solution of linear system,union of sets,variance,vector spaces,venn diagram,volume of revolution,x-simple region (type ii),y-simple region (type i)
0,647,0,77,0,1,13,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,41,3,77,1,1,13,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,340,3,77,1,1,13,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,641,1,77,0,1,13,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,669,3,77,1,1,13,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9541,175,1,1497,1,1,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
9542,175,1,1514,0,1,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
9543,175,1,1521,0,1,4,1,0,1,0,...,0,0,0,0,0,0,0,0,0,0
9544,175,1,1526,1,1,4,1,0,1,0,...,0,0,0,0,0,0,0,0,0,0
