In [1]:
# Öncelikle tüm json dosyalarını okuyarak her birini ayrı ayrı dataframelere çevirelim

import pandas as pd
import json

def load_json_to_dataframe(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        data = json.load(file)

    questions = data["questions"]
    answers = data["answers"]

    lc_true = len(questions) > 1

    answer_column_name = file_path + " answers"

    result_rows = []

    for answer in answers:
        student_id = answer.get("id", "")
        combined_text = ""

        if lc_true:
            # Multiple questions: match each with an answer
            question_index = 1  # skip first question if it's just "id"
            for key in answer:
                if key == "id":
                    continue
                value = str(answer[key])
                if question_index < len(questions):
                    combined_text += questions[question_index] + " "
                combined_text += value + " "
                question_index += 1
        else:
            # Single question: combine all answers and prepend one question
            all_answers_combined = ""
            for key in answer:
                if key != "id":
                    all_answers_combined += str(answer[key]) + " "
            combined_text = questions[0] + " " + all_answers_combined.strip()

        result_rows.append([student_id, combined_text.strip()])

    df = pd.DataFrame(result_rows, columns=["id", answer_column_name])
    return df


json_files_sube_1 = [ "Labs/Lab1.ube_1.json", "Labs/Lab2.ube_1.json", 
                "LCs/LC1.section1.json",  "LCs/LC2.section1.json", 
                "LCs/LC3.section1.json",  "LCs/LC4.section1.json", 
                "LCs/LC5.section1.json", "LCs/LC6.section1.json",  
                "Quizzes/Quiz1.ube_1.json",  "Quizzes/Quiz2.ube_1.json" ]

json_files_sube_2 = [ "Labs/Lab1.ube_2.json", "Labs/Lab2.ube_2.json", 
                     "LCs/LC1.section2.json", "LCs/LC2.section2.json",
                      "LCs/LC3.section2.json", "LCs/LC4.section2.json", 
                      "LCs/LC6.section2.json",
                     "Quizzes/Quiz1.ube_2.json", "Quizzes/Quiz2.ube_2.json" ]


In [2]:
# Now that we can load all the json files individually, we can combine them on id

def combine_dataframes_on_id(dataframes):
    combined_df = dataframes[0]
    for df in dataframes[1:]:
        combined_df = pd.merge(combined_df, df, on="id", how="outer")
    return combined_df

# Combine all dataframes for sube 1
dataframes = []
for file in json_files_sube_1:
    df = load_json_to_dataframe(file)
    dataframes.append(df)
combined_df = combine_dataframes_on_id(dataframes)

# Display the combined dataframe
combined_df

Unnamed: 0,id,Labs/Lab1.ube_1.json answers,Labs/Lab2.ube_1.json answers,LCs/LC1.section1.json answers,LCs/LC2.section1.json answers,LCs/LC3.section1.json answers,LCs/LC4.section1.json answers,LCs/LC5.section1.json answers,LCs/LC6.section1.json answers,Quizzes/Quiz1.ube_1.json answers,Quizzes/Quiz2.ube_1.json answers
0,4380745,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,Müzik Çalar Simülasyonu\n\nBIL 211 - Laboratuv...,Recursion nedir? Recursive bir metodun temel k...,"Abstraction kavramını açıklayınız. Soyutlama, ...",Java'da 'method binding' kavramı ne anlama gel...,"Java'da abstract class nedir, concrete bir cla...","Java'da Inner class nedir, avantajları nelerdi...",,Bil21 1\n \nQuiz\n \n1\n \nSection\n \n1\n \n ...,Kahve Sipariş Sistemi\n\nBIL 211 - Quiz 2\n\n1...
1,7214465,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,Müzik Çalar Simülasyonu\n\nBIL 211 - Laboratuv...,Recursion nedir? Recursive bir metodun temel k...,,Java'da 'method binding' kavramı ne anlama gel...,"Java'da abstract class nedir, concrete bir cla...",,Yazılım geliştirirken genelde kaç çeşit hata i...,Bil21 1\n \nQuiz\n \n1\n \nSection\n \n1\n \n ...,Kahve Sipariş Sistemi\n\nBIL 211 - Quiz 2\n\n1...
2,1762204,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,Müzik Çalar Simülasyonu\n\nBIL 211 - Laboratuv...,,Abstraction kavramını açıklayınız. Sadece bizi...,Java'da 'method binding' kavramı ne anlama gel...,"Java'da abstract class nedir, concrete bir cla...","Java'da Inner class nedir, avantajları nelerdi...",Yazılım geliştirirken genelde kaç çeşit hata i...,Bil21 1\n \nQuiz\n \n1\n \nSection\n \n1\n \n ...,Kahve Sipariş Sistemi\n\nBIL 211 - Quiz 2\n\n1...
3,9830856,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,Müzik Çalar Simülasyonu\n\nBIL 211 - Laboratuv...,Recursion nedir? Recursive bir metodun temel k...,,Java'da 'method binding' kavramı ne anlama gel...,"Java'da abstract class nedir, concrete bir cla...",,Yazılım geliştirirken genelde kaç çeşit hata i...,Bil21 1\n \nQuiz\n \n1\n \nSection\n \n1\n \n ...,Kahve Sipariş Sistemi\n\nBIL 211 - Quiz 2\n\n1...
4,8435496,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,Müzik Çalar Simülasyonu\n\nBIL 211 - Laboratuv...,Recursion nedir? Recursive bir metodun temel k...,Abstraction kavramını açıklayınız. Kodun nasıl...,Java'da 'method binding' kavramı ne anlama gel...,"Java'da abstract class nedir, concrete bir cla...","Java'da Inner class nedir, avantajları nelerdi...",Yazılım geliştirirken genelde kaç çeşit hata i...,Bil21 1\n \nQuiz\n \n1\n \nSection\n \n1\n \n ...,Kahve Sipariş Sistemi\n\nBIL 211 - Quiz 2\n\n1...
5,8783086,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,Müzik Çalar Simülasyonu\n\nBIL 211 - Laboratuv...,Recursion nedir? Recursive bir metodun temel k...,Abstraction kavramını açıklayınız. detayları g...,Java'da 'method binding' kavramı ne anlama gel...,"Java'da abstract class nedir, concrete bir cla...","Java'da Inner class nedir, avantajları nelerdi...",Yazılım geliştirirken genelde kaç çeşit hata i...,Bil21 1\n \nQuiz\n \n1\n \nSection\n \n1\n \n ...,Kahve Sipariş Sistemi\n\nBIL 211 - Quiz 2\n\n1...
6,4731282,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,Müzik Çalar Simülasyonu\n\nBIL 211 - Laboratuv...,Recursion nedir? Recursive bir metodun temel k...,Abstraction kavramını açıklayınız. Belli bir k...,Java'da 'method binding' kavramı ne anlama gel...,"Java'da abstract class nedir, concrete bir cla...","Java'da Inner class nedir, avantajları nelerdi...",Yazılım geliştirirken genelde kaç çeşit hata i...,Bil21 1\n \nQuiz\n \n1\n \nSection\n \n1\n \n ...,Kahve Sipariş Sistemi\n\nBIL 211 - Quiz 2\n\n1...
7,6202193,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,Müzik Çalar Simülasyonu\n\nBIL 211 - Laboratuv...,Recursion nedir? Recursive bir metodun temel k...,Abstraction kavramını açıklayınız. Soyutlama. ...,Java'da 'method binding' kavramı ne anlama gel...,"Java'da abstract class nedir, concrete bir cla...","Java'da Inner class nedir, avantajları nelerdi...",Yazılım geliştirirken genelde kaç çeşit hata i...,Bil21 1\n \nQuiz\n \n1\n \nSection\n \n1\n \n ...,Kahve Sipariş Sistemi\n\nBIL 211 - Quiz 2\n\n1...
8,8190737,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,Müzik Çalar Simülasyonu\n\nBIL 211 - Laboratuv...,Recursion nedir? Recursive bir metodun temel k...,Abstraction kavramını açıklayınız. Bir nesneni...,Java'da 'method binding' kavramı ne anlama gel...,"Java'da abstract class nedir, concrete bir cla...","Java'da Inner class nedir, avantajları nelerdi...",,Bil21 1\n \nQuiz\n \n1\n \nSection\n \n1\n \n ...,Kahve Sipariş Sistemi\n\nBIL 211 - Quiz 2\n\n1...
9,7817361,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,Müzik Çalar Simülasyonu\n\nBIL 211 - Laboratuv...,Recursion nedir? Recursive bir metodun temel k...,Abstraction kavramını açıklayınız. Black Box. ...,Java'da 'method binding' kavramı ne anlama gel...,,"Java'da Inner class nedir, avantajları nelerdi...",Yazılım geliştirirken genelde kaç çeşit hata i...,Bil21 1\n \nQuiz\n \n1\n \nSection\n \n1\n \n ...,Kahve Sipariş Sistemi\n\nBIL 211 - Quiz 2\n\n1...


In [3]:
combined_df.columns

Index(['id', 'Labs/Lab1.ube_1.json answers', 'Labs/Lab2.ube_1.json answers',
       'LCs/LC1.section1.json answers', 'LCs/LC2.section1.json answers',
       'LCs/LC3.section1.json answers', 'LCs/LC4.section1.json answers',
       'LCs/LC5.section1.json answers', 'LCs/LC6.section1.json answers',
       'Quizzes/Quiz1.ube_1.json answers', 'Quizzes/Quiz2.ube_1.json answers'],
      dtype='object')

In [4]:
# Combine all dataframes for sube 2
dataframes_sube_2 = []
for file in json_files_sube_2:
    df = load_json_to_dataframe(file)
    dataframes_sube_2.append(df)
combined_df_sube_2 = combine_dataframes_on_id(dataframes_sube_2)

# Display the combined dataframe for sube 2
combined_df_sube_2

Unnamed: 0,id,Labs/Lab1.ube_2.json answers,Labs/Lab2.ube_2.json answers,LCs/LC1.section2.json answers,LCs/LC2.section2.json answers,LCs/LC3.section2.json answers,LCs/LC4.section2.json answers,LCs/LC6.section2.json answers,Quizzes/Quiz1.ube_2.json answers,Quizzes/Quiz2.ube_2.json answers
0,6094496,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,Müzik Çalar Simülasyonu\n\nBIL 211 - Laboratuv...,,Abstraction kavramını açıklayınız. javada tanı...,"Java'da ne zaman static binding yapılır, ne za...","Java'da abstract class nedir, concrete bir cla...",,Bil211 Quiz 1 Section 2\n\nQuizleri uzak siste...,Robot Fabrikası\nBIL 211 - Quiz 2\n13 Şubat 20...
1,7732416,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,Müzik Çalar Simülasyonu\n\nBIL 211 - Laboratuv...,"""Recursion"" kavramı nedir, kısaca açıklayınız....",Abstraction kavramını açıklayınız. Abstraction...,"Java'da ne zaman static binding yapılır, ne za...","Java'da abstract class nedir, concrete bir cla...",,Bil211 Quiz 1 Section 2\n\nQuizleri uzak siste...,Robot Fabrikası\nBIL 211 - Quiz 2\n13 Şubat 20...
2,4779274,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,Müzik Çalar Simülasyonu\n\nBIL 211 - Laboratuv...,,"Abstraction kavramını açıklayınız. soyutlama, ...","Java'da ne zaman static binding yapılır, ne za...",,,Bil211 Quiz 1 Section 2\n\nQuizleri uzak siste...,Robot Fabrikası\nBIL 211 - Quiz 2\n13 Şubat 20...
3,2384475,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,Müzik Çalar Simülasyonu\n\nBIL 211 - Laboratuv...,,Abstraction kavramını açıklayınız. İhtiyacımız...,"Java'da ne zaman static binding yapılır, ne za...","Java'da abstract class nedir, concrete bir cla...","Java'da Exceptionlar kaç çeşittir, her çeşit i...",Bil211 Quiz 1 Section 2\n\nQuizleri uzak siste...,Robot Fabrikası\nBIL 211 - Quiz 2\n13 Şubat 20...
4,5628146,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,Müzik Çalar Simülasyonu\n\nBIL 211 - Laboratuv...,,"Abstraction kavramını açıklayınız. Soyutlama, ...","Java'da ne zaman static binding yapılır, ne za...",,"Java'da Exceptionlar kaç çeşittir, her çeşit i...",Bil211 Quiz 1 Section 2\n\nQuizleri uzak siste...,Robot Fabrikası\nBIL 211 - Quiz 2\n13 Şubat 20...
5,2786122,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,Müzik Çalar Simülasyonu\n\nBIL 211 - Laboratuv...,,,,,,Bil211 Quiz 1 Section 2\n\nQuizleri uzak siste...,Robot Fabrikası\nBIL 211 - Quiz 2\n13 Şubat 20...
6,9367691,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,,"""Recursion"" kavramı nedir, kısaca açıklayınız....",,,,,Bil211 Quiz 1 Section 2\n\nQuizleri uzak siste...,
7,6914659,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,Müzik Çalar Simülasyonu\n\nBIL 211 - Laboratuv...,"""Recursion"" kavramı nedir, kısaca açıklayınız....",Abstraction kavramını açıklayınız. Soyutlama a...,"Java'da ne zaman static binding yapılır, ne za...",,"Java'da Exceptionlar kaç çeşittir, her çeşit i...",Bil211 Quiz 1 Section 2\n\nQuizleri uzak siste...,Robot Fabrikası\nBIL 211 - Quiz 2\n13 Şubat 20...
8,2179244,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,Müzik Çalar Simülasyonu\n\nBIL 211 - Laboratuv...,,Abstraction kavramını açıklayınız. Gereksiz de...,"Java'da ne zaman static binding yapılır, ne za...","Java'da abstract class nedir, concrete bir cla...","Java'da Exceptionlar kaç çeşittir, her çeşit i...",Bil211 Quiz 1 Section 2\n\nQuizleri uzak siste...,Robot Fabrikası\nBIL 211 - Quiz 2\n13 Şubat 20...
9,6429016,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,Müzik Çalar Simülasyonu\n\nBIL 211 - Laboratuv...,"""Recursion"" kavramı nedir, kısaca açıklayınız....",Abstraction kavramını açıklayınız. Soyutluk ve...,"Java'da ne zaman static binding yapılır, ne za...","Java'da abstract class nedir, concrete bir cla...",,Bil211 Quiz 1 Section 2\n\nQuizleri uzak siste...,Robot Fabrikası\nBIL 211 - Quiz 2\n13 Şubat 20...


In [5]:
# Check if there are same ids in both subes"
combined_df_sube_1_ids = set(combined_df["id"])
combined_df_sube_2_ids = set(combined_df_sube_2["id"])
common_ids = combined_df_sube_1_ids.intersection(combined_df_sube_2_ids)
print(f"Common IDs between sube 1 and sube 2: {len(common_ids)}")

Common IDs between sube 1 and sube 2: 5


In [6]:
common_ids

{'1762204', '4779274', '5628146', '6429016', '8059049'}

In [7]:
# Check how many ids are unique overall
unique_ids_sube_1 = combined_df_sube_1_ids - common_ids
unique_ids_sube_2 = combined_df_sube_2_ids - common_ids
print(f"Unique IDs in sube 1: {len(unique_ids_sube_1)}")
print(f"Unique IDs in sube 2: {len(unique_ids_sube_2)}")


Unique IDs in sube 1: 16
Unique IDs in sube 2: 35


In [8]:
# We know from the csv files that sube 1 has 16 people and sube 2 has 45 so all the common ids should be moved to sube 2 side.
# We need to move the common ids from sube 1 to sube 2
# We cant just drop the common ids from sube 1 because we need to keep the answers of those ids in sube 2
# We need to create new arrays for common id students to gather their answers from sube 1 and sube 2 so we can add them to sube 2 properly
# After that we will change all NaN values to empty strings in the combined dataframe
# Then we can add the questions to respective answers and combine all the data for each student
# Then we can use a vectorizer to convert the answers to vectors
# Which we can use to train a model

# Add answers earlier the questions ni both classes are different so we need to add the questions for context

In [9]:
test_Students = pd.read_csv("processed_test_student.csv")
train_Students = pd.read_csv("processed_train_student.csv")

In [10]:
# Check if there are matching ids in both test and train students
test_ids = set(test_Students["UID"])
train_ids = set(train_Students["UID"])
common_test_train_ids = test_ids.intersection(train_ids)
print(f"Common IDs between test and train students: {common_test_train_ids}")

Common IDs between test and train students: {2384475}


In [11]:
# The student with UID 2384475 is in both test and train students in the csv files that have been provided.
# I will not be including it in the train dataset because it is data leakage.

In [12]:
for item in test_ids:
    if str(item) in common_ids:
        print(item)


4779274


In [13]:
for item in train_ids:
    if str(item) in common_ids:
        print(item)


1762204
8059049
6429016
5628146


In [14]:
# Get the rows from combined_df and combined_df_sube_2 where the id is in common_ids
common_rows_sube_1 = combined_df[combined_df["id"].isin(common_ids)]
common_rows_sube_2 = combined_df_sube_2[combined_df_sube_2["id"].isin(common_ids)]

In [15]:
# Remove the common ids from combined_df and combined_df_sube_2

combined_df = combined_df[~combined_df["id"].isin(common_ids)]
combined_df_sube_2 = combined_df_sube_2[~combined_df_sube_2["id"].isin(common_ids)]

In [16]:
# Sort both common rows by id
common_rows_sube_1 = common_rows_sube_1.sort_values(by="id")
common_rows_sube_2 = common_rows_sube_2.sort_values(by="id")
# Reset the index of both common rows
common_rows_sube_1 = common_rows_sube_1.reset_index(drop=True)
common_rows_sube_2 = common_rows_sube_2.reset_index(drop=True)

In [17]:
common_rows_sube_1

Unnamed: 0,id,Labs/Lab1.ube_1.json answers,Labs/Lab2.ube_1.json answers,LCs/LC1.section1.json answers,LCs/LC2.section1.json answers,LCs/LC3.section1.json answers,LCs/LC4.section1.json answers,LCs/LC5.section1.json answers,LCs/LC6.section1.json answers,Quizzes/Quiz1.ube_1.json answers,Quizzes/Quiz2.ube_1.json answers
0,1762204,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,Müzik Çalar Simülasyonu\n\nBIL 211 - Laboratuv...,,Abstraction kavramını açıklayınız. Sadece bizi...,Java'da 'method binding' kavramı ne anlama gel...,"Java'da abstract class nedir, concrete bir cla...","Java'da Inner class nedir, avantajları nelerdi...",Yazılım geliştirirken genelde kaç çeşit hata i...,Bil21 1\n \nQuiz\n \n1\n \nSection\n \n1\n \n ...,Kahve Sipariş Sistemi\n\nBIL 211 - Quiz 2\n\n1...
1,4779274,,,Recursion nedir? Recursive bir metodun temel k...,,,"Java'da abstract class nedir, concrete bir cla...",,Yazılım geliştirirken genelde kaç çeşit hata i...,,
2,5628146,,,,,,"Java'da abstract class nedir, concrete bir cla...",,,,
3,6429016,,,,,,,,Yazılım geliştirirken genelde kaç çeşit hata i...,,
4,8059049,,,Recursion nedir? Recursive bir metodun temel k...,,,"Java'da abstract class nedir, concrete bir cla...",,,,


In [18]:
common_rows_sube_2

Unnamed: 0,id,Labs/Lab1.ube_2.json answers,Labs/Lab2.ube_2.json answers,LCs/LC1.section2.json answers,LCs/LC2.section2.json answers,LCs/LC3.section2.json answers,LCs/LC4.section2.json answers,LCs/LC6.section2.json answers,Quizzes/Quiz1.ube_2.json answers,Quizzes/Quiz2.ube_2.json answers
0,1762204,,,"""Recursion"" kavramı nedir, kısaca açıklayınız....",,,,,,
1,4779274,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,Müzik Çalar Simülasyonu\n\nBIL 211 - Laboratuv...,,"Abstraction kavramını açıklayınız. soyutlama, ...","Java'da ne zaman static binding yapılır, ne za...",,,Bil211 Quiz 1 Section 2\n\nQuizleri uzak siste...,Robot Fabrikası\nBIL 211 - Quiz 2\n13 Şubat 20...
2,5628146,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,Müzik Çalar Simülasyonu\n\nBIL 211 - Laboratuv...,,"Abstraction kavramını açıklayınız. Soyutlama, ...","Java'da ne zaman static binding yapılır, ne za...",,"Java'da Exceptionlar kaç çeşittir, her çeşit i...",Bil211 Quiz 1 Section 2\n\nQuizleri uzak siste...,Robot Fabrikası\nBIL 211 - Quiz 2\n13 Şubat 20...
3,6429016,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,Müzik Çalar Simülasyonu\n\nBIL 211 - Laboratuv...,"""Recursion"" kavramı nedir, kısaca açıklayınız....",Abstraction kavramını açıklayınız. Soyutluk ve...,"Java'da ne zaman static binding yapılır, ne za...","Java'da abstract class nedir, concrete bir cla...",,Bil211 Quiz 1 Section 2\n\nQuizleri uzak siste...,Robot Fabrikası\nBIL 211 - Quiz 2\n13 Şubat 20...
4,8059049,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,Müzik Çalar Simülasyonu\n\nBIL 211 - Laboratuv...,,Abstraction kavramını açıklayınız. Black boxin...,"Java'da ne zaman static binding yapılır, ne za...",,"Java'da Exceptionlar kaç çeşittir, her çeşit i...",Bil211 Quiz 1 Section 2\n\nQuizleri uzak siste...,Robot Fabrikası\nBIL 211 - Quiz 2\n13 Şubat 20...


In [19]:
# We need to account for the fact that the sube2 did not take LC5 so the length is shorter than sube 1
# So we will add a column to common_rows_sube_2 with empty strings for LC5

common_rows_sube_2["LCs/LC5.section2.json answers"] = float('nan')

# We need to move the columns so that LC5 is after LC4
cols = common_rows_sube_2.columns.tolist()
lc6_index = cols.index("LCs/LC6.section2.json answers")
cols.insert(lc6_index, cols.pop(cols.index("LCs/LC5.section2.json answers")))
common_rows_sube_2 = common_rows_sube_2[cols]


In [20]:
common_rows_sube_2

Unnamed: 0,id,Labs/Lab1.ube_2.json answers,Labs/Lab2.ube_2.json answers,LCs/LC1.section2.json answers,LCs/LC2.section2.json answers,LCs/LC3.section2.json answers,LCs/LC4.section2.json answers,LCs/LC5.section2.json answers,LCs/LC6.section2.json answers,Quizzes/Quiz1.ube_2.json answers,Quizzes/Quiz2.ube_2.json answers
0,1762204,,,"""Recursion"" kavramı nedir, kısaca açıklayınız....",,,,,,,
1,4779274,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,Müzik Çalar Simülasyonu\n\nBIL 211 - Laboratuv...,,"Abstraction kavramını açıklayınız. soyutlama, ...","Java'da ne zaman static binding yapılır, ne za...",,,,Bil211 Quiz 1 Section 2\n\nQuizleri uzak siste...,Robot Fabrikası\nBIL 211 - Quiz 2\n13 Şubat 20...
2,5628146,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,Müzik Çalar Simülasyonu\n\nBIL 211 - Laboratuv...,,"Abstraction kavramını açıklayınız. Soyutlama, ...","Java'da ne zaman static binding yapılır, ne za...",,,"Java'da Exceptionlar kaç çeşittir, her çeşit i...",Bil211 Quiz 1 Section 2\n\nQuizleri uzak siste...,Robot Fabrikası\nBIL 211 - Quiz 2\n13 Şubat 20...
3,6429016,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,Müzik Çalar Simülasyonu\n\nBIL 211 - Laboratuv...,"""Recursion"" kavramı nedir, kısaca açıklayınız....",Abstraction kavramını açıklayınız. Soyutluk ve...,"Java'da ne zaman static binding yapılır, ne za...","Java'da abstract class nedir, concrete bir cla...",,,Bil211 Quiz 1 Section 2\n\nQuizleri uzak siste...,Robot Fabrikası\nBIL 211 - Quiz 2\n13 Şubat 20...
4,8059049,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,Müzik Çalar Simülasyonu\n\nBIL 211 - Laboratuv...,,Abstraction kavramını açıklayınız. Black boxin...,"Java'da ne zaman static binding yapılır, ne za...",,,"Java'da Exceptionlar kaç çeşittir, her çeşit i...",Bil211 Quiz 1 Section 2\n\nQuizleri uzak siste...,Robot Fabrikası\nBIL 211 - Quiz 2\n13 Şubat 20...


In [21]:
# Get the rows as lists from both common rows
common_rows_sube_1_list = common_rows_sube_1.values.tolist()
common_rows_sube_2_list = common_rows_sube_2.values.tolist()

In [22]:
# Compare each row in common_rows_sube_1_list with the corresponding row in common_rows_sube_2_list
# If an answer is nan in one of them and not in the other, we will take the answer from the one that has it
# If both are nan, we will leave it as nan
# Create a new list to store the combined rows

# We need to account for the fact that there is an unused row 

common_combined_rows = []
for i in range(len(common_rows_sube_1_list)):
    row_1 = common_rows_sube_1_list[i]
    row_2 = common_rows_sube_2_list[i]
    
    combined_row = [row_1[0]]  # Start with the id
    
    for j in range(1, len(row_1)):
        if pd.isna(row_1[j]) and not pd.isna(row_2[j]):
            combined_row.append(row_2[j])
        elif not pd.isna(row_1[j]) and pd.isna(row_2[j]):
            combined_row.append(row_1[j])
        else:
            combined_row.append(row_1[j])  # Both are NaN or both have values, take from sube 1
    
    common_combined_rows.append(combined_row)

In [23]:
# Turn the combined rows into a DataFrame
common_combined_df = pd.DataFrame(common_combined_rows, columns=common_rows_sube_1.columns)
common_combined_df

Unnamed: 0,id,Labs/Lab1.ube_1.json answers,Labs/Lab2.ube_1.json answers,LCs/LC1.section1.json answers,LCs/LC2.section1.json answers,LCs/LC3.section1.json answers,LCs/LC4.section1.json answers,LCs/LC5.section1.json answers,LCs/LC6.section1.json answers,Quizzes/Quiz1.ube_1.json answers,Quizzes/Quiz2.ube_1.json answers
0,1762204,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,Müzik Çalar Simülasyonu\n\nBIL 211 - Laboratuv...,"""Recursion"" kavramı nedir, kısaca açıklayınız....",Abstraction kavramını açıklayınız. Sadece bizi...,Java'da 'method binding' kavramı ne anlama gel...,"Java'da abstract class nedir, concrete bir cla...","Java'da Inner class nedir, avantajları nelerdi...",Yazılım geliştirirken genelde kaç çeşit hata i...,Bil21 1\n \nQuiz\n \n1\n \nSection\n \n1\n \n ...,Kahve Sipariş Sistemi\n\nBIL 211 - Quiz 2\n\n1...
1,4779274,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,Müzik Çalar Simülasyonu\n\nBIL 211 - Laboratuv...,Recursion nedir? Recursive bir metodun temel k...,"Abstraction kavramını açıklayınız. soyutlama, ...","Java'da ne zaman static binding yapılır, ne za...","Java'da abstract class nedir, concrete bir cla...",,Yazılım geliştirirken genelde kaç çeşit hata i...,Bil211 Quiz 1 Section 2\n\nQuizleri uzak siste...,Robot Fabrikası\nBIL 211 - Quiz 2\n13 Şubat 20...
2,5628146,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,Müzik Çalar Simülasyonu\n\nBIL 211 - Laboratuv...,,"Abstraction kavramını açıklayınız. Soyutlama, ...","Java'da ne zaman static binding yapılır, ne za...","Java'da abstract class nedir, concrete bir cla...",,"Java'da Exceptionlar kaç çeşittir, her çeşit i...",Bil211 Quiz 1 Section 2\n\nQuizleri uzak siste...,Robot Fabrikası\nBIL 211 - Quiz 2\n13 Şubat 20...
3,6429016,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,Müzik Çalar Simülasyonu\n\nBIL 211 - Laboratuv...,"""Recursion"" kavramı nedir, kısaca açıklayınız....",Abstraction kavramını açıklayınız. Soyutluk ve...,"Java'da ne zaman static binding yapılır, ne za...","Java'da abstract class nedir, concrete bir cla...",,Yazılım geliştirirken genelde kaç çeşit hata i...,Bil211 Quiz 1 Section 2\n\nQuizleri uzak siste...,Robot Fabrikası\nBIL 211 - Quiz 2\n13 Şubat 20...
4,8059049,Recursion\n \n \n1)\n \nCollatz\n \nproblemi.\...,Müzik Çalar Simülasyonu\n\nBIL 211 - Laboratuv...,Recursion nedir? Recursive bir metodun temel k...,Abstraction kavramını açıklayınız. Black boxin...,"Java'da ne zaman static binding yapılır, ne za...","Java'da abstract class nedir, concrete bir cla...",,"Java'da Exceptionlar kaç çeşittir, her çeşit i...",Bil211 Quiz 1 Section 2\n\nQuizleri uzak siste...,Robot Fabrikası\nBIL 211 - Quiz 2\n13 Şubat 20...


I will try to add another column checking how many of the assigments the student missed

In [24]:
# Add another column where each row is how many NaN values in that row

common_combined_df['NaN_count'] = common_combined_df.isna().sum(axis=1)
combined_df['NaN_count'] = combined_df.isna().sum(axis=1)
combined_df_sube_2['NaN_count'] = combined_df_sube_2.isna().sum(axis=1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  combined_df['NaN_count'] = combined_df.isna().sum(axis=1)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  combined_df_sube_2['NaN_count'] = combined_df_sube_2.isna().sum(axis=1)


In [26]:
# Replace NaN values with empty strings
combined_df = combined_df.fillna("")
combined_df_sube_2 = combined_df_sube_2.fillna("")
common_combined_df = common_combined_df.fillna("")

In [27]:
combined_df = combined_df.reset_index(drop=True)
combined_df_sube_2 = combined_df_sube_2.reset_index(drop=True)

In [28]:
combined_df.columns

Index(['id', 'Labs/Lab1.ube_1.json answers', 'Labs/Lab2.ube_1.json answers',
       'LCs/LC1.section1.json answers', 'LCs/LC2.section1.json answers',
       'LCs/LC3.section1.json answers', 'LCs/LC4.section1.json answers',
       'LCs/LC5.section1.json answers', 'LCs/LC6.section1.json answers',
       'Quizzes/Quiz1.ube_1.json answers', 'Quizzes/Quiz2.ube_1.json answers',
       'NaN_count'],
      dtype='object')

In [29]:
# We will merge the columns in combined_df

answers_arr = []
for i in range(len(combined_df)):
    answers = ""
    for column in combined_df.columns:
        if column != "id" or "NaN_count":
            answers += str(combined_df[column][i]) + " "
    answers_arr.append(answers)

combined_df["answers"] = answers_arr
columns_to_drop = ['Labs/Lab1.ube_1.json answers', 'Labs/Lab2.ube_1.json answers',
       'LCs/LC1.section1.json answers', 'LCs/LC2.section1.json answers',
       'LCs/LC3.section1.json answers', 'LCs/LC4.section1.json answers',
       'LCs/LC5.section1.json answers', 'LCs/LC6.section1.json answers',
       'Quizzes/Quiz1.ube_1.json answers', 'Quizzes/Quiz2.ube_1.json answers']
combined_df = combined_df.drop(columns=columns_to_drop)


In [30]:
combined_df

Unnamed: 0,id,NaN_count,answers
0,4380745,1,4380745 Recursion\n \n \n1)\n \nCollatz\n \npr...
1,7214465,2,7214465 Recursion\n \n \n1)\n \nCollatz\n \npr...
2,9830856,2,9830856 Recursion\n \n \n1)\n \nCollatz\n \npr...
3,8435496,0,8435496 Recursion\n \n \n1)\n \nCollatz\n \npr...
4,8783086,0,8783086 Recursion\n \n \n1)\n \nCollatz\n \npr...
5,4731282,0,4731282 Recursion\n \n \n1)\n \nCollatz\n \npr...
6,6202193,0,6202193 Recursion\n \n \n1)\n \nCollatz\n \npr...
7,8190737,1,8190737 Recursion\n \n \n1)\n \nCollatz\n \npr...
8,7817361,1,7817361 Recursion\n \n \n1)\n \nCollatz\n \npr...
9,2051651,3,2051651 Recursion\n \n \n1)\n \nCollatz\n \npr...


In [31]:
answers_arr = []
for i in range(len(combined_df_sube_2)):
    answers = ""
    for column in combined_df_sube_2.columns:
        if column != "id" or "NaN_count":
            answers += str(combined_df_sube_2[column][i]) + " "
    answers_arr.append(answers)

combined_df_sube_2["answers"] = answers_arr
columns_to_drop = ['Labs/Lab1.ube_2.json answers', 'Labs/Lab2.ube_2.json answers',
       'LCs/LC1.section2.json answers', 'LCs/LC2.section2.json answers',
       'LCs/LC3.section2.json answers', 'LCs/LC4.section2.json answers',
       'LCs/LC6.section2.json answers', 'Quizzes/Quiz1.ube_2.json answers',
       'Quizzes/Quiz2.ube_2.json answers']
combined_df_sube_2 = combined_df_sube_2.drop(columns=columns_to_drop)


In [32]:
combined_df_sube_2

Unnamed: 0,id,NaN_count,answers
0,6094496,2,6094496 Recursion\n \n \n1)\n \nCollatz\n \npr...
1,7732416,1,7732416 Recursion\n \n \n1)\n \nCollatz\n \npr...
2,2384475,1,2384475 Recursion\n \n \n1)\n \nCollatz\n \npr...
3,2786122,5,2786122 Recursion\n \n \n1)\n \nCollatz\n \npr...
4,9367691,6,9367691 Recursion\n \n \n1)\n \nCollatz\n \npr...
5,6914659,1,6914659 Recursion\n \n \n1)\n \nCollatz\n \npr...
6,2179244,1,2179244 Recursion\n \n \n1)\n \nCollatz\n \npr...
7,6343320,0,6343320 Recursion\n \n \n1)\n \nCollatz\n \npr...
8,4275079,1,4275079 Recursion\n \n \n1)\n \nCollatz\n \npr...
9,7374887,0,7374887 Recursion\n \n \n1)\n \nCollatz\n \npr...


In [33]:
answers_arr = []
for i in range(len(common_combined_df)):
    answers = ""
    for column in common_combined_df.columns:
        if column != "id" or "NaN":
            answers += str(common_combined_df[column][i]) + " "
    answers_arr.append(answers)

common_combined_df["answers"] = answers_arr
columns_to_drop = ['Labs/Lab1.ube_1.json answers', 'Labs/Lab2.ube_1.json answers',
       'LCs/LC1.section1.json answers', 'LCs/LC2.section1.json answers',
       'LCs/LC3.section1.json answers', 'LCs/LC4.section1.json answers',
       'LCs/LC5.section1.json answers', 'LCs/LC6.section1.json answers',
       'Quizzes/Quiz1.ube_1.json answers', 'Quizzes/Quiz2.ube_1.json answers']
common_combined_df = common_combined_df.drop(columns=columns_to_drop)


In [34]:
common_combined_df

Unnamed: 0,id,NaN_count,answers
0,1762204,0,1762204 Recursion\n \n \n1)\n \nCollatz\n \npr...
1,4779274,1,4779274 Recursion\n \n \n1)\n \nCollatz\n \npr...
2,5628146,2,5628146 Recursion\n \n \n1)\n \nCollatz\n \npr...
3,6429016,1,6429016 Recursion\n \n \n1)\n \nCollatz\n \npr...
4,8059049,1,8059049 Recursion\n \n \n1)\n \nCollatz\n \npr...


In [35]:
final_dataset = pd.concat([combined_df,combined_df_sube_2,common_combined_df], ignore_index=True)

In [36]:
final_dataset

Unnamed: 0,id,NaN_count,answers
0,4380745,1,4380745 Recursion\n \n \n1)\n \nCollatz\n \npr...
1,7214465,2,7214465 Recursion\n \n \n1)\n \nCollatz\n \npr...
2,9830856,2,9830856 Recursion\n \n \n1)\n \nCollatz\n \npr...
3,8435496,0,8435496 Recursion\n \n \n1)\n \nCollatz\n \npr...
4,8783086,0,8783086 Recursion\n \n \n1)\n \nCollatz\n \npr...
5,4731282,0,4731282 Recursion\n \n \n1)\n \nCollatz\n \npr...
6,6202193,0,6202193 Recursion\n \n \n1)\n \nCollatz\n \npr...
7,8190737,1,8190737 Recursion\n \n \n1)\n \nCollatz\n \npr...
8,7817361,1,7817361 Recursion\n \n \n1)\n \nCollatz\n \npr...
9,2051651,3,2051651 Recursion\n \n \n1)\n \nCollatz\n \npr...


In [37]:
duplicate_ids = final_dataset["id"][final_dataset["id"].duplicated()].unique()
print(duplicate_ids)

['4810237']


In [38]:
final_dataset = final_dataset.drop(30)
final_dataset = final_dataset.reset_index(drop=True)
final_dataset

Unnamed: 0,id,NaN_count,answers
0,4380745,1,4380745 Recursion\n \n \n1)\n \nCollatz\n \npr...
1,7214465,2,7214465 Recursion\n \n \n1)\n \nCollatz\n \npr...
2,9830856,2,9830856 Recursion\n \n \n1)\n \nCollatz\n \npr...
3,8435496,0,8435496 Recursion\n \n \n1)\n \nCollatz\n \npr...
4,8783086,0,8783086 Recursion\n \n \n1)\n \nCollatz\n \npr...
5,4731282,0,4731282 Recursion\n \n \n1)\n \nCollatz\n \npr...
6,6202193,0,6202193 Recursion\n \n \n1)\n \nCollatz\n \npr...
7,8190737,1,8190737 Recursion\n \n \n1)\n \nCollatz\n \npr...
8,7817361,1,7817361 Recursion\n \n \n1)\n \nCollatz\n \npr...
9,2051651,3,2051651 Recursion\n \n \n1)\n \nCollatz\n \npr...


In [39]:
train_id_proper = []
for item in train_ids:
    train_id_proper.append(str(item))
test_id_proper = []
for item in test_ids:
    test_id_proper.append(str(item))

In [40]:
train_df = final_dataset[final_dataset['id'].isin(train_id_proper)].reset_index(drop=True)
test_df = final_dataset[final_dataset['id'].isin(test_id_proper)].reset_index(drop=True)

In [41]:
train_df

Unnamed: 0,id,NaN_count,answers
0,7214465,2,7214465 Recursion\n \n \n1)\n \nCollatz\n \npr...
1,9830856,2,9830856 Recursion\n \n \n1)\n \nCollatz\n \npr...
2,8435496,0,8435496 Recursion\n \n \n1)\n \nCollatz\n \npr...
3,8783086,0,8783086 Recursion\n \n \n1)\n \nCollatz\n \npr...
4,4731282,0,4731282 Recursion\n \n \n1)\n \nCollatz\n \npr...
5,6202193,0,6202193 Recursion\n \n \n1)\n \nCollatz\n \npr...
6,7817361,1,7817361 Recursion\n \n \n1)\n \nCollatz\n \npr...
7,6897869,0,6897869 Recursion\n \n \n1)\n \nCollatz\n \npr...
8,1764665,0,1764665 Recursion\n \n \n1)\n \nCollatz\n \npr...
9,6275288,2,6275288 Müzik Çalar Simülasyonu\n\nBIL 211 - ...


In [42]:
test_df

Unnamed: 0,id,NaN_count,answers
0,4380745,1,4380745 Recursion\n \n \n1)\n \nCollatz\n \npr...
1,8190737,1,8190737 Recursion\n \n \n1)\n \nCollatz\n \npr...
2,2051651,3,2051651 Recursion\n \n \n1)\n \nCollatz\n \npr...
3,8964453,4,8964453 Müzik Çalar Simülasyonu\n\nBIL 211 - ...
4,2384475,1,2384475 Recursion\n \n \n1)\n \nCollatz\n \npr...
5,6914659,1,6914659 Recursion\n \n \n1)\n \nCollatz\n \npr...
6,5187413,1,5187413 Recursion\n \n \n1)\n \nCollatz\n \npr...
7,4540765,5,4540765 Recursion\n \n \n1)\n \nCollatz\n \npr...
8,6418019,1,6418019 Recursion\n \n \n1)\n \nCollatz\n \npr...
9,4114373,1,4114373 Recursion\n \n \n1)\n \nCollatz\n \npr...


In [43]:
for item in test_id_proper:
    if item not in test_df["id"].values:
        print(item)

5803666
9860471
8154684


In [44]:
for item in train_id_proper:
    if item not in train_df["id"].values:
        print(item)

4819615


In [45]:
import re

def clean_text(text):
    # Normalize whitespace
    text = re.sub(r'\s+', ' ', text).strip()
    # Lowercase (optional)
    text = text.lower()
    return text

train_df["answers"] = train_df["answers"].fillna("").apply(clean_text)
test_df["answers"] = test_df["answers"].fillna("").apply(clean_text)

In [46]:
train_df.to_csv("train_dataset.csv",index=False)
test_df.to_csv("test_dataset.csv",index=False)

In [47]:
def mark_code_blocks_inline(text):
    # Regex pattern to match Java code blocks heuristically
    # This looks for a sequence with typical Java code patterns
    code_pattern = re.compile(
        r'((?:public|class|static|void|int|String|if|else|for|while|return|import|package|new|try|catch)[^.;{}]*[;{}])',
        flags=re.IGNORECASE
    )

    def replacer(match):
        code_snippet = match.group(0).strip()
        return f"[CODE]{code_snippet}[/CODE]"

    # Replace all code-like snippets with wrapped version
    result = code_pattern.sub(replacer, text)
    return result

In [48]:
train_df["answers"] = train_df["answers"].apply(mark_code_blocks_inline)
test_df["answers"] = test_df["answers"].apply(mark_code_blocks_inline)

In [49]:
train_df.to_csv("train_dataset_coded_nan.csv",index=False)
test_df.to_csv("test_dataset_coded_nan.csv",index=False)