# Student Feedback Analysis using Llama 3.1 8B

This notebook analyzes student feedback using the Llama 3.1 8B model on Google Colab with GPU support.

In [1]:
# Check GPU availability
!nvidia-smi

Wed Mar 19 15:02:18 2025       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.54.15              Driver Version: 550.54.15      CUDA Version: 12.4     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|   0  NVIDIA A100-SXM4-40GB          Off |   00000000:00:04.0 Off |                    0 |
| N/A   38C    P0             47W /  400W |       0MiB /  40960MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
                                                

In [2]:
# Install required packages
!pip install pandas numpy transformers torch accelerate tqdm

Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.4.5.8 (from torch)
  Downloading nvidia_cublas_cu12-12.4.5.8-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cufft-cu12==11.2.1.3 (from torch)
  Downloading nvidia_cufft_cu12-11.2.1.3-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-curand-cu12==10.3.5.147 (from torch)
  Downloading nvidia_curand_cu12-10.3.5

In [4]:
import csv
import os
import pandas as pd
import numpy as np
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
from tqdm import tqdm
import json
from datetime import datetime

# Mount Google Drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [5]:
def load_model():
    """Load the Llama 3 model and tokenizer"""
    try:
        # Load tokenizer
        tokenizer = AutoTokenizer.from_pretrained(
            "meta-llama/Llama-3.1-8B-Instruct",
            token=os.getenv('HUGGINGFACE_TOKEN')
        )

        # Load model
        model = AutoModelForCausalLM.from_pretrained(
            "meta-llama/Llama-3.1-8B-Instruct",
            token=os.getenv('HUGGINGFACE_TOKEN'),
            torch_dtype=torch.float16,
            device_map="auto"
        )

        return model, tokenizer
    except Exception as e:
        print(f"Error loading model: {str(e)}")
        return None, None

In [10]:
def create_master_table(data_dir):
    """Create a master table aggregating feedback for each student"""
    master_data = []

    # Process each CSV file
    for filename in os.listdir(data_dir):
        if filename.endswith('.csv'):
            file_path = os.path.join(data_dir, filename)
            try:
                # Read CSV with proper quoting to handle commas in feedback
                df = pd.read_csv(
                    file_path,
                    quoting=csv.QUOTE_ALL,  # Quote all fields
                    escapechar='\\',        # Use backslash as escape character
                    doublequote=True        # Allow double quotes within quoted strings
                )

                # Verify required columns
                required_columns = ['team_number', 'rater_student_id', 'rated_student_id', 'criterion', 'feedback']
                if not all(col in df.columns for col in required_columns):
                    print(f"Warning: {filename} missing required columns")
                    continue

                # Add to master data
                for _, row in df.iterrows():
                    master_data.append({
                        'Studentnummer': row['rated_student_id'],
                        'Criterium': row['criterion'],
                        'Feedback': str(row['feedback']).strip(),  # Ensure feedback is string and remove extra whitespace
                        'Source': filename,
                        'Team': row['team_number'],
                        'Rater': row['rater_student_id']
                    })

            except Exception as e:
                print(f"Error processing {filename}: {str(e)}")
                continue

    if not master_data:
        print("Warning: No data was processed from any CSV files")
        return pd.DataFrame()

    # Create master DataFrame
    master_df = pd.DataFrame(master_data)

    # Group by student and criterion
    grouped = master_df.groupby(['Studentnummer', 'Criterium']).agg({
        'Feedback': lambda x: '\n'.join(str(s).strip() for s in x if pd.notna(s)),  # Handle NaN values
        'Source': lambda x: ', '.join(x),
        'Team': 'first',
        'Rater': lambda x: ', '.join(map(str, x))
    }).reset_index()

    return grouped

In [11]:
def analyze_student_feedback(model, tokenizer, feedback_text, criterion):
    """Analyze feedback text using the model"""
    try:
        prompt = f"""Je bent een ervaren onderwijsassistent aan de Katholieke Universiteit Leuven. Je taak is om de volgende feedback van medestudenten te analyseren en samen te vatten voor een individuele student na een collaboratieve probleemoplossende sessie:

{feedback_text}

# Focus op de volgende context:{criterion}
De student heeft deelgenomen aan een groepsopdracht waarbij medestudenten feedback hebben gegeven op drie specifieke criteria:
1. Inhoudelijke inbreng - De kwaliteit en relevantie van de bijdragen aan de discussie en het project
2. Werkkracht - De inzet, productiviteit en discipline bij het uitvoeren van taken
3. Teamspeler - De samenwerking, communicatie en ondersteuning van teamleden

# Opdracht
Analyseer de volgende feedback en creëer een gestructureerde samenvatting die de student helpt om te groeien volgens het ICAP-model (Interactive, Constructive, Active, Passive). Focus hierbij op:

- Hoe de student momenteel presteert binnen elk criterium
- Concrete voorbeelden uit de feedback die de sterke punten illustreren
- Ontwikkelingsgebieden waar verbetering mogelijk is
- Een duidelijk groeipad van passieve naar interactieve betrokkenheid

# ICAP-model uitleg
Het ICAP-model categoriseert cognitieve betrokkenheid in vier niveaus met toenemende leereffectiviteit:
- Passief: Informatie ontvangen zonder actieve verwerking
- Actief: Manipuleren van informatie zonder nieuwe ideeën te genereren
- Constructief: Genereren van nieuwe ideeën die verder gaan dan de gepresenteerde informatie
- Interactief: Dialogeren met anderen en voortbouwen op elkaars bijdragen

# Feedback data
[Voeg hier alle feedback van medestudenten toe]

# Output formaat
1. Begin met een korte introductie die de algemene indruk weergeeft
2. Analyseer per criterium (Inhoudelijke inbreng, Werkkracht, Teamspeler):
   - Huidige niveau volgens ICAP
   - Sterke punten met concrete voorbeelden
   - Verbeterpunten met suggesties
3. Geef een geïntegreerd groeipad dat de student helpt om naar een hoger ICAP-niveau te bewegen
4. Sluit af met een bemoedigende samenvatting

Schrijf deze samenvatting in een professionele maar toegankelijke academische stijl, zoals een docent aan de KU Leuven zou communiceren. Gebruik specifieke voorbeelden uit de feedback om je punten te illustreren."""

        inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
        outputs = model.generate(
            **inputs,
            max_length=2048,
            num_return_sequences=1,
            temperature=0.7,
            do_sample=True
        )

        analysis = tokenizer.decode(outputs[0], skip_special_tokens=True)
        return analysis
    except Exception as e:
        print(f"Error in analysis: {str(e)}")
        return None

In [13]:
def process_master_table(model, tokenizer, master_df, output_dir):
    """Process the master table and generate analyses"""
    results = []

    # Create output directory if it doesn't exist
    os.makedirs(output_dir, exist_ok=True)

    # Process each student-criterion combination
    for _, row in tqdm(master_df.iterrows(), total=len(master_df)):
        student_id = row['Studentnummer']
        criterion = row['Criterium']
        feedback = row['Feedback']

        # Generate analysis
        analysis = analyze_student_feedback(model, tokenizer, feedback, criterion)

        if analysis:
            results.append({
                'Studentnummer': student_id,
                'Criterium': criterion,
                'Feedback': feedback,
                'Analyse': analysis
            })

    # Create results DataFrame
    results_df = pd.DataFrame(results)

    # Save results
    timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')
    output_file = os.path.join(output_dir, f'feedback_analysis_{timestamp}.csv')
    results_df.to_csv(output_file, index=False)

    return results_df

In [None]:
# Set Hugging Face token
os.environ['HUGGINGFACE_TOKEN'] = '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'

# Define directories
data_dir = '/content/data'
output_dir = '/content/output'

# Create directories if they don't exist
os.makedirs(data_dir, exist_ok=True)
os.makedirs(output_dir, exist_ok=True)

# Load model
print("Loading model...")
model, tokenizer = load_model()
if model is None or tokenizer is None:
    raise Exception("Failed to load model")

# Create master table
print("Creating master table...")
master_df = create_master_table(data_dir)
print(f"Master table created with {len(master_df)} entries")

# Process master table
print("Processing master table...")
results_df = process_master_table(model, tokenizer, master_df, output_dir)
print("Processing complete!")

# Display sample results
print("\nSample Results:")
print(results_df.head())

Loading model...


Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]



Creating master table...
Error processing comments-Table 1.csv: Error tokenizing data. C error: Expected 1 fields in line 9, saw 2

Master table created with 36 entries
Processing master table...


  0%|          | 0/36 [00:00<?, ?it/s]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.
