In [1]:
import numpy as np
import pandas as pd

# Generate synthetic IRT dataset
np.random.seed(42)  # For reproducibility
num_students = 100
num_questions = 10

# Define student abilities (some better, some worse)
student_abilities = np.random.normal(0, 1, num_students)  # Mean=0, SD=1
student_abilities[:30] += 1  # Top 30 students are slightly better
student_abilities[-30:] -= 1  # Bottom 30 students are slightly worse

# Define item difficulties (each consecutive question is harder)
item_difficulties = np.linspace(-2, 2, num_questions)

# Generate responses using a logistic function (IRT 1PL Model)
responses = np.zeros((num_students, num_questions))
for i in range(num_students):
    for j in range(num_questions):
        prob_correct = 1 / (1 + np.exp(-(student_abilities[i] - item_difficulties[j])))
        responses[i, j] = np.random.rand() < prob_correct

# Create DataFrame
df = pd.DataFrame(responses, columns=[f"V{j+1}" for j in range(num_questions)])
df.insert(0, "Student", range(1, num_students + 1))

# Save to CSV
df.to_csv("irt_data.csv", index=False)

print(df.head())


   Student   V1   V2   V3   V4   V5   V6   V7   V8   V9  V10
0        1  1.0  1.0  1.0  1.0  0.0  1.0  1.0  0.0  1.0  0.0
1        2  0.0  1.0  1.0  1.0  1.0  1.0  0.0  0.0  1.0  0.0
2        3  1.0  1.0  1.0  1.0  0.0  1.0  1.0  0.0  1.0  0.0
3        4  1.0  1.0  1.0  1.0  1.0  1.0  1.0  1.0  1.0  1.0
4        5  1.0  1.0  1.0  1.0  1.0  1.0  0.0  1.0  0.0  1.0


In [2]:
import numpy as np
import pandas as pd

# Generate synthetic IRT dataset
np.random.seed(69)  # For reproducibility
num_students = 120
num_questions = 5

# Define student abilities (some better, some worse)
student_abilities = np.random.normal(0, 1, num_students)  # Mean=0, SD=1
student_abilities[:15] += 1  # Top 15 students are slightly better
student_abilities[-15:] -= 1  # Bottom 15 students are slightly worse

# Define item difficulties (each consecutive question is harder)
item_difficulties = np.linspace(-2, 2, num_questions)

# Generate responses using a logistic function (IRT 1PL Model)
responses = np.zeros((num_students, num_questions))
for i in range(num_students):
    for j in range(num_questions):
        prob_correct = 1 / (1 + np.exp(-(student_abilities[i] - item_difficulties[j])))
        responses[i, j] = np.random.rand() < prob_correct

# Create DataFrame
df = pd.DataFrame(responses, columns=[f"V{j+1}" for j in range(num_questions)])
df.insert(0, "Student", range(1, num_students + 1))

# Save to CSV
df.to_csv("irt_data_vaja.csv", index=False)

print(df.head())


   Student   V1   V2   V3   V4   V5
0        1  1.0  1.0  1.0  0.0  1.0
1        2  1.0  1.0  1.0  0.0  0.0
2        3  1.0  1.0  1.0  1.0  0.0
3        4  1.0  1.0  1.0  1.0  0.0
4        5  1.0  0.0  1.0  0.0  0.0


politomous

In [1]:
import numpy as np
import pandas as pd

# Nastavimo seme za naključni generator števil, da so rezultati ponovljivi.
np.random.seed(42)

# Določimo število udeležencev (študentov) in število vprašanj (postavk).
num_students = 100
num_questions = 10
# Določimo število kategorij odgovorov za Likertovo lestvico (npr. 0, 1, 2, 3, 4).
num_categories = 5

# Generiramo sposobnosti udeležencev iz normalne porazdelitve (povprečje 0, standardni odklon 1).
# Sposobnosti predstavljajo latentno lastnost, ki jo test meri (npr. znanje, mnenje).
student_abilities = np.random.normal(0, 1, num_students)
# Za bolj realistične podatke, "porežemo" ekstremne vrednosti sposobnosti,
# da preprečimo preveč ekstremne odgovore.
student_abilities[student_abilities > 2.0] = 2.0
student_abilities[student_abilities < -2.0] = -2.0

# Določimo "osrednje težavnosti" za vsako postavko.
# To so točke na latentni lestvici, kjer je postavka "najbolj informativna".
# Postavke so razporejene od lažjih (-1.5) do težjih (1.5).
item_central_difficulties = np.linspace(-1.5, 1.5, num_questions)

# Določimo skupne kategorijske pragove za Likertovo lestvico.
# Ti pragovi definirajo meje na latentni lestvici, kjer je 50% verjetnost,
# da se izbere določena kategorija ali višja/nižja.
# Npr. -2.0 je meja med kategorijo 0 in 1, -0.5 med 1 in 2 itd.
# Ti pragovi so enaki za vse postavke v modelu Rating Scale.
category_thresholds = np.array([-2.0, -0.5, 0.5, 2.0]) # Pragovi za prehod med kategorijami (0->1, 1->2, 2->3, 3->4)

# Pripravimo prazno matriko za shranjevanje odgovorov.
polytomous_responses = np.zeros((num_students, num_questions), dtype=int)

# Glavna zanka za generiranje odgovorov za vsakega udeleženca in vsako postavko.
for i in range(num_students): # Iteriramo skozi vsakega študenta
    for j in range(num_questions): # Iteriramo skozi vsako vprašanje
        # Izračunamo latentni "rezultat" za to kombinacijo študent-vprašanje.
        # To je razlika med sposobnostjo študenta in težavnostjo vprašanja,
        # dodan pa je naključni šum, ki simulira merilno napako.
        latent_score = student_abilities[i] - item_central_difficulties[j] + np.random.normal(0, 0.7)

        # Določimo izbrano kategorijo na podlagi latentnega rezultata in pragov.
        # Začnemo z najnižjo kategorijo (0).
        chosen_category = 0
        # Pregledamo pragove: če je latentni rezultat nad določenim pragom,
        # se premaknemo v naslednjo kategorijo.
        for k in range(num_categories - 1):
            if latent_score > category_thresholds[k]:
                chosen_category = k + 1 # Povečamo kategorijo
            else:
                break # Če je latentni rezultat pod pragom, ostanemo v trenutni kategoriji in končamo zanko

        # Shranimo določeno kategorijo odgovora.
        polytomous_responses[i, j] = chosen_category

# Ustvarimo Pandas DataFrame iz generiranih odgovorov.
df_polytomous = pd.DataFrame(polytomous_responses, columns=[f"P{j+1}" for j in range(num_questions)])
# Dodamo stolpec "Student" za lažjo identifikacijo.
df_polytomous.insert(0, "Student", range(1, num_students + 1))

# Shranimo DataFrame v CSV datoteko.
df_polytomous.to_csv("irt_polytomous_data.csv", index=False)

# Izpišemo prvih nekaj vrstic generiranih podatkov za preverjanje.
print("Generirani politomski podatki (prvih 5 vrstic):")
print(df_polytomous.head())

Generirani politomski podatki (prvih 5 vrstic):
   Student  P1  P2  P3  P4  P5  P6  P7  P8  P9  P10
0        1   3   3   3   2   3   3   3   2   2    1
1        2   2   3   3   4   2   2   1   1   1    1
2        3   4   3   4   2   3   4   1   1   2    1
3        4   3   4   3   4   3   4   2   2   3    1
4        5   3   3   1   2   2   2   1   1   1    1


In [1]:
import numpy as np
import pandas as pd

# Nastavimo seme za naključni generator števil, da so rezultati ponovljivi.
np.random.seed(45) # Uporabimo drugačno seme za te podatke

num_students = 500 # Večje število študentov omogoča boljšo detekcijo DIF-a
num_questions = 10

# 1. Ustvarimo skupinsko spremenljivko 'Group'.
#    - 0: Referenčna skupina (npr. večinska skupina ali skupina, s katero primerjamo)
#    - 1: Fokalna skupina (npr. manjšinska skupina ali skupina, za katero preverjamo DIF)
#    Jamovi zahteva, da je fokalna skupina kodirana kot 1.
#    Predpostavimo približno enako velikost obeh skupin.
group = np.random.choice([0, 1], size=num_students, p=[0.5, 0.5])

# 2. Generiramo sposobnosti študentov.
#    Pomembno: Sposobnosti generiramo iz iste porazdelitve za vse študente,
#    ne glede na skupino. To zagotavlja, da morebitne razlike v odgovorih
#    niso posledica razlik v povprečni sposobnosti med skupinama.
student_abilities = np.random.normal(0, 1, num_students) # Povprečje 0, SD 1

# 3. Določimo težavnosti postavk za referenčno skupino.
#    Postavke so razporejene od lažjih do težjih.
item_difficulties = np.linspace(-2, 2, num_questions)

# Pripravimo prazno matriko za shranjevanje dihotomnih odgovorov.
responses = np.zeros((num_students, num_questions))

# Določimo, katera postavka bo imela DIF in kakšna bo velikost tega DIF-a.
# Postavka P5 (indeks 4, saj Python šteje od 0) bo imela DIF.
dif_item_index = 4
# Velikost DIF efekta: postavka P5 bo za fokalno skupino težja za 0.8 logitov.
# To simulira uniformni DIF (razlika v težavnosti).
dif_effect_size = 0.8

# Glavna zanka za generiranje odgovorov za vsakega udeleženca in vsako postavko.
for i in range(num_students): # Iteriramo skozi vsakega študenta
    for j in range(num_questions): # Iteriramo skozi vsako vprašanje
        # Določimo osnovno težavnost postavke.
        current_item_difficulty = item_difficulties[j]

        # Preverimo, ali je to postavka z DIF-om IN ali je oseba v fokalni skupini.
        if j == dif_item_index and group[i] == 1:
            # Če je, prilagodimo težavnost postavke tako, da bo za fokalno skupino težja.
            current_item_difficulty += dif_effect_size

        # Izračunamo verjetnost pravilnega odgovora z uporabo logistične funkcije (1PL IRT model).
        # To je verjetnost, da bo študent z določeno sposobnostjo pravilno odgovoril na postavko
        # z določeno težavnostjo.
        prob_correct = 1 / (1 + np.exp(-(student_abilities[i] - current_item_difficulty)))
        
        # Generiramo dihotomni odgovor (0 ali 1) na podlagi izračunane verjetnosti.
        # Odgovor je 1 (pravilno), če je naključno število manjše od verjetnosti.
        responses[i, j] = np.random.rand() < prob_correct

# 4. Ustvarimo Pandas DataFrame iz generiranih odgovorov.
df = pd.DataFrame(responses, columns=[f"DIF_Q{j+1}" for j in range(num_questions)])
# Dodamo stolpec "Student" za lažjo identifikacijo.
df.insert(0, "Student", range(1, num_students + 1))
# Dodamo skupinsko spremenljivko 'Group' v DataFrame.
df.insert(1, "Group", group)

# 5. Shranimo DataFrame v CSV datoteko.
df.to_csv("irt_dif_data.csv", index=False)

# Izpišemo prvih nekaj vrstic generiranih podatkov za preverjanje.
print("Generirani podatki za DIF analizo (prvih 5 vrstic):")
print(df.head())
print(f"\nPostavka DIF_Q{dif_item_index+1} ima simuliran uniformni DIF (težja za fokalno skupino).")
print("Število oseb v referenčni skupini (0):", np.sum(group == 0))
print("Število oseb v fokalni skupini (1):", np.sum(group == 1))

Generirani podatki za DIF analizo (prvih 5 vrstic):
   Student  Group  DIF_Q1  DIF_Q2  DIF_Q3  DIF_Q4  DIF_Q5  DIF_Q6  DIF_Q7  \
0        1      1     1.0     0.0     0.0     1.0     1.0     0.0     1.0   
1        2      1     1.0     1.0     1.0     1.0     0.0     1.0     1.0   
2        3      0     1.0     1.0     1.0     1.0     1.0     0.0     1.0   
3        4      0     1.0     0.0     1.0     1.0     0.0     0.0     0.0   
4        5      0     1.0     0.0     1.0     1.0     1.0     0.0     0.0   

   DIF_Q8  DIF_Q9  DIF_Q10  
0     0.0     1.0      0.0  
1     1.0     1.0      0.0  
2     0.0     0.0      0.0  
3     0.0     1.0      0.0  
4     0.0     1.0      0.0  

Postavka DIF_Q5 ima simuliran uniformni DIF (težja za fokalno skupino).
Število oseb v referenčni skupini (0): 255
Število oseb v fokalni skupini (1): 245


In [2]:
import numpy as np
import pandas as pd

# Nastavimo seme za naključni generator števil, da so rezultati ponovljivi.
np.random.seed(46)

# --- Nastavitve simulacije ---
num_students = 300 # Število študentov

# Pravilni odgovori, ki ste jih podali. To določa tudi število postavk.
correct_answers_str = "D,C,A,D,D,A,D,B,D,A,A,D,C,C,B,C,D,A,A,B"
correct_answers_list = correct_answers_str.split(',')
num_questions = len(correct_answers_list)

# Možni odgovori za vsako postavko z večkratno izbiro.
possible_choices = ['A', 'B', 'C', 'D']

# --- Generiranje latentne sposobnosti študentov ---
# Sposobnosti so porazdeljene normalno okoli povprečja 0 s standardnim odklonom 1.
student_abilities = np.random.normal(0, 1, num_students)

# --- Določitev "težavnosti" postavk ---
# Težavnosti so enakomerno razporejene, kar ustvarja različno težke postavke.
item_difficulties = np.linspace(-1.5, 1.5, num_questions)

# --- Matrika za shranjevanje generiranih odgovorov ---
# Uporabimo tip 'str', ker bodo odgovori črke (A, B, C, D).
responses_matrix = np.empty((num_students, num_questions), dtype=str)

# --- Glavna zanka za generiranje odgovorov ---
for i in range(num_students): # Iteracija skozi vsakega študenta
    for j in range(num_questions): # Iteracija skozi vsako postavko
        correct_choice = correct_answers_list[j] # Pravilni odgovor za trenutno postavko
        
        # Izračun verjetnosti pravilnega odgovora z uporabo 1PL IRT modela (Raschov model).
        # Vyšja sposobnost in lažja postavka povečata verjetnost pravilnega odgovora.
        prob_correct = 1 / (1 + np.exp(-(student_abilities[i] - item_difficulties[j])))
        
        # Generiranje naključnega števila za odločitev, ali bo odgovor pravilen ali napačen.
        rand_val = np.random.rand()
        
        if rand_val < prob_correct:
            # Študent je odgovoril pravilno.
            responses_matrix[i, j] = correct_choice
        else:
            # Študent je odgovoril napačno (izbral distraktorja).
            # Seznam vseh možnih distraktorjev za trenutno postavko.
            distractors = [choice for choice in possible_choices if choice != correct_choice]
            
            # --- Simulacija "močnejših" distraktorjev ---
            # V praksi so nekateri napačni odgovori bolj privlačni kot drugi.
            # Tukaj simuliramo, da je določen distraktor pogosteje izbran.
            
            chosen_distractor = '' # Začetna vrednost
            
            # Primeri: Določimo verjetnost izbire distraktorjev.
            # Če ima postavka 3 distraktorje (npr. A, B, C), lahko dodelimo verjetnosti:
            # [0.25, 0.25, 0.50] ali [0.33, 0.33, 0.34] za enako verjetnost.
            
            if correct_choice == 'D': # Če je pravilni odgovor D, so distraktorji A, B, C.
                # Naredimo C bolj privlačen distraktor.
                chosen_distractor = np.random.choice(distractors, p=[0.25, 0.25, 0.5]) # Verjetnosti za A, B, C
            elif correct_choice == 'A': # Če je pravilni odgovor A, so distraktorji B, C, D.
                # Naredimo B bolj privlačen distraktor.
                chosen_distractor = np.random.choice(distractors, p=[0.5, 0.25, 0.25]) # Verjetnosti za B, C, D
            elif correct_choice == 'B': # Če je pravilni odgovor B, so distraktorji A, C, D.
                # Naredimo A bolj privlačen distraktor.
                chosen_distractor = np.random.choice(distractors, p=[0.5, 0.25, 0.25]) # Verjetnosti za A, C, D
            elif correct_choice == 'C': # Če je pravilni odgovor C, so distraktorji A, B, D.
                # Naredimo D bolj privlačen distraktor.
                chosen_distractor = np.random.choice(distractors, p=[0.25, 0.25, 0.5]) # Verjetnosti za A, B, D
            else:
                # Privzeto: naključno izberemo distraktorja (enake verjetnosti).
                chosen_distractor = np.random.choice(distractors)
            
            responses_matrix[i, j] = chosen_distractor

# --- Ustvarjanje Pandas DataFrame ---
# Imena stolpcev bodo Q1, Q2, ..., Q20.
df_distractor = pd.DataFrame(responses_matrix, columns=[f"Q{j+1}" for j in range(num_questions)])
# Dodamo stolpec "Student" za lažjo identifikacijo posameznih vrstic.
df_distractor.insert(0, "Student", range(1, num_students + 1))

# --- Shranjevanje podatkov v CSV datoteko ---
df_distractor.to_csv("irt_distractor_data.csv", index=False)

# --- Potrditveno sporočilo in prikaz glave DataFrame-a ---
print("Generirani podatki za Distractor Analysis (prvih 5 vrstic):")
print(df_distractor.head())
print(f"\nŠtevilo postavk: {num_questions}")
print(f"Pravilni odgovori (za ročni vnos v Jamovi): {correct_answers_str}")
print("\nDatoteka 'irt_distractor_data.csv' je bila uspešno generirana.")


Generirani podatki za Distractor Analysis (prvih 5 vrstic):
   Student Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8 Q9  ... Q11 Q12 Q13 Q14 Q15 Q16 Q17 Q18  \
0        1  D  C  A  B  D  A  D  B  A  ...   D   D   C   A   B   C   D   D   
1        2  D  C  A  D  D  D  D  B  D  ...   A   D   C   C   A   C   D   D   
2        3  D  C  A  D  C  C  D  B  C  ...   C   D   A   C   B   C   A   C   
3        4  D  C  C  C  D  A  D  B  D  ...   A   D   B   A   A   A   B   D   
4        5  D  C  A  D  D  A  D  B  D  ...   A   B   B   D   B   B   D   B   

  Q19 Q20  
0   A   A  
1   B   A  
2   A   C  
3   A   A  
4   A   B  

[5 rows x 21 columns]

Število postavk: 20
Pravilni odgovori (za ročni vnos v Jamovi): D,C,A,D,D,A,D,B,D,A,A,D,C,C,B,C,D,A,A,B

Datoteka 'irt_distractor_data.csv' je bila uspešno generirana.
