In [1]:
import numpy as np
import scipy.stats as stats

In [None]:
def analysis(response_times: list[float]):
    data = np.array(response_times)
    
    # Podstawowe statystyki
    n = len(data)
    mean = np.mean(data)
    median = np.median(data)
    std = np.std(data, ddof=1)
    var = np.var(data, ddof=1)
    min_val = np.min(data)
    max_val = np.max(data)
    range_val = max_val - min_val
    q1, q3 = np.percentile(data, [25, 75])
    cv = std / mean
    
    # Skośność i kurtoza
    skew = stats.skew(data)
    kurt = stats.kurtosis(data)
    
    # Wyniki
    print(f"Liczba elementów: {n}")
    print(f"Średnia: {mean:.6f} s.")
    print(f"Mediana: {median:.6f} s.")
    print(f"Odchylenie standardowe: {std:.6f}")
    print(f"Wariancja: {var:.6f}")
    print(f"Minimum: {min_val:.6f} s.")
    print(f"Maksimum: {max_val:.6f} s.")
    print(f"Zakres: {range_val:.6f}")
    # print(f"Q1: {q1:.6f}, Q3: {q3:.6f}")
    # print(f"Współczynnik zmienności: {cv:.6f}")
    # print(f"Skośność: {skew:.6f}")
    # print(f"Kurtoza: {kurt:.6f}")

In [3]:
def make_analysis(filename: str, model_name: str):
    with open(filename,'r') as f:
        data = f.readlines()
    cleaned = [float(d.split('"time_to_answer": ')[-1].replace('\n','').replace('}','')) for d in data]
    print(f"### {model_name} ###")
    analysis(cleaned)

In [30]:
make_analysis('0experiment_bielik.jsonl', 'speakleash/Bielik-11B-v2.6-Instruct')

### speakleash/Bielik-11B-v2.6-Instruct ###
Liczba elementów: 570
Średnia: 0.866218 s.
Mediana: 0.833895 s.
Odchylenie standardowe: 0.242911
Wariancja: 0.059006
Minimum: 0.516010 s.
Maksimum: 2.981905 s.
Zakres: 2.465895


In [31]:
make_analysis('0experiment_3_45_bielik.jsonl', 'speakleash/Bielik-4.5B-v3.0-Instruct')

### speakleash/Bielik-4.5B-v3.0-Instruct ###
Liczba elementów: 570
Średnia: 1.365756 s.
Mediana: 1.382883 s.
Odchylenie standardowe: 0.399028
Wariancja: 0.159224
Minimum: 0.712721 s.
Maksimum: 8.890168 s.
Zakres: 8.177447


In [7]:
make_analysis('1experiment_3_45_bielik.jsonl', 'speakleash/Bielik-4.5B-v3.0-Instruct')

### speakleash/Bielik-4.5B-v3.0-Instruct ###
Liczba elementów: 570
Średnia: 1.227723 s.
Mediana: 1.245332 s.
Odchylenie standardowe: 0.350987
Wariancja: 0.123192
Minimum: 0.625281 s.
Maksimum: 7.722096 s.
Zakres: 7.096815


In [32]:
make_analysis('0experiment_pllum.jsonl', 'CYFRAGOVPL/PLLuM-12B-instruct')

### CYFRAGOVPL/PLLuM-12B-instruct ###
Liczba elementów: 570
Średnia: 1.208389 s.
Mediana: 1.179872 s.
Odchylenie standardowe: 0.634111
Wariancja: 0.402096
Minimum: 0.556281 s.
Maksimum: 13.430074 s.
Zakres: 12.873794


In [33]:
make_analysis('0experiment_mistral.jsonl', 'mistralai/Mistral-7B-Instruct-v0.3')

### mistralai/Mistral-7B-Instruct-v0.3 ###
Liczba elementów: 570
Średnia: 0.541196 s.
Mediana: 0.514613 s.
Odchylenie standardowe: 0.142710
Wariancja: 0.020366
Minimum: 0.338615 s.
Maksimum: 2.070267 s.
Zakres: 1.731651


In [34]:
make_analysis('0experiment_2_5_quen.jsonl', 'Qwen/Qwen2.5-14B-Instruct')

### Qwen/Qwen2.5-14B-Instruct ###
Liczba elementów: 570
Średnia: 3.231882 s.
Mediana: 2.966895 s.
Odchylenie standardowe: 1.280674
Wariancja: 1.640126
Minimum: 1.643132 s.
Maksimum: 16.774924 s.
Zakres: 15.131792


In [4]:
make_analysis('0experiment_gemma3.jsonl', 'google/gemma-3-12b-it')

### google/gemma-3-12b-it ###
Liczba elementów: 570
Średnia: 3.941761 s.
Mediana: 3.735184 s.
Odchylenie standardowe: 0.989446
Wariancja: 0.979003
Minimum: 2.255320 s.
Maksimum: 12.938768 s.
Zakres: 10.683449


In [8]:
relative_times = {
    'speakleash/Bielik-11B-v2.6-Instruct': 0.866218,
    'speakleash/Bielik-4.5B-v3.0-Instruct': 1.227723,
    'CYFRAGOVPL/PLLuM-12B-instruct': 1.208389,
    'mistralai/Mistral-7B-Instruct-v0.3': 0.541196,
    'Qwen/Qwen2.5-14B-Instruct': 3.231882,
    'google/gemma-3-12b-it': 3.941761,
}

In [10]:
reference = relative_times['mistralai/Mistral-7B-Instruct-v0.3']
for model, time in relative_times.items():
    print(f"{model} - relative answer time: {100*round(time/reference, 2)}%")

speakleash/Bielik-11B-v2.6-Instruct - relative answer time: 160.0%
speakleash/Bielik-4.5B-v3.0-Instruct - relative answer time: 227.0%
CYFRAGOVPL/PLLuM-12B-instruct - relative answer time: 223.0%
mistralai/Mistral-7B-Instruct-v0.3 - relative answer time: 100.0%
Qwen/Qwen2.5-14B-Instruct - relative answer time: 597.0%
google/gemma-3-12b-it - relative answer time: 728.0%
