# Fungsi Krippendorff's Alpha

In [11]:
import pandas as pd
import numpy as np
import krippendorff

def hitung_krippendorff_alpha(df: pd.DataFrame, kolom_annotator: list, level_of_measurement: str = 'ordinal') -> float:
    """
    Menghitung Krippendorff's Alpha dari sebuah DataFrame.

    Args:
        df (pd.DataFrame): DataFrame yang berisi data anotasi.
        kolom_annotator (list): Daftar nama kolom yang berisi data dari para anotator.
        level_of_measurement (str): Tingkat pengukuran data. 
                                    Pilihan: 'nominal', 'ordinal', 'interval', 'ratio'. 
                                    Defaultnya adalah 'ordinal'.

    Returns:
        float: Nilai Krippendorff's Alpha.
    """
    # Memilih hanya kolom anotator dari DataFrame
    df_annotator = df[kolom_annotator]

    # Library krippendorff memerlukan data dalam format list of lists,
    # di mana setiap list internal adalah data dari satu anotator.
    # Format DataFrame kita adalah: baris=item, kolom=anotator.
    # Kita perlu mentransposenya (.T) agar menjadi baris=anotator, kolom=item.
    data_untuk_alpha = df_annotator.T.values.tolist()

    # Menghitung alpha menggunakan library krippendorff
    # Fungsi ini juga secara otomatis menangani data yang kosong (missing values)
    alpha = krippendorff.alpha(reliability_data=data_untuk_alpha,
                               level_of_measurement=level_of_measurement)

    return alpha

## LLM Augmented Annotation

In [12]:
# 1. Membaca data
df = pd.read_csv('formatted_output_parafrasa.csv')

# 2. Tentukan kolom mana yang merupakan data anotator
kolom_annotator = ['X1', 'X2', 'X3']

# 3. Hitung Alpha dengan level pengukuran yang berbeda
alpha_ordinal = hitung_krippendorff_alpha(df, kolom_annotator, level_of_measurement='ordinal')

# --- Tampilan Hasil ---
print("DataFrame Sampel:")
print(df)
print("-" * 30)
print(f"Nilai Krippendorff's Alpha (Ordinal): {alpha_ordinal:.4f}")

DataFrame Sampel:
         TableID_Aspect  X1  X2  X3
0         T0131_Fluency   7   6   6
1    T0131_Faithfulness   6   5   6
2    T0131_Completeness   7   7   7
3         T1084_Fluency   5   4   5
4    T1084_Faithfulness   7   7   6
..                  ...  ..  ..  ..
715  T0724_Faithfulness   7   6   6
716  T0724_Completeness   7   7   7
717       T1115_Fluency   5   5   6
718  T1115_Faithfulness   7   6   6
719  T1115_Completeness   7   7   7

[720 rows x 4 columns]
------------------------------
Nilai Krippendorff's Alpha (Ordinal): 0.4787


## Human Evaluation

In [13]:
# 1. Membaca data
df = pd.read_csv('human_eval_results.csv')

# 2. Tentukan kolom mana yang merupakan data anotator
kolom_annotator = ['X1', 'X2', 'X3']

# 3. Hitung Alpha dengan level pengukuran yang berbeda
alpha_ordinal = hitung_krippendorff_alpha(df, kolom_annotator, level_of_measurement='ordinal')

# --- Tampilan Hasil ---
print("DataFrame Sampel:")
print(df)
print("-" * 30)
print(f"Nilai Krippendorff's Alpha (Ordinal): {alpha_ordinal:.4f}")

DataFrame Sampel:
                                 Annotator  X1  X2  X3
0                Aspek Penilaian [Fluency]   4   5   5
1    Aspek Penilaian [Factual correctness]   5   5   5
2            Aspek Penilaian [Completness]   2   2   4
3                Aspek Penilaian [Fluency]   3   5   3
4    Aspek Penilaian [Factual correctness]   2   2   5
..                                     ...  ..  ..  ..
247  Aspek Penilaian [Factual correctness]   5   5   5
248          Aspek Penilaian [Completness]   5   5   5
249              Aspek Penilaian [Fluency]   5   5   5
250  Aspek Penilaian [Factual correctness]   4   5   4
251          Aspek Penilaian [Completness]   5   5   5

[252 rows x 4 columns]
------------------------------
Nilai Krippendorff's Alpha (Ordinal): 0.7177


## Skenario Testing

In [14]:
# 1. Membaca data
df = pd.read_csv('skenario_testing_results.csv')

# 2. Tentukan kolom mana yang merupakan data anotator
kolom_annotator = ['X1', 'X2', 'X3']

# 3. Hitung Alpha dengan level pengukuran yang berbeda
alpha_ordinal = hitung_krippendorff_alpha(df, kolom_annotator, level_of_measurement='ordinal')

# --- Tampilan Hasil ---
print("DataFrame Sampel:")
print(df)
print("-" * 30)
print(f"Nilai Krippendorff's Alpha (Ordinal): {alpha_ordinal:.4f}")

DataFrame Sampel:
      No                             Pertanyaan  X1  X2  X3
0      1              Aspek Penilaian [Fluency]   3   1   3
1      2  Aspek Penilaian [Factual Correctness]   1   1   1
2      3         Aspek Penilaian [Completeness]   5   3   4
3      4              Aspek Penilaian [Fluency]   4   5   4
4      5  Aspek Penilaian [Factual Correctness]   2   1   1
..   ...                                    ...  ..  ..  ..
355  356  Aspek Penilaian [Factual Correctness]   1   1   1
356  357         Aspek Penilaian [Completeness]   5   4   3
357  358              Aspek Penilaian [Fluency]   5   5   4
358  359  Aspek Penilaian [Factual Correctness]   1   1   2
359  360         Aspek Penilaian [Completeness]   5   4   4

[360 rows x 5 columns]
------------------------------
Nilai Krippendorff's Alpha (Ordinal): 0.5933


# Fungsi Skor Rata-rata Tiap Aspek

In [4]:
import pandas as pd
import numpy as np

def hitung_rata_rata_aspek(df: pd.DataFrame, kolom_annotator: list):
    """
    Menghitung rata-rata skor untuk setiap aspek dan model evaluasi.

    Args:
        df (pd.DataFrame): DataFrame berisi skor mentah.
        kolom_annotator (list): Daftar nama kolom anotator, cth: ['annotator_1', 'annotator_2'].

    Returns:
        pd.Series: Series yang berisi rata-rata skor, diindeks berdasarkan model dan aspek.
    """
    # Salin DataFrame agar tidak mengubah data asli
    df_copy = df.copy()

    # --- Menambahkan kolom 'aspek' dan 'model' berdasarkan pola ---
    
    # Pola aspek berulang setiap 3 baris
    aspek_list = ['Fluency', 'Factual Correctness', 'Completeness']
    df_copy['aspek'] = [aspek_list[i % 3] for i in range(len(df_copy))]

    # Pola model berganti setiap 3 baris (UniChart, ChartInstruct-Llama)
    model_list = ['UniChart', 'ChartInstruct-Llama']
    df_copy['model'] = [model_list[(i // 3) % 2] for i in range(len(df_copy))]
    
    # --- Kalkulasi Rata-rata ---

    # 1. Hitung rata-rata skor dari semua annotator untuk setiap baris (pertanyaan)
    df_copy['skor_rata_rata'] = df_copy[kolom_annotator].mean(axis=1)

    # 2. Kelompokkan berdasarkan 'model' dan 'aspek', lalu hitung rata-rata dari 'skor_rata_rata'
    hasil_akhir = df_copy.groupby(['model', 'aspek'])['skor_rata_rata'].mean()

    return hasil_akhir

## Human Evaluation

### ALL

In [5]:
# 1. Membaca data
df = pd.read_csv('human_eval_results.csv')

# 2. Tentukan kolom mana yang merupakan data anotator
kolom_annotator = ['X1', 'X2', 'X3']

# 3. Panggil fungsi untuk mendapatkan hasilnya
hasil_evaluasi = hitung_rata_rata_aspek(df, kolom_annotator)

# 4. Tampilkan hasil
print("📊 Hasil Rata-Rata Skor per Aspek dan Model:")
print(hasil_evaluasi)

📊 Hasil Rata-Rata Skor per Aspek dan Model:
model                aspek              
ChartInstruct-Llama  Completeness           3.825397
                     Factual Correctness    3.730159
                     Fluency                4.238095
UniChart             Completeness           3.793651
                     Factual Correctness    3.468254
                     Fluency                4.190476
Name: skor_rata_rata, dtype: float64


### PARSIAL

In [6]:
# 1. MUAT DATA ANDA (Ganti baris ini dengan file Anda)
df = pd.read_csv('human_eval_results.csv')

# 2. DEFINISIKAN SEMUA SUBSET DATA
kolom_annotator = ['X1', 'X2', 'X3']
subset_data = {
    "Statista": (0, 108),
    "BPS": (108, 252),
}

# 3. PROSES SEMUA SUBSET DATA DALAM LOOP
semua_hasil = {}
print("🚀 Memproses semua subset data...")
for nama_subset, (baris_awal, baris_akhir) in subset_data.items():
    # Slice DataFrame menggunakan .iloc untuk pemilihan baris berbasis angka
    df_subset = df.iloc[baris_awal:baris_akhir]
    
    # Panggil fungsi dan simpan hasilnya
    hasil = hitung_rata_rata_aspek(df_subset, kolom_annotator)
    semua_hasil[nama_subset] = hasil
print("✅ Proses selesai.")

# 4. TAMPILKAN HASIL AKHIR
print("\n" + "="*40 + "\n")
for nama_subset, hasil_evaluasi in semua_hasil.items():
    print(f"📊 Hasil untuk subset data: {nama_subset}")
    print(hasil_evaluasi)
    print("\n" + "="*40 + "\n")

🚀 Memproses semua subset data...
✅ Proses selesai.


📊 Hasil untuk subset data: Statista
model                aspek              
ChartInstruct-Llama  Completeness           2.814815
                     Factual Correctness    3.314815
                     Fluency                3.666667
UniChart             Completeness           2.870370
                     Factual Correctness    2.759259
                     Fluency                3.777778
Name: skor_rata_rata, dtype: float64


📊 Hasil untuk subset data: BPS
model                aspek              
ChartInstruct-Llama  Completeness           4.583333
                     Factual Correctness    4.041667
                     Fluency                4.666667
UniChart             Completeness           4.486111
                     Factual Correctness    4.000000
                     Fluency                4.500000
Name: skor_rata_rata, dtype: float64




## Skenario Testing

### ALL

In [7]:
# 1. Membaca data
df = pd.read_csv('skenario_testing_results.csv')

# 2. Tentukan kolom mana yang merupakan data anotator
kolom_annotator = ['X1', 'X2', 'X3']

# 3. Panggil fungsi untuk mendapatkan hasilnya
hasil_evaluasi = hitung_rata_rata_aspek(df, kolom_annotator)

# 4. Tampilkan hasil
print("📊 Hasil Rata-Rata Skor per Aspek dan Model:")
print(hasil_evaluasi)

📊 Hasil Rata-Rata Skor per Aspek dan Model:
model                aspek              
ChartInstruct-Llama  Completeness           4.461111
                     Factual Correctness    2.977778
                     Fluency                4.477778
UniChart             Completeness           4.283333
                     Factual Correctness    3.200000
                     Fluency                4.166667
Name: skor_rata_rata, dtype: float64


### PARSIAL

In [8]:
# 1. MUAT DATA ANDA (Ganti baris ini dengan file Anda)
df = pd.read_csv('skenario_testing_results.csv')

# 2. DEFINISIKAN SEMUA SKENARIO
kolom_annotator = ['X1', 'X2', 'X3']
skenarios = {
    "Variasi Gaya Visual": (0, 72),
    "3D Charts": (72, 144),
    "Pixel Resolutions": (144, 216),
    "Add Noise": (216, 288),
    "Remove Element": (288, 360)
}

# 3. PROSES SEMUA SKENARIO DALAM LOOP
semua_hasil = {}
print("🚀 Memproses semua skenario...")
for nama_skenario, (baris_awal, baris_akhir) in skenarios.items():
    # Slice DataFrame menggunakan .iloc untuk pemilihan baris berbasis angka
    df_skenario = df.iloc[baris_awal:baris_akhir]
    
    # Panggil fungsi dan simpan hasilnya
    hasil = hitung_rata_rata_aspek(df_skenario, kolom_annotator)
    semua_hasil[nama_skenario] = hasil
print("✅ Proses selesai.")

# 4. TAMPILKAN HASIL AKHIR
print("\n" + "="*40 + "\n")
for nama_skenario, hasil_evaluasi in semua_hasil.items():
    print(f"📊 Hasil untuk Skenario: {nama_skenario}")
    print(hasil_evaluasi)
    print("\n" + "="*40 + "\n")

🚀 Memproses semua skenario...
✅ Proses selesai.


📊 Hasil untuk Skenario: Variasi Gaya Visual
model                aspek              
ChartInstruct-Llama  Completeness           4.388889
                     Factual Correctness    2.055556
                     Fluency                4.333333
UniChart             Completeness           4.222222
                     Factual Correctness    2.888889
                     Fluency                4.027778
Name: skor_rata_rata, dtype: float64


📊 Hasil untuk Skenario: 3D Charts
model                aspek              
ChartInstruct-Llama  Completeness           4.444444
                     Factual Correctness    3.638889
                     Fluency                4.500000
UniChart             Completeness           4.472222
                     Factual Correctness    3.805556
                     Fluency                4.277778
Name: skor_rata_rata, dtype: float64


📊 Hasil untuk Skenario: Pixel Resolutions
model                aspek        

# Fungsi Korelasi Spearman

In [1]:
!pip install scipy




[notice] A new release of pip is available: 25.0.1 -> 25.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [4]:
import pandas as pd
from scipy.stats import spearmanr

def hitung_korelasi_spearman(df: pd.DataFrame, kolom_annotator1: str, kolom_annotator2: str):
    """
    Menghitung korelasi Spearman antara dua kolom anotator dalam DataFrame.

    Args:
        df (pd.DataFrame): DataFrame yang berisi data.
        kolom_annotator1 (str): Nama kolom untuk anotator pertama.
        kolom_annotator2 (str): Nama kolom untuk anotator kedua.

    Returns:
        tuple: Berisi (correlation_coefficient, p_value).
    """
    # Mengambil data dari dua kolom yang ditentukan
    anotator1_scores = df[kolom_annotator1]
    anotator2_scores = df[kolom_annotator2]
    
    # Menghitung korelasi Spearman dan p-value
    correlation, p_value = spearmanr(anotator1_scores, anotator2_scores)
    
    return correlation, p_value

## Human Evaluation

In [5]:
# 1. Membaca data
df = pd.read_csv('human_eval_results.csv')

# 2. Hitung korelasi antara annotator_1 dan annotator_2
corr_12, pval_12 = hitung_korelasi_spearman(df, 'X1', 'X2')

# 3. Hitung korelasi antara annotator_1 dan annotator_3
corr_13, pval_13 = hitung_korelasi_spearman(df, 'X1', 'X3')

# 4. Hitung korelasi antara annotator_2 dan annotator_3
corr_23, pval_23 = hitung_korelasi_spearman(df, 'X2', 'X3')

# 5. Tampilkan hasil
print("Korelasi antara Anotator 1 dan Anotator 2:")
print(f"  Spearman's correlation (rs): {corr_12:.4f}")
print(f"  P-value: {pval_12:.4f}\n")

print("Korelasi antara Anotator 1 dan Anotator 3:")
print(f"  Spearman's correlation (rs): {corr_13:.4f}")
print(f"  P-value: {pval_13:.4f}\n")

print("Korelasi antara Anotator 2 dan Anotator 3:")
print(f"  Spearman's correlation (rs): {corr_23:.4f}")
print(f"  P-value: {pval_23:.4f}")

Korelasi antara Anotator 1 dan Anotator 2:
  Spearman's correlation (rs): 0.7541
  P-value: 0.0000

Korelasi antara Anotator 1 dan Anotator 3:
  Spearman's correlation (rs): 0.6972
  P-value: 0.0000

Korelasi antara Anotator 2 dan Anotator 3:
  Spearman's correlation (rs): 0.7283
  P-value: 0.0000


## Skenario Testing

In [6]:
# 1. Membaca data
df = pd.read_csv('skenario_testing_results.csv')

# 2. Hitung korelasi antara annotator_1 dan annotator_2
corr_12, pval_12 = hitung_korelasi_spearman(df, 'X1', 'X2')

# 3. Hitung korelasi antara annotator_1 dan annotator_3
corr_13, pval_13 = hitung_korelasi_spearman(df, 'X1', 'X3')

# 4. Hitung korelasi antara annotator_2 dan annotator_3
corr_23, pval_23 = hitung_korelasi_spearman(df, 'X2', 'X3')

# 5. Tampilkan hasil
print("Korelasi antara Anotator 1 dan Anotator 2:")
print(f"  Spearman's correlation (rs): {corr_12:.4f}")
print(f"  P-value: {pval_12:.4f}\n")

print("Korelasi antara Anotator 1 dan Anotator 3:")
print(f"  Spearman's correlation (rs): {corr_13:.4f}")
print(f"  P-value: {pval_13:.4f}\n")

print("Korelasi antara Anotator 2 dan Anotator 3:")
print(f"  Spearman's correlation (rs): {corr_23:.4f}")
print(f"  P-value: {pval_23:.4f}")

Korelasi antara Anotator 1 dan Anotator 2:
  Spearman's correlation (rs): 0.5714
  P-value: 0.0000

Korelasi antara Anotator 1 dan Anotator 3:
  Spearman's correlation (rs): 0.6886
  P-value: 0.0000

Korelasi antara Anotator 2 dan Anotator 3:
  Spearman's correlation (rs): 0.5696
  P-value: 0.0000
