# Evaluasi Rancangan
## **Rancangan Evaluasi: Validasi Berlapis dengan Kerangka PICOC-ASTF**

Untuk memastikan klaim efektivitas CKM-SE didasarkan pada bukti yang kuat, kami merancang sebuah protokol evaluasi yang komprehensif. Kami tidak hanya bertanya, "Apakah sistem ini berhasil?" tetapi lebih dalam: "Mengapa, bagaimana, dan pada level apa ia berhasil?"

Untuk menjawabnya, kami mengintegrasikan dua kerangka kerja yang kuat:
1.  **DSRM (Design Science Research Methodology):** Sebagai metodologi utama untuk merancang dan membangun CKM-SE sebagai sebuah *Smart Artifact* @41 @107.
2.  **PICOC-ASTF:** Sebagai kerangka evaluasi untuk mengukur dampak artefak tersebut secara berlapis, dari fondasi teoretis hingga aplikasi di dunia nyata @1 @3 @55 @60 @171.

---

### **Struktur Evaluasi Berlapis (ASTF)**

Evaluasi kami terstruktur dalam empat lapisan investigasi yang berbeda, memastikan validasi di setiap tingkatan—dari ide hingga implementasi.

| Lapisan (ASTF) | Fokus Utama | Pertanyaan Kunci |
| :--- | :--- | :--- |
| **A: Aplikasi** | Dampak Dunia Nyata & VCC | Apakah CKM-SE secara signifikan meningkatkan hasil belajar dan memfasilitasi penciptaan nilai bersama (VCC) dalam konteks nyata? |
| **S: Sistem** | Kualitas & Penerimaan Pengguna | Bagaimana pengalaman pengguna (mahasiswa & dosen) dengan sistem CKM-SE? Apakah sistem memotivasi dan mendukung kolaborasi? |
| **T: Teknologi** | Kinerja Mesin Inti | Seberapa andal dan akurat mesin PUDAL (personalisasi) dan PSKVE (pengukuran nilai) berfungsi secara teknis? |
| **F: Fundamental** | Koherensi & Validitas Teoretis | Apakah kerangka kerja TISE-VALORIZE yang mendasari sistem ini solid secara konseptual dan divalidasi oleh para ahli? |

---

### **Detail Protokol Evaluasi per Lapisan (PICOC)**

Berikut adalah rincian penerapan kerangka PICOC (*Population, Intervention, Comparison, Outcome, Context*) pada setiap lapisan ASTF.

#### **Lapisan A: Aplikasi (Dampak Dunia Nyata)**
Fokus pada pengukuran dampak akhir terhadap pembelajaran dan penciptaan nilai.

*   **P (Population):** Mahasiswa sarjana teknik (n=135) yang terbagi dalam kelompok eksperimen (n=75) dan kontrol (n=60) @2 @5.
*   **I (Intervention):** Implementasi penuh CKM-SE, termasuk *Knowledge Marketplace*, jalur belajar adaptif dari PUDAL, dan penilaian proyek berbasis rubrik PSKVE @36.
*   **C (Comparison):** Kelompok kontrol yang mengikuti perkuliahan dengan metode konvensional (ceramah, tugas standar) tanpa akses ke fitur CKM-SE @47.
*   **O (Outcome):**
    *   **Transfer Pembelajaran:** Peningkatan signifikan pada kemampuan menyelesaikan masalah baru (*novel problem-solving*), diukur dengan tes spesifik @38. **Target:** Ukuran efek *Cohen's d* ≥ 0.80 @2 @7 @19.
    *   **Penciptaan Nilai Bersama (VCC):** Kuantitas dan kualitas artefak yang dihasilkan, diukur dengan **VCC Index** (berdasarkan rubrik PSKVE) dan tingkat penggunaan ulang artefak oleh angkatan berikutnya @1 @23 @35 @116.
    *   **Berpikir Kritis:** Kemampuan analisis, evaluasi, dan sintesis dalam skenario berbasis masalah @39.
*   **Cx (Context):** Mata kuliah inti rekayasa (misalnya, Probabilitas dan Statistika) selama satu semester penuh @2 @111 @135.

#### **Lapisan S: Sistem (Kualitas & Penerimaan Pengguna)**
Fokus pada interaksi antara pengguna dan sistem secara keseluruhan.

*   **P (Population):** Sampel mahasiswa dan dosen (n=20) yang berpartisipasi dalam *usability testing* dan *pilot implementation* @2 @12.
*   **I (Intervention):** Penggunaan prototipe fungsional CKM-SE dalam tugas-tugas terstruktur selama 8 minggu @12.
*   **C (Comparison):** Pengalaman menggunakan sistem pembelajaran (LMS) yang ada atau ekspektasi awal pengguna sebelum intervensi.
*   **O (Outcome):**
    *   **Usabilitas Sistem:** Diukur dengan kuesioner standar *System Usability Scale* (SUS) @159. **Target:** Skor SUS ≥ 70 @2 @19.
    *   **Motivasi Intrinsik:** Diukur dengan *Intrinsic Motivation Inventory* (IMI) sebelum dan sesudah intervensi @2 @156. **Target:** *Cohen's d* ≥ 0.80 @7.
    *   **Identitas Profesional:** Diukur dengan skala *Learning & Professional Identity in Practice* (LPIPS) @137. **Target:** *Cohen's d* ≥ 0.80 @7.
*   **Cx (Context):** Sesi uji coba terkontrol di laboratorium atau dalam lingkup satu mata kuliah percontohan @2 @12.

#### **Lapisan T: Teknologi (Kinerja Mesin Inti)**
Fokus pada validasi komponen teknis internal CKM-SE.

*   **P (Population):** Data log interaksi pengguna dan set data profil mahasiswa.
*   **I (Intervention):** Pemrosesan data oleh PUDAL Engine dan PSKVE Engine.
*   **C (Comparison):** *Baseline* atau hasil dari algoritma standar sebagai pembanding.
*   **O (Outcome):**
    *   **Akurasi Personalisasi (PUDAL):** Tingkat akurasi dalam memprofilkan gaya belajar mahasiswa dan merekomendasikan jalur pembelajaran yang optimal @13. **Target:** Akurasi ≥ 85% @13.
    *   **Reliabilitas Penilaian (PSKVE):** Konsistensi penilaian antar penilai (*inter-rater reliability*) pada rubrik VCC @35. **Target:** *Cohen’s Kappa* ≥ 0.75 @19 @35 @39.
*   **Cx (Context):** Lingkungan pengembangan dan pengujian sistem (*staging environment*).

#### **Lapisan F: Fundamental (Koherensi Teoretis)**
Fokus pada validasi filosofi dan kerangka konseptual yang mendasari CKM-SE.

*   **P (Population):** Panel ahli (n=6) di bidang rekayasa pendidikan, AI, dan psikologi kognitif @3.
*   **I (Intervention):** Presentasi dan dokumentasi kerangka kerja konseptual TISE-VALORIZE.
*   **C (Comparison):** Kerangka kerja pembelajaran cerdas yang sudah ada di literatur.
*   **O (Outcome):**
    *   **Validitas Konsep:** Penilaian ahli mengenai kebaruan, koherensi, dan potensi dampak dari kerangka kerja @20. **Target:** Skor rata-rata ≥ 4.0 dari skala 5.0 @13 @20.
*   **Cx (Context):** Sesi validasi ahli melalui wawancara mendalam dan kuesioner terstruktur.

Dengan pendekatan evaluasi yang sistematis dan berlapis ini, kami memastikan bahwa setiap komponen dari CKM-SE, mulai dari filosofi dasarnya hingga dampaknya di kelas, diuji secara ketat dan transparan.


### Rancangan Evaluasi Berlapis: Kerangka Kerja PICOC-ASTF

Evaluasi dalam penelitian ini dirancang untuk melampaui sekadar pengujian fungsionalitas. Tujuannya adalah untuk memvalidasi klaim kontribusi secara empiris di setiap tingkatan, mulai dari koherensi teoretis hingga dampak di dunia nyata. Untuk mencapai ini, penelitian mengadopsi kerangka kerja evaluasi berlapis **PICOC-ASTF**, yang mengubah rencana evaluasi dari daftar metrik biasa menjadi serangkaian eksperimen yang terstruktur [ ] [ ].

---

### Konsep Inti Kerangka PICOC-ASTF

Kerangka ini mengintegrasikan dua komponen utama:

1.  **ASTF (Application, System, Technology, Fundamental)**: Ini adalah empat lapisan validasi yang memastikan setiap aspek artefak diuji secara menyeluruh.
    *   **F (Fundamental)**: Menguji validitas konsep dan teori yang mendasari rancangan.
    *   **T (Technology)**: Menguji kinerja komponen teknis inti (misalnya, akurasi algoritma AI).
    *   **S (System)**: Menguji kemudahan penggunaan (*usability*) dan interaksi pengguna dengan sistem secara keseluruhan.
    *   **A (Application)**: Menguji dampak nyata dari sistem pada pengguna dalam konteks aplikasi (misalnya, hasil belajar).

2.  **PICOC (Population, Intervention, Comparison, Outcome, Context)**: Ini adalah kerangka desain eksperimen yang digunakan *di dalam* setiap lapisan ASTF untuk memastikan pengujian yang terkontrol dan objektif [ ].

Pendekatan ini menerapkan logika desain eksperimen PICOC untuk setiap klaim yang dibuat pada lapisan ASTF yang relevan, memastikan setiap bagian dari rancangan dievaluasi secara ketat.

---

### Detail Evaluasi per Lapisan ASTF

Berikut adalah pemetaan spesifik dari tujuan, metode, dan kriteria keberhasilan untuk setiap lapisan:

| Lapisan ASTF | Tujuan Evaluasi | Metode & Instrumen | Kriteria Keberhasilan (Metrik Kuantitatif) |
| :--- | :--- | :--- | :--- |
| **F - Fundamental** | Memvalidasi **koherensi teoretis** dan **relevansi masalah** dari kerangka TISE-VALORIZE. | • Tinjauan Literatur Sistematis (SLR) [ ] [ ].<br>• **Validasi Ahli (*Expert Judgment*)** dengan `n=6` ahli di bidang pendidikan teknik dan AI [ ].<br>• Instrumen: Kuesioner skala Likert 5-poin dan pertanyaan terbuka [ ] [ ]. | • Skor koherensi teoritis **≥ 4.0/5.0** dari evaluasi ahli [ ] [ ].<br>• Tingkat konsensus tinjauan sejawat **≥ 85%** [ ]. |
| **T - Technology** | Memvalidasi **kinerja teknis** dari komponen inti, terutama **PUDAL Engine**. | • **Pengujian Kinerja (*Performance Testing*)** pada algoritma AI [ ] [ ].<br>• Analisis *confusion matrix* untuk mengukur akurasi [ ]. | • Akurasi *profiling* AI dalam mengidentifikasi gaya belajar dan celah pengetahuan **≥ 85%** [ ] [ ]. |
| **S - System** | Memvalidasi **kemudahan penggunaan (*usability*)** dan pengalaman pengguna (*user experience*) CKM-SE. | • **Uji Usabilitas (*Usability Testing*)** dengan `n=20` pengguna menggunakan *think-aloud protocol* [ ] [ ] [ ].<br>• **Implementasi Pilot** dengan `n=15` mahasiswa untuk pengujian awal [ ] [ ].<br>• Instrumen: Kuesioner **System Usability Scale (SUS)** [ ] [ ] [ ]. | • Skor SUS **≥ 70** (dianggap *acceptable usability*) [ ] [ ] [ ].<br>• Reliabilitas antar-penilai untuk rubrik VCC (kappa Cohen) **≥ 0.75** [ ] [ ]. |
| **A - Application** | Memvalidasi **dampak pedagogis** dan efektivitas CKM-SE dalam meningkatkan hasil belajar dan VCC. | • **Studi Kuasi-Eksperimental** dengan `N=135` (target) atau `N=142` (realisasi) mahasiswa [ ] [ ] [ ].<br>• Desain Pre-test/Post-test dengan kelompok intervensi dan kontrol [ ].<br>• **Instrumen Kuantitatif**: IMI, NPST, Skala Identitas Profesional, Rubrik VCC-PSKVE [ ] [ ] [ ].<br>• **Analisis Statistik**: ANOVA, t-test, dan ukuran efek (Cohen’s `d`) [ ]. | • Ukuran efek **`d ≥ 0.80`** untuk hasil belajar utama (Motivasi Intrinsik, Identitas Profesional, Transfer Pembelajaran) [ ] [ ] [ ].<br>• Indeks VCC **≥ 75/100** untuk minimal `75%` artefak yang dihasilkan [ ].<br>• Tingkat Penggunaan Ulang Artefak oleh kohort berikutnya **≥ 16%** [ ] [ ] [ ]. |

---

### Pendekatan Metode Campuran (*Mixed-Method*)

Untuk mendapatkan pemahaman yang lebih dalam di balik angka, evaluasi ini juga mengadopsi pendekatan metode campuran yang mengintegrasikan data kualitatif [ ].

*   **Data Kuantitatif**:
    *   **Metrik Penggunaan Sistem**: Frekuensi login, durasi sesi, jumlah artefak dibuat, jumlah *peer review* (rata-rata 9.2 per artefak) [ ] [ ].
    *   **Skor Penilaian**: Hasil dari kuesioner (IMI, SUS) dan tes (pre/post-test NPST) [ ] [ ].

*   **Data Kualitatif**:
    *   **Wawancara Semi-Terstruktur**: Wawancara mendalam dengan mahasiswa dan dosen untuk mengeksplorasi pengalaman, persepsi nilai, dan tantangan yang dihadapi [ ].
    *   **Analisis Tematik**: Menganalisis respons dari pertanyaan terbuka dalam survei dan transkrip wawancara untuk mengidentifikasi pola dan mekanisme yang mendasari keberhasilan atau kegagalan intervensi [ ].

Dengan struktur evaluasi yang komprehensif ini, penelitian tidak hanya membuktikan bahwa artefak CKM-SE "berfungsi", tetapi juga **bagaimana**, **mengapa**, dan **dalam kondisi apa** artefak tersebut efektif.
