# Besar Sampel
HAK CIPTA
2024 © MADE RADITYA ARHYA PUTRA

## PAPER RUJUKAN #####
1. Metodologi Perhitungan Sampel:
- Riley RD, Snell KIE, Ensor J, et al. 
- "Minimum sample size for developing a multivariable prediction model: PART I - Continuous outcomes"
- Statistics in Medicine. 2019;38(7):1262-1275
- DOI: https://doi.org/10.1002/sim.7993

2. Sumber Data Rerata dan Standar Deviasi Skor GENSINI:
- Wahyuni I, Wijaya IP, Sukrisman L, Nasution SA, Rumende CM.
- "Diagnostic Accuracy of Platelet/Lymphocyte Ratio for Screening Complex Coronary Lesion 
- in Different Age Group of Patients with Acute Coronary Syndrome"
- Acta Medica Indonesiana. 2018;50(3)
- URL: https://www.actamedindones.org/index.php/ijim/article/view/401

## METODE PERHITUNGAN #####
- Menggunakan package R 'pmsampsize', yang mengimplementasikan metodologi Riley et al.
- Package ini menghitung ukuran sampel minimum yang diperlukan untuk mengembangkan model prediksi
- Berdasarkan empat kriteria utama untuk meminimalkan overfitting dan memastikan estimasi parameter yang presisi:
    1. Overfitting yang kecil (ditentukan oleh expected shrinkage ≤ 10%)
    2. Perbedaan absolut yang kecil (0.05) antara R-squared apparent dan adjusted
    3. Estimasi yang presisi dari standar deviasi residual
    4. Estimasi yang presisi dari nilai outcome rata-rata

In [1]:
# Memuat package yang diperlukan #
library(pmsampsize)

In [2]:
# Menghitung ukuran sampel minimum #
hasil_sampel <- pmsampsize(
    type = "c",           # Menentukan luaran kontinu (skor GENSINI)
    rsquared = 0.15,      # Perkiraan R-squared (estimasi konservatif untuk prediksi medis)
    parameters = 5,       # Jumlah parameter prediktor (usia [1], LDL [1], gula darah sewaktu [1], sistolik [1], IMT [1]) -> Nilai dapat disesuaikan dengan ketersediaan data
    intercept = 169.3,    # Rerata skor GENSINI tertinggi (dari kelompok usia ≤45 tahun dengan Gensini ≤53)
    sd = 74.1,            # SD tertinggi (dari kelompok usia ≤45 tahun dengan Gensini ≤53)
    shrinkage = 0.9,      # Faktor shrinkage target (memungkinkan 10% overfitting) - default 0.9
    mmoe = 1.1            # (Multiplicative Margin of Error) Margin error multiplikatif untuk estimasi intercept - default 1.1
)

# PENJELASAN PARAMETER #
# type = "c"         : Menunjukkan luaran kontinu (skor GENSINI)
# rsquared = 0.15    : Estimasi konservatif karena tidak ada model serupa sebelumnya / seberapa besar nilai variabilitas outcome pada model
# parameters = 4     : Empat prediktor (usia kontinu, jenis kelamin biner, LDL kontinu, gula darah sewaktu kontinu)
# intercept = 169.3  : Nilai rerata tertinggi skor GENSINI dari studi Wahyuni et al. (2018)
# sd = 74.1          : Nilai SD tertinggi dari studi Wahyuni et al. (2018)
# shrinkage = 0.9    : Nilai yang direkomendasikan untuk mengontrol overfitting sesuai paper Riley et al, 2019
# mmoe = 1.1         : Nilai yang direkomendasikan untuk estimasi intercept yang presisi sesuai paper Riley et al, 2019, 
#                      artinya diperbolehkan 10% error dalam model menentukan mean dikemudian hari


In [3]:
print(hasil_sampel)

NB: Assuming 0.05 acceptable difference in apparent & adjusted R-squared 
NB: Assuming MMOE <= 1.1 in estimation of intercept & residual standard deviation 
SPP - Subjects per Predictor Parameter 
 
            Samp_size Shrinkage Parameter  Rsq   SPP
Criteria 1        596     0.900        13 0.15 45.85
Criteria 2        222     0.778        13 0.15 17.08
Criteria 3        247     0.795        13 0.15 19.00
Criteria 4*       596     0.900        13 0.15 45.85
Final             596     0.900        13 0.15 45.85
 
 Minimum sample size required for new model development based on user inputs = 596  
 
 * 95% CI for intercept = (163.8, 174.8), for sample size n = 596