# Uji Statistik

Dalam statistik, terdapat berbagai jenis uji yang dapat digunakan untuk menganalisis data, tergantung pada tujuan analisis, jenis data, dan asumsi yang ingin diuji. Berikut ini beberapa kategori dan jenis uji statistik umum:

### 1. Uji Normalitas
   - **Uji Kolmogorov-Smirnov (KS)**: Menguji apakah data mengikuti distribusi tertentu, seperti distribusi normal atau lainnya.
   - **Uji Shapiro-Wilk**: Khusus untuk menguji apakah data berasal dari distribusi normal (umum untuk ukuran sampel kecil).
   - **Uji Anderson-Darling**: Menguji kesesuaian data dengan distribusi normal, memberikan sensitivitas yang lebih tinggi di ekor distribusi.
   - **Q-Q Plot**: Visualisasi untuk memeriksa apakah data mengikuti distribusi tertentu (terutama normal).

## Uji Normalitas 

* **Statistik Uji**: Nilai numerik yang dihitung dari data untuk mengukur seberapa jauh data menyimpang dari hipotesis nol. Contohnya adalah nilai t atau z dalam uji statistik.

* **p-value**: Probabilitas mendapatkan hasil setidaknya sama ekstrem dengan yang diamati, jika hipotesis nol benar. Jika p-value < 0,05, hasil dianggap signifikan, dan kita menolak hipotesis nol.

In [11]:
import pandas as pd

df = pd.read_csv("time-wasters_on_social_media.csv")
df

Unnamed: 0,UserID,Age,Gender,Location,Income,Debt,Owns Property,Profession,Demographics,Platform,...,ProductivityLoss,Satisfaction,Watch Reason,DeviceType,OS,Watch Time,Self Control,Addiction Level,CurrentActivity,ConnectionType
0,1,56,Male,Pakistan,82812,True,True,Engineer,Rural,Instagram,...,3,7,Procrastination,Smartphone,Android,9:00 PM,5,5,Commuting,Mobile Data
1,2,46,Female,Mexico,27999,False,True,Artist,Urban,Instagram,...,5,5,Habit,Computer,Android,5:00 PM,7,3,At school,Wi-Fi
2,3,32,Female,United States,42436,False,True,Engineer,Rural,Facebook,...,6,4,Entertainment,Tablet,Android,2:00 PM,8,2,At home,Mobile Data
3,4,60,Male,Barzil,62963,True,False,Waiting staff,Rural,YouTube,...,3,7,Habit,Smartphone,Android,9:00 PM,5,5,Commuting,Mobile Data
4,5,25,Male,Pakistan,22096,False,True,Manager,Urban,TikTok,...,8,2,Boredom,Smartphone,iOS,8:00 AM,10,0,At home,Mobile Data
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,996,22,Male,India,74254,True,True,Students,Rural,TikTok,...,9,1,Procrastination,Smartphone,iOS,5:45 PM,10,0,At work,Mobile Data
996,997,40,Female,Pakistan,27006,False,False,Waiting staff,Urban,Facebook,...,8,2,Boredom,Smartphone,MacOS,10:15 PM,10,0,At home,Mobile Data
997,998,27,Male,India,94218,True,True,Waiting staff,Rural,TikTok,...,9,1,Procrastination,Smartphone,iOS,10:15 PM,10,0,Commuting,Mobile Data
998,999,61,Male,Pakistan,85344,True,False,Students,Urban,YouTube,...,3,7,Procrastination,Smartphone,MacOS,10:15 PM,5,5,At work,Wi-Fi


### Uji Shapiro-Wilk

Khusus untuk menguji apakah data berasal dari distribusi normal (umum untuk ukuran sampel kecil).

In [18]:
from scipy.stats import shapiro

stat, p = shapiro(df['Age'])
print('Statistics=%.3f, p=%.3f' % (stat, p))
if p > 0.05:
    print('Data mengikuti distribusi normal')
else:
    print('Data tidak mengikuti distribusi normal')

Statistics=0.957, p=0.000
Data tidak mengikuti distribusi normal


### Uji Kolmogorov-Smirnov (KS)

Menguji apakah data mengikuti distribusi tertentu, seperti distribusi normal atau lainnya.

In [23]:
from scipy.stats import kstest, norm

stat, p = kstest(df['Age'], 'norm')
print('Statistics=%.3f, p=%.3f' % (stat, p))
if p > 0.05:
    print('Data mengikuti distribusi normal')
else:
    print('Data tidak mengikuti distribusi normal')

Statistics=1.000, p=0.000
Data tidak mengikuti distribusi normal


### Uji Anderson-Darling

Menguji kesesuaian data dengan distribusi normal, memberikan sensitivitas yang lebih tinggi di ekor distribusi.

In [30]:
from scipy.stats import anderson

result = anderson(df['Age'])
print('Statistic: %.3f' % result.statistic)
for i in range(len(result.critical_values)):
    sl, cv = result.significance_level[i], result.critical_values[i]
    if result.statistic < cv:
        print(f'{sl}%: Data mengikuti distribusi normal')
    else:
        print(f'{sl}%: Data tidak mengikuti distribusi normal')

Statistic: 10.056
15.0%: Data tidak mengikuti distribusi normal
10.0%: Data tidak mengikuti distribusi normal
5.0%: Data tidak mengikuti distribusi normal
2.5%: Data tidak mengikuti distribusi normal
1.0%: Data tidak mengikuti distribusi normal



### 2. Uji Perbandingan Rata-rata (Mean Comparison)
   - **Uji t Satu Sampel (One-Sample t-Test)**: Menguji apakah rata-rata sampel berbeda dari rata-rata populasi tertentu.
   - **Uji t Dua Sampel (Independent t-Test)**: Menguji perbedaan rata-rata antara dua kelompok independen.
   - **Uji t Berpasangan (Paired t-Test)**: Digunakan untuk data berpasangan, seperti sebelum dan sesudah pengujian pada sampel yang sama.
   - **Uji Mann-Whitney U**: Uji non-parametrik yang menguji perbedaan median antara dua kelompok independen.
   - **Uji Wilcoxon Signed-Rank**: Uji non-parametrik untuk dua sampel berpasangan.

### 3. Uji Varians (Analysis of Variance - ANOVA)
   - **ANOVA Satu Arah (One-Way ANOVA)**: Menguji perbedaan rata-rata antar lebih dari dua kelompok.
   - **ANOVA Dua Arah (Two-Way ANOVA)**: Menguji pengaruh dua faktor (variabel independen) terhadap variabel dependen.
   - **MANOVA (Multivariate ANOVA)**: Menguji perbedaan antar kelompok pada beberapa variabel dependen.
   - **Uji Kruskal-Wallis**: Uji non-parametrik alternatif ANOVA untuk lebih dari dua kelompok independen.
   - **Uji Friedman**: Uji non-parametrik alternatif ANOVA untuk data berulang atau berpasangan.

### 4. Uji Kesesuaian (Goodness-of-Fit)
   - **Uji Chi-Square Kesesuaian**: Menguji apakah distribusi frekuensi sampel cocok dengan distribusi teoritis.
   - **Uji Kolmogorov-Smirnov untuk Distribusi tertentu**: Menguji kesesuaian data terhadap distribusi tertentu (seperti binomial atau Poisson).

### 5. Uji Asosiasi dan Keterkaitan (Association and Correlation)
   - **Uji Chi-Square untuk Keterkaitan**: Menguji apakah terdapat asosiasi atau hubungan antara dua variabel kategoris.
   - **Uji Korelasi Pearson**: Mengukur kekuatan hubungan linear antara dua variabel kuantitatif.
   - **Uji Korelasi Spearman**: Uji non-parametrik yang mengukur kekuatan hubungan monotenik antara dua variabel ordinal atau kuantitatif.

### 6. Uji Regresi
   - **Regresi Linear Sederhana**: Menilai hubungan antara satu variabel independen dan variabel dependen.
   - **Regresi Linear Berganda**: Menguji hubungan antara beberapa variabel independen dan satu variabel dependen.
   - **Uji ANOVA pada Regresi**: Menguji signifikansi keseluruhan dari model regresi.
   - **Uji Durbin-Watson**: Menguji autokorelasi pada residu dalam model regresi.

### 7. Uji Hipotesis Non-Parametrik Lainnya
   - **Uji Binomial**: Menguji proporsi keberhasilan dalam sampel biner.
   - **Uji McNemar**: Menguji perubahan kategori atau proporsi dalam data berpasangan.
   - **Uji Rank-Sum**: Digunakan untuk data ordinal atau data yang tidak memenuhi asumsi normalitas.

### 8. Uji Survival dan Ketahanan (Survival Analysis)
   - **Uji Log-Rank**: Menguji perbedaan kurva survival antara dua atau lebih kelompok.
   - **Model Cox Proportional-Hazards**: Menganalisis pengaruh beberapa variabel independen pada waktu kejadian.
   - **Kaplan-Meier Estimator**: Menghitung kurva survival tanpa memperhitungkan kovariat.

### 9. Uji Homogenitas Varians
   - **Uji Levene**: Menguji kesetaraan varians di beberapa kelompok.
   - **Uji Bartlett**: Menguji apakah varians antar kelompok sama (homogen).

### 10. Uji Autokorelasi dan Stasioneritas dalam Analisis Deret Waktu
   - **Uji Ljung-Box**: Menguji autokorelasi pada residual dari model deret waktu.
   - **Uji Augmented Dickey-Fuller (ADF)**: Menguji stasioneritas pada data deret waktu.

Setiap uji statistik tersebut memiliki asumsi yang berbeda, jadi penting untuk memilih uji yang tepat sesuai dengan karakteristik data dan tujuan analisis.
