In [1]:
from scipy import stats
import statistics 
import pandas as pd
from pingouin import cochran
import numpy as np

## Contigency

Adalah sebuah uji statistik yang digunakan untuk mengukur kekuatan hubungan antara dua variabel 
kategorikal (nominal) dalam sebuah tabel kontingensi.

Uji ini digunakan untuk {==menentukan apakah terdapat asosiasi atau ketergantungan antara dua variabel dalam data kategorikal==}.

Contingency Coefficient C adalah bentuk koreksi dari Chi-Square Test yang digunakan untuk menghitung derajat asosiasi dalam tabel kontingens.

---

Mengapa sebagai bentuk koreksi ?

Coefficient of Contingency (C) disebut sebagai bentuk *koreksi* atau *pengembangan* dari uji Chi-Square (χ²) karena nilai C **diturunkan langsung dari statistik χ²** dan digunakan untuk **mengatasi keterbatasan χ² yang hanya menguji signifikansi, bukan kekuatan hubungan**. Uji Chi-Square hanya menjawab pertanyaan *“apakah ada hubungan?”*, tetapi tidak memberikan informasi *seberapa kuat* hubungan antarvariabel kategorik tersebut. Oleh karena itu, Coefficient C diperkenalkan untuk menstandarkan nilai χ² ke dalam ukuran asosiasi.

Secara matematis, Coefficient C dirumuskan sebagai:

C = √(χ² / (χ² + n))

di mana χ² adalah nilai Chi-Square dan *n* adalah jumlah sampel. Rumus ini berfungsi **mengoreksi pengaruh ukuran sampel**, karena nilai χ² akan semakin besar seiring bertambahnya sampel meskipun hubungan sebenarnya lemah. Dengan koreksi ini, Coefficient C menghasilkan nilai antara 0 dan kurang dari 1, sehingga lebih mudah diinterpretasikan sebagai kekuatan hubungan antarvariabel kategorik dalam tabel kontingensi.


## Contoh Kegunaan Contigency Coefficient C implementas dalam TI

1. **Analisis Keputusan Pengguna**, Mengukur hubungan antara fitur aplikasi (misalnya desain antarmuka) dengan tingkat kepuasan pengguna (Tidak Puas hingga Sangat Puas).

2. **Analisis Keamanan Jaringan**, Menilai hubungan antara jenis ancaman keamanan (malware, 
phishing) dengan respon mitigasi (firewall, enkripsi).

3. **Pengembangan Software**, Mengidentifikasi hubungan antara kategori bug (kritikal, minor) 
dengan modul perangkat lunak tertentu untuk mengarahkan fokus 
debugging

![case_contigency_c.png](./assets/case_contigency_c.png)

In [16]:
jarang = [10,20,25] # PC, laptop dan smarth=pine
sering = [15,30,35]
sangat_sering = [5,10,15]
np_array = np.array([jarang,sering,sangat_sering])

df_lat = pd.DataFrame({'jarang':jarang,'sering':sering,'sangat_sering':sangat_sering})
df_lat

(3, 3)


Unnamed: 0,jarang,sering,sangat_sering
0,10,15,5
1,20,30,10
2,25,35,15


In [21]:
res = stats.chi2_contingency(np_array, correction=False)
res

Chi2ContingencyResult(statistic=np.float64(0.3437500000000001), pvalue=np.float64(0.9868176880586512), dof=4, expected_freq=array([[10.        , 20.        , 25.        ],
       [14.54545455, 29.09090909, 36.36363636],
       [ 5.45454545, 10.90909091, 13.63636364]]))

Nilai DF adalah "4" dengan nilai kritis 0.05, maka didapatkan nilai table adalah "9.488" maka karena nilai 0.3437 < 9.488 tidak terdapat hubungan antara perangkat dan frekuensi penggunaan aplikasi pada perangkat.

### Latihan

In [29]:
product_a = [30,15] # PC, laptop dan smarth=pine
product_b = [10,25]
product_c = [10,20]
np_array_lat = np.array([product_a,product_b,product_c])

df_test = pd.DataFrame({'p_a':product_a,'p_b':product_b,'p_c':product_c})
df_test

Unnamed: 0,p_a,p_b,p_c
0,30,10,10
1,15,25,20


In [30]:
res_2 = stats.chi2_contingency(np_array_lat, correction=False)
res_2

Chi2ContingencyResult(statistic=np.float64(13.968253968253972), pvalue=np.float64(0.0009264717682257912), dof=2, expected_freq=array([[20.45454545, 24.54545455],
       [15.90909091, 19.09090909],
       [13.63636364, 16.36363636]]))

H0 = Tidak terdapat hubungan yang signifikan antara jenis kelamin responden

Ha = Terdapat hubungan yang signifikan antara jenis kelamin responden

Nilai DF adalah "2" dengan nilai kritis 0.05, maka didapatkan nilai table adalah "5.991" maka karena nilai 13.97 > 5.991 maka H0 ditolak sehingga terdapat hubungan antara jenis kelamin dan frekuensi prodcut yg dibeli.

## Spearman

In [31]:
kecepatan_internet = np.array([5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55])
tingkat_kepuasan = np.array([2, 3, 3, 4, 4, 5, 5, 5, 5, 5, 5])

In [41]:
res_spearman = stats.spearmanr(kecepatan_internet,tingkat_kepuasan)
res_spearman

SignificanceResult(statistic=np.float64(0.9120406689496812), pvalue=np.float64(9.142602710257565e-05))

![rangking](./assets/rangking.png)

Karena p value 0.909, maka ada hubungan kuat yg positif terhadap kecepatan internet dan kepuasan