In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats

dataAnggur = pd.read_csv('../data/anggur.csv')

Menentukan setiap kolom numerik berdistribusi normal atau tidak. Gunakan normality test
yang dikaitkan dengan histogram plot

## Asumsi
Pada tes normalitas yang dilakukan pada Tugas Besar II ini, berlaku asumsi sebagai berikut:
- Suatu distibusi dapat dikatakan *positively skewed* apabila memiliki nilai *skewness* lebih besar dari 0.5
- Suatu distibusi dapat dikatakan *negatively skewed* apabila memiliki nilai *skewness* lebih besar dari -0.5
- Suatu distibusi dapat dikatakan simetris apabila memiliki nilai *skewness* diantara -0.5 sampai 0.5
- Jika nilai modus = median = mean maka nilai *skewness* adalah nol
- Jika nilai modus < median < mean maka distribusi dapat dikatakan *positively skewed* 
- Jika nilai modus > median > mean maka distribusi dapat dikatakan *negatively skewed* 

## Metode Pengetesan Normalitas
Secara umum, pengetesan normalitas dibagi menjadi dua cara, yaitu sebagai berikut.
- Pengetesan melalui grafik. Pengetesan dilakukan dengan membandingkan grafik (histogram, QQ plot, dll.) dengan grafik yang bersesuaian dari sampel data yang berdistribusi normal. Pendekatan ini bersifat informal.
- Pengetesan statistik. Pengetesan ini dilakukan dengan uji hipotesis. Contoh pengetesan normalitas secara statistik adalah Shapiro-Wilk test, Kolmogorov-Smirnov test, dan Jarque-Bera test. Pengetesan ini bersifat formal.
<br>
#
Pada bagian ini, pengetesan normalitas yang digunakan yaitu pengetesan melalui histogram, yang akan dikaitkan dengan statistik-statistik tertentu seperti *skewness*, *excess kurtosis*, mean, median, dan modus. Lalu, hasil pengetesan tersebut dibandingkan dengan hasil pengetesan normalitas statistik, yaitu Jarque-Bera Test dan Shapiro-Wilk Test.
<br><br>
Berikut adalah penjelasan mengenai pengetesan yang digunakan.
### 1. Pengetesan melalui Histogram
Secara teoretis, data yang berdistribusi normal memiliki histogram dengan ciri sebagai berikut.
- Histogram berbentuk bell-shaped yang simetris.
- Histogram berbentuk simetris terhadap sumbu tegak x = mean.
- Kurva mendekati sumbu datar secara asimtotik ke kiri dan kanan.
- Skewness bernilai 0, yang menandakan distribusi simetris.
- Kurtosis bernilai 3 (excess kurtosis bernilai 0).
<br>
#
Pada pengetesan yang dilakukan, histogram setiap kolom divisualisasikan dan dibandingkan dengan ciri histogram di atas. Namun, untuk perhitungan skewness dan kurtosis, diberikan toleransi sebesar 0.5, seperti asumsi yang dituliskan di atas. 
### 2. Jarque-Bera Test
Jarque-Bera Test adalah tes normalitas yang perhitungannya didasari oleh skewness dan kurtosis. Tes ini tidak selalu *reliable* untuk jumlah sampel yang kecil. Namun, sampel yang ada pada tiap kolom sudah cukup besar, yaitu sebanyak 1000 sampel.
<br><br>
Berikut adalah mekanisme pengujian hipotesis pada Jarque-Bera Test.
- H0 : Data berdistribusi normal
- H1 : Data tidak berdistribusi normal
- Nilai Alpha : 0.05
- Tes Statistik : (insert gambar rumus tes statistik)
- Penarikan Kesimpulan : Jika Nilai P > alpha, maka H0 *fail to reject*, artinya data berdistribusi normal. Sebaliknya, jika Nilai P <= alpha, maka H0 *rejected*, artinya data tidak berdistribusi normal.
### 3. Shapiro-Wilk Test
Shapiro-Wilk Test adalah tes normalitas yang perhitungannya didasari oleh perbandingan antara data yang diobservasi dan *expected normal distribution* dari data tersebut. Tes ini tidak terlalu *reliable* untuk jumlah sampel yang kecil. Namun, sampel yang ada pada tiap kolom sudah cukup besar, yaitu sebanyak 1000 sampel.<br><br>
Berikut adalah mekanisme pengujian hipotesis pada Shapiro-Wilk Test.
- H0 : Data berdistribusi normal
- H1 : Data tidak berdistribusi normal
- Nilai Alpha : 0.05
- Tes Statistik : (insert gambar rumus tes statistik)
- Penarikan Kesimpulan : Jika Nilai P > alpha, maka H0 fail to reject, artinya data berdistribusi normal. Sebaliknya, jika Nilai P <= alpha, maka H0 rejected, artinya data tidak berdistribusi normal.

In [None]:
# buat markdown kalo males
def printAll(colName):
    data = dataAnggur[colName]
    print(colName.upper())
    print(f"normalityTests(\"{colName}\")")
    absSkThreshold = 0.5
    absKurtThreshold = 0.5
    alpha = 0.05
    
    sk = data.skew()
    kurt = data.kurt()

    # karna semuanya bell curve
    # silakan benerin
    print(f"- Berdasarkan histogram di atas, kolom \"{colName}\" dapat dianggap berdistribusi normal karena histogramnya berbentuk *bell-shaped* yang simetris. ", end = "")
    print(f"*Skewness*-nya juga berada di antara -{absSkThreshold} dan {absSkThreshold} (*skewness* = {sk}, -{absSkThreshold} < {sk} < {absSkThreshold}), yang menandakan bahwa histogram di atas simetris. ", end = "")
    print(f"*Excess kurtosis*-nya juga berada di antara -{absKurtThreshold} dan {absKurtThreshold} (*excess kurtosis* = {kurt}, -{absKurtThreshold} < {kurt} < {absKurtThreshold}), yang menandakan bahwa histogram di atas memiliki keruncingan distribusi normal.")
    # jarque-bera test
    _, p = stats.jarque_bera(data)
    print(f"- Berdasarkan Jarque-Bera Test, kolom \"{colName}\" ", end = "")
    if (p > alpha):
        print(f"dapat dianggap berdistribusi normal karena Nilai P-nya lebih dari {alpha} (Nilai P = {p} > {alpha}).")
    else:
        print(f"tidak dapat dianggap berdistribusi normal karena Nilai P-nya tidak lebih dari {alpha} (Nilai P = {p} <= {alpha}).")
        
    # Shapiro-Wilk Test
    _, p = stats.shapiro(data)
    print(f"- Berdasarkan Shapiro-Wilk Test, kolom \"{colName}\" ", end = "")
    if (p > alpha):
        print(f"dapat dianggap berdistribusi normal karena Nilai P-nya lebih dari {alpha} (Nilai P = {p} > {alpha}).")
    else:
        print(f"tidak dapat dianggap berdistribusi normal karena Nilai P-nya tidak lebih dari {alpha} (Nilai P = {p} <= {alpha}).")
        
# print all md
for col in dataAnggur:
    printAll(col)
    print()

### Fungsi Wrapper Normality Test

In [None]:
def normalityTests(colName):
    dataCol = dataAnggur[colName]
    # Create histogram
    # kalo histogram mau dibuat custom style beda2 tiap kolom, bisa pake global dictionary
    plt.hist(dataCol)
    plt.show() 
    
    # Check skewness
    print("Skewness: " , dataCol.skew())
    
    # Check kurtosis
    print("\nKurtosis: ", dataCol.kurtosis())
    
    # Jarque bera Test
    print("\nJarque-Bera Test")
    stat, p = stats.jarque_bera(dataCol)
    print("Test, p-value = ", stat, ", ", p)

    # Shapiro-Wilk Test
    print("\nShapiro-Wilk Test")
    stat, p = stats.shapiro(dataCol)
    print("Test, p-value = ", stat, ", ", p)

## Hasil Tes Normalitas

### 1. fixed acidity

In [None]:
normalityTests("fixed acidity")

Berdasarkan tes normalitas yang dilakukan di atas, kolom fixed acidity (tidak) berdistribusi normal karena ...

### 2. volatile acidity

In [None]:
normalityTests("volatile acidity")

Berdasarkan tes normalitas yang dilakukan di atas, kolom volatile activity (tidak) berdistribusi normal karena ...

### 3. citric acid

In [None]:
normalityTests("citric acid")

Berdasarkan tes normalitas yang dilakukan di atas, kolom citric acid (tidak) berdistribusi normal karena ...

### 4. residual sugar

In [None]:
normalityTests("residual sugar")

Berdasarkan tes normalitas yang dilakukan di atas, kolom residual sugar (tidak) berdistribusi normal karena ...

### 5. chlorides

In [None]:
normalityTests("chlorides")

Berdasarkan tes normalitas yang dilakukan di atas, kolom chlorides (tidak) berdistribusi normal karena ...

### 6. free sulfur dioxide

In [None]:
normalityTests("free sulfur dioxide")

Berdasarkan tes normalitas yang dilakukan di atas, kolom free sulfur dioxide (tidak) berdistribusi normal karena ...

### 7. total sulfur dioxide

In [None]:
normalityTests("total sulfur dioxide")

Berdasarkan tes normalitas yang dilakukan di atas, kolom total sulfur dioxide berdistribusi normal karena memiliki nilai *skewness* sebesar -0.02. Hal ini juga tercermin pada plot histogram yang memiliki bentuk *bell-shaped*.

### 8. density

In [None]:
normalityTests("density")

Berdasarkan tes normalitas yang dilakukan di atas, kolom fixed density (tidak) berdistribusi normal karena ...

### 9. pH

In [None]:
normalityTests("pH")

Berdasarkan tes normalitas yang dilakukan di atas, kolom pH (tidak) berdistribusi normal karena ...

### 10. sulphates

In [None]:
normalityTests("sulphates")

Berdasarkan tes normalitas yang dilakukan di atas, kolom sulphates (tidak) berdistribusi normal karena ...

### 11. alcohol

In [None]:
normalityTests("alcohol")

Berdasarkan tes normalitas yang dilakukan di atas, kolom alcohol (tidak) berdistribusi normal karena ...

### 12. quality

In [None]:
normalityTests("quality")

Berdasarkan tes normalitas yang dilakukan di atas, kolom quality (tidak) berdistribusi normal karena ...