## Statistik Komputasi

- Nama : Mochammad Arya Salsabila
- NPM : 19081010001
- Kelas : Statistik Komputasi (D)
- Jurnal : [Implementasi Algoritma Naive Bayes Untuk Memprediksi Tingkat
Penyebaran Covid-19 Di Indonesia
](https://journal.isas.or.id/index.php/JACOST/article/view/9)

## Import Library

[math](https://docs.python.org/3/library/math.html) | [Pandas](https://pandas.pydata.org/)

In [1]:
import math
import pandas as pd

## Data Train

In [2]:
data_train = pd.read_csv("covid19.csv", sep=";")

display(data_train)

Unnamed: 0,Provinsi,Dalam Perawatan,Sembuh,Meninggal,Kasus Terbesar Per Provinsi
0,DKI Jakarta,4038,1276,460,Positif
1,Jawa Timur,1449,294,178,Positif
2,Jawa Barat,1237,259,100,Positif
3,Jawa Tengah,805,234,70,Positif
4,Sulawesi Selatan,527,293,51,Positif
5,Banten,404,158,60,Positif
6,Sumatera Selatan,376,73,9,Positif
7,Sumatera Barat,284,88,21,Positif
8,Kalimantan Selatan,330,24,9,Positif
9,Nusa Tenggara Barat (NTB),163,188,7,Negatif


<div class="alert alert-block alert-info">
<b>Keterangan:</b>
<ul>
    <li>Positif = Kasus pasien yang terkena positif lebih besar</li>
    <li>Negatif = Kasus pasien yang terkena positif lebih rendah</li>
</ul>
</div>

## Pengelompokan Data Train

Data Train dikelompokkan berdasarkan nilai kategori pada **Kasus Terbesar Per Provinsi**.

In [3]:
data_positif = data_train[data_train["Kasus Terbesar Per Provinsi"] == "Positif"]
data_negatif = data_train[data_train["Kasus Terbesar Per Provinsi"] == "Negatif"]

print(f"Terdapat {len(data_positif)} data dengan kategori positif, dan {len(data_negatif)} data dengan kategori negatif.")

Terdapat 28 data dengan kategori positif, dan 5 data dengan kategori negatif.


### Menghitung Mean / Nilai Rata-Rata

$\large \mu = \frac{x_1 + x_2 + x_3 + ... + x_n}{n} = \frac{1}{n} \sum \limits^{n}_{i=1} x_i$

In [4]:
def mean(data):
    return sum(data) / len(data)

data_mean = pd.DataFrame({
    "Kasus Terbesar Per Provinsi" : ["Positif", "Negatif"],
    "Dalam Perawatan" : [mean(data_positif["Dalam Perawatan"]),  mean(data_negatif["Dalam Perawatan"])],
    "Sembuh" : [mean(data_positif["Sembuh"]), mean(data_negatif["Sembuh"])],
    "Meninggal" : [mean(data_positif["Meninggal"]), mean(data_negatif["Meninggal"])]
})

display(data_mean)

Unnamed: 0,Kasus Terbesar Per Provinsi,Dalam Perawatan,Sembuh,Meninggal
0,Positif,401.892857,115.214286,37.142857
1,Negatif,68.0,112.8,5.8



## Menghitung Standar Deviasi / Simpangan Baku

$\large \sigma = \sqrt{ \frac{n \sum \limits^{n}_{i=1} x_i^2 - (\sum \limits^{n}_{i=1} x_1)^2}{n(n-1)}}$

In [5]:
def stdev(data):
    n = len(data)
    squares = [item**2 for item in data]
    variance = ((n*sum(squares)) - (sum(data)**2)) / (n*(n-1))
    return variance**0.5

data_std = pd.DataFrame({
    "Kasus Terbesar Per Provinsi" : ["Positif", "Negatif"],
    "Dalam Perawatan" : [stdev(data_positif["Dalam Perawatan"]), stdev(data_negatif["Dalam Perawatan"])],
    "Sembuh" : [stdev(data_positif["Sembuh"]), stdev(data_negatif["Sembuh"])],
    "Meninggal" : [stdev(data_positif["Meninggal"]), stdev(data_negatif["Meninggal"])]
})

display(data_std)

Unnamed: 0,Kasus Terbesar Per Provinsi,Dalam Perawatan,Sembuh,Meninggal
0,Positif,795.287385,244.575877,91.740259
1,Negatif,65.138314,92.847725,3.701351


## Menghitung Nilai Probabilitas

$\large P(A) = \frac{x}{n}$

In [6]:
data_prob = pd.DataFrame({
    "Kasus Terbesar Per Provinsi" : ["Positif", "Negatif"],
    "Nilai Probabilitas" : [len(data_positif) / len(data_train), len(data_negatif) / len(data_train)]
})

display(data_prob)

Unnamed: 0,Kasus Terbesar Per Provinsi,Nilai Probabilitas
0,Positif,0.848485
1,Negatif,0.151515


## Densitas Gauss

$\large P(X_i = x_i|Y_i = y_i) = \frac{1}{ \sqrt{ 2\Pi\sigma_{ij} } } e^{ - \frac{(x_i - \mu_{ij})}{2\sigma_{ij}^2} }$

In [7]:
def densitas_gauss(x, mean, std):
    return (1 / math.sqrt(2 * 3.14 * std)) * math.exp(-1 * (((x - mean) ** 2) / (2 * std ** 2)))

## Klasifikasi

Untuk menentukan apakah **Kasus Terbesar Per Provinsi (Predict)** bernilai positif atau negatif.

In [8]:
def classification(data, df_mean, df_std):
    category = []
    
    for i in range(len(data)):
        densitas_gauss_positif = [
            # Probabilitas dalam perawatan, sembuh, meninggal (positif)
            densitas_gauss(data.iloc[i][1], df_mean.iloc[0][1], df_std.iloc[0][1]),
            densitas_gauss(data.iloc[i][2], df_mean.iloc[0][2], df_std.iloc[0][2]),
            densitas_gauss(data.iloc[i][3], df_mean.iloc[0][3], df_std.iloc[0][3])
        ]
        
        densitas_gauss_negatif = [
            # Probabilitas dalam perawatan, sembuh, dan meninggal (negatif)
            densitas_gauss(data.iloc[i][1], df_mean.iloc[1][1], df_std.iloc[1][1]),
            densitas_gauss(data.iloc[i][2], df_mean.iloc[1][2], df_std.iloc[1][2]),
            densitas_gauss(data.iloc[i][3], df_mean.iloc[1][3], df_std.iloc[1][3])
        ]

        posterior = [
            # Probabilitas (dalam perawatan * sembuh * meninggal)
            densitas_gauss_positif[0] * densitas_gauss_positif[1] * densitas_gauss_positif[2],
            densitas_gauss_negatif[0] * densitas_gauss_negatif[1] * densitas_gauss_negatif[2]
        ]
        
        if max(posterior) == posterior[0]:
            category.append("Positif")
        else:
            category.append("Negatif")
    
    data["Kasus Terbesar Per Provinsi (Predict)"] = category

## Ketepatan

Untuk mengetahui persentase **Correctly Classified Instance** dan **Incorrectly Classified Instance** dari hasil klasifikasi Kasus
COVID-19 Per Provinsi di Indonesia.

In [9]:
def accuracy(data):
    success, failed = 0, 0

    for i in range(len(data)):
        if (data.iloc[i][4] == data.iloc[i][5]):
            success += 1
        else :
            failed +=1

    return success, failed

## Data Test

Provinsi Aceh dengan data pasien **dalam perawatan** yaitu 3, data pasien **sembuh** yaitu 13, dan data pasien **meninggal** yaitu 1

In [10]:
data_test = pd.DataFrame({
    "Provinsi" : "Aceh",
    "Dalam Perawatan" : 3,
    "Sembuh" : 13,
    "Meninggal" : 1 
}, index = [0])

classification(data_test, data_mean, data_std)

display(data_test)

Unnamed: 0,Provinsi,Dalam Perawatan,Sembuh,Meninggal,Kasus Terbesar Per Provinsi (Predict)
0,Aceh,3,13,1,Negatif


<div class="alert alert-block alert-info">
    <b>Kesimpulan:</b> Karena <b>Kasus Terbesar Per Provinsi (predict)</b> provinsi Aceh bernilai <b>Negatif</b>, maka dapat dikatakan bahwa provinsi Aceh memiliki tingkat penyebaran COVID-19 dengan kasus pasien yang terkena positif lebih rendah.
</div>

## Pengujian Metode Naive Bayes

Data Train sebanyak 33 data akan diuji menggunakan Metode Naive Bayes.

In [11]:
data_analysis = data_train

classification(data_analysis, data_mean, data_std)

success, failed = accuracy(data_analysis)

display(data_analysis)

print(f"""
- Correctly Classified Instance : {round((success / len(data_analysis)) * 100, 4)}% atau sebanyak {success} data.
- Incorrectly Classified Instance : {round((failed / len(data_analysis)) * 100, 4)}% atau sebanayak {failed} data.
""")

Unnamed: 0,Provinsi,Dalam Perawatan,Sembuh,Meninggal,Kasus Terbesar Per Provinsi,Kasus Terbesar Per Provinsi (Predict)
0,DKI Jakarta,4038,1276,460,Positif,Positif
1,Jawa Timur,1449,294,178,Positif,Positif
2,Jawa Barat,1237,259,100,Positif,Positif
3,Jawa Tengah,805,234,70,Positif,Positif
4,Sulawesi Selatan,527,293,51,Positif,Positif
5,Banten,404,158,60,Positif,Positif
6,Sumatera Selatan,376,73,9,Positif,Positif
7,Sumatera Barat,284,88,21,Positif,Positif
8,Kalimantan Selatan,330,24,9,Positif,Positif
9,Nusa Tenggara Barat (NTB),163,188,7,Negatif,Negatif



- Correctly Classified Instance : 48.4848% atau sebanyak 16 data.
- Incorrectly Classified Instance : 51.5152% atau sebanayak 17 data.

