# Analisis dan Visualisasi Data Penyakit Sumatra Utara

## 1. Setup Virtual Environment

Langkah pertama adalah membuat dan mengaktifkan virtual environment. Ini akan mengisolasi _package_ yang kita gunakan untuk proyek ini.

**Untuk Pengguna Unix/macOS:**
```bash
python3 -m venv .venv
source .venv/bin/activate
```

**Untuk Pengguna Windows (Command Prompt/PowerShell):**
```bash
python -m venv .venv
.venv\Scripts\activate
```

Setelah virtual environment aktif, _prompt_ terminal Anda biasanya akan diawali dengan `(.venv)`.

## 2. Install Required Libraries

Buat file `requirements.txt` di _root_ direktori proyek Anda dengan konten berikut:

```txt
pandas
numpy
matplotlib
seaborn
jupyter
pyspark
openpyxl
scikit-learn
```

Kemudian, install semua _library_ yang dibutuhkan dengan menjalankan perintah berikut di terminal Anda (pastikan virtual environment sudah aktif):

```bash
pip install -r requirements.txt
```

## 3. Load and Explore Data

Kita akan memuat dataset `Penyakit_Sumut.csv` menggunakan pandas dan melihat informasi dasarnya.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Set style untuk visualisasi
sns.set_theme(style="whitegrid")

# Path ke file data
# Sesuaikan path jika notebook ini tidak berada di root folder yang sama dengan folder 'data'
# Misalnya, jika notebook ada di dalam folder 'notebooks', pathnya menjadi '../data/Penyakit_Sumut.csv'
file_path = '../data/Penyakit_Sumut.csv'

# Load dataset
try:
    df = pd.read_csv(file_path)
    print("Dataset berhasil dimuat.")
except FileNotFoundError:
    print(f"Error: File tidak ditemukan di {file_path}. Pastikan path sudah benar.")
    df = pd.DataFrame() # Buat dataframe kosong jika file tidak ditemukan

if not df.empty:
    print("\nInformasi Dataset:")
    df.info()

    print("\nDimensi Dataset (baris, kolom):")
    print(df.shape)

    print("\nNama Kolom:")
    print(df.columns)

    print("\nLima baris pertama dataset:")
    print(df.head())

    print("\nLima baris terakhir dataset:")
    print(df.tail())

: 

## 4. Data Cleaning and Preprocessing

Tahap ini meliputi penanganan nilai yang hilang (_missing values_), duplikasi data, dan transformasi data jika diperlukan.

In [None]:
if not df.empty:
    print("\nJumlah missing values per kolom sebelum cleaning:")
    print(df.isnull().sum())

    # Contoh penanganan missing values:
    # Jika ada kolom numerik dengan missing values, bisa diisi dengan mean atau median
    # for col in df.select_dtypes(include=np.number).columns:
    #     if df[col].isnull().any():
    #         df[col].fillna(df[col].median(), inplace=True)

    # Jika ada kolom kategorikal dengan missing values, bisa diisi dengan modus atau nilai tertentu
    # for col in df.select_dtypes(include='object').columns:
    #     if df[col].isnull().any():
    #         df[col].fillna(df[col].mode()[0], inplace=True)

    # Untuk dataset ini, kita akan fokus pada kolom yang ada.
    # Jika ada kolom yang seluruhnya kosong atau tidak relevan, bisa di-drop.
    # df.dropna(axis=1, how='all', inplace=True)

    print("\nJumlah missing values per kolom setelah cleaning (contoh):")
    print(df.isnull().sum())

    print("\nJumlah baris duplikat sebelum penghapusan:")
    print(df.duplicated().sum())

    # Hapus baris duplikat
    df.drop_duplicates(inplace=True)

    print("\nJumlah baris duplikat setelah penghapusan:")
    print(df.duplicated().sum())

    print("\nDimensi dataset setelah cleaning:")
    print(df.shape)
else:
    print("Dataframe kosong, langkah cleaning dilewati.")

## 5. Data Analysis

Melakukan analisis statistik deskriptif dan operasi _group-by_ untuk menemukan tren dan pola.

In [None]:
if not df.empty:
    print("\nStatistik Deskriptif untuk kolom numerik:")
    # Pastikan hanya kolom numerik yang relevan yang dipilih untuk describe()
    # Misalnya, 'Jumlah_Kasus' dan 'Tahun'
    numerical_cols = ['Jumlah_Kasus', 'Tahun'] # Sesuaikan dengan nama kolom yang benar
    if all(col in df.columns for col in numerical_cols):
        print(df[numerical_cols].describe())
    else:
        print(f"Kolom {numerical_cols} tidak ditemukan. Statistik deskriptif tidak dapat ditampilkan.")

    # Analisis tren kasus penyakit per tahun
    if 'Tahun' in df.columns and 'Jumlah_Kasus' in df.columns:
        print("\nTotal kasus penyakit per tahun:")
        kasus_per_tahun = df.groupby('Tahun')['Jumlah_Kasus'].sum().reset_index()
        print(kasus_per_tahun)
    else:
        print("Kolom 'Tahun' atau 'Jumlah_Kasus' tidak ditemukan. Analisis kasus per tahun tidak dapat ditampilkan.")

    # Analisis penyakit paling umum
    if 'Jenis_Penyakit' in df.columns and 'Jumlah_Kasus' in df.columns:
        print("\nTotal kasus per jenis penyakit:")
        kasus_per_penyakit = df.groupby('Jenis_Penyakit')['Jumlah_Kasus'].sum().sort_values(ascending=False).reset_index()
        print(kasus_per_penyakit.head(10)) # Tampilkan 10 penyakit teratas
    else:
        print("Kolom 'Jenis_Penyakit' atau 'Jumlah_Kasus' tidak ditemukan. Analisis per jenis penyakit tidak dapat ditampilkan.")

    # Analisis kabupaten/kota dengan kasus terbanyak
    if 'Kabupaten_Kota' in df.columns and 'Jumlah_Kasus' in df.columns:
        print("\nTotal kasus per kabupaten/kota:")
        kasus_per_kabupaten = df.groupby('Kabupaten_Kota')['Jumlah_Kasus'].sum().sort_values(ascending=False).reset_index()
        print(kasus_per_kabupaten.head(10)) # Tampilkan 10 kabupaten/kota teratas
    else:
        print("Kolom 'Kabupaten_Kota' atau 'Jumlah_Kasus' tidak ditemukan. Analisis per kabupaten/kota tidak dapat ditampilkan.")
else:
    print("Dataframe kosong, langkah analisis data dilewati.")

## 6. Data Visualization

Membuat visualisasi untuk merepresentasikan _insight_ dari data.

In [None]:
if not df.empty and 'Tahun' in df.columns and 'Jumlah_Kasus' in df.columns:
    # Visualisasi total kasus penyakit per tahun
    plt.figure(figsize=(12, 6))
    sns.lineplot(data=kasus_per_tahun, x='Tahun', y='Jumlah_Kasus', marker='o')
    plt.title('Total Kasus Penyakit per Tahun di Sumatra Utara')
    plt.xlabel('Tahun')
    plt.ylabel('Jumlah Kasus')
    plt.xticks(kasus_per_tahun['Tahun'].unique()) # Pastikan semua tahun ditampilkan
    plt.tight_layout()
    plt.show()
else:
    print("Tidak dapat membuat visualisasi kasus per tahun karena data tidak lengkap.")

if not df.empty and 'Jenis_Penyakit' in df.columns and 'Jumlah_Kasus' in df.columns:
    # Visualisasi 10 jenis penyakit teratas
    plt.figure(figsize=(12, 8))
    sns.barplot(data=kasus_per_penyakit.head(10), x='Jumlah_Kasus', y='Jenis_Penyakit', palette='viridis')
    plt.title('Top 10 Jenis Penyakit dengan Kasus Terbanyak')
    plt.xlabel('Jumlah Kasus')
    plt.ylabel('Jenis Penyakit')
    plt.tight_layout()
    plt.show()
else:
    print("Tidak dapat membuat visualisasi jenis penyakit karena data tidak lengkap.")

if not df.empty and 'Kabupaten_Kota' in df.columns and 'Jumlah_Kasus' in df.columns:
    # Visualisasi 10 kabupaten/kota dengan kasus terbanyak
    plt.figure(figsize=(12, 8))
    sns.barplot(data=kasus_per_kabupaten.head(10), x='Jumlah_Kasus', y='Kabupaten_Kota', palette='mako')
    plt.title('Top 10 Kabupaten/Kota dengan Kasus Penyakit Terbanyak')
    plt.xlabel('Jumlah Kasus')
    plt.ylabel('Kabupaten/Kota')
    plt.tight_layout()
    plt.show()
else:
    print("Tidak dapat membuat visualisasi kasus per kabupaten/kota karena data tidak lengkap.")

# Contoh Heatmap: Korelasi antar penyakit jika data sudah di-pivot
# Untuk ini, kita memerlukan data yang sudah di-pivot dari langkah ETL sebelumnya.
# Jika Anda memiliki file Parquet hasil pivot (misal: penyakit_transformed.parquet),
# Anda bisa memuatnya di sini dan membuat heatmap.

# df_pivot = pd.read_parquet('../data/parquet/penyakit_transformed.parquet')
# if not df_pivot.empty:
#     # Pastikan kolom 'Kabupaten_Kota' di-set sebagai index jika ada
#     if 'Kabupaten_Kota' in df_pivot.columns:
#          df_pivot = df_pivot.set_index('Kabupaten_Kota')
    
#     # Hitung korelasi hanya pada kolom numerik (penyakit)
#     numeric_cols_pivot = df_pivot.select_dtypes(include=np.number).columns
#     if not numeric_cols_pivot.empty:
#         correlation_matrix = df_pivot[numeric_cols_pivot].corr()
#         plt.figure(figsize=(12, 10))
#         sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f')
#         plt.title('Heatmap Korelasi Antar Jenis Penyakit')
#         plt.show()
#     else:
#         print("Tidak ada kolom numerik untuk membuat heatmap korelasi dari data pivot.")
# else:
#     print("Data pivot tidak dimuat atau kosong, heatmap korelasi dilewati.")

print("\nAnalisis dan visualisasi selesai.")

## 7. Query dan Visualisasi dari PostgreSQL

Bagian ini akan menunjukkan cara menghubungkan ke database PostgreSQL yang telah diisi oleh pipeline Spark, menjalankan beberapa query SQL berdasarkan skema yang ada, dan memvisualisasikan hasilnya menggunakan `pandas`, `matplotlib`, dan `seaborn`.

In [None]:
import psycopg2
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Set style untuk visualisasi konsisten
sns.set_theme(style="whitegrid")

# Parameter koneksi ke PostgreSQL
# Sesuaikan jika konfigurasi database Anda berbeda.
# Jika menjalankan notebook dari host dan PostgreSQL di Docker dengan port termapping:
DB_HOST = "localhost" 
DB_NAME = "penyakit_db"
DB_USER = "postgres"
DB_PASS = "password123" # Ambil dari environment variable di production!
DB_PORT = "5432"

conn_string = f"host={DB_HOST} port={DB_PORT} dbname={DB_NAME} user={DB_USER} password={DB_PASS}"
conn = None
cur = None

try:
    conn = psycopg2.connect(conn_string)
    cur = conn.cursor()
    print("Koneksi ke PostgreSQL berhasil!")
except Exception as e:
    print(f"Error koneksi ke PostgreSQL: {e}")
    # Jika koneksi gagal, sel berikutnya mungkin tidak akan berjalan dengan benar.

### Query 1: Jumlah Kabupaten per Cluster

Mengambil data jumlah kabupaten yang unik untuk setiap cluster dari tabel `hasil_klaster`.

In [None]:
if conn and cur:
    try:
        query1 = """
        SELECT 
            cluster_id, 
            COUNT(DISTINCT kabupaten) AS jumlah_kabupaten 
        FROM hasil_klaster
        GROUP BY cluster_id
        ORDER BY cluster_id;
        """
        df_query1 = pd.read_sql_query(query1, conn)
        print("Hasil Query 1 - Jumlah Kabupaten per Cluster:")
        print(df_query1)

        # Visualisasi Query 1
        if not df_query1.empty:
            plt.figure(figsize=(8, 6))
            sns.barplot(data=df_query1, x='cluster_id', y='jumlah_kabupaten', palette='viridis')
            plt.title('Jumlah Kabupaten per Cluster')
            plt.xlabel('Cluster ID')
            plt.ylabel('Jumlah Kabupaten')
            plt.show()
        else:
            print("Tidak ada data untuk ditampilkan dari Query 1.")
            
    except Exception as e:
        print(f"Error menjalankan Query 1: {e}")
else:
    print("Koneksi PostgreSQL tidak tersedia. Lewati Query 1.")

### Query 2: Rata-rata Jumlah Kasus per Penyakit per Tahun

Mengambil data rata-rata jumlah kasus untuk setiap jenis penyakit per tahun. Ini melibatkan join antara tabel `kasus_penyakit` dan `penyakit`.

In [None]:
if conn and cur:
    try:
        query2 = """
        SELECT 
            p.nama_penyakit, 
            kp.tahun, 
            AVG(kp.jumlah_kasus) AS rata_rata_kasus
        FROM kasus_penyakit kp
        JOIN penyakit p ON kp.id_penyakit = p.id_penyakit
        GROUP BY p.nama_penyakit, kp.tahun
        ORDER BY p.nama_penyakit, kp.tahun;
        """
        df_query2 = pd.read_sql_query(query2, conn)
        print("\nHasil Query 2 - Rata-rata Jumlah Kasus per Penyakit per Tahun (Contoh):")
        print(df_query2.head())

        # Visualisasi Query 2 (Contoh: Line plot untuk beberapa penyakit terpilih)
        if not df_query2.empty:
            penyakit_untuk_plot = df_query2['nama_penyakit'].unique()[:3] # Ambil 3 penyakit pertama untuk contoh
            df_plot_q2 = df_query2[df_query2['nama_penyakit'].isin(penyakit_untuk_plot)]
            
            if not df_plot_q2.empty:
                plt.figure(figsize=(14, 7))
                sns.lineplot(data=df_plot_q2, x='tahun', y='rata_rata_kasus', hue='nama_penyakit', marker='o')
                plt.title(f'Rata-rata Jumlah Kasus per Tahun untuk Penyakit Terpilih')
                plt.xlabel('Tahun')
                plt.ylabel('Rata-rata Jumlah Kasus')
                plt.legend(title='Nama Penyakit', bbox_to_anchor=(1.05, 1), loc='upper left')
                plt.tight_layout()
                plt.show()
            else:
                print("Tidak ada data yang cukup untuk plot Query 2 setelah filtering.")
        else:
            print("Tidak ada data untuk ditampilkan dari Query 2.")
            
    except Exception as e:
        print(f"Error menjalankan Query 2: {e}")
else:
    print("Koneksi PostgreSQL tidak tersedia. Lewati Query 2.")

### Query 3: Top 5 Kabupaten dengan Kasus DBD Tertinggi di Tahun Tertentu

Mengambil 5 kabupaten dengan total kasus DBD tertinggi pada tahun terakhir yang tercatat dalam database.

In [None]:
if conn and cur:
    try:
        # Dapatkan tahun terakhir dari data kasus_penyakit
        tahun_terakhir_query_q3 = "SELECT MAX(tahun) FROM kasus_penyakit;"
        cur.execute(tahun_terakhir_query_q3)
        result_tahun_q3 = cur.fetchone()
        tahun_terakhir_q3 = result_tahun_q3[0] if result_tahun_q3 else None

        if tahun_terakhir_q3:
            print(f"\nMenganalisis kasus DBD untuk tahun terakhir yang ditemukan: {tahun_terakhir_q3}")
            query3 = f"""
            SELECT 
                k.nama_kabupaten, 
                SUM(kp.jumlah_kasus) AS total_kasus_dbd
            FROM kasus_penyakit kp
            JOIN kabupaten k ON kp.id_kabupaten = k.id_kabupaten
            JOIN penyakit p ON kp.id_penyakit = p.id_penyakit
            WHERE p.nama_penyakit = 'DBD' AND kp.tahun = {tahun_terakhir_q3}
            GROUP BY k.nama_kabupaten
            ORDER BY total_kasus_dbd DESC
            LIMIT 5;
            """
            df_query3 = pd.read_sql_query(query3, conn)
            print(f"\nHasil Query 3 - Top 5 Kabupaten dengan Kasus DBD Tertinggi ({tahun_terakhir_q3}):")
            print(df_query3)

            # Visualisasi Query 3
            if not df_query3.empty:
                plt.figure(figsize=(10, 7))
                sns.barplot(data=df_query3, x='total_kasus_dbd', y='nama_kabupaten', palette='coolwarm_r')
                plt.title(f'Top 5 Kabupaten dengan Kasus DBD Tertinggi ({tahun_terakhir_q3})')
                plt.xlabel('Total Kasus DBD')
                plt.ylabel('Kabupaten')
                plt.tight_layout()
                plt.show()
            else:
                print(f"Tidak ada data kasus DBD untuk tahun {tahun_terakhir_q3} untuk ditampilkan.")
        else:
            print("Tidak dapat menentukan tahun terakhir dari tabel kasus_penyakit untuk Query 3.")
            
    except Exception as e:
        print(f"Error menjalankan Query 3: {e}")
else:
    print("Koneksi PostgreSQL tidak tersedia. Lewati Query 3.")

### Query 4: Sebaran Penyakit dalam Cluster Tertentu

Menganalisis total kasus untuk setiap penyakit pada kabupaten yang termasuk dalam cluster ID tertentu (misalnya, cluster 0).

In [None]:
if conn and cur:
    try:
        target_cluster_id_q4 = 0 # Ganti dengan ID cluster yang ingin dianalisis
        query4 = f"""
        SELECT 
            p.nama_penyakit, 
            SUM(kp.jumlah_kasus) AS total_kasus_di_cluster
        FROM kasus_penyakit kp
        JOIN penyakit p ON kp.id_penyakit = p.id_penyakit
        JOIN kabupaten k ON kp.id_kabupaten = k.id_kabupaten
        JOIN hasil_klaster hk ON k.nama_kabupaten = hk.kabupaten
        WHERE hk.cluster_id = {target_cluster_id_q4}
        GROUP BY p.nama_penyakit
        HAVING SUM(kp.jumlah_kasus) > 0 -- Hanya tampilkan penyakit dengan kasus > 0
        ORDER BY total_kasus_di_cluster DESC;
        """
        df_query4 = pd.read_sql_query(query4, conn)
        print(f"\nHasil Query 4 - Sebaran Penyakit di Cluster {target_cluster_id_q4}:")
        print(df_query4)

        # Visualisasi Query 4
        if not df_query4.empty:
            plt.figure(figsize=(12, 8))
            sns.barplot(data=df_query4, x='total_kasus_di_cluster', y='nama_penyakit', palette='crest_r')
            plt.title(f'Sebaran Jumlah Kasus Penyakit di Cluster {target_cluster_id_q4}')
            plt.xlabel('Total Kasus di Cluster')
            plt.ylabel('Nama Penyakit')
            plt.tight_layout()
            plt.show()
        else:
            print(f"Tidak ada data penyakit untuk cluster {target_cluster_id_q4} atau semua kasus nol.")
            
    except Exception as e:
        print(f"Error menjalankan Query 4: {e}")
else:
    print("Koneksi PostgreSQL tidak tersedia. Lewati Query 4.")

### Query 5: Menampilkan Contoh Data dari Tabel `data_pivot`

Membaca beberapa baris pertama dari tabel `data_pivot` untuk memeriksa strukturnya dan contoh isinya. Tabel ini berisi data penyakit yang telah di-pivot per kabupaten.

In [None]:
if conn and cur:
    try:
        query5 = """
        SELECT * 
        FROM data_pivot
        LIMIT 10;
        """
        df_query5 = pd.read_sql_query(query5, conn)
        print("\nHasil Query 5 - Contoh Data dari tabel data_pivot:")
        print(df_query5)

        # Visualisasi untuk data_pivot bisa beragam.
        # Contoh: Bar plot perbandingan beberapa penyakit untuk kabupaten yang ada di hasil query.
        if not df_query5.empty:
            # Pilih beberapa kolom penyakit untuk visualisasi (pastikan nama kolom sesuai dengan skema)
            kolom_penyakit_pivot = ['dbd', 'diare', 'tb_paru'] # Contoh, sesuaikan dengan nama kolom di data_pivot
            kolom_valid_pivot = [col for col in kolom_penyakit_pivot if col in df_query5.columns]
            
            if 'kabupaten' in df_query5.columns and kolom_valid_pivot:
                df_plot_q5 = df_query5.set_index('kabupaten')[kolom_valid_pivot]
                if not df_plot_q5.empty:
                    df_plot_q5.plot(kind='bar', figsize=(14, 7), width=0.8)
                    plt.title('Perbandingan Kasus Penyakit (Contoh dari data_pivot)')
                    plt.ylabel('Jumlah Kasus')
                    plt.xlabel('Kabupaten')
                    plt.xticks(rotation=45, ha='right')
                    plt.legend(title='Jenis Penyakit')
                    plt.tight_layout()
                    plt.show()
                else:
                    print("Tidak ada data yang cukup untuk plot Query 5 setelah filtering kolom.")
            else:
                print("Kolom 'kabupaten' atau kolom penyakit yang valid tidak ditemukan di data_pivot untuk visualisasi.")
        else:
            print("Tidak ada data untuk ditampilkan dari Query 5.")

    except Exception as e:
        print(f"Error menjalankan Query 5: {e}")
else:
    print("Koneksi PostgreSQL tidak tersedia. Lewati Query 5.")

In [None]:
# Jangan lupa menutup koneksi setelah selesai
if conn:
    try:
        cur.close()
        conn.close()
        print("\nKoneksi ke PostgreSQL berhasil ditutup.")
    except Exception as e:
        print(f"Error saat menutup koneksi PostgreSQL: {e}")