# Deteksi Dini Penyakit Menurut Kabupaten/Kota di Provinsi Jawa Tengah

### Judul
Deteksi Dini Penyakit Menurut Kabupaten/Kota di Provinsi Jawa Tengah Menggunakan Eksperimen Data Mining.

### Identitas
- **Nama**: [Bintang Widiatmaja]
- **NIM**: [A11.2022.14314]


### 2. Ringkasan dan Permasalahan Project + Tujuan yang Akan Dicapai + Model / Alur Penyelesaian

**Ringkasan**:
Proyek ini bertujuan untuk menganalisis jumlah kasus penyakit yang terjadi di berbagai kabupaten/kota di Provinsi Jawa Tengah. Data yang digunakan terdiri dari jumlah kasus berdasarkan kategori penyakit tertentu untuk setiap kabupaten/kota. Dengan data ini, kita dapat melihat distribusi penyakit di berbagai wilayah.

**Permasalahan**:
- Tidak adanya sistem untuk mengidentifikasi distribusi penyakit secara visual dan analitik untuk wilayah Jawa Tengah.
- Sulitnya melihat pola distribusi penyakit di masing-masing kabupaten/kota.

**Tujuan**:
- Menganalisis dan memvisualisasikan data jumlah kasus penyakit di Jawa Tengah.
- Menyediakan alat analitik untuk memahami pola penyakit menurut wilayah.

**Alur Penyelesaian**:
1. **Data Collection**: Mengumpulkan data jumlah kasus penyakit per kabupaten/kota.
2. **Data Preprocessing**: Membersihkan data dan memastikan tidak ada nilai yang hilang atau anomali.
3. **Exploratory Data Analysis (EDA)**: Menganalisis data menggunakan visualisasi untuk memahami pola distribusi penyakit.
4. **Modeling**: Menggunakan teknik statistik atau machine learning untuk menganalisis lebih lanjut hubungan antara kabupaten/kota dan jumlah kasus.
5. **Result Evaluation**: Mengevaluasi hasil model dan menarik kesimpulan dari analisis.

Bagan alur:

Data Collection -> Data Preprocessing -> EDA -> Modeling -> Result Evaluation

### 3. Penjelasan Dataset, EDA, dan Proses Features Dataset

**Dataset**:
Dataset yang digunakan adalah data jumlah kasus penyakit menurut kabupaten/kota di Provinsi Jawa Tengah. Dataset ini berisi informasi tentang jumlah kasus yang tercatat di berbagai wilayah, yang akan dianalisis lebih lanjut.

**Exploratory Data Analysis (EDA)**:
EDA dilakukan untuk memeriksa distribusi jumlah kasus penyakit di setiap kabupaten/kota. Analisis ini dilakukan dengan menggunakan visualisasi seperti grafik histogram dan boxplot untuk melihat pola distribusi data.

**Proses Features Dataset**:
Dataset sudah diproses dengan menghapus kolom yang tidak relevan, memeriksa apakah ada nilai yang hilang atau duplikat, dan memastikan bahwa data yang digunakan adalah bersih dan siap untuk dianalisis.

### 4. Proses Learning / Modeling

Untuk proyek ini, tidak ada model machine learning yang kompleks digunakan. Sebaliknya, analisis lebih terfokus pada **Exploratory Data Analysis (EDA)** menggunakan visualisasi yang membantu dalam memahami distribusi jumlah kasus penyakit.

Namun, jika ingin menggunakan model analitik yang lebih lanjut, kita bisa menerapkan teknik statistik untuk menemukan pola distribusi berdasarkan kabupaten/kota.

### 5. Performa Model

Karena model yang digunakan dalam proyek ini lebih mengarah ke analisis data eksploratif (EDA), kita lebih fokus pada hasil visualisasi data dan bukan pada performa model machine learning. Evaluasi dilakukan dengan melihat bagaimana distribusi jumlah kasus penyakit di berbagai kabupaten/kota dan apakah ada pola tertentu yang dapat diamati.

### 6. Diskusi Hasil dan Kesimpulan

**Diskusi Hasil**:
Setelah visualisasi, kita bisa membahas hasil analisis dan mengidentifikasi apakah ada wilayah yang mengalami lonjakan kasus tertentu. Analisis lebih lanjut dapat dilakukan untuk melihat penyebab atau faktor-faktor yang memengaruhi distribusi penyakit ini.

**Kesimpulan**:
Melalui analisis ini, kita dapat memahami distribusi jumlah kasus penyakit di Provinsi Jawa Tengah. Data ini dapat digunakan oleh pihak terkait untuk mengambil langkah-langkah pencegahan atau intervensi yang lebih tepat sasaran.

In [1]:
# 1. Import Libraries
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# 2. Memuat Dataset
dataset = pd.read_csv('C:/Users/user/Documents/Tugas Kuliah/SEMESTER 5/DataMining/jawa_tengah_disease_cases.csv')

# 3. Menghapus Spasi Ekstra di Nama Kolom (jika ada)
dataset.columns = dataset.columns.str.strip()

# 4. Menampilkan Nama Kolom dan 5 Data Pertama untuk Verifikasi
print('Nama Kolom:', dataset.columns)
print(dataset.head())

# 5. Memeriksa apakah Kolom 'Jumlah Kasus' ada
if 'Jumlah Kasus' in dataset.columns:
    # 6. Visualisasi Distribusi Jumlah Kasus
    sns.histplot(dataset['Jumlah Kasus'], kde=True)
    plt.title('Distribusi Jumlah Kasus Penyakit')
    plt.xlabel('Jumlah Kasus')
    plt.ylabel('Frekuensi')
    plt.show()
else:
    print("Kolom 'Jumlah Kasus' tidak ditemukan!")

# 7. Menyimpan Hasil Analisis ke File Excel
# Misalnya, hasil prediksi atau analisis yang ingin disimpan
hasil_prediksi = dataset  # Gantilah dengan hasil analisis atau prediksi kamu

# Menyimpan ke file Excel
hasil_prediksi.to_excel('hasil_prediksi_jateng.xlsx', index=False)
print('Hasil disimpan dalam file "hasil_prediksi_jateng.xlsx"')