# Project Data Mining: Analisis COVID-19 di Indonesia
**Nama:** [Isi Nama Anda]
**NIM:** [Isi NIM Anda]
**Kelas:** [Isi Kelas Anda]


## 1. Pendahuluan
Pandemi COVID-19 telah memberikan dampak besar terhadap kehidupan masyarakat di seluruh dunia, termasuk di Indonesia. Analisis data COVID-19 dapat membantu kita memahami penyebaran penyakit ini dan memberikan wawasan yang dapat mendukung pengambilan keputusan yang lebih baik.

**Dataset** yang digunakan berisi informasi harian mengenai kasus baru, kasus aktif, jumlah pasien sembuh, dan jumlah kematian akibat COVID-19 di Indonesia yang dikelompokkan berdasarkan provinsi.

### Tujuan
1. Memahami pola dan tren data COVID-19 di Indonesia.
2. Mengidentifikasi provinsi dengan jumlah kasus tertinggi.
3. Membangun model prediktif sederhana untuk memproyeksikan jumlah kasus baru di masa depan.

## 2. Memuat Dataset
Dataset yang digunakan adalah file `dataset_covid_indonesia.csv` yang berisi data COVID-19 di Indonesia. Langkah pertama adalah memuat dan memeriksa dataset ini.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Memuat dataset
file_path = 'dataset_covid_indonesia.csv'  # Pastikan file ini ada di direktori kerja Anda
data = pd.read_csv(file_path)
data.head()

## 3. Eksplorasi Data (EDA)
Tahap ini bertujuan untuk memahami struktur, distribusi, dan pola dalam data.

In [None]:
# Informasi dasar tentang dataset
print('Informasi Dataset:')
data.info()

# Statistik deskriptif
print('Statistik Deskriptif:')
print(data.describe())

# Nilai yang hilang
missing_values = data.isnull().sum()
print('Nilai yang Hilang:')
print(missing_values)

### 3.1 Visualisasi Tren Data
Visualisasi digunakan untuk memahami tren data COVID-19 berdasarkan waktu.

In [None]:
# Visualisasi tren kasus baru per hari secara nasional
plt.figure(figsize=(10, 6))
data.groupby('Tanggal')['Kasus Baru'].sum().plot(color='blue')
plt.title('Tren Kasus Baru Nasional', fontsize=14)
plt.ylabel('Jumlah Kasus Baru')
plt.xlabel('Tanggal')
plt.xticks(rotation=45)
plt.grid()
plt.show()

# Perbandingan total kasus per provinsi
plt.figure(figsize=(12, 6))
data.groupby('Provinsi')['Kasus Baru'].sum().sort_values(ascending=False).plot(kind='bar', color='orange')
plt.title('Total Kasus Baru per Provinsi', fontsize=14)
plt.ylabel('Jumlah Kasus Baru')
plt.xlabel('Provinsi')
plt.xticks(rotation=90)
plt.grid(axis='y')
plt.show()

## 4. Proses Modeling
Pada tahap ini, kita akan membuat model sederhana untuk memprediksi jumlah kasus baru berdasarkan waktu. Model yang digunakan adalah Regresi Linear.

In [None]:
# Mengolah data untuk modeling
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Mengubah tanggal menjadi format numerik
data['Tanggal'] = pd.to_datetime(data['Tanggal'])
data['Hari'] = (data['Tanggal'] - data['Tanggal'].min()).dt.days

# Fokus pada provinsi tertentu (contoh: DKI Jakarta)
data_jakarta = data[data['Provinsi'] == 'DKI Jakarta']

# Membagi data menjadi fitur (X) dan target (y)
X = data_jakarta[['Hari']]
y = data_jakarta['Kasus Baru']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Membuat dan melatih model
model = LinearRegression()
model.fit(X_train, y_train)

# Evaluasi model
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f'Mean Squared Error (MSE): {mse}')
print(f'R-squared (R2): {r2}')

In [None]:
# Visualisasi hasil prediksi
plt.figure(figsize=(8, 6))
plt.scatter(X_test, y_test, color='blue', label='Data Aktual')
plt.plot(X_test, y_pred, color='red', label='Prediksi Model')
plt.title('Prediksi Kasus Baru DKI Jakarta', fontsize=14)
plt.xlabel('Hari')
plt.ylabel('Kasus Baru')
plt.legend()
plt.grid()
plt.show()

## 5. Kesimpulan
Dari hasil analisis, berikut beberapa kesimpulan yang dapat diambil:
1. Tren kasus baru COVID-19 bervariasi antar provinsi, dengan beberapa provinsi memiliki jumlah kasus yang jauh lebih tinggi dibandingkan lainnya.
2. Regresi Linear sederhana memberikan gambaran dasar prediksi tren kasus baru, namun memiliki keterbatasan dalam menangkap kompleksitas data.
3. Untuk akurasi lebih baik, disarankan menggunakan model yang lebih kompleks dan mempertimbangkan variabel tambahan.

**Catatan:** Dataset yang lebih lengkap akan meningkatkan kualitas analisis dan prediksi.