In [None]:
# Proyek STKI: Klasifikasi Cuaca Berdasarkan Deskripsi

## 1. Import Pustaka Utama
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix

# 2. Muat Dataset
file_path = "C:\\UASDM\\climate_data.csv"  # Ganti dengan path dataset Anda

try:
    data = pd.read_csv(file_path)
    print("Dataset berhasil dimuat! Berikut adalah beberapa baris awal:")
    print(data.head())
except FileNotFoundError:
    print(f"Dataset tidak ditemukan di lokasi {file_path}. Pastikan file tersedia.")

# 3. Eksplorasi Data Awal (EDA)
print("Informasi Dataset:")
data.info()
print("\nStatistik Dataset:")
print(data.describe())

# 4. Preprocessing Data
# Menangani data hilang
data = data.dropna()  # Menghapus data dengan nilai kosong

# Konversi kolom tanggal jika ada
data['date'] = pd.to_datetime(data['date'], errors='coerce')

# 5. Labeling Dataset
# Fungsi untuk mengklasifikasikan cuaca berdasarkan curah hujan
def label_weather(row):
    if row['RR'] == 0:
        return 'Cerah'
    elif row['RR'] > 0 and row['RR'] <= 20:
        return 'Berawan'
    else:
        return 'Hujan'

# Menambahkan kolom kategori cuaca
data['weather_category'] = data.apply(label_weather, axis=1)
print("Distribusi Kategori Cuaca:")
print(data['weather_category'].value_counts())

# 6. Pemodelan dan Evaluasi
# Memilih fitur dan label
X = data[['Tn', 'Tx', 'Tavg', 'RH_avg']]  # Fitur numerik utama
y = data['weather_category']  # Label kategori

# Membagi data menjadi data latih dan uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Melatih model Logistic Regression
model = LogisticRegression(max_iter=1000)
model.fit(X_train, y_train)

# Evaluasi Model
y_pred = model.predict(X_test)
print("Laporan Klasifikasi:")
print(classification_report(y_test, y_pred))

# Menampilkan Confusion Matrix
conf_matrix = confusion_matrix(y_test, y_pred)
sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues', xticklabels=model.classes_, yticklabels=model.classes_)
plt.xlabel('Predicted')
plt.ylabel('Actual')
plt.title('Confusion Matrix')
plt.show()
