# **Import Data**

In [1]:
# Membaca dataset sesuai format
import pandas as pd

# Jika excel maka gunakan fungsi "read_excel", jika csv gunakan fungsi "read_csv"
df = pd.read_csv('/content/Untitled spreadsheet - weather_classification_data.csv')
df.head()

Unnamed: 0,Temperature,Humidity,Wind_Speed,Precipitation (%),Cloud_Cover,Atmospheric_Pressure,UV_Index,Season,Visibility_KM,Location,Weather_Type
0,14.0,73,9.5,82.0,partly cloudy,1010.82,2,Winter,3.5,inland,Rainy
1,39.0,96,8.5,71.0,partly cloudy,1011.43,7,Spring,10.0,inland,Cloudy
2,30.0,64,7.0,16.0,clear,1018.72,5,Spring,5.5,mountain,Sunny
3,38.0,83,1.5,82.0,clear,1026.25,7,Spring,1.0,coastal,Sunny
4,27.0,74,17.0,66.0,overcast,990.67,1,Winter,2.5,mountain,Rainy


# **Preprocessing**

In [2]:
# Menampilkan inofrmasi dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13200 entries, 0 to 13199
Data columns (total 11 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Temperature           13200 non-null  float64
 1   Humidity              13200 non-null  int64  
 2   Wind_Speed            13200 non-null  float64
 3   Precipitation (%)     13200 non-null  float64
 4   Cloud_Cover           13200 non-null  object 
 5   Atmospheric_Pressure  13200 non-null  float64
 6   UV_Index              13200 non-null  int64  
 7   Season                13200 non-null  object 
 8   Visibility_KM         13200 non-null  float64
 9   Location              13200 non-null  object 
 10  Weather_Type          13200 non-null  object 
dtypes: float64(5), int64(2), object(4)
memory usage: 1.1+ MB


In [3]:
# Mengetahui jumlah baris dan kolom dari dataset
print("Jumlah baris: {}\nJumlah kolom: {}".format(df.shape[0], df.shape[1]))

Jumlah baris: 13200
Jumlah kolom: 11


In [4]:
# #Menghapus kolom "ID"
data = df.copy()
# data = data.drop(columns='Unnamed: 0')
# data = data.drop(columns='id')
# data = data.drop(columns='Arrival Delay in Minutes')
# data = data.drop(columns='Departure Delay in Minutes')
# data = data.drop(columns='Departure/Arrival time convenient')
# data = data.drop(columns='Flight Distance')
# data.head(10)

In [5]:
# Melakukan pengecekan pada nilai yang hilang (missing value)
data.isna().sum()

Unnamed: 0,0
Temperature,0
Humidity,0
Wind_Speed,0
Precipitation (%),0
Cloud_Cover,0
Atmospheric_Pressure,0
UV_Index,0
Season,0
Visibility_KM,0
Location,0


In [6]:
# Menampilkan data missing value
data[data.isna().any(axis=1)]

Unnamed: 0,Temperature,Humidity,Wind_Speed,Precipitation (%),Cloud_Cover,Atmospheric_Pressure,UV_Index,Season,Visibility_KM,Location,Weather_Type


In [7]:
# Hapus missing value
# data_clean = data.copy()
# data_clean.dropna(inplace=True)
# data_clean.isna().sum()

In [8]:
# Handling missing values
data_clean = data.copy()

# Data numerikal
#data_clean['Loan_Amount_Term'] = data_clean['Loan_Amount_Term'].fillna(data_clean['Loan_Amount_Term'].mode()[0])
#data_clean['Credit_History'] = data_clean['Credit_History'].fillna(data_clean['Credit_History'].mode()[0])

# Data kategorikall
#data_clean['Gender'] = data_clean['Gender'].fillna(data_clean['Gender'].mode()[0])
#data_clean['Dependents'] = data_clean['Dependents'].fillna(data_clean['Dependents'].mode()[0])
#data_clean['Self_Employed'] = data_clean['Self_Employed'].fillna(data_clean['Self_Employed'].mode()[0])

# Melakukan pengecekan pada nilai yang hilang (missing value)
#data_clean.isna().sum()

In [9]:
# Menampilkan statistik deskriptif dari data
data_clean.describe()

Unnamed: 0,Temperature,Humidity,Wind_Speed,Precipitation (%),Atmospheric_Pressure,UV_Index,Visibility_KM
count,13200.0,13200.0,13200.0,13200.0,13200.0,13200.0,13200.0
mean,19.127576,68.710833,9.832197,53.644394,1005.827896,4.005758,5.462917
std,17.386327,20.194248,6.908704,31.946541,37.199589,3.8566,3.371499
min,-25.0,20.0,0.0,0.0,800.12,0.0,0.0
25%,4.0,57.0,5.0,19.0,994.8,1.0,3.0
50%,21.0,70.0,9.0,58.0,1007.65,3.0,5.0
75%,31.0,84.0,13.5,82.0,1016.7725,7.0,7.5
max,109.0,109.0,48.5,109.0,1199.21,14.0,20.0


In [10]:
# Mengubah tipe data kategorikal menjadi representasi numerik
from sklearn.preprocessing import LabelEncoder

data_fe = data_clean.copy()

object_cols = [col for col in data_fe.columns if data_fe[col].dtype == 'object']

label_encoder = LabelEncoder()
for col in object_cols:
    data_fe[col] = label_encoder.fit_transform(data_fe[col])

data_fe.tail()

Unnamed: 0,Temperature,Humidity,Wind_Speed,Precipitation (%),Cloud_Cover,Atmospheric_Pressure,UV_Index,Season,Visibility_KM,Location,Weather_Type
13195,10.0,74,14.5,71.0,2,1003.15,1,2,1.0,2,1
13196,-1.0,76,3.5,23.0,1,1067.23,1,3,6.0,0,2
13197,30.0,77,5.5,28.0,2,1012.69,3,0,9.0,0,0
13198,3.0,76,10.0,94.0,2,984.27,0,3,2.0,1,2
13199,-5.0,38,0.0,92.0,2,1015.37,5,0,10.0,2,1


# **Pembagian Data dengan Hold-Out Validation**

In [11]:
# Memisahkan fitur dengan label
X = data_fe.drop(columns='Weather_Type')
y = data_fe['Weather_Type'].values

In [12]:
# Melakukan pembagian data dengan Hold-Out Validation
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [13]:
# Melihat hasil pembagian data
X_train.shape, X_test.shape

((9240, 10), (3960, 10))

# **Pemodelan dengan Algoritma logistic regression**

In [14]:
from sklearn.model_selection import train_test_split # Jika belum ada, untuk membagi data
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, accuracy_score, precision_score, recall_score
# Diasumsikan X_train, X_test, y_train, y_test sudah ada dari pembagian data sebelumnya

# --- Membuat model Logistic Regression ---
model_lr = LogisticRegression(solver='liblinear', random_state=42) # Anda bisa menyesuaikan solver dan parameter lain

# --- Melatih model (jika belum dilakukan) ---
model_lr.fit(X_train, y_train) # Baris ini diperlukan jika model belum dilatih

# --- Melakukan prediksi (jika belum dilakukan) ---
y_pred = model_lr.predict(X_test) # Baris ini diperlukan jika prediksi belum ada

# --- Menampilkan hasil evaluasi model (mirip dengan NBC) ---
print("Laporan Klasifikasi untuk Logistic Regression:")
print(classification_report(y_test, y_pred))

print("\n--- Metrik Evaluasi Individual untuk Logistic Regression ---")
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred, average='weighted') # Sesuaikan 'average' jika perlu (e.g., 'binary', 'micro', 'macro')
recall = recall_score(y_test, y_pred, average='weighted')    # Sesuaikan 'average' jika perlu

print(f"Akurasi: {accuracy:.2f}")
print(f"Precision: {precision:.2f}")
print(f"Recall: {recall:.2f}")

Laporan Klasifikasi untuk Logistic Regression:
              precision    recall  f1-score   support

           0       0.78      0.79      0.79       955
           1       0.82      0.83      0.82       982
           2       0.86      0.93      0.89      1033
           3       0.86      0.77      0.81       990

    accuracy                           0.83      3960
   macro avg       0.83      0.83      0.83      3960
weighted avg       0.83      0.83      0.83      3960


--- Metrik Evaluasi Individual untuk Logistic Regression ---
Akurasi: 0.83
Precision: 0.83
Recall: 0.83


In [15]:
import joblib

# --- Menyimpan Model Regresi Logistik ---
nama_file_model = 'model_regresi_logistik_cuaca.joblib'
joblib.dump(model_lr, nama_file_model)
print(f"Model berhasil disimpan sebagai {nama_file_model}")

# --- Menyimpan Label Encoders ---
# Dalam notebook Anda, Anda menggunakan satu instance LabelEncoder dalam sebuah loop.
# Untuk deployment yang robust, idealnya Anda menyimpan dictionary (kamus) dari encoders,
# atau encoder individual jika Anda memilikinya.

# Mari kita perbaiki penyimpanan encoder. Biasanya, Anda akan melatih satu encoder per kolom kategorikal
# dan menyimpannya, mungkin dalam sebuah dictionary.
# object_cols adalah variabel yang berisi nama-nama kolom yang Anda encode.
# Anda perlu menyimpan pemetaan atau encoder untuk masing-masing kolom ini.

encoders = {}
# Menggunakan salinan baru dari df asli untuk demo encoding
data_bersih_untuk_demo_encoding = df.copy()
# object_cols diidentifikasi dari df.info() dan langkah encoding Anda.
# ['Cloud_Cover', 'Season', 'Location', 'Weather_Type']
# Kita hanya butuh encoder untuk fitur, bukan variabel target untuk input prediksi.
kolom_objek_fitur = ['Cloud_Cover', 'Season', 'Location']


for kolom in kolom_objek_fitur:
    le = LabelEncoder()
    # Latih pada data string asli
    data_bersih_untuk_demo_encoding[kolom] = le.fit_transform(data_bersih_untuk_demo_encoding[kolom])
    encoders[kolom] = le # Simpan encoder yang sudah dilatih
    joblib.dump(le, f'{kolom}_label_encoder.joblib')
    print(f"Encoder untuk {kolom} berhasil disimpan sebagai {kolom}_label_encoder.joblib")

# Simpan juga encoder untuk variabel target ('Weather_Type') karena akan digunakan untuk decode hasil prediksi
target_encoder = LabelEncoder()
df['Weather_Type'] = target_encoder.fit_transform(df['Weather_Type']) # df adalah DataFrame awal sebelum encoding apapun
joblib.dump(target_encoder, 'Weather_Type_label_encoder.joblib')
print(f"Encoder untuk Weather_Type berhasil disimpan sebagai Weather_Type_label_encoder.joblib")


print("\nKolom-kolom objek yang telah di-encode (fitur):", kolom_objek_fitur)

Model berhasil disimpan sebagai model_regresi_logistik_cuaca.joblib
Encoder untuk Cloud_Cover berhasil disimpan sebagai Cloud_Cover_label_encoder.joblib
Encoder untuk Season berhasil disimpan sebagai Season_label_encoder.joblib
Encoder untuk Location berhasil disimpan sebagai Location_label_encoder.joblib
Encoder untuk Weather_Type berhasil disimpan sebagai Weather_Type_label_encoder.joblib

Kolom-kolom objek yang telah di-encode (fitur): ['Cloud_Cover', 'Season', 'Location']


In [16]:
import pandas as pd
import joblib
from sklearn.preprocessing import LabelEncoder # Meskipun kita memuat yang sudah dilatih

# --- Memuat Model Regresi Logistik ---
model_lr_yang_dimuat = joblib.load('model_regresi_logistik_cuaca.joblib')
print("Model berhasil dimuat.")

# --- Memuat Label Encoders untuk Fitur ---
# Ini adalah nama-nama kolom fitur yang di-label encode.
kolom_objek_fitur_yang_dimuat = ['Cloud_Cover', 'Season', 'Location']
encoders_yang_dimuat = {}
for kolom in kolom_objek_fitur_yang_dimuat:
    try:
        encoders_yang_dimuat[kolom] = joblib.load(f'{kolom}_label_encoder.joblib')
        print(f"Encoder untuk {kolom} berhasil dimuat.")
    except FileNotFoundError:
        print(f"Error: Encoder untuk {kolom} tidak ditemukan. Pastikan sudah disimpan.")
        # Tangani dengan sesuai, mungkin dengan keluar atau memunculkan error

# --- Memuat Label Encoder untuk Target (Weather_Type) ---
try:
    weather_type_encoder_yang_dimuat = joblib.load('Weather_Type_label_encoder.joblib')
    print("Encoder untuk Weather_Type berhasil dimuat.")
except FileNotFoundError:
    print("Error: Encoder untuk Weather_Type tidak ditemukan.")
    weather_type_encoder_yang_dimuat = None # Atau tangani error


def praproses_data_baru(df_data_baru, dict_encoders, urutan_kolom_fitur):
    """
    Melakukan pra-pemrosesan pada data input baru menggunakan label encoder yang telah dimuat.
    `df_data_baru` harus berupa DataFrame dengan nilai kategorikal mentah.
    `dict_encoders` adalah dictionary dari objek LabelEncoder yang telah dimuat.
    `urutan_kolom_fitur` adalah daftar nama kolom sesuai urutan yang diharapkan model.
    """
    df_diproses = df_data_baru.copy()
    for kolom, encoder in dict_encoders.items():
        if kolom in df_diproses.columns:
            # Gunakan transform, bukan fit_transform, karena kita menggunakan encoding yang sudah dipelajari
            # Pastikan input adalah 1D untuk encoder
            try:
                # Mengubah tipe data kolom menjadi string untuk konsistensi sebelum transform
                df_diproses[kolom] = encoder.transform(df_diproses[kolom].astype(str))
            except ValueError as e:
                print(f"Peringatan: Nilai dalam kolom '{kolom}' tidak terlihat saat pelatihan: {e}")
                # Tangani label yang tidak terlihat: mis., tetapkan nilai default, lewati, atau munculkan error.
                # Cara yang robust adalah menambahkan handler untuk nilai yang tidak terlihat atau memastikan input bersih.
                raise e # Untuk saat ini, biarkan error muncul jika ada label tidak dikenal
        else:
            print(f"Peringatan: Kolom {kolom} yang diharapkan oleh encoder tidak ditemukan dalam data baru.")

    # Pastikan kolom-kolom berada dalam urutan yang sama seperti saat pelatihan
    # X.columns dari skrip pelatihan Anda memberikan urutan ini
    # X = data_fe.drop(columns='Weather_Type')
    df_diproses = df_diproses[urutan_kolom_fitur]
    return df_diproses

def prediksi_cuaca(data_input):
    """
    Membuat prediksi tipe cuaca pada data input baru.
    `data_input` harus berupa dictionary atau baris DataFrame dengan nilai-nilai fitur.
    """
    # Konversi input ke DataFrame
    input_df = pd.DataFrame([data_input])

    # --- Tentukan urutan fitur yang diharapkan model ---
    # Ini harus cocok dengan kolom-kolom di X_train setelah menghapus target
    urutan_fitur = ['Temperature', 'Humidity', 'Wind_Speed', 'Precipitation (%)',
                    'Cloud_Cover', 'Atmospheric_Pressure', 'UV_Index', 'Season',
                    'Visibility_KM', 'Location']

    # Pra-pemrosesan data input
    # Pastikan semua kolom numerik yang diperlukan ada dan bertipe benar
    # Untuk kolom kategorikal, mereka akan diubah oleh praproses_data_baru
    try:
        input_df['Temperature'] = pd.to_numeric(input_df['Temperature'])
        input_df['Humidity'] = pd.to_numeric(input_df['Humidity'])
        input_df['Wind_Speed'] = pd.to_numeric(input_df['Wind_Speed'])
        input_df['Precipitation (%)'] = pd.to_numeric(input_df['Precipitation (%)'])
        input_df['Atmospheric_Pressure'] = pd.to_numeric(input_df['Atmospheric_Pressure'])
        input_df['UV_Index'] = pd.to_numeric(input_df['UV_Index'])
        input_df['Visibility_KM'] = pd.to_numeric(input_df['Visibility_KM'])
    except KeyError as e:
        return f"Error: Kolom numerik yang diharapkan tidak ada dalam input: {e}", None
    except ValueError as e:
        return f"Error: Ditemukan nilai non-numerik dalam kolom numerik: {e}", None

    # Pra-pemrosesan menggunakan encoder yang dimuat
    try:
        input_yang_diproses = praproses_data_baru(input_df, encoders_yang_dimuat, urutan_fitur)
    except Exception as e:
        return f"Error selama pra-pemrosesan: {e}", None

    # Membuat prediksi
    prediksi_encoded = model_lr_yang_dimuat.predict(input_yang_diproses)
    prediksi_proba = model_lr_yang_dimuat.predict_proba(input_yang_diproses)

    # --- Decode prediksi ke label asli ---
    # Kita memerlukan encoder untuk 'Weather_Type' untuk ini.
    if weather_type_encoder_yang_dimuat:
        try:
            label_prediksi = weather_type_encoder_yang_dimuat.inverse_transform(prediksi_encoded)
        except ValueError as e:
             print(f"Error saat men-decode prediksi (nilai ter-encode tidak terlihat): {e}. Mengembalikan prediksi ter-encode.")
             label_prediksi = prediksi_encoded # Kembali ke nilai ter-encode
    else:
        print("Encoder Weather_Type tidak dimuat. Mengembalikan prediksi ter-encode.")
        label_prediksi = prediksi_encoded # Kembali ke nilai ter-encode

    return label_prediksi[0], prediksi_proba[0]

# --- Contoh Penggunaan Fungsi Prediksi ---
# Buat contoh data baru (format mentah, sebelum encoding untuk kategorikal)
# Nama dan tipe kolom harus cocok dengan df.head() asli Anda
data_sampel_baru = {
    'Temperature': 25.0,
    'Humidity': 60,
    'Wind_Speed': 10.0,
    'Precipitation (%)': 20.0,
    'Cloud_Cover': 'partly cloudy', # Nilai string mentah
    'Atmospheric_Pressure': 1012.5,
    'UV_Index': 5,
    'Season': 'Spring', # Nilai string mentah
    'Visibility_KM': 8.0,
    'Location': 'coastal' # Nilai string mentah
}

# Dapatkan prediksi
tipe_cuaca_prediksi, probabilitas_prediksi = prediksi_cuaca(data_sampel_baru)
print(f"\nPrediksi Tipe Cuaca: {tipe_cuaca_prediksi}")
if weather_type_encoder_yang_dimuat and tipe_cuaca_prediksi is not None:
    print(f"Probabilitas Prediksi ({weather_type_encoder_yang_dimuat.classes_}): {probabilitas_prediksi}")
elif probabilitas_prediksi is not None:
    print(f"Probabilitas Prediksi (kelas ter-encode): {probabilitas_prediksi}")


# Contoh lain untuk menguji ketahanan (mis., nilai berbeda)
data_sampel_baru_2 = {
    'Temperature': 10.0,
    'Humidity': 85,
    'Wind_Speed': 5.0,
    'Precipitation (%)': 90.0,
    'Cloud_Cover': 'overcast',
    'Atmospheric_Pressure': 1000.0,
    'UV_Index': 1,
    'Season': 'Winter',
    'Visibility_KM': 2.0,
    'Location': 'inland'
}
tipe_cuaca_prediksi_2, probabilitas_prediksi_2 = prediksi_cuaca(data_sampel_baru_2)
print(f"\nPrediksi Tipe Cuaca 2: {tipe_cuaca_prediksi_2}")
if weather_type_encoder_yang_dimuat and tipe_cuaca_prediksi_2 is not None:
    print(f"Probabilitas Prediksi 2 ({weather_type_encoder_yang_dimuat.classes_}): {probabilitas_prediksi_2}")
elif probabilitas_prediksi_2 is not None:
     print(f"Probabilitas Prediksi 2 (kelas ter-encode): {probabilitas_prediksi_2}")

Model berhasil dimuat.
Encoder untuk Cloud_Cover berhasil dimuat.
Encoder untuk Season berhasil dimuat.
Encoder untuk Location berhasil dimuat.
Encoder untuk Weather_Type berhasil dimuat.

Prediksi Tipe Cuaca: Cloudy
Probabilitas Prediksi (['Cloudy' 'Rainy' 'Snowy' 'Sunny']): [0.74993897 0.10185441 0.00136595 0.14684067]

Prediksi Tipe Cuaca 2: Snowy
Probabilitas Prediksi 2 (['Cloudy' 'Rainy' 'Snowy' 'Sunny']): [0.04830967 0.33542301 0.61062343 0.00564389]
