# Processing with Naive Bayes Algorithm

### Import Library

In [3]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import classification_report, accuracy_score
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import GridSearchCV
import joblib
import os

### Membaca Data hasil Pre-Processing

In [5]:
df = pd.read_csv('D:/FOLDER MUTIARA/SEMESTER 5/PM/Project/Analisis-faktor-programming-skill/data/hasil_preprocessing2.csv', sep=',')

### Mengubah Target dari Kontinu ke Kategori

In [7]:
# Menentukan fungsi untuk mengubah target menjadi kategori
def categorize_programming_skill(skill):
    if skill <= 50:
        return 'Low'
    elif 51 <= skill <= 75:
        return 'Medium'
    else:
        return 'High'

# Membuat kolom baru untuk kategori
df['Programming Skill Category'] = df['Programming Skill'].apply(categorize_programming_skill)

# Menampilkan hasil
print(df[['Programming Skill', 'Programming Skill Category']].head())

   Programming Skill Programming Skill Category
0                 70                     Medium
1                 42                        Low
2                 36                        Low
3                 56                     Medium
4                 76                       High


### Melihat 5 Baris Pertama Data

Menggunakan df.head() untuk melihat 5 baris pertama dari dataset. Ini memberikan gambaran umum tentang struktur data.

In [10]:
df.head()

Unnamed: 0,Durasi Laptop,Penggunaan Medsos di Laptop,Durasi Medsos di Laptop,Social_Media_Instagram di Laptop,Social_Media_Tiktok di Laptop,Social_Media_Youtube di Laptop,Hiburan Instagram di laptop,Berita Instagram di laptop,Edukasi Instagram di laptop,Teknologi Instagram di laptop,Hobi Instagram di laptop,Hiburan TikTok di laptop,Berita TikTok di laptop,Edukasi TikTok di laptop,Teknologi TikTok di laptop,Hobi TikTok di laptop,Programming Skill,Programming Skill Category
0,0.591079,1.241025,0.555879,1.406542,0.891131,-1.025417,0.512125,0.356383,0.477765,0.963299,-0.012744,0.644919,0.55965,0.67649,0.808165,0.269818,70,Medium
1,-0.456171,0.374851,-1.971706,-0.179784,0.196086,-0.018519,0.436638,0.452571,-0.957009,-0.355315,-0.314228,0.183296,0.1913,-0.977658,-0.522651,0.798145,42,Low
2,-0.79971,-0.022879,-0.205504,1.021602,1.068378,-0.746934,-0.03131,0.296527,0.161031,-0.811833,-0.547288,0.627937,0.805289,0.024191,-0.577333,-0.060597,36,Low
3,0.050544,-1.508204,-0.846895,0.676422,-0.11178,-0.883244,-0.255622,-1.562992,0.198643,0.375544,0.657302,-0.171491,-0.238071,-0.132331,0.043824,0.089143,56,Medium
4,-2.47392,0.418309,0.189722,-0.8595,0.3223,-0.493285,0.707085,-0.069923,0.22933,0.375864,0.744495,0.24372,-0.373004,0.204117,-0.189017,-0.136902,76,High


### Memisahkan Fitur dan Target

In [12]:
# Memisahkan fitur (X) dan target kategori (y)
X = df.drop(['Programming Skill', 'Programming Skill Category'], axis=1)  # Semua fitur kecuali target
y = df['Programming Skill Category']  # Target kategori


### Membagi Data Menjadi Training, Validation, dan Testing

kita akan membagi dataset menjadi tiga bagian: training set, validation set, dan test set. Tujuan dari pembagian ini adalah agar kita bisa melatih model, mengevaluasi model selama training, dan menguji kemampuan model 

In [15]:
from sklearn.model_selection import train_test_split

# Membagi data menjadi 80% training (untuk K-Fold) dan 20% testing
X_train_val, X_test, y_train_val, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)


### Membangun Model Multiple Linear Regression

Setelah data dibagi, kita akan membangun model regresi linear menggunakan scikit-learn.

In [18]:
# Menggunakan Gaussian Naive Bayes
model = GaussianNB()

In [19]:
# Inisialisasi K-Fold
kfold = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Menyimpan skor akurasi di setiap fold
scores = []

# K-Fold Cross Validation
for train_idx, val_idx in kfold.split(X_train_val, y_train_val):
    # Membagi data training dan validation berdasarkan indeks
    X_train, X_val = X_train_val.iloc[train_idx], X_train_val.iloc[val_idx]
    y_train, y_val = y_train_val.iloc[train_idx], y_train_val.iloc[val_idx]
    
    # Melatih model pada data training
    model.fit(X_train, y_train)
    
    # Membuat prediksi pada data validation
    y_pred = model.predict(X_val)
    
    # Menghitung akurasi
    acc = accuracy_score(y_val, y_pred)
    scores.append(acc)
    
    # Menampilkan laporan klasifikasi untuk setiap fold (opsional)
    print("\nFold Report:")
    # print(classification_report(y_val, y_pred))
print(classification_report(y_val, y_pred, zero_division=0))  # Menambahkan zero_division=0 untuk menangani precision yang tidak terdefinisi

# Menampilkan hasil rata-rata akurasi dari semua fold
print("\nAverage Validation Accuracy:", sum(scores) / len(scores))


Fold Report:

Fold Report:

Fold Report:

Fold Report:

Fold Report:
              precision    recall  f1-score   support

        High       0.00      0.00      0.00         8
         Low       0.25      0.18      0.21        28
      Medium       0.53      0.70      0.60        44

    accuracy                           0.45        80
   macro avg       0.26      0.29      0.27        80
weighted avg       0.38      0.45      0.40        80


Average Validation Accuracy: 0.472716049382716


### Hyperparameter Tuning

hyperparameter tuning menggunakan GridSearchCV atau RandomizedSearchCV untuk mencari hyperparameter terbaik dari model.

In [22]:
# Mendefinisikan parameter grid untuk tuning
param_grid = {
    'var_smoothing': [1e-9, 1e-8, 1e-7, 1e-6, 1e-5]  # Variasi nilai var_smoothing
}

# Inisialisasi model
model = GaussianNB()

# Inisialisasi Grid Search dengan 5-fold cross-validation
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, 
                           cv=5, scoring='accuracy', verbose=1, n_jobs=-1)

# Fit Grid Search pada data training + validation
grid_search.fit(X_train_val, y_train_val)

# Menampilkan parameter terbaik dari Grid Search
print("Best Parameters:", grid_search.best_params_)

# Mengambil model dengan parameter terbaik
best_model = grid_search.best_estimator_

Fitting 5 folds for each of 5 candidates, totalling 25 fits
Best Parameters: {'var_smoothing': 1e-09}


### Evaluasi Model pada Validation dan Test Set

In [24]:
# Melakukan prediksi pada data testing
y_test_pred = best_model.predict(X_test)

# Menampilkan laporan klasifikasi untuk test set
print("\nTest Report with Tuned Parameters:")
print(classification_report(y_test, y_test_pred))

# Menghitung akurasi pada data test
test_acc = accuracy_score(y_test, y_test_pred)
print("\nFinal Test Accuracy:", test_acc)


Test Report with Tuned Parameters:
              precision    recall  f1-score   support

        High       0.00      0.00      0.00        10
         Low       0.44      0.11      0.18        36
      Medium       0.55      0.89      0.68        56

    accuracy                           0.53       102
   macro avg       0.33      0.33      0.29       102
weighted avg       0.46      0.53      0.44       102


Final Test Accuracy: 0.5294117647058824


In [25]:
input_data = {
    "Durasi Laptop": 0.591078974194839,
    "Penggunaan Medsos di Laptop": 1.2410247596063955,
    "Durasi Medsos di Laptop": 0.5558793479263375,
    "Social_Media_Instagram di Laptop": 1.4065416168256142,
    "Social_Media_Tiktok di Laptop": 0.8911313706714228,
    "Social_Media_Youtube di Laptop": -1.0254173370887756,
    "Hiburan Instagram di laptop": 0.5121248660448603,
    "Berita Instagram di laptop": 0.35638270848626813,
    "Edukasi Instagram di laptop": 0.47776512593518883,
    "Teknologi Instagram di laptop": 0.963299130025909,
    "Hobi Instagram di laptop": -0.012743816714464748,
    "Hiburan TikTok di laptop": 0.6449185930417787,
    "Berita TikTok di laptop": 0.5596503971054282,
    "Edukasi TikTok di laptop": 0.6764898031864922,
    "Teknologi TikTok di laptop": 0.8081649617155,
    "Hobi TikTok di laptop": 0.2698184435933873
}

# Mengubah data input ke dalam format DataFrame
df_input = pd.DataFrame([input_data])

In [26]:
# Melakukan prediksi dengan model terbaik yang telah ditentukan
y_pred = best_model.predict(df_input)

# Menampilkan hasil prediksi
print("Prediksi kategori programming skill:", y_pred[0])

Prediksi kategori programming skill: Medium


In [27]:
# Tentukan path lengkap untuk menyimpan model
model_path = 'D:/FOLDER MUTIARA/SEMESTER 5/PM/Project/Analisis-faktor-programming-skill/results/Naive_Bayes.pkl'

# Menyimpan model yang sudah dilatih ke dalam file
joblib.dump(model, model_path)

print(f'Model telah disimpan di: {model_path}')

Model telah disimpan di: D:/FOLDER MUTIARA/SEMESTER 5/PM/Project/Analisis-faktor-programming-skill/results/Naive_Bayes.pkl


In [28]:
# # Memuat model yang sudah disimpan
# import joblib

# model = joblib.load('D:/FOLDER MUTIARA/SEMESTER 5/PM/Project/Analisis-faktor-programming-skill/results//Naive_Bayes.pkl')


**Dalam model Naive Bayes untuk klasifikasi, kita menggunakan metrik-metrik yang relevan untuk menilai kinerja model dalam memprediksi kategori. Berikut penjelasannya:**

**1. Akurasi**  
Akurasi adalah metrik yang digunakan untuk menilai kinerja model klasifikasi. Ini mengukur proporsi prediksi yang benar dari total prediksi.  
Dalam model Naive Bayes, akurasi sangat relevan karena kita mengklasifikasikan data ke dalam kategori tertentu. Akurasi dihitung sebagai rasio jumlah prediksi yang benar terhadap jumlah total prediksi yang dilakukan.

**2. Confusion Matrix**  
Confusion matrix adalah alat untuk mengevaluasi kinerja model klasifikasi dengan menunjukkan jumlah prediksi yang benar dan salah untuk setiap kelas.  
Untuk model klasifikasi seperti Naive Bayes, confusion matrix memberikan gambaran yang lebih mendetail tentang bagaimana model memprediksi setiap kelas. Confusion matrix menunjukkan jumlah True Positives (TP), True Negatives (TN), False Positives (FP), dan False Negatives (FN).

**Metrik yang Digunakan dalam Klasifikasi Naive Bayes**

- **Precision**  
Precision mengukur seberapa tepat prediksi model dalam mengklasifikasikan kelas positif. Ini dihitung sebagai rasio antara jumlah prediksi positif yang benar (TP) dengan jumlah seluruh prediksi positif, baik yang benar maupun yang salah (TP + FP).

- **Recall**  
Recall mengukur seberapa baik model dalam menemukan seluruh contoh dari kelas positif. Recall dihitung sebagai rasio antara jumlah prediksi positif yang benar (TP) dengan jumlah seluruh contoh kelas positif, baik yang benar maupun yang salah (TP + FN).

- **F1-Score**  
F1-Score adalah rata-rata harmonis dari precision dan recall. F1-Score memberikan keseimbangan antara precision dan recall, terutama ketika ada ketidakseimbangan kelas dalam data.

- **Confusion Matrix**  
Confusion matrix adalah matriks yang menunjukkan berapa banyak prediksi yang benar dan salah untuk setiap kelas. Ini adalah alat penting untuk mengevaluasi kinerja model dalam klasifikasi.
