<a href="https://colab.research.google.com/github/kresnaj/machinelearning-endproject-dicodingcourse/blob/google-colab/%5BKlasifikasi%5D_Submission_Akhir_BMLP_Joshua%20Kresna%20Kusmono.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [46]:
import numpy as np
import pandas as pd
import seaborn as sb
import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, f1_score, accuracy_score, precision_score, recall_score
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [41]:
df = pd.read_csv('YoutubeCommentDataset.csv')

# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [55]:
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(df['Comment'])

X = df['Comment']
y = df['Sentiment']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)
print("Data yang ditraining:", len(x_train), "\nData yang ditest:", len(x_test))

Data yang ditraining: 14296 
Data yang ditest: 3575


# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [56]:
KNN_model = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('knn', KNeighborsClassifier(n_neighbors=2))
])

DecisionTree_model = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('dt', DecisionTreeClassifier())
])

KNN_model.fit(X_train, y_train)
DecisionTree_model.fit(X_train, y_train)

Tulis narasi atau penjelasan algoritma yang Anda gunakan.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [69]:
predict_with_KNN = KNN_model.predict(X_test)
predict_with_DT = DecisionTree_model.predict(X_test)

def evaluate_score(model, X_test, y_test):
  y_pred = model.predict(X_test)
  conix = confusion_matrix(y_test, y_pred)
  results = {
      'Confusion Matrix': conix,
      'Accuracy': accuracy_score(y_test, y_pred),
      'Precision': precision_score(y_test, y_pred, average='weighted'),
      'Recall': recall_score(y_test, y_pred, average='weighted'),
      'F1 Score': f1_score(y_test, y_pred, average='weighted')
  }
  return results

model_selection = {
    'K-Nearest Neighbors (KNN)': evaluate_score(KNN_model, X_test, y_test),
    'Decision Tree': evaluate_score(DecisionTree_model, X_test, y_test)
}

summary_score_df = pd.DataFrame(columns=['Model', 'Akurasi', 'Presisi', 'Recall', 'Skor_F1'])

rows = []
for model_name, metrics in model_selection.items():
  rows.append({
      'Model': model_name,
      'Akurasi': metrics['Accuracy'],
      'Presisi': metrics['Precision'],
      'Recall': metrics['Recall'],
      'Skor_F1': metrics['F1 Score']
  })

summary_score_df = pd.DataFrame(rows)
print(summary_score_df)



                       Model   Akurasi   Presisi    Recall   Skor_F1
0  K-Nearest Neighbors (KNN)  0.283077  0.719071  0.283077  0.169723
1              Decision Tree  0.638881  0.625714  0.638881  0.631726


Tulis hasil evaluasi algoritma yang digunakan, jika Anda menggunakan 2 algoritma, maka bandingkan hasilnya.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [None]:
#Type your code here

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [None]:
#Type your code here

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.