# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [2]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split


# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [3]:
df = pd.read_csv(r'C:\Users\ukasy\project ML\subbmission\Datasets_Klasifikasi.csv')


df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12218 entries, 0 to 12217
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   sports           12218 non-null  float64
 1   entertainment    12218 non-null  float64
 2   religion         12218 non-null  float64
 3   fashion          12218 non-null  float64
 4   negative         12218 non-null  float64
 5   misc             12218 non-null  float64
 6   gradyear         12218 non-null  float64
 7   gender           12218 non-null  float64
 8   age              12218 non-null  float64
 9   NumberOffriends  12218 non-null  float64
 10  labels           12218 non-null  int64  
dtypes: float64(10), int64(1)
memory usage: 1.0 MB


Remove Outliers

In [4]:
df = df[df['labels'] != -1]

df.info()

df['labels'].value_counts()

<class 'pandas.core.frame.DataFrame'>
Index: 12186 entries, 0 to 12217
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   sports           12186 non-null  float64
 1   entertainment    12186 non-null  float64
 2   religion         12186 non-null  float64
 3   fashion          12186 non-null  float64
 4   negative         12186 non-null  float64
 5   misc             12186 non-null  float64
 6   gradyear         12186 non-null  float64
 7   gender           12186 non-null  float64
 8   age              12186 non-null  float64
 9   NumberOffriends  12186 non-null  float64
 10  labels           12186 non-null  int64  
dtypes: float64(10), int64(1)
memory usage: 1.1 MB


labels
1    2518
5    2465
0    2439
4    2422
3     698
6     617
2     543
7     472
8       6
9       6
Name: count, dtype: int64

# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [5]:
x = df.drop(columns=['labels'])
y= df['labels']

x_train, x_test, y_train, y_test = train_test_split(x,y, random_state=42, test_size=0.2)

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

1. RandomForestClassifier

In [6]:
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(random_state=42, n_estimators=100)

model.fit(x_train,y_train)

y_predict = model.predict(x_test)





2. XGBoostClassifier


In [8]:
from xgboost import XGBClassifier



model_2 = XGBClassifier(objective= 'multi:softmax', eval_metric = 'logloss',num_class=10)


model_2.fit(x_train,y_train)

y_predict_2 = model_2.predict(x_test)

Tulis narasi atau penjelasan algoritma yang Anda gunakan.

1. RandomForestClassifier

RandomForestClassifier adalah sebuah algoritma klasifikasi yang sangat powerful dimana berisi banyak pohon keputusan di dalamnya. Tujuan banyaknya Pohon Keputusan ini untuk mengurangi overfitting pada model, sehingga tidak seperti pada 1 pohon keputusan yang sangat memungkinkan model overfitting, kemudian apabila ada suatu pohon keputusan yang kurang akurat untuk klasifikasi maka akan tetap dihitung pada voting mayoritas, sehingga model tetap stabil dan generalisasi tapi tetap dapat mengabaikan pohon keputusan yang kurg akurat.

penjelasan parameter
n_estimator : n_estimators adalah jumlah pohon keputusan (decision trees) yang akan dibuat dalam Random Forest. Semakin banyak pohon (n_estimators besar), model biasanya lebih akurat tetapi juga lebih lambat. Jika terlalu sedikit, model bisa underfitting.

random_state : random_state adalah nilai acak yang digunakan untuk memastikan hasil model tetap konsisten setiap kali dijalankan.

2. xgboostclassifier

XGBoostClassifier adalah algoritma klasifikasi berbasis gradient boosting yang sangat powerful dan sering digunakan dalam kompetisi machine learning karena memiliki performa tinggi. Algoritma ini membangun banyak pohon keputusan secara bertahap, di mana setiap pohon baru mencoba memperbaiki kesalahan dari pohon sebelumnya.

Berbeda dengan RandomForestClassifier, yang membangun banyak pohon secara paralel dan menggunakan voting mayoritas, XGBoostClassifier membangun pohon secara berurutan dan mengoptimalkan loss function pada setiap iterasi, sehingga model lebih akurat tetapi juga lebih kompleks.

penjelasan parameter



## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [9]:
from sklearn.metrics import f1_score



score_f1 = f1_score(y_true = y_test, y_pred=  y_predict, average='weighted')
score_f1_micro = f1_score(y_true = y_test, y_pred=  y_predict, average='micro')
score_f1_macro = f1_score(y_true = y_test, y_pred=  y_predict, average='macro')

print(f'score F1 dari model Randomforrest weighted = {score_f1}')
print(f'score F1 dari model Randomforrest micro = {score_f1_micro}')
print(f'score F1 dari model Randomforrest macro = {score_f1_macro}')

score F1 dari model Randomforrest weighted = 0.9995227888186157
score F1 dari model Randomforrest micro = 0.9995898277276456
score F1 dari model Randomforrest macro = 0.9622461170848268


In [12]:
score_f1_XGB = f1_score(y_true = y_test, y_pred=  y_predict_2, average='weighted')
score_f1_micro_XGB = f1_score(y_true = y_test, y_pred=  y_predict_2, average='micro')
score_f1_macro_XGB = f1_score(y_true = y_test, y_pred=  y_predict_2, average='macro')

print(f'score F1 dari model XGBClassifer weighted = {score_f1_XGB}')
print(f'score F1 dari model XGBClassifier micro = {score_f1_micro_XGB}')
print(f'score F1 dari model XGBClassifier macro = {score_f1_macro_XGB}')

score F1 dari model XGBClassifer weighted = 1.0
score F1 dari model XGBClassifier micro = 1.0
score F1 dari model XGBClassifier macro = 1.0


Tulis hasil evaluasi algoritma yang digunakan, jika Anda menggunakan 2 algoritma, maka bandingkan hasilnya.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [None]:
#Type your code here

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [None]:
#Type your code here

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.