In [5]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.semi_supervised import SelfTrainingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
import numpy as np

# 1. LOAD DATASET
df = pd.read_csv("data labeling.csv")

df['label'] = df['label'].astype('object')

# Label yang kosong (unlabeled) â†’ gunakan nilai -1
y = df['label'].copy()
y_unlabeled = y.isna()
y_filled = y.copy()
y_filled[y_unlabeled] = -1     # -1 dipakai untuk unlabeled

# 2. TF-IDF VECTORIZATION
tfidf = TfidfVectorizer(max_features=5000)
X = tfidf.fit_transform(df["data"])

# 3. BASE CLASSIFIER untuk SELF-TRAINING
base_model = LogisticRegression(max_iter=1000)

self_training = SelfTrainingClassifier(
    base_model,
    threshold=0.8,       # ambang kepercayaan label pseudo
    verbose=True
)

# 4. TRAIN SELF-TRAINING (semi-supervised)
self_training.fit(X, y_filled)

# 5. PREDIKSI UNTUK SELURUH DATA (label_self_training)
pred_all = self_training.predict(X)

# Ubah -1 menjadi NaN dalam hasil bila diperlukan
df['label_self_training'] = pred_all

# 6. SIMPAN KE CSV
df.to_csv("hasil_self_training.csv", index=False)

print(df.tail(20))
print("Selesai! File disimpan sebagai hasil_self_training.csv")


End of iteration 1, added 69 new labels.
End of iteration 2, added 10 new labels.
End of iteration 3, added 7 new labels.
End of iteration 4, added 1 new labels.
                                                  data   label  \
980                                        sangat puas     NaN   
981  ini kok baru masuk tokopedia udah disuguhi kon...     NaN   
982  parah banget ni aplikasi sekali dua kali pesan...     NaN   
983                                              keren     NaN   
984  untuk komplainnya susah samapi sekarang tidak ...     NaN   
985  tidak usah deh ngadain flash sale kalau ongkir...     NaN   
986  beberapa tahun yang lalu saya beri ulasan bint...     NaN   
987  uinya kembali kan kaya yang lama sekarang bera...     NaN   
988                               masih aman digunakan  netral   
989                                        tidak jelas     NaN   
990  Saya pengguna lama dan ingin melihat perbaikan...  netral   
991  aplikasinya error waktu pembayaran selalu