# Import Libraries

In [41]:
import pandas as pd
import re
import google.generativeai as genai
import json
from sklearn.metrics import confusion_matrix, classification_report

# Data Loading

In [42]:
data = pd.read_csv('data_final.csv')
data.head(10)

Unnamed: 0,Review,Rating
0,Beli Online memang paling aman di official store,bintang 5
1,"Barang masih di segel, tepat waktu, dan packin...",bintang 5
2,"mantab greget, penguriman aman,sampai tujuan s...",bintang 5
3,"pertama kali beli online, aman. packing rapi",bintang 5
4,"Barang bagus, berfungsi dengan baik, untuk pen...",bintang 4
5,"bagus, masih disegel, original samsung debes d...",bintang 5
6,Joss original samsung,bintang 5
7,Mantaaab barang bagus,bintang 5
8,mantap,bintang 5
9,Pastinya ori yah. datengnya juga itungannya ce...,bintang 5


# Handling Values

## Missing Values

In [43]:
data.isna().sum()

Review    0
Rating    0
dtype: int64

## Duplicated Data

In [44]:
data.duplicated().sum()

0

## Handling Values

In [45]:
data['Rating'] = data['Rating'].str.replace('bintang ', '').astype(int)

## Make Label Column

In [46]:
label = []
for i in data['Rating']:
    if i == 4 or i == 5:
        label.append('Positif')
    else:
        label.append('Negatif')
data['label'] = label

# Data Balancing

In [47]:
# Count the occurrences of each label
label_counts = data["label"].value_counts()

# Get the number of rows to drop from the majority class
rows_to_drop = label_counts.max() - label_counts.min()

# Drop rows from the majority class randomly
if rows_to_drop > 0:
   data_majority = data[data["label"] == 'Positif']
   data_balanced = data.drop(data_majority.sample(rows_to_drop).index)
else:
   data_balanced = data.copy()

# Check the new class balance
print(data_balanced["label"].value_counts())

label
Negatif    690
Positif    690
Name: count, dtype: int64


## Text Processing

In [48]:
def clean_text(text):
  # Remove special characters and punctuation
  text = re.sub(r"[^\w\s]", " ", text)

  # Remove single characters
  text = re.sub(r"\b[a-zA-Z]\b", " ", text)

  # Remove HTML tags
  text = re.sub(r"<[^>]*>", " ", text)

  # Lowercase the text
  text = text.lower()

  # Remove extra whitespace
  text = re.sub(r"\s+", " ", text)

  # Trim leading and trailing spaces
  text = text.strip()

  return text

In [49]:
# Extract the review column as a list
reviews = data_balanced['Review'].tolist()

# Clean the text in the list
cleaned_reviews = [clean_text(review) for review in reviews]

# Add the cleaned reviews as a new column to the DataFrame
data_balanced['clean_reviews'] = cleaned_reviews

In [50]:
# Assuming your DataFrame is called "df"
total_rows = len(data_balanced)
test_size = int(total_rows * 0.95)

# Randomly sample train_size rows for the training set
test_set = data_balanced.sample(test_size)

# Get the remaining rows for the test set
train_set = data_balanced.drop(test_set.index)

# Load LLM Model

In [51]:
genai.configure(api_key="AIzaSyAjLiSDpzE6H50bu2vXgi2Lju-Z2sIxWKI")

for m in genai.list_models():
  if 'generateContent' in m.supported_generation_methods:
    print(m.name)

model = genai.GenerativeModel("gemini-1.5-flash")

models/gemini-1.0-pro-latest
models/gemini-1.0-pro
models/gemini-pro
models/gemini-1.0-pro-001
models/gemini-1.0-pro-vision-latest
models/gemini-pro-vision
models/gemini-1.5-pro-latest
models/gemini-1.5-pro-001
models/gemini-1.5-pro-002
models/gemini-1.5-pro
models/gemini-1.5-pro-exp-0801
models/gemini-1.5-pro-exp-0827
models/gemini-1.5-flash-latest
models/gemini-1.5-flash-001
models/gemini-1.5-flash-001-tuning
models/gemini-1.5-flash
models/gemini-1.5-flash-exp-0827
models/gemini-1.5-flash-002
models/gemini-1.5-flash-8b
models/gemini-1.5-flash-8b-001
models/gemini-1.5-flash-8b-latest
models/gemini-1.5-flash-8b-exp-0827
models/gemini-1.5-flash-8b-exp-0924
models/learnlm-1.5-pro-experimental
models/gemini-exp-1114


In [52]:
test_set_sample = test_set.sample(100, random_state=40)

test_set_sample['pred_label'] = ''

test_set_sample

Unnamed: 0,Review,Rating,label,clean_reviews,pred_label
4409,Pengiriman sangat lama padahal sudah pilih nex...,1,Negatif,pengiriman sangat lama padahal sudah pilih nex...,
5453,"barang masih disegel, berfungsi dengan baik ma...",5,Positif,barang masih disegel berfungsi dengan baik man...,
18709,"barang bagus bungkusannya kurang aman, kartu g...",2,Negatif,barang bagus bungkusannya kurang aman kartu ga...,
1677,bonus tidak sesuai saya beli a55ram 12g silico...,3,Negatif,bonus tidak sesuai saya beli a55ram 12g silico...,
6083,oke barang segel dan bonus aman,5,Positif,oke barang segel dan bonus aman,
...,...,...,...,...,...
948,"Produk sangat baik, pelayanan penjual sangat b...",5,Positif,produk sangat baik pelayanan penjual sangat ba...,
9160,overall sangat puas dengan hp ini. game lancar...,5,Positif,overall sangat puas dengan hp ini game lancar ...,
14715,"fingerprint tidak berfungsi dengan benar, untu...",1,Negatif,fingerprint tidak berfungsi dengan benar untuk...,
3249,utk kesekian kalinya beli di sni...puas pke ba...,5,Positif,utk kesekian kalinya beli di sni puas pke bang...,


In [53]:
# Convert the DataFrame to JSON using the to_json() method

json_data = test_set_sample[['clean_reviews','pred_label']].to_json(orient='records')

# Print the JSON data
print(json_data)

[{"clean_reviews":"pengiriman sangat lama padahal sudah pilih next day dan bayar xtra ongkir bisa sampai 5 hari baru sampai sangat sangat mengecewakan dan komplain tapi tidak di respon dgn","pred_label":""},{"clean_reviews":"barang masih disegel berfungsi dengan baik mantapppp","pred_label":""},{"clean_reviews":"barang bagus bungkusannya kurang aman kartu garansi tdk ada case pelindung tidak diberikan","pred_label":""},{"clean_reviews":"bonus tidak sesuai saya beli a55ram 12g silicon case gak dapat di box ada gratis kartu axis gak ada sekelas samsung marketing seperti ini kecewa","pred_label":""},{"clean_reviews":"oke barang segel dan bonus aman","pred_label":""},{"clean_reviews":"barang aman dan tersegel garansi ada spesifikasi bagus dapet adapter puasss","pred_label":""},{"clean_reviews":"sekelas official store masih bisa kirim salah warna gimana sop packingnya","pred_label":""},{"clean_reviews":"kok masih bagusan s9 ya menurutku di banding s23 dari segi display layar sudah 5 tahun b

In [54]:
prompt = f"""
Anda adalah seorang ahli linguistik yang pandai mengklasifikasikan sentimen ulasan pelanggan ke dalam label Positif/Negatif.
Bantu saya mengklasifikasikan ulasan pelanggan ke dalam: Positif dan Negatif.
Ulasan pelanggan diberikan di antara dua backticks.
Dalam output Anda, hanya kembalikan kode Json sebagai output - yang disediakan di antara dua backticks.
Tugas Anda adalah memperbarui label yang diprediksi di bawah 'pred_label' dalam kode Json.
Hanya memberikan output Positif atau Negatif.
Jangan mengubah format kode Json.

```
{json_data}
```
"""

print(prompt)


Anda adalah seorang ahli linguistik yang pandai mengklasifikasikan sentimen ulasan pelanggan ke dalam label Positif/Negatif.
Bantu saya mengklasifikasikan ulasan pelanggan ke dalam: Positif dan Negatif.
Ulasan pelanggan diberikan di antara dua backticks.
Dalam output Anda, hanya kembalikan kode Json sebagai output - yang disediakan di antara dua backticks.
Tugas Anda adalah memperbarui label yang diprediksi di bawah 'pred_label' dalam kode Json.
Hanya memberikan output Positif atau Negatif.
Jangan mengubah format kode Json.

```
[{"clean_reviews":"pengiriman sangat lama padahal sudah pilih next day dan bayar xtra ongkir bisa sampai 5 hari baru sampai sangat sangat mengecewakan dan komplain tapi tidak di respon dgn","pred_label":""},{"clean_reviews":"barang masih disegel berfungsi dengan baik mantapppp","pred_label":""},{"clean_reviews":"barang bagus bungkusannya kurang aman kartu garansi tdk ada case pelindung tidak diberikan","pred_label":""},{"clean_reviews":"bonus tidak sesuai saya

In [55]:
response = model.generate_content(prompt)

print(response.text)

```json
[{"clean_reviews":"pengiriman sangat lama padahal sudah pilih next day dan bayar xtra ongkir bisa sampai 5 hari baru sampai sangat sangat mengecewakan dan komplain tapi tidak di respon dgn","pred_label":"Negatif"},{"clean_reviews":"barang masih disegel berfungsi dengan baik mantapppp","pred_label":"Positif"},{"clean_reviews":"barang bagus bungkusannya kurang aman kartu garansi tdk ada case pelindung tidak diberikan","pred_label":"Negatif"},{"clean_reviews":"bonus tidak sesuai saya beli a55ram 12g silicon case gak dapat di box ada gratis kartu axis gak ada sekelas samsung marketing seperti ini kecewa","pred_label":"Negatif"},{"clean_reviews":"oke barang segel dan bonus aman","pred_label":"Positif"},{"clean_reviews":"barang aman dan tersegel garansi ada spesifikasi bagus dapet adapter puasss","pred_label":"Positif"},{"clean_reviews":"sekelas official store masih bisa kirim salah warna gimana sop packingnya","pred_label":"Negatif"},{"clean_reviews":"kok masih bagusan s9 ya menurut

In [56]:
print(json_data)

[{"clean_reviews":"pengiriman sangat lama padahal sudah pilih next day dan bayar xtra ongkir bisa sampai 5 hari baru sampai sangat sangat mengecewakan dan komplain tapi tidak di respon dgn","pred_label":""},{"clean_reviews":"barang masih disegel berfungsi dengan baik mantapppp","pred_label":""},{"clean_reviews":"barang bagus bungkusannya kurang aman kartu garansi tdk ada case pelindung tidak diberikan","pred_label":""},{"clean_reviews":"bonus tidak sesuai saya beli a55ram 12g silicon case gak dapat di box ada gratis kartu axis gak ada sekelas samsung marketing seperti ini kecewa","pred_label":""},{"clean_reviews":"oke barang segel dan bonus aman","pred_label":""},{"clean_reviews":"barang aman dan tersegel garansi ada spesifikasi bagus dapet adapter puasss","pred_label":""},{"clean_reviews":"sekelas official store masih bisa kirim salah warna gimana sop packingnya","pred_label":""},{"clean_reviews":"kok masih bagusan s9 ya menurutku di banding s23 dari segi display layar sudah 5 tahun b

In [57]:
# Bersihkan string JSON
json_data = response.text.replace("`", "").strip().replace('json', '').replace('\n', '')  # Buang backticks dan spasi ekstra

# Parse JSON dan konversi ke DataFrame
data = json.loads(json_data)
df_sample = pd.DataFrame(data)
print("DataFrame created successfully!")
print(df_sample.head())

DataFrame created successfully!
                                       clean_reviews pred_label
0  pengiriman sangat lama padahal sudah pilih nex...    Negatif
1  barang masih disegel berfungsi dengan baik man...    Positif
2  barang bagus bungkusannya kurang aman kartu ga...    Negatif
3  bonus tidak sesuai saya beli a55ram 12g silico...    Negatif
4                    oke barang segel dan bonus aman    Positif


In [58]:
# prompt: Overwrite pred_label from 'df' into pred_label in 'train_set_sample'

test_set_sample['pred_label'] = df_sample['pred_label'].values
test_set_sample

Unnamed: 0,Review,Rating,label,clean_reviews,pred_label
4409,Pengiriman sangat lama padahal sudah pilih nex...,1,Negatif,pengiriman sangat lama padahal sudah pilih nex...,Negatif
5453,"barang masih disegel, berfungsi dengan baik ma...",5,Positif,barang masih disegel berfungsi dengan baik man...,Positif
18709,"barang bagus bungkusannya kurang aman, kartu g...",2,Negatif,barang bagus bungkusannya kurang aman kartu ga...,Negatif
1677,bonus tidak sesuai saya beli a55ram 12g silico...,3,Negatif,bonus tidak sesuai saya beli a55ram 12g silico...,Negatif
6083,oke barang segel dan bonus aman,5,Positif,oke barang segel dan bonus aman,Positif
...,...,...,...,...,...
948,"Produk sangat baik, pelayanan penjual sangat b...",5,Positif,produk sangat baik pelayanan penjual sangat ba...,Positif
9160,overall sangat puas dengan hp ini. game lancar...,5,Positif,overall sangat puas dengan hp ini game lancar ...,Positif
14715,"fingerprint tidak berfungsi dengan benar, untu...",1,Negatif,fingerprint tidak berfungsi dengan benar untuk...,Negatif
3249,utk kesekian kalinya beli di sni...puas pke ba...,5,Positif,utk kesekian kalinya beli di sni puas pke bang...,Positif


In [59]:
test_set_sample["label"].value_counts()
test_set_sample["pred_label"].value_counts()

pred_label
Negatif    55
Positif    45
Name: count, dtype: int64

# Model Evaluation

In [60]:
# Plotting confusion matrix on the predictions
y_true = test_set_sample["label"]
y_pred = test_set_sample["pred_label"]

print(confusion_matrix(y_true, y_pred))
print(classification_report(y_true, y_pred))

[[53  3]
 [ 2 42]]
              precision    recall  f1-score   support

     Negatif       0.96      0.95      0.95        56
     Positif       0.93      0.95      0.94        44

    accuracy                           0.95       100
   macro avg       0.95      0.95      0.95       100
weighted avg       0.95      0.95      0.95       100



Dari hasil evaluasi, didapatkan bahwa dengan menggunakan model LLM memiliki tingkat akurasi 95%.