# Import Libraries

In [2]:
import pandas as pd
import re
import google.generativeai as genai
import json
from sklearn.metrics import confusion_matrix, accuracy_score

  from .autonotebook import tqdm as notebook_tqdm


# Data Loading

In [3]:
data = pd.read_csv('data_final.csv')
data.head(10)

Unnamed: 0,Review,Rating
0,Beli Online memang paling aman di official store,bintang 5
1,"Barang masih di segel, tepat waktu, dan packin...",bintang 5
2,"mantab greget, penguriman aman,sampai tujuan s...",bintang 5
3,"pertama kali beli online, aman. packing rapi",bintang 5
4,"Barang bagus, berfungsi dengan baik, untuk pen...",bintang 4
5,"bagus, masih disegel, original samsung debes d...",bintang 5
6,Joss original samsung,bintang 5
7,Mantaaab barang bagus,bintang 5
8,mantap,bintang 5
9,Pastinya ori yah. datengnya juga itungannya ce...,bintang 5


# Handling Values

## Missing Values

In [5]:
data.isna().sum()

Review    0
Rating    0
dtype: int64

## Duplicated Data

In [6]:
data.duplicated().sum()

0

## Handling Values

In [21]:
data['Rating'] = data['Rating'].str.replace('bintang ', '').astype(int)

## Make Label Column

In [22]:
label = []
for i in data['Rating']:
    if i == 4 or i == 5:
        label.append('Positif')
    else:
        label.append('Negatif')
data['label'] = label

# Data Balancing

In [23]:
# Count the occurrences of each label
label_counts = data["label"].value_counts()

# Get the number of rows to drop from the majority class
rows_to_drop = label_counts.max() - label_counts.min()

# Drop rows from the majority class randomly
if rows_to_drop > 0:
   data_majority = data[data["label"] == 'Positif']
   data_balanced = data.drop(data_majority.sample(rows_to_drop).index)
else:
   data_balanced = data.copy()

# Check the new class balance
print(data_balanced["label"].value_counts())

label
Positif    690
Negatif    690
Name: count, dtype: int64


## Text Processing

In [None]:
def clean_text(text):
  # Remove special characters and punctuation
  text = re.sub(r"[^\w\s]", " ", text)

  # Remove single characters
  text = re.sub(r"\b[a-zA-Z]\b", " ", text)

  # Remove HTML tags
  text = re.sub(r"<[^>]*>", " ", text)

  # Lowercase the text
  text = text.lower()

  # Remove extra whitespace
  text = re.sub(r"\s+", " ", text)

  # Trim leading and trailing spaces
  text = text.strip()

  return text

In [25]:
# Extract the review column as a list
reviews = data_balanced['Review'].tolist()

# Clean the text in the list
cleaned_reviews = [clean_text(review) for review in reviews]

# Add the cleaned reviews as a new column to the DataFrame
data_balanced['clean_reviews'] = cleaned_reviews

In [26]:
# Assuming your DataFrame is called "df"
total_rows = len(data_balanced)
test_size = int(total_rows * 0.95)

# Randomly sample train_size rows for the training set
test_set = data_balanced.sample(test_size)

# Get the remaining rows for the test set
train_set = data_balanced.drop(test_set.index)

# Load LLM Model

In [None]:
genai.configure(api_key="AIzaSyAjLiSDpzE6H50bu2vXgi2Lju-Z2sIxWKI")

for m in genai.list_models():
  if 'generateContent' in m.supported_generation_methods:
    print(m.name)

model = genai.GenerativeModel("gemini-1.5-flash")

models/gemini-1.0-pro-latest
models/gemini-1.0-pro
models/gemini-pro
models/gemini-1.0-pro-001
models/gemini-1.0-pro-vision-latest
models/gemini-pro-vision
models/gemini-1.5-pro-latest
models/gemini-1.5-pro-001
models/gemini-1.5-pro-002
models/gemini-1.5-pro
models/gemini-1.5-pro-exp-0801
models/gemini-1.5-pro-exp-0827
models/gemini-1.5-flash-latest
models/gemini-1.5-flash-001
models/gemini-1.5-flash-001-tuning
models/gemini-1.5-flash
models/gemini-1.5-flash-exp-0827
models/gemini-1.5-flash-002
models/gemini-1.5-flash-8b
models/gemini-1.5-flash-8b-001
models/gemini-1.5-flash-8b-latest
models/gemini-1.5-flash-8b-exp-0827
models/gemini-1.5-flash-8b-exp-0924
models/learnlm-1.5-pro-experimental
models/gemini-exp-1114


In [28]:
test_set_sample = test_set.sample(100)

test_set_sample['pred_label'] = ''

test_set_sample

Unnamed: 0,Review,Rating,label,clean_reviews,pred_label
13624,"sekelas official xiaomi pake kurir ampas bgt, ...",2,Negatif,sekelas official xiaomi pake kurir ampas bgt m...,
12829,Mantap guys,5,Positif,mantap guys,
8359,Ketika terjadi masalah pengiriman penjual lepa...,1,Negatif,ketika terjadi masalah pengiriman penjual lepa...,
680,Mantap Mendarat dengan aman di Wamena 💐,5,Positif,mantap mendarat dengan aman di wamena,
15790,"barang sampai dgn selamat, thanks xiaomi indon...",5,Positif,barang sampai dgn selamat thanks xiaomi indonesia,
...,...,...,...,...,...
12935,"Lebih parah yang dibayangkan,kamera depannya t...",1,Negatif,lebih parah yang dibayangkan kamera depannya t...,
16489,"kondisi barang sangat aman, pengiriman tepat w...",5,Positif,kondisi barang sangat aman pengiriman tepat wa...,
9740,"Sesuai harapan, mendarat dengan aman dan cepat",5,Positif,sesuai harapan mendarat dengan aman dan cepat,
13090,👍💯👍💯👍💯👍💯👍💯\nsemua aman tersegel,5,Positif,semua aman tersegel,


In [29]:
# Convert the DataFrame to JSON using the to_json() method

json_data = test_set_sample[['clean_reviews','pred_label']].to_json(orient='records')

# Print the JSON data
print(json_data)

[{"clean_reviews":"sekelas official xiaomi pake kurir ampas bgt mentang mentang pake gratis ongkir sesama tangerang co hari kamis sampe hari senin terus cara packing nya behhh ngeri bg","pred_label":""},{"clean_reviews":"mantap guys","pred_label":""},{"clean_reviews":"ketika terjadi masalah pengiriman penjual lepas tangan dan saya harus handle sendiri langsung dengan kurir padahal saya sudah bayar asuransi pengiriman","pred_label":""},{"clean_reviews":"mantap mendarat dengan aman di wamena","pred_label":""},{"clean_reviews":"barang sampai dgn selamat thanks xiaomi indonesia","pred_label":""},{"clean_reviews":"produk sesuai deskripsi dan ori pengiriman cepat","pred_label":""},{"clean_reviews":"paket muter muter dan salah kirim sampai sekarang paket belum diterima expedisi pilihan sekelas samsung kaya gini parah","pred_label":""},{"clean_reviews":"barang diterima dengan baik masih tersegel puas belanja di sini","pred_label":""},{"clean_reviews":"alhamdulillah sampai dengan selamat dan am

In [30]:
prompt = f"""
Anda adalah seorang ahli linguistik yang pandai mengklasifikasikan sentimen ulasan pelanggan ke dalam label Positif/Negatif.
Bantu saya mengklasifikasikan ulasan pelanggan ke dalam: Positif dan Negatif.
Ulasan pelanggan diberikan di antara dua backticks.
Dalam output Anda, hanya kembalikan kode Json sebagai output - yang disediakan di antara dua backticks.
Tugas Anda adalah memperbarui label yang diprediksi di bawah 'pred_label' dalam kode Json.
Jangan mengubah format kode Json.

```
{json_data}
```
"""

print(prompt)


Anda adalah seorang ahli linguistik yang pandai mengklasifikasikan sentimen ulasan pelanggan ke dalam label Positif/Negatif.
Bantu saya mengklasifikasikan ulasan pelanggan ke dalam: Positif dan Negatif.
Ulasan pelanggan diberikan di antara dua backticks.
Dalam output Anda, hanya kembalikan kode Json sebagai output - yang disediakan di antara dua backticks.
Tugas Anda adalah memperbarui label yang diprediksi di bawah 'pred_label' dalam kode Json.
Jangan mengubah format kode Json.

```
[{"clean_reviews":"sekelas official xiaomi pake kurir ampas bgt mentang mentang pake gratis ongkir sesama tangerang co hari kamis sampe hari senin terus cara packing nya behhh ngeri bg","pred_label":""},{"clean_reviews":"mantap guys","pred_label":""},{"clean_reviews":"ketika terjadi masalah pengiriman penjual lepas tangan dan saya harus handle sendiri langsung dengan kurir padahal saya sudah bayar asuransi pengiriman","pred_label":""},{"clean_reviews":"mantap mendarat dengan aman di wamena","pred_label":"

In [31]:
response = model.generate_content(prompt)

print(response.text)

```json
[{"clean_reviews":"sekelas official xiaomi pake kurir ampas bgt mentang mentang pake gratis ongkir sesama tangerang co hari kamis sampe hari senin terus cara packing nya behhh ngeri bg","pred_label":"Negatif"},{"clean_reviews":"mantap guys","pred_label":"Positif"},{"clean_reviews":"ketika terjadi masalah pengiriman penjual lepas tangan dan saya harus handle sendiri langsung dengan kurir padahal saya sudah bayar asuransi pengiriman","pred_label":"Negatif"},{"clean_reviews":"mantap mendarat dengan aman di wamena","pred_label":"Positif"},{"clean_reviews":"barang sampai dgn selamat thanks xiaomi indonesia","pred_label":"Positif"},{"clean_reviews":"produk sesuai deskripsi dan ori pengiriman cepat","pred_label":"Positif"},{"clean_reviews":"paket muter muter dan salah kirim sampai sekarang paket belum diterima expedisi pilihan sekelas samsung kaya gini parah","pred_label":"Negatif"},{"clean_reviews":"barang diterima dengan baik masih tersegel puas belanja di sini","pred_label":"Positi

In [32]:
print(json_data)

[{"clean_reviews":"sekelas official xiaomi pake kurir ampas bgt mentang mentang pake gratis ongkir sesama tangerang co hari kamis sampe hari senin terus cara packing nya behhh ngeri bg","pred_label":""},{"clean_reviews":"mantap guys","pred_label":""},{"clean_reviews":"ketika terjadi masalah pengiriman penjual lepas tangan dan saya harus handle sendiri langsung dengan kurir padahal saya sudah bayar asuransi pengiriman","pred_label":""},{"clean_reviews":"mantap mendarat dengan aman di wamena","pred_label":""},{"clean_reviews":"barang sampai dgn selamat thanks xiaomi indonesia","pred_label":""},{"clean_reviews":"produk sesuai deskripsi dan ori pengiriman cepat","pred_label":""},{"clean_reviews":"paket muter muter dan salah kirim sampai sekarang paket belum diterima expedisi pilihan sekelas samsung kaya gini parah","pred_label":""},{"clean_reviews":"barang diterima dengan baik masih tersegel puas belanja di sini","pred_label":""},{"clean_reviews":"alhamdulillah sampai dengan selamat dan am

In [None]:
# Bersihkan string JSON
json_data = response.text.replace("`", "").strip().replace('json', '').replace('\n', '')  # Buang backticks dan spasi ekstra

# Parse JSON dan konversi ke DataFrame
data = json.loads(json_data)
df_sample = pd.DataFrame(data)
print("DataFrame created successfully!")
print(df_sample.head())

DataFrame created successfully!
                                       clean_reviews pred_label
0  sekelas official xiaomi pake kurir ampas bgt m...    Negatif
1                                        mantap guys    Positif
2  ketika terjadi masalah pengiriman penjual lepa...    Negatif
3              mantap mendarat dengan aman di wamena    Positif
4  barang sampai dgn selamat thanks xiaomi indonesia    Positif


In [34]:
# prompt: Overwrite pred_label from 'df' into pred_label in 'train_set_sample'

test_set_sample['pred_label'] = df_sample['pred_label'].values
test_set_sample

Unnamed: 0,Review,Rating,label,clean_reviews,pred_label
13624,"sekelas official xiaomi pake kurir ampas bgt, ...",2,Negatif,sekelas official xiaomi pake kurir ampas bgt m...,Negatif
12829,Mantap guys,5,Positif,mantap guys,Positif
8359,Ketika terjadi masalah pengiriman penjual lepa...,1,Negatif,ketika terjadi masalah pengiriman penjual lepa...,Negatif
680,Mantap Mendarat dengan aman di Wamena 💐,5,Positif,mantap mendarat dengan aman di wamena,Positif
15790,"barang sampai dgn selamat, thanks xiaomi indon...",5,Positif,barang sampai dgn selamat thanks xiaomi indonesia,Positif
...,...,...,...,...,...
12935,"Lebih parah yang dibayangkan,kamera depannya t...",1,Negatif,lebih parah yang dibayangkan kamera depannya t...,Negatif
16489,"kondisi barang sangat aman, pengiriman tepat w...",5,Positif,kondisi barang sangat aman pengiriman tepat wa...,Positif
9740,"Sesuai harapan, mendarat dengan aman dan cepat",5,Positif,sesuai harapan mendarat dengan aman dan cepat,Positif
13090,👍💯👍💯👍💯👍💯👍💯\nsemua aman tersegel,5,Positif,semua aman tersegel,Positif


In [35]:
test_set_sample["label"].value_counts()
test_set_sample["pred_label"].value_counts()

pred_label
Negatif    53
Positif    47
Name: count, dtype: int64

# Model Evaluation

In [None]:
# Plotting confusion matrix on the predictions
y_true = test_set_sample["label"]
y_pred = test_set_sample["pred_label"]

print(confusion_matrix(y_true, y_pred))
print(f"\nAccuracy: {accuracy_score(y_true, y_pred)}")

[[48  1]
 [ 5 46]]

Accuracy: 0.94
