In [23]:
from google_play_scraper import reviews, Sort
import pandas as pd

# Tentukan aplikasi yang ingin di-scrape
app_package_name = 'com.gojek.app'  # Ganti dengan package name aplikasi lain jika perlu
count = 3000  # Jumlah ulasan yang ingin diambil

# Scraping data dari Google Play Store
result, _ = reviews(
    app_package_name,
    lang='id',  # Bahasa ulasan
    country='id',  # Negara
    sort=Sort.NEWEST,  # Urutkan berdasarkan ulasan terbaru
    count=count  # Jumlah ulasan
)

# Konversi hasil ke DataFrame
df = pd.DataFrame(result)

# Simpan hasil scraping ke dalam CSV
df.to_csv('ulasan_google_play.csv', index=False)

print(f"Berhasil mengambil {len(df)} ulasan dan menyimpannya ke 'ulasan_google_play.csv'.")


Berhasil mengambil 3000 ulasan dan menyimpannya ke 'ulasan_google_play.csv'.


In [24]:
import re

# Load dataset hasil scraping
df = pd.read_csv('ulasan_google_play.csv')

# Menghapus data duplikat
df.drop_duplicates(subset='content', inplace=True)

# Menghapus ulasan kosong
df = df[df['content'].str.strip().astype(bool)]

# Membersihkan teks ulasan
def clean_text(text):
    text = re.sub(r'[^a-zA-Z\s]', '', text)  # Hanya menyisakan huruf dan spasi
    text = text.lower().strip()  # Mengubah teks menjadi huruf kecil dan menghapus spasi berlebih
    return text

df['cleaned_content'] = df['content'].apply(clean_text)

# Simpan hasil preprocessing
df.to_csv('cleaned_ulasan_google_play.csv', index=False)

print(f"Preprocessing selesai! {len(df)} ulasan telah dibersihkan.")


Preprocessing selesai! 2356 ulasan telah dibersihkan.


In [25]:
# Menentukan label sentimen berdasarkan skor ulasan
def label_sentiment(score):
    if score >= 4:
        return 'positif'
    elif score == 3:
        return 'netral'
    else:
        return 'negatif'

df['sentiment'] = df['score'].apply(label_sentiment)

# Simpan hasil dengan label sentimen
df.to_csv('labeled_ulasan_google_play.csv', index=False)

print("Pelabelan selesai! Data siap untuk analisis sentimen.")


Pelabelan selesai! Data siap untuk analisis sentimen.


In [26]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Ekstraksi fitur menggunakan TF-IDF
tfidf = TfidfVectorizer(max_features=5000)
X_tfidf = tfidf.fit_transform(df['cleaned_content'])
y = df['sentiment']

# Simpan model TF-IDF agar bisa digunakan nanti
import pickle
with open("tfidf_vectorizer.pkl", "wb") as f:
    pickle.dump(tfidf, f)

print("Ekstraksi fitur dengan TF-IDF selesai!")


Ekstraksi fitur dengan TF-IDF selesai!


In [27]:
from sklearn.svm import LinearSVC
from sklearn.model_selection import train_test_split

# Membagi data menjadi train dan test
X_train, X_test, y_train, y_test = train_test_split(X_tfidf, y, test_size=0.2, random_state=42)

# Melatih model SVM
svm_model = LinearSVC()
svm_model.fit(X_train, y_train)

print("Model SVM telah dilatih!")


Model SVM telah dilatih!


In [28]:
from sklearn.metrics import accuracy_score, classification_report

# Evaluasi model SVM
y_pred_svm = svm_model.predict(X_test)
accuracy_svm = accuracy_score(y_test, y_pred_svm)
report_svm = classification_report(y_test, y_pred_svm)

print(f"Akurasi Model SVM: {accuracy_svm:.2%}")
print(report_svm)


Akurasi Model SVM: 87.92%
              precision    recall  f1-score   support

     negatif       0.85      0.86      0.86       176
      netral       0.50      0.11      0.17        19
     positif       0.90      0.94      0.92       277

    accuracy                           0.88       472
   macro avg       0.75      0.64      0.65       472
weighted avg       0.87      0.88      0.87       472



In [29]:
# Contoh ulasan baru
new_review = ["Aplikasi ini sangat lambat dan sering crash."]

# Ubah teks ke dalam format TF-IDF
new_review_tfidf = tfidf.transform(new_review)

# Prediksi sentimen
predicted_sentiment = svm_model.predict(new_review_tfidf)

print(f"Prediksi Sentimen: {predicted_sentiment[0]}")


Prediksi Sentimen: positif
