# Vidio Sentiment Analyzer : Unveiling User Sentiments in Google Play Reviews

`Vidio Sentiment Analyzer: Mengungkap Sentimen Pengguna dalam Ulasan Google Play` merupakan pendekatan inovatif untuk mengidentifikasi pola-pola utama dalam kumpulan ulasan pengguna. Di era informasi digital yang berkembang pesat seperti sekarang, sangat penting bagi Vidio sebagai platform terkemuka untuk mengetahui dan memahami isu-isu utama yang diungkapkan oleh pengguna.

`Sentiment Analyzer` menggunakan teknik canggih untuk memahami sentimen yang mendominasi dalam ulasan Google Play. Dengan volume feedback pengguna yang besar, menjadi sangat penting bagi Vidio untuk mendapatkan wawasan tentang sentimen pengguna.

Penerapan analisis sentimen memungkinkan Vidio mengkategorikan ulasan pengguna menjadi sentimen positif dan negatif memungkinkan pemahaman yang lebih mendalam tentang pengalaman dan preferensi pengguna. Metrik evaluasi yang relevan dapat mencakup distribusi polaritas sentimen, intensitas sentimen, dan tren sentimen dari waktu ke waktu.

Dalam konteks ini, metrik evaluasi kunci dapat melibatkan metrik-metrik standar analisis sentimen seperti akurasi, precision, recall, dan F1 Score. Metrik-metrik ini memberikan pandangan komprehensif tentang seberapa baik Sentiment Analyzer dalam mengklasifikasikan sentimen pengguna dengan akurat.

Wawasan yang diperoleh dari Sentiment Analyzer dapat memberdayakan Vidio untuk meningkatkan kepuasan pengguna, memprioritaskan perbaikan fitur, dan menanggapi masalah dengan cepat. Dengan fokus pada sentimen pengguna, Vidio dapat secara strategis menyelaraskan upayanya untuk memenuhi harapan pengguna dan menjaga pengalaman pengguna yang positif.

Melalui Vidio Sentiment Analyzer, Vidio dapat menavigasi lanskap dinamis opini pengguna di platform Google Play, memungkinkan pengambilan keputusan yang berbasis informasi dan langkah-langkah proaktif untuk meningkatkan kepuasan pengguna.

# Data Preparation

## Import Library

In [23]:
import pandas as pd
from datetime import datetime
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import RegexpTokenizer
from gensim import corpora, models
import pyLDAvis.gensim_models as gensimvis
import matplotlib.pyplot as plt
import seaborn as sns
from nltk.tokenize import word_tokenize
import pycrfsuite 
# Download data NLTK
nltk.download('stopwords')
nltk.download('wordnet')
import re
from wordcloud import WordCloud
import matplotlib.pyplot as plt
from nltk.tag import CRFTagger
from nltk.stem import PorterStemmer
from collections import Counter
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from gensim.corpora.dictionary import Dictionary
from gensim.models import LdaMulticore
from gensim.models import LdaModel
from gensim.models.coherencemodel import CoherenceModel
from pprint import pprint

# Import train test split untuk splitting data
from sklearn.model_selection import train_test_split
import yaml
from tqdm import tqdm
import os
import src.util as util

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\hp\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\hp\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [24]:
config_data = util.load_config()

## Data Gathering

Data yang digunakan merupakan data yang diambil atau discrapping dari google play pada aplikasi Vidio mulai tanggal 2020-08-03 - 2023-12-20 sebanyak 10000 rows

In [25]:
def read_raw_data(config: dict) -> pd.DataFrame:
    # Create variable to store raw dataset
    raw_dataset = pd.DataFrame()

    # Raw dataset dir
    raw_dataset_dir = config["raw_dataset_dir"]

    # Look and load add CSV files
    for i in tqdm(os.listdir(raw_dataset_dir)):
        raw_dataset = pd.concat([pd.read_csv(raw_dataset_dir + i), raw_dataset])
    
    # Return raw dataset
    return raw_dataset

In [26]:
# Read Data
data = read_raw_data(config_data)

100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  6.88it/s]


In [27]:
# sanity check
data

Unnamed: 0,content,score,at,sentiment
0,"Sekarang banyak iklan nya, nonton sinetron, dr...",1,2023-12-20 03:03:49,Negatif
1,Vidio lagi knp sih?? Tayangan EPL nya loading ...,3,2023-12-10 23:45:09,Negatif
2,Kenapa sudah berlangganan tapi masih muncul ik...,2,2023-12-10 21:01:34,Negatif
3,"Kualitas video nya jangan otomatis dong,kalau ...",1,2023-12-07 17:42:09,Negatif
4,"Kenapa ya sy mau beli paketnya ga bisa2, alesa...",1,2023-12-12 22:05:49,Negatif
...,...,...,...,...
9995,Agak lemot sih tapi bagus kok kalau mati lampu...,5,2018-12-05 11:38:33,Positif
9996,Aplikasi nggk guna buang2 kuota aj kirain grat...,1,2020-04-15 15:52:46,Negatif
9997,Saya suka banget sama aplikasi Vidio ini karen...,4,2020-10-17 20:16:41,Positif
9998,Sangat baguss tapi kenapa yah kalau buka video...,5,2018-10-27 17:39:24,Positif


## Data Definition

Data yang digunakan merupakan data yang diambil atau discrap dari google play review aplikasi vidio dengan jumlah data sebesar 10000 rows dan 3 kolom, berikut definisi masing masing kolomnya

- `content`: content merupakan komentar atau review yang diberikan para user untuk aplikasi vidio di google play store
- `score`: score merupakan penilaian dari user dengan skala 1-5, semakin tinggi nilainya maka akan semakin reviewnya, dan semakin rendah maka akan semakin buruk reviewnya.
- `at`: at merupakan tanggal saat user melakukan atau mengirim review di google play store
- `sentiment`: sentiment merupakan akumulasi dari score, jika score memiliki nilai dibawah atau sama dengan tiga maka dapat disimpulkan sentimennya negatif dan jika score memiliki nilai diatas 3 maka dapat disimpulkan sentimentnya positif

## Data Validation

Proses mengevaluasi dan memvalidasi integritas, kualitas, dan kecocokan data yang digunakan dalam proses pembangunan dan evaluasi model machine learning. Hal ini bertujuan untuk memastikan bahwa data yang digunakan memenuhi persyaratan dan standar yang diperlukan untuk menghasilkan model yang akurat dan dapat diandalkan.

### Cek Informasi Data

In [28]:
# Check informasi data
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   content    10000 non-null  object
 1   score      10000 non-null  int64 
 2   at         10000 non-null  object
 3   sentiment  10000 non-null  object
dtypes: int64(1), object(3)
memory usage: 312.6+ KB


In [29]:
# Mengubah tipe data kolom "at" menjadi datetime dengan format yang diinginkan
data['at'] = pd.to_datetime(data['at'], format='%Y-%m-%d %H:%M:%S')

In [30]:
# Ekstraksi tanggal, jam, dan menit
data['event_date'] = data['at'].dt.date
data['event_hour'] = data['at'].dt.hour
data['event_minute'] = data['at'].dt.minute

In [31]:
# sanityy check
data

Unnamed: 0,content,score,at,sentiment,event_date,event_hour,event_minute
0,"Sekarang banyak iklan nya, nonton sinetron, dr...",1,2023-12-20 03:03:49,Negatif,2023-12-20,3,3
1,Vidio lagi knp sih?? Tayangan EPL nya loading ...,3,2023-12-10 23:45:09,Negatif,2023-12-10,23,45
2,Kenapa sudah berlangganan tapi masih muncul ik...,2,2023-12-10 21:01:34,Negatif,2023-12-10,21,1
3,"Kualitas video nya jangan otomatis dong,kalau ...",1,2023-12-07 17:42:09,Negatif,2023-12-07,17,42
4,"Kenapa ya sy mau beli paketnya ga bisa2, alesa...",1,2023-12-12 22:05:49,Negatif,2023-12-12,22,5
...,...,...,...,...,...,...,...
9995,Agak lemot sih tapi bagus kok kalau mati lampu...,5,2018-12-05 11:38:33,Positif,2018-12-05,11,38
9996,Aplikasi nggk guna buang2 kuota aj kirain grat...,1,2020-04-15 15:52:46,Negatif,2020-04-15,15,52
9997,Saya suka banget sama aplikasi Vidio ini karen...,4,2020-10-17 20:16:41,Positif,2020-10-17,20,16
9998,Sangat baguss tapi kenapa yah kalau buka video...,5,2018-10-27 17:39:24,Positif,2018-10-27,17,39


In [32]:
# sanity check
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   content       10000 non-null  object        
 1   score         10000 non-null  int64         
 2   at            10000 non-null  datetime64[ns]
 3   sentiment     10000 non-null  object        
 4   event_date    10000 non-null  object        
 5   event_hour    10000 non-null  int64         
 6   event_minute  10000 non-null  int64         
dtypes: datetime64[ns](1), int64(3), object(3)
memory usage: 547.0+ KB


In [33]:
data['event_date'] = pd.to_datetime(data['event_date'])

In [34]:
data

Unnamed: 0,content,score,at,sentiment,event_date,event_hour,event_minute
0,"Sekarang banyak iklan nya, nonton sinetron, dr...",1,2023-12-20 03:03:49,Negatif,2023-12-20,3,3
1,Vidio lagi knp sih?? Tayangan EPL nya loading ...,3,2023-12-10 23:45:09,Negatif,2023-12-10,23,45
2,Kenapa sudah berlangganan tapi masih muncul ik...,2,2023-12-10 21:01:34,Negatif,2023-12-10,21,1
3,"Kualitas video nya jangan otomatis dong,kalau ...",1,2023-12-07 17:42:09,Negatif,2023-12-07,17,42
4,"Kenapa ya sy mau beli paketnya ga bisa2, alesa...",1,2023-12-12 22:05:49,Negatif,2023-12-12,22,5
...,...,...,...,...,...,...,...
9995,Agak lemot sih tapi bagus kok kalau mati lampu...,5,2018-12-05 11:38:33,Positif,2018-12-05,11,38
9996,Aplikasi nggk guna buang2 kuota aj kirain grat...,1,2020-04-15 15:52:46,Negatif,2020-04-15,15,52
9997,Saya suka banget sama aplikasi Vidio ini karen...,4,2020-10-17 20:16:41,Positif,2020-10-17,20,16
9998,Sangat baguss tapi kenapa yah kalau buka video...,5,2018-10-27 17:39:24,Positif,2018-10-27,17,39


In [35]:
# sanity check
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   content       10000 non-null  object        
 1   score         10000 non-null  int64         
 2   at            10000 non-null  datetime64[ns]
 3   sentiment     10000 non-null  object        
 4   event_date    10000 non-null  datetime64[ns]
 5   event_hour    10000 non-null  int64         
 6   event_minute  10000 non-null  int64         
dtypes: datetime64[ns](2), int64(3), object(2)
memory usage: 547.0+ KB


In [36]:
data = data.sort_values(by='event_date')

In [37]:
data

Unnamed: 0,content,score,at,sentiment,event_date,event_hour,event_minute
5575,Sumpah aplikasi ini bikin gw kesel sendiri. Ud...,1,2018-09-15 08:17:04,Negatif,2018-09-15,8,17
8625,lumayan bagus tapi tolong di perbaiki gangguan...,5,2018-09-15 15:50:21,Positif,2018-09-15,15,50
9029,Bagus banget Jadi bisa lihat TV dimn pun saat ...,5,2018-09-15 14:33:19,Positif,2018-09-15,14,33
6474,"Masa tidak bisa tampilkan semua liga, kami mau...",1,2018-09-19 02:10:42,Negatif,2018-09-19,2,10
6954,"Kayaknya aplikasi OONA lebih bagus, bagi yg ke...",2,2018-09-20 09:13:09,Negatif,2018-09-20,9,13
...,...,...,...,...,...,...,...
56,Aplikasi dari 2015 tapi film dan anime yang te...,1,2023-12-29 04:32:05,Negatif,2023-12-29,4,32
626,Saya menyesal berlanggan vidio karena pembayar...,1,2023-12-29 20:19:22,Negatif,2023-12-29,20,19
1851,tolong apknya di update dong masa gak ada film...,1,2023-12-29 13:37:03,Negatif,2023-12-29,13,37
59,masa nonton premier league vidionya lebih lamb...,1,2023-12-29 18:35:41,Negatif,2023-12-29,18,35


### Check Nilai Null
Mengecek apakah data terdapat nilai null pada setiap kolom

In [38]:
#Menghitung nilai null pada kolom
data.isnull().sum()

content         0
score           0
at              0
sentiment       0
event_date      0
event_hour      0
event_minute    0
dtype: int64

### Melihat statistik deskriptif dan Range Data Numerikal

Cek statistika deskriptif

In [39]:
#Melihat statistika deskriptif dengan describe()
data.describe()

Unnamed: 0,score,event_hour,event_minute
count,10000.0,10000.0,10000.0
mean,2.2777,14.4467,29.4574
std,1.564745,6.758855,17.342516
min,1.0,0.0,0.0
25%,1.0,10.0,14.0
50%,1.0,16.0,30.0
75%,4.0,20.0,44.0
max,5.0,23.0,59.0


### Melihat Dimensi Data

In [40]:
data.shape

(10000, 7)

In [41]:
data.sentiment.value_counts()

Negatif    7461
Positif    2539
Name: sentiment, dtype: int64

In [42]:
data_for_preproc = data[['content','sentiment']]

In [43]:
data_for_preproc

Unnamed: 0,content,sentiment
5575,Sumpah aplikasi ini bikin gw kesel sendiri. Ud...,Negatif
8625,lumayan bagus tapi tolong di perbaiki gangguan...,Positif
9029,Bagus banget Jadi bisa lihat TV dimn pun saat ...,Positif
6474,"Masa tidak bisa tampilkan semua liga, kami mau...",Negatif
6954,"Kayaknya aplikasi OONA lebih bagus, bagi yg ke...",Negatif
...,...,...
56,Aplikasi dari 2015 tapi film dan anime yang te...,Negatif
626,Saya menyesal berlanggan vidio karena pembayar...,Negatif
1851,tolong apknya di update dong masa gak ada film...,Negatif
59,masa nonton premier league vidionya lebih lamb...,Negatif


## Save Data

In [44]:
util.pickle_dump(data, config_data["data_preparation_result_path"][0])
util.pickle_dump(data_for_preproc, config_data["data_preparation_result_path"][1])