# Deteksi Ulasan Palsu Pada Aplikasi di Google Playstore

## Pendahuluan

### 1. Latar Belakang

Ulasan aplikasi di Google Play Store menjadi salah satu faktor penting dalam mempengaruhi keputusan pengguna dalam mengunduh aplikasi. Semakin banyak ulasan positif, semakin besar kemungkinan aplikasi tersebut akan diunduh oleh pengguna baru. Sayangnya, praktik manipulasi ulasan melalui ulasan palsu kian marak. Ulasan palsu ini dapat membingungkan pengguna, menciptakan persepsi yang salah tentang kualitas aplikasi, dan bahkan merugikan bisnis pengembang aplikasi yang jujur. Oleh karena itu, penting untuk mendeteksi dan menghapus ulasan palsu guna menciptakan ekosistem aplikasi yang lebih adil dan transparan.

Visi dari proyek ini adalah menciptakan sistem yang dapat mendeteksi ulasan palsu sehingga Google Play Store menjadi platform yang lebih tepercaya bagi pengguna dan pengembang aplikasi. Misinya adalah untuk mengembangkan solusi berbasis data sains yang memanfaatkan teknologi machine learning untuk mengidentifikasi pola ulasan yang mencurigakan dengan akurasi tinggi. Proyek ini dibuat dengan beberapa tujuan bisnis, di antaranya:
-   Meningkatkan kepercayaan pengguna terhadap ulasan aplikasi di Google Play.
-   Mencegah pengembang aplikasi melakukan manipulasi ulasan yang menimbulkan  persaingan yang tidak sehat.
-	Memberikan rekomendasi kepada pengguna dalam memilih aplikasi yang berkualitas.


Target bisnis dari proyek ini adalah penerapan sistem pendeteksian ulasan palsu yang dapat diintegrasikan dengan Google Play Store, sehingga ulasan yang manipulatif dapat dikurangi. Dengan demikian, strategi bisnis yang digunakan melibatkan pengembangan model machine learning yang mampu menganalisis ulasan dengan cepat dan akurat.

### 2. Tujuan

Adapun tujuan dari proyek data sains ini adalah:
-	Mengidentifikasi pola ulasan palsu berdasarkan data historis ulasan di Google Play Store.
-	Mengembangkan model machine learning yang mampu mendeteksi ulasan palsu dengan tingkat akurasi tinggi.


### 3. Rumusan Masalah

Masalah utama yang hendak diselesaikan melalui proyek ini adalah:
-	Bagaimana mengidentifikasi ulasan yang sah dan ulasan yang palsu secara efektif?
-	Algoritma machine learning apa yang paling tepat digunakan untuk mendeteksi ulasan palsu?
-	Bagaimana cara meningkatkan akurasi dan efisiensi sistem deteksi ulasan palsu pada aplikasi di Google Play Store?


## Pembahasan

#### 1. Data Understanding

#### Pengumpulan Data

Pengumpulan data dilakukan dengan menggunakan _Google Play Scraper_. Untuk cara pengumpulan datanya adalah sebagai berikut:

- Instalasi _google-play-scraper_

In [1]:
!pip install google-play-scraper

Collecting google-play-scraper
  Downloading google_play_scraper-1.2.7-py3-none-any.whl.metadata (50 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/50.2 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m50.2/50.2 kB[0m [31m1.7 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading google_play_scraper-1.2.7-py3-none-any.whl (28 kB)
Installing collected packages: google-play-scraper
Successfully installed google-play-scraper-1.2.7


- Import app, pandas, dan numpy.

In [2]:
from google_play_scraper import app
import pandas as pd
import numpy as np

- Melakukan scraping terhadap aplikasi yang diinginkan dengan memasukkan link aplikasi pada google playstore ke dalam code.

In [3]:
from google_play_scraper import Sort, reviews

result, continuation_token = reviews(
    'com.facebook.katana', # link aplikasi yang akan dilakukan scraping
    lang='id', # bahasa
    country='id', # negara tempat aplikasi yang dilakukan scraping
    sort=Sort.NEWEST, # kategori review yang akan di scraping(MOST_RELEVANT untuk review paling relevan dan NEWEST untuk review terbaru)
    count=500, # jumlah review yang ingin didapatkan dari scraping
    filter_score_with=None # filter berdasarkan rating (1-5), default none (review dengan semua rating)
)

- Mengubah hasil ulasan menjadi dataframe dengan kolom, kemudian memecah elemen-elemen di dalamnya menjadi kolom-kolom baru.

In [6]:
data = pd.DataFrame(np.array(result),columns=['review'])
data = data.join(pd.DataFrame(data.pop('review').tolist()))

data.head() # menampilkan sampel data hasil scraping dari google playstore

Unnamed: 0,reviewId,userName,userImage,content,score,thumbsUpCount,reviewCreatedVersion,at,replyContent,repliedAt,appVersion
0,41c7fc48-35df-4544-a68a-a0fece45fec9,Achmad Hamdy Prayoga,https://play-lh.googleusercontent.com/a-/ALV-U...,Terimakasih,5,0,,2024-09-28 14:11:54,,,
1,4d7fa47f-79ee-4ad0-8df8-cbb09dbb0406,Hehe Kao,https://play-lh.googleusercontent.com/a/ACg8oc...,Kalo GK bisa bikin iklan Jan bikin iklan,1,0,483.0.0.51.72,2024-09-28 14:10:28,,,483.0.0.51.72
2,1b8c1ac5-73a6-4efb-b501-d4b759e8c8c9,Musanif Arif,https://play-lh.googleusercontent.com/a/ACg8oc...,mantap,5,0,482.0.0.51.80,2024-09-28 14:09:20,,,482.0.0.51.80
3,c9820d7a-ae5f-4d40-9168-0a54b6c385f8,Nurdin Setiawan,https://play-lh.googleusercontent.com/a/ACg8oc...,Facebook sangat bermanfaat bagi kaum rebahan,5,0,316.0.0.54.116,2024-09-28 14:08:31,,,316.0.0.54.116
4,2ae3d2cf-6633-43cd-bf29-aec21bf8d185,Apoy Saputra,https://play-lh.googleusercontent.com/a/ACg8oc...,Sangat bagus,5,0,480.0.0.54.88,2024-09-28 14:07:08,,,480.0.0.54.88


- Menyimpan data review ke dalam file csv

In [7]:
data.to_csv('reviews.csv', index=False)
data = pd.read_csv('reviews.csv')

- Mengunduh file csv

In [8]:
from IPython.display import FileLink

file_path = 'reviews.csv'
data.to_csv(file_path, index=False)
FileLink(file_path)


#### Deskripsi Dataset

Dataset ini merupakan  dataset yang menampung informasi mengenai ulasan dari suatu aplikasi di Google Play Store. Informasi tersebut mencakup username pemberi ulasan, isi ulasan, rating terhadap aplikasi, tanggal ulasan dibuat dan lain lain.

#### Deskripsi Fitur

- reviewId : berisi ID dari ulasan
- userName : berisi username dari akun yang memberikan ulasan
- userImage : berisi URL foto profil akun yang memberikan ulasan
- content : berisi komentar yang diberikan oleh user
- score : berisi rating dari user
- thumbsUpCount : berisi jumlah like yang pada sebuah ulasan
- reviewCreateVersion : berisi versi aplikasi yang diberi ulasan
- at : berisi tanggal ulasan dibuat
- replyContent : berisi balasan ulasan
- repliedAt : berisi tanggal balasan ulasan
- appVersion : berisi versi aplikasi saat ini

### 2. Data Preprocessing

#### Data Cleaning

Pada langkah ini dilakukan perhitungan korelasi antara fitur reviewCreatedVersion dan appVersion.

In [11]:
import pandas as pd
from scipy.stats import chi2_contingency

# Baca data
data = pd.read_csv('reviews_cleaned.csv')

# Buat tabel kontingensi
contingency_table = pd.crosstab(data['reviewCreatedVersion'], data['appVersion'])

# Hitung Chi-Square statistic dan p-value
chi2, p, dof, expected = chi2_contingency(contingency_table)

# Hitung Cramer's V
n = contingency_table.sum().sum()
min_dim = min(contingency_table.shape)-1
cramer_v = np.sqrt(chi2 / (n * min_dim))

# Cetak hasil
print(f"Cramer's V: {cramer_v}")

Cramer's V: 1.0


Hasil dari perhitungan korelasi antara reviewCreatedVersion dan appVersion adalah 1.0, yang menunjukkan bahwa kedua fitur tersebut saling berhubungan dan bisa dihapus salah satunya.

Pada langkah ini akan melakukan drop terhadap fitur yang tidak diperlukan saat pendeteksian yaitu userImage, replyContent, dan RepliedAt. Selain itu dilakukan drop terhadap fitur reviewCreatedVersion.

In [12]:
import pandas as pd

# Membaca data dari file CSV
data = pd.read_csv('reviews.csv')

# Menampilkan informasi awal mengenai dataset sebelum penghapusan kolom
print("Data awal sebelum penghapusan kolom:")
print(data.head())

# Menghapus kolom yang tidak diperlukan
columns_to_drop = ['userImage', 'replyContent', 'repliedAt', 'reviewCreatedVersion']
data.drop(columns=columns_to_drop, inplace=True)

# Menampilkan informasi setelah penghapusan kolom
print("\nData setelah penghapusan kolom:")
print(data.head())

# Menyimpan data yang telah diubah ke file baru jika diinginkan
data.to_csv('reviews_cleaned.csv', index=False)


Data awal sebelum penghapusan kolom:
                               reviewId              userName  \
0  41c7fc48-35df-4544-a68a-a0fece45fec9  Achmad Hamdy Prayoga   
1  4d7fa47f-79ee-4ad0-8df8-cbb09dbb0406              Hehe Kao   
2  1b8c1ac5-73a6-4efb-b501-d4b759e8c8c9          Musanif Arif   
3  c9820d7a-ae5f-4d40-9168-0a54b6c385f8       Nurdin Setiawan   
4  2ae3d2cf-6633-43cd-bf29-aec21bf8d185          Apoy Saputra   

                                           userImage  \
0  https://play-lh.googleusercontent.com/a-/ALV-U...   
1  https://play-lh.googleusercontent.com/a/ACg8oc...   
2  https://play-lh.googleusercontent.com/a/ACg8oc...   
3  https://play-lh.googleusercontent.com/a/ACg8oc...   
4  https://play-lh.googleusercontent.com/a/ACg8oc...   

                                        content  score  thumbsUpCount  \
0                                   Terimakasih      5              0   
1      Kalo GK bisa bikin iklan Jan bikin iklan      1              0   
2               

#### Pendeteksian Outlier

Untuk pendeteksian outlier saya menggunakan metode LOF(Local Outlier Factor). LOF sendiri merupakan salah satu metode pendeteksian outlier yang bekerja dengan cara membandingkan kerapatan antar titik data.

In [13]:
import pandas as pd
from sklearn.neighbors import LocalOutlierFactor

data = pd.read_csv('reviews_cleaned.csv') # Membaca data dari file CSV

print("Data awal:") # Menampilkan informasi awal mengenai dataset
print(data.head())

X = data[['thumbsUpCount']] # Memastikan hanya mengambil kolom yang relevan untuk analisis

# Membuat model LOF
lof = LocalOutlierFactor(n_neighbors=20)  # n_neighbors dapat disesuaikan

data['is_outlier'] = lof.fit_predict(X) # Melatih model dan mendeteksi outlier

# Menampilkan hasil
outliers = data[data['is_outlier'] == -1]  # LOF mengembalikan -1 untuk outlier, 1 untuk inlier

data.to_csv('reviews_with_LOF_outliers.csv', index=False) # Menyimpan hasil ke file baru jika diinginkan

# Menampilkan outliers
print("Detected Outliers using LOF:")
print(outliers)

# Menampilkan jumlah outlier yang terdeteksi
print(f"Jumlah outlier terdeteksi: {len(outliers)}")


Data awal:
                               reviewId              userName  \
0  41c7fc48-35df-4544-a68a-a0fece45fec9  Achmad Hamdy Prayoga   
1  4d7fa47f-79ee-4ad0-8df8-cbb09dbb0406              Hehe Kao   
2  1b8c1ac5-73a6-4efb-b501-d4b759e8c8c9          Musanif Arif   
3  c9820d7a-ae5f-4d40-9168-0a54b6c385f8       Nurdin Setiawan   
4  2ae3d2cf-6633-43cd-bf29-aec21bf8d185          Apoy Saputra   

                                        content  score  thumbsUpCount  \
0                                   Terimakasih      5              0   
1      Kalo GK bisa bikin iklan Jan bikin iklan      1              0   
2                                        mantap      5              0   
3  Facebook sangat bermanfaat bagi kaum rebahan      5              0   
4                                  Sangat bagus      5              0   

                    at      appVersion  
0  2024-09-28 14:11:54             NaN  
1  2024-09-28 14:10:28   483.0.0.51.72  
2  2024-09-28 14:09:20   482.0.0.51.

Pada dataset yang saya gunakan hanya fitur thumbsUpCounter saja yang memungkinkan adanya outlier. Namun karena dataset yang saya scrap adalah data terbaru dan hasil menunjukkan record yang dideteksi sebagai outlier memiliki nilai thumbsUpCounter 0 yang sama dengan record lain, maka record yang terdeteksi sebagai outlier tersebut saya abaikan. Hal tersebut saya lakukan karena adanya outlier menuntut keberagaman data.

#### Pendeteksian Missing Value

Pada langkah ini dilakukan pendeteksian missing value terhadap dataset.

In [14]:
import pandas as pd

# Membaca data dari file CSV
data = pd.read_csv('reviews_cleaned.csv')

# Menghitung jumlah dan persentase missing values untuk setiap kolom
missing_values = data.isnull().sum()
missing_percentage = (missing_values / len(data)) * 100

# Menggabungkan informasi jumlah dan persentase ke dalam DataFrame
missing_info = pd.DataFrame({
    'Missing Values': missing_values,
    'Percentage': missing_percentage
})

# Menampilkan hasil
print("\nMissing Values Ditemukan:")
print(missing_info[missing_info['Missing Values'] > 0])  # Hanya menampilkan kolom dengan missing values



Missing Values Ditemukan:
            Missing Values  Percentage
appVersion             130        26.0


Setelah missing value ditemukan, langkah selanjutnya adalah imputasi missing value.

In [30]:
import pandas as pd

# Baca data
data = pd.read_csv('reviews_cleaned.csv')

# Hitung modus dari kolom 'appVersion'
mode_appVersion = data['appVersion'].mode()[0]

# Isi missing value dengan modus
data['appVersion'] = data['appVersion'].fillna(mode_appVersion)

# Simpan data yang telah diimputasi
data.to_csv('reviews_imputed_appVersion.csv', index=False)
data.head()

Unnamed: 0,reviewId,userName,content,score,thumbsUpCount,at,appVersion
0,41c7fc48-35df-4544-a68a-a0fece45fec9,Achmad Hamdy Prayoga,Terimakasih,5,0,2024-09-28 14:11:54,483.0.0.51.72
1,4d7fa47f-79ee-4ad0-8df8-cbb09dbb0406,Hehe Kao,Kalo GK bisa bikin iklan Jan bikin iklan,1,0,2024-09-28 14:10:28,483.0.0.51.72
2,1b8c1ac5-73a6-4efb-b501-d4b759e8c8c9,Musanif Arif,mantap,5,0,2024-09-28 14:09:20,482.0.0.51.80
3,c9820d7a-ae5f-4d40-9168-0a54b6c385f8,Nurdin Setiawan,Facebook sangat bermanfaat bagi kaum rebahan,5,0,2024-09-28 14:08:31,316.0.0.54.116
4,2ae3d2cf-6633-43cd-bf29-aec21bf8d185,Apoy Saputra,Sangat bagus,5,0,2024-09-28 14:07:08,480.0.0.54.88


### 3. Modeling

#### Menentukan Teknik Model

#### Membangun Model

### 4. Evaluasi

### 5. Deployment