# Scrapping Data Ulasan Mobile Legends

## Import Library yang dibutuhkan

In [1]:
# Mengimpor pustaka google_play_scraper untuk mengakses ulasan dan informasi aplikasi dari Google Play Store.
from google_play_scraper import app, reviews, Sort
import time
import pandas as pd  # Pandas untuk manipulasi dan analisis data
pd.options.mode.chained_assignment = None  # Menonaktifkan peringatan chaining

## Scrapping Data

In [2]:
# Mengambil semua ulasan dari aplikasi dengan ID 'com.byu.id' di Google Play Store.
# Proses scraping mungkin memerlukan beberapa saat tergantung pada jumlah ulasan yang ada.
all_reviews = []
continuation_token = None  # Token untuk melanjutkan dari batch sebelumnya
total_target = 15000  # Target jumlah ulasan
batch_size = 200      # Maksimal per request

print("Mulai scraping...")

while len(all_reviews) < total_target:
    print(f"Batch {len(all_reviews)//batch_size + 1} - Total: {len(all_reviews)} ulasan")

    result, continuation_token = reviews(
        app_id= 'com.mobile.legends',   # ID aplikasi
        lang= 'id',                     # Bahasa Indonesia
        country= 'id',                  # Lokasi Indonesia
        sort= Sort.MOST_RELEVANT,       # Urutan ulasan (Paling Relevan)
        count= batch_size,              # Jumlah ulasan per batch
        continuation_token= continuation_token,       # Token untuk melanjutkan dari batch sebelumnya
        filter_score_with= None         # Filter berdasarkan skor (None untuk semua)
    )

    all_reviews.extend(result)

    if continuation_token is None:
        print("Tidak ada ulasan lagi yang bisa diambil.")
        break

    time.sleep(1)  # Biar nggak terlalu cepat request-nya

# Simpan ke DataFrame
df = pd.DataFrame(all_reviews)
df.to_csv('ulasan_mobile_legends_15k.csv', index=False, encoding='utf-8-sig')
print(f"Scraping selesai! Total ulasan yang didapat: {len(df)}")


Mulai scraping...
Batch 1 - Total: 0 ulasan
Batch 2 - Total: 200 ulasan
Batch 3 - Total: 400 ulasan
Batch 4 - Total: 600 ulasan
Batch 5 - Total: 800 ulasan
Batch 6 - Total: 1000 ulasan
Batch 7 - Total: 1200 ulasan
Batch 8 - Total: 1400 ulasan
Batch 9 - Total: 1600 ulasan
Batch 10 - Total: 1800 ulasan
Batch 11 - Total: 2000 ulasan
Batch 12 - Total: 2200 ulasan
Batch 13 - Total: 2400 ulasan
Batch 14 - Total: 2600 ulasan
Batch 15 - Total: 2800 ulasan
Batch 16 - Total: 3000 ulasan
Batch 17 - Total: 3200 ulasan
Batch 18 - Total: 3400 ulasan
Batch 19 - Total: 3600 ulasan
Batch 20 - Total: 3800 ulasan
Batch 21 - Total: 4000 ulasan
Batch 22 - Total: 4200 ulasan
Batch 23 - Total: 4400 ulasan
Batch 24 - Total: 4600 ulasan
Batch 25 - Total: 4800 ulasan
Batch 26 - Total: 5000 ulasan
Batch 27 - Total: 5200 ulasan
Batch 28 - Total: 5400 ulasan
Batch 29 - Total: 5600 ulasan
Batch 30 - Total: 5800 ulasan
Batch 31 - Total: 6000 ulasan
Batch 32 - Total: 6200 ulasan
Batch 33 - Total: 6400 ulasan
Batch 34

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15000 entries, 0 to 14999
Data columns (total 11 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   reviewId              15000 non-null  object        
 1   userName              15000 non-null  object        
 2   userImage             15000 non-null  object        
 3   content               15000 non-null  object        
 4   score                 15000 non-null  int64         
 5   thumbsUpCount         15000 non-null  int64         
 6   reviewCreatedVersion  14924 non-null  object        
 7   at                    15000 non-null  datetime64[ns]
 8   replyContent          729 non-null    object        
 9   repliedAt             729 non-null    datetime64[ns]
 10  appVersion            14924 non-null  object        
dtypes: datetime64[ns](2), int64(2), object(7)
memory usage: 1.3+ MB


In [4]:
df.head()

Unnamed: 0,reviewId,userName,userImage,content,score,thumbsUpCount,reviewCreatedVersion,at,replyContent,repliedAt,appVersion
0,9bd15e3b-7ae1-4827-af1c-f80b9aea4fa2,Reyzan aba,https://play-lh.googleusercontent.com/a/ACg8oc...,tiap main rank pasti aja ada player beban/male...,1,25055,1.9.65.10602,2025-03-28 22:42:15,,NaT,1.9.65.10602
1,04893854-ffc4-4a5a-bd53-18dda4879354,Umar Umar,https://play-lh.googleusercontent.com/a/ACg8oc...,jika setiap update game rank nya selalu saja m...,2,1093,1.9.65.10602,2025-03-30 23:27:41,,NaT,1.9.65.10602
2,32d316bf-a701-4017-9746-8c3b71dc0892,Iqbal Wattimena,https://play-lh.googleusercontent.com/a-/ALV-U...,"Bintang 3 aja moonton, grafik sudah oke, efek ...",3,1892,1.9.65.10602,2025-03-30 01:36:17,"Halo Kak,\nKami berkomitmen untuk menciptakan ...",2025-01-04 11:00:00,1.9.65.10602
3,b541e597-ea22-4560-a4c2-a46643e719e1,MZ Channel,https://play-lh.googleusercontent.com/a-/ALV-U...,kemarin install lagi ini game dengan harapan s...,1,1197,1.9.65.10602,2025-03-29 06:50:06,,NaT,1.9.65.10602
4,82dd9f50-2f90-4efe-a385-88f80e456f14,Suci Agustin,https://play-lh.googleusercontent.com/a-/ALV-U...,Game ini bagus sangat!! Tetapi tolong sekali h...,5,4315,1.9.65.10602,2025-03-21 13:07:28,,NaT,1.9.65.10602


In [5]:
# Drop kolom yang tidak diperlukan
df = df.drop(columns=['reviewId', 'userName', 'userImage', 'replyContent', 'repliedAt', 'reviewCreatedVersion', 'appVersion', 'thumbsUpCount', 'at'])

In [6]:
df.head()

Unnamed: 0,content,score
0,tiap main rank pasti aja ada player beban/male...,1
1,jika setiap update game rank nya selalu saja m...,2
2,"Bintang 3 aja moonton, grafik sudah oke, efek ...",3
3,kemarin install lagi ini game dengan harapan s...,1
4,Game ini bagus sangat!! Tetapi tolong sekali h...,5


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15000 entries, 0 to 14999
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   content  15000 non-null  object
 1   score    15000 non-null  int64 
dtypes: int64(1), object(1)
memory usage: 234.5+ KB


In [8]:
import os

# Pastikan folder 'data' ada
os.makedirs('data', exist_ok=True)

# Simpan hasil ke file CSV yang sudah dibersihkan
df.to_csv('data/data.csv', index=False, encoding='utf-8-sig')
print("Kolom yang tidak diperlukan sudah di-drop! Dataset disimpan sebagai 'data/data.csv'")

Kolom yang tidak diperlukan sudah di-drop! Dataset disimpan sebagai 'data/data.csv'
