# Import

In [1]:
from google_play_scraper import reviews, Sort
from tqdm import tqdm
import pandas as pd
import time
import csv

# Scraping data

In [None]:
def get_reviews(app_id, lang='id', country='id', target_review=30000, jumlah_per_bagian=100):
    """
    Fungsi untuk mengambil review aplikasi dari Google Play Store dengan progress bar.
    
    Parameters:
    - app_id (str)           : ID aplikasi di Google Play Store.
    - lang (str)             : Bahasa review. Contoh: 'id' untuk Bahasa Indonesia.
    - country (str)          : Negara asal review. Contoh: 'id' untuk Indonesia.
    - target_review (int)    : Jumlah total review yang ingin diambil.
    - jumlah_per_bagian (int): Jumlah review yang diambil per batch.
    
    Returns:
    - DataFrame yang berisi semua review yang diambil.
    """

    all_reviews = []

    with tqdm(total=target_review, desc="Get all reviews: ") as progress_bar:
        for _ in range(0, target_review, jumlah_per_bagian):
            try:
                # Mengambil review dalam batch
                hasil, _ = reviews(
                    app_id,                
                    lang=lang,             
                    country=country,       
                    sort=Sort.MOST_RELEVANT,
                    count=jumlah_per_bagian 
                )
                
                # Menambahkan review ke list all_reviews
                all_reviews.extend(hasil)
                progress_bar.update(len(hasil))
                
                # Berhenti jika jumlah review yang diambil sudah memenuhi target
                if len(all_reviews) >= target_review:
                    break
                
            except Exception as e:
                print(f"Error: {e}")
                break

            time.sleep(1)

    # Mengubah list review menjadi DataFrame
    df_review = pd.DataFrame(all_reviews)
    return df_review

df_review = get_reviews('com.tokopedia.tkpd', target_review=30000, jumlah_per_bagian=100)

Get all reviews: 100%|██████████| 30000/30000 [06:34<00:00, 75.97it/s]


In [3]:
df_review.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30000 entries, 0 to 29999
Data columns (total 11 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   reviewId              30000 non-null  object        
 1   userName              30000 non-null  object        
 2   userImage             30000 non-null  object        
 3   content               30000 non-null  object        
 4   score                 30000 non-null  int64         
 5   thumbsUpCount         30000 non-null  int64         
 6   reviewCreatedVersion  30000 non-null  object        
 7   at                    30000 non-null  datetime64[ns]
 8   replyContent          30000 non-null  object        
 9   repliedAt             30000 non-null  datetime64[ns]
 10  appVersion            30000 non-null  object        
dtypes: datetime64[ns](2), int64(2), object(7)
memory usage: 2.5+ MB


In [4]:
df_review

Unnamed: 0,reviewId,userName,userImage,content,score,thumbsUpCount,reviewCreatedVersion,at,replyContent,repliedAt,appVersion
0,2e982cf0-8207-4a94-af1e-2c624685ff71,M Yunus Roikhan R,https://play-lh.googleusercontent.com/a-/ALV-U...,"Aku sudah suka sama tokopedia dari duluuu, sem...",5,21,3.288.0,2024-11-07 03:59:24,"Hi Toppers, terima kasih untuk rating dan ulas...",2024-11-07 04:18:05,3.288.0
1,4215f367-9c77-4fe9-b0a0-523f95d6a739,Japar Poppies,https://play-lh.googleusercontent.com/a-/ALV-U...,"Untuk pengembang, tolong yang sistem ""BEBAS ON...",5,772,3.286.0,2024-10-24 16:51:34,"Toppers, terima kasih atas rating yang kamu be...",2024-10-24 16:54:01,3.286.0
2,9e875fc3-8dd7-433c-a4da-825d1f09c10f,ALFA,https://play-lh.googleusercontent.com/a-/ALV-U...,Saran - selagi masih dengan JNE yang banyak ke...,3,135,3.285.0,2024-10-21 08:58:13,"Terima kasih atas rating yang kamu berikan, To...",2024-10-21 09:14:05,3.285.0
3,7a3d6d1b-0c71-4366-bd3c-cce6fd716839,Zidan Dhiyaul Haq,https://play-lh.googleusercontent.com/a/ACg8oc...,UI/UX bagusan sebelum nya. Wishlist taruh di n...,3,157,3.285.0,2024-10-17 05:33:54,"Makasih ratingnya, Toppers. Ke depannya kami a...",2024-10-17 05:54:01,3.285.0
4,1904fae4-22cd-461b-a55a-77b986332b7c,Ayu Anaa,https://play-lh.googleusercontent.com/a-/ALV-U...,Kecewa sekali. Baru pertama kali daftar dan ni...,1,148,3.285.0,2024-10-20 15:42:12,"Toppers, mohon maaf atas kendala yang kamu ala...",2024-10-20 16:00:09,3.285.0
...,...,...,...,...,...,...,...,...,...,...,...
29995,97a613e7-23e6-4c09-994e-13c290062fed,Bunbun Independen Consultan Jafra,https://play-lh.googleusercontent.com/a/ACg8oc...,"Saya beli kebutuhan anak di Tokopedia, tetapi ...",1,211,3.283.0,2024-10-08 09:27:52,"Hi Toppers, silakan sampaikan kritik/saran ata...",2024-10-08 10:21:20,3.283.0
29996,3e777bec-1310-4df6-aece-2d08cc88675e,Firdaus Nuzula,https://play-lh.googleusercontent.com/a-/ALV-U...,"Lama tidak belanja , giliran mau belanja akun ...",1,107,3.279.0,2024-09-12 22:02:29,"Halo Toppers, terima kasih atas rating yang ka...",2024-09-12 22:20:03,3.279.0
29997,f77453f4-93d6-4f14-8a6d-fedcd20b7839,Lili Warliman (Lhiw),https://play-lh.googleusercontent.com/a-/ALV-U...,Suka sering bug. Saat melakukan pencarian bara...,1,407,3.277.0,2024-09-08 12:16:57,"Hi Toppers, silakan sampaikan kritik/saran ata...",2024-09-08 12:20:10,3.277.0
29998,f0ec7fe2-2a3f-49b0-b012-1e862ee60b97,Awokawokawok,https://play-lh.googleusercontent.com/a-/ALV-U...,Kecewa sih kupon pengguna baru ternyata cuma p...,1,340,3.278.0,2024-09-01 18:52:01,"Halo Toppers, terima kasih atas rating yang ka...",2024-09-01 19:40:12,3.278.0


# Save to CSV

In [None]:
with open('tokopedia_30k_reviews.csv', mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(['Review'])
    
    # Loop melalui setiap ulasan dalam DataFrame
    for index, row in df_review.iterrows():
        writer.writerow([row['content']])  # Menulis konten ulasan ke dalam file CSV

# Read data information

In [None]:
df_read_reviews = pd.read_csv('tokopedia_30k_reviews.csv', encoding='utf-8')

print(df_read_reviews)

                                                  Review
0      Aku sudah suka sama tokopedia dari duluuu, sem...
1      Untuk pengembang, tolong yang sistem "BEBAS ON...
2      Saran - selagi masih dengan JNE yang banyak ke...
3      UI/UX bagusan sebelum nya. Wishlist taruh di n...
4      Kecewa sekali. Baru pertama kali daftar dan ni...
...                                                  ...
29995  Saya beli kebutuhan anak di Tokopedia, tetapi ...
29996  Lama tidak belanja , giliran mau belanja akun ...
29997  Suka sering bug. Saat melakukan pencarian bara...
29998  Kecewa sih kupon pengguna baru ternyata cuma p...
29999  Sumpah, aku tau pengiriman itu bukan termasuk ...

[30000 rows x 1 columns]


In [1]:
!pipreqs --scan-notebooks

Please, verify manually the final list of requirements.txt to avoid possible dependency confusions.
INFO: Successfully saved requirements file in c:\Users\melli\Dropbox\PC\Downloads\di\Analisis Sentimen\y\requirements.txt
