# SCRAPPING

Melakukan Scrapping Untuk Aplikasi Traveloka Pada Google Play Store

In [None]:
pip install google-play-scraper pandas

In [None]:
import pandas as pd
from google_play_scraper import reviews_all, Sort
import os

print("Memulai proses scraping ulasan untuk aplikasi Traveloka...")

try:
    # --- PROSES SCRAPING ---
    result = reviews_all(
        'com.traveloka.android',
        sleep_milliseconds=0,
        lang='id',
        country='id',
        sort=Sort.MOST_RELEVANT
    )

    print(f"Berhasil mendapatkan {len(result)} ulasan.")
    df_reviews = pd.DataFrame(result)

    desired_columns = [
        'reviewId', 'userName', 'userImage', 'content', 'score',
        'thumbsUpCount', 'reviewCreatedVersion', 'at', 'replyContent', 'repliedAt'
    ]
    df_final = df_reviews[desired_columns]
    df_final = df_final.rename(columns={'reviewCreatedVersion': 'appVersion'})

    output_filename = 'reviews_traveloka_scraped.csv'
    df_final.to_csv(output_filename, index=False, encoding='utf-8-sig')

    print(f"\n✅ Proses scraping selesai. Data telah disimpan di file '{output_filename}'")
    print(f"Lokasi file: {os.path.abspath(output_filename)}")

    # --- BAGIAN VERIFIKASI ---
    print("\n--- Verifikasi Isi File ---")
    # Membaca kembali file yang baru saja disimpan untuk memastikan file tidak korup/kosong
    df_verifikasi = pd.read_csv(output_filename)

    # Menampilkan 5 baris pertama dari file CSV yang sudah dibuat
    print("Berikut adalah 5 baris pertama dari data yang berhasil disimpan:")
    display(df_verifikasi.head())

except Exception as e:
    print(f"\n❌ Terjadi kesalahan: {e}")

# MENGGABUNGKAN DATA

Menggabungkan antara data streaming dan data batch

In [None]:
import pandas as pd

# Sesuaikan nama filenya
batch_file = 'revies_traveloka_googleplaystore.csv'
stream_file = 'reviews_traveloka_scraped.csv'
output_file = 'data_traveloka_gabungan.csv'

try:
    print(f"Membaca file batch: {batch_file}")
    # Menambahkan on_bad_lines='skip' untuk melewati baris yang error
    df_batch = pd.read_csv(batch_file, on_bad_lines='skip')

    print(f"Membaca file stream: {stream_file}")
    df_stream = pd.read_csv(stream_file, on_bad_lines='skip')

    print("File berhasil dibaca. Menggabungkan data...")

    # Menggabungkan kedua DataFrame
    df_gabungan = pd.concat([df_batch, df_stream], ignore_index=True)

    # Menyimpan hasil gabungan
    df_gabungan.to_csv(output_file, index=False)

    print(f"\n✅ Penggabungan berhasil! Data telah disimpan di file '{output_file}'.")

except FileNotFoundError as e:
    print(f"\n❌ Error: File tidak ditemukan! Pastikan nama file sudah benar dan file sudah diunggah.")
    print(f"Detail error: {e}")
except Exception as e:
    print(f"\n❌ Terjadi kesalahan lain: {e}")