# Panduan Lengkap Scraping Google Play Store dengan Python

---

## I. Tujuan Scraping Google Play Store

Scraping dilakukan untuk mengambil berbagai informasi aplikasi seperti:

- Nama aplikasi (`title`)
- Developer
- Kategori
- Rating, jumlah review, jumlah unduhan
- Deskripsi, ukuran, harga
- Sumber keyword, koleksi, atau kategori

---

## II. Alat dan Library yang Digunakan

### 1. [`google-play-scraper`](https://pypi.org/project/google-play-scraper/)
-  Mendukung: `search()`, `app()`, `reviews()`
-  Tidak mendukung lagi: `collection()`, `category`

### 2. [`play_scraper`](https://github.com/danieliu/play-scraper) *(opsional)*
- Mendukung `collection()` dan `category`
- Terbatas, tidak aktif dikembangkan

---

## III. Opsi Strategi Scraping

| Opsi Scraping | Deskripsi | Cocok untuk |
|---------------|-----------|-------------|
| **1. Kata Kunci (`search()`)** | Mencari aplikasi berdasarkan teks pencarian | Fleksibel dan aman |
| **2. Koleksi (`collection()`)** | Koleksi seperti `'TOP_FREE'`, `'NEW_PAID'` (hanya via `play_scraper`) | Gunakan jika butuh simulasi koleksi |
| **3. Kategori** | Contoh: `'PRODUCTIVITY'`, `'GAME_ACTION'` | Bisa disimulasikan dengan keyword |
| **4. App ID** | Gunakan ID spesifik untuk ambil detail | Fokus aplikasi tertentu |
| **5. Keyword × Koleksi (Simulasi)** | Kombinasikan keyword untuk meniru kategori & koleksi | Skala besar dan fleksibel |

---

## IV. Langkah-Langkah Scraping

### 🔹 1. Menentukan Tujuan dan Format Output
- Apakah ingin semua aplikasi populer? edukasi? hanya game?
- Output: CSV, JSON, atau MongoDB

---

### 🔹 2. Menyiapkan Keyword

```python
keywords = ['vpn app', 'photo editor', 'finance tracker', 'language learning']
```

---

### 🔹 3. Scraping dengan `search()` dan `app()`

```python
from google_play_scraper import search, app

data = []

results = search(query="vpn app", lang='en', country='us', n_hits=50)
for r in results:
    details = app(r['appId'], lang='en', country='us')
    data.append(details)
```

---

### 🔹 4. Menyimpan Data

```python
import json
with open('output.json', 'w') as f:
    json.dump(data, f, indent=4)
```

Atau dalam CSV:

```python
import pandas as pd
pd.DataFrame(data).to_csv("output.csv", index=False)
```

---

### 🔹 5. Analisis & Insight (Opsional)

Contoh insight yang bisa dianalisis:
- Rata-rata rating per kategori
- Jumlah aplikasi per keyword
- Word frequency dari deskripsi
- Aplikasi dengan unduhan terbanyak

---

## V. Kelebihan dan Keterbatasan

| Aspek | Penjelasan |
|-------|------------|
| ✅ Mudah digunakan | Library siap pakai & dokumentasi jelas |
| ✅ Info lengkap | `app()` menghasilkan detail yang kaya |
| ⚠️ Tidak mendukung koleksi resmi | `collection()` deprecated di `google-play-scraper` |
| ⚠️ Tanpa API resmi | Rentan rate-limit jika tidak hati-hati |
| ⚠️ Batas jumlah hasil | Maksimal ±250 hasil per keyword |

---

## VI. Best Practice

- Tambahkan `time.sleep(0.3)` antar request
- Hindari keyword terlalu umum seperti `'application'`
- Bersihkan dan verifikasi data (missing/null)
- Gunakan keyword spesifik & relevan dengan target analisis

# **Deskripsi Proyek Scraping Data Google Play Store**

## **Judul**
**Scraping dan Analisis Aplikasi Google Play Store Berdasarkan Koleksi dan Kategori**

---

## **Tujuan**
Mengumpulkan data aplikasi dari Google Play Store dengan pendekatan berbasis keyword yang mencakup berbagai **koleksi** (seperti `TOP_FREE`, `NEW_PAID`) dan **kategori** (seperti `PRODUCTIVITY`, `GAME_ACTION`). Tujuan utama adalah:
- Mengumpulkan metadata aplikasi populer
- Menganalisis tren rating, review, dan distribusi kategori
- Menyusun dataset untuk keperluan analisis lanjutan, seperti klasifikasi, visualisasi, atau insight bisnis

---

## **Apa yang Di-scrape**
Untuk setiap aplikasi, data berikut dikumpulkan:
- `app_name`: Nama aplikasi
- `developer`: Nama pengembang
- `category`: Kategori aplikasi
- `rating`: Rating pengguna (0.0–5.0)
- `number_of_reviews`: Jumlah ulasan
- `number_of_downloads`: Jumlah unduhan (dalam format seperti `"1,000,000+"`)
- `price`: Harga (biasanya `0` untuk aplikasi gratis)
- `size`: Ukuran file aplikasi (jika tersedia)
- `description`: Deskripsi singkat aplikasi
- `app_id`: ID unik aplikasi di Play Store
- `source_keyword`: Kata kunci scraping (koleksi/kategori yang digunakan)

---

## **Metode Scraping**
- **Library**: `google-play-scraper`
- **Metode**: Menggunakan fungsi `search()` untuk mendapatkan daftar aplikasi berdasarkan keyword, lalu fungsi `app()` untuk mengambil detailnya.
- **Jumlah Data**: Hingga 68 keyword × 50 aplikasi = ± 3.400 aplikasi unik
- **Bahasa & Lokasi**: English (`lang='en'`), Amerika Serikat (`country='us'`)
- **Penyimpanan**: Data disimpan dalam format JSON (`google_play_scraped_20x68.json`)

---

## **Keterbatasan**
- Tidak semua aplikasi yang ditampilkan benar-benar berasal dari koleksi/kategori karena `search()` bekerja berbasis keyword pencarian.
- Beberapa aplikasi bisa muncul lebih dari satu kali pada keyword yang mirip (disaring dengan `app_id`).
- Koleksi seperti `'TOP_FREE'` bukanlah parameter resmi untuk `search()`, tapi digunakan sebagai **simulasi keyword**.

---

## **Output yang Dihasilkan**
- File JSON: `google_play_scraped_20x68.json` yang berisi metadata lengkap aplikasi
- Dapat digunakan untuk analisis lebih lanjut seperti:
  - Clustering kategori aplikasi
  - Klasifikasi aplikasi populer
  - Insight tren rating berdasarkan kategori

# **Sintaks Scraping Data Google Play Store**

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
!pip install google-play-scraper

Collecting google-play-scraper
  Downloading google_play_scraper-1.2.7-py3-none-any.whl.metadata (50 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/50.2 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m50.2/50.2 kB[0m [31m1.8 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading google_play_scraper-1.2.7-py3-none-any.whl (28 kB)
Installing collected packages: google-play-scraper
Successfully installed google-play-scraper-1.2.7


In [3]:
from google_play_scraper import search, app
import json, time

keywords = [
    # Koleksi (14)
    'TOP_FREE', 'TOP_PAID', 'TOP_GROSSING', 'TRENDING',
    'NEW_FREE', 'NEW_PAID', 'NEW_FREE_GAMES', 'NEW_PAID_GAMES',
    'TOP_FREE_GAMES', 'TOP_PAID_GAMES', 'TOP_GROSSING_GAMES',
    'TOP_FREE_APPS', 'TOP_PAID_APPS', 'TOP_GROSSING_APPS',

    # Kategori Non-Game (34)
    'ART_AND_DESIGN', 'AUTO_AND_VEHICLES', 'BEAUTY', 'BOOKS_AND_REFERENCE',
    'BUSINESS', 'COMICS', 'COMMUNICATION', 'DATING', 'EDUCATION',
    'ENTERTAINMENT', 'EVENTS', 'FINANCE', 'FOOD_AND_DRINK',
    'HEALTH_AND_FITNESS', 'HOUSE_AND_HOME', 'LIBRARIES_AND_DEMO',
    'LIFESTYLE', 'MAPS_AND_NAVIGATION', 'MEDICAL', 'MUSIC_AND_AUDIO',
    'NEWS_AND_MAGAZINES', 'PARENTING', 'PERSONALIZATION', 'PHOTOGRAPHY',
    'PRODUCTIVITY', 'SHOPPING', 'SOCIAL', 'SPORTS', 'TOOLS',
    'TRAVEL_AND_LOCAL', 'VIDEO_PLAYERS', 'WEATHER',

    # Kategori Game & Family (20)
    'GAME', 'FAMILY', 'GAME_ACTION', 'GAME_ADVENTURE', 'GAME_ARCADE',
    'GAME_BOARD', 'GAME_CARD', 'GAME_CASINO', 'GAME_CASUAL',
    'GAME_EDUCATIONAL', 'GAME_MUSIC', 'GAME_PUZZLE', 'GAME_RACING',
    'GAME_ROLE_PLAYING', 'GAME_SIMULATION', 'GAME_SPORTS',
    'GAME_STRATEGY', 'GAME_TRIVIA', 'GAME_WORD',
    'FAMILY_ACTION', 'FAMILY_BRAINGAMES', 'FAMILY_CREATE'
]

all_apps = {}

for keyword in keywords:
    print(f"\nSearching: {keyword}")
    try:
        results = search(query=keyword, lang='en', country='us', n_hits=50)
        for idx, r in enumerate(results):
            app_id = r['appId']
            if app_id not in all_apps:
                try:
                    details = app(app_id, lang='en', country='us')
                    all_apps[app_id] = {
                        'app_name': details['title'],
                        'developer': details['developer'],
                        'category': details['genre'],
                        'rating': details.get('score'),
                        'number_of_reviews': details.get('reviews'),
                        'number_of_downloads': details.get('installs'),
                        'price': details.get('price'),
                        'size': details.get('size'),
                        'description': details.get('description'),
                        'app_id': app_id,
                        'source_keyword': keyword
                    }
                    print(f"  ✓ {idx+1}. {details['title']}")
                    time.sleep(0.3)
                except Exception as e:
                    print(f"Gagal ambil detail {app_id}: {e}")
    except Exception as e:
        print(f"Gagal search keyword {keyword}: {e}")


Searching: TOP_FREE
  ✓ 1. Tinder Dating App: Chat & Date
  ✓ 2. TextNow: Call + Text Unlimited
  ✓ 3. Bumble Dating App: Meet & Date
  ✓ 4. Free Fire MAX
  ✓ 5. Hinge Dating App: Match & Date
  ✓ 6. Royal Match
  ✓ 7. Angry Birds 2
  ✓ 8. Pandora - Music & Podcasts
  ✓ 9. Cash App
  ✓ 10. Gardenscapes
  ✓ 11. Fishdom
  ✓ 12. YouTube TV: Live TV & more
  ✓ 13. Candy Crush Soda Saga
  ✓ 14. Peacock TV: Stream TV & Movies
  ✓ 15. Walmart: Shopping & Savings
  ✓ 16. Google Voice
  ✓ 17. Mario Kart Tour
  ✓ 18. Tubi: Free Movies & Live TV
  ✓ 19. Royal Kingdom
  ✓ 20. SiriusXM: Music, Sports & News
  ✓ 21. June's Journey: Hidden Objects
  ✓ 22. Scrabble® GO-Classic Word Game
  ✓ 23. Calm - Sleep, Meditate, Relax
  ✓ 24. AVG AntiVirus & Security
  ✓ 25. Microsoft To Do: Lists & Tasks
  ✓ 26. Vita Mahjong
  ✓ 27. Rocket Money - Bills & Budgets
  ✓ 28. Fetch: America’s Rewards App
  ✓ 29. Elevate - Brain Training Games
  ✓ 30. The Weather Channel - Radar

Searching: TOP_PAID
  ✓ 1. Paid Keep

In [4]:
# Simpan ke file
with open('google_play_scraped_20x68.json', 'w', encoding='utf-8') as f:
    json.dump(list(all_apps.values()), f, ensure_ascii=False, indent=4)

print(f"\n Selesai! Total aplikasi unik: {len(all_apps)}")


 Selesai! Total aplikasi unik: 1493
