# Web Scraping Song Data from sendthesong.xyz with Selenium

This notebook demonstrates how to scrape song data from https://sendthesong.xyz/browse using Selenium for dynamic content.


In [29]:
import requests
import pandas as pd
import time
import json


In [32]:
import requests
import pandas as pd
import time
import json

# --- KONFIGURASI ---
API_URL = "https://api.sendthesong.xyz/api/posts"
SEARCH_QUERY = 'adit'  # Ganti dengan query pencarianmu
TARGET_DATA_COUNT = 20000
LIMIT_PER_PAGE = 50  # Mengambil 50 data per request agar lebih efisien

HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36',
    'Referer': 'https://sendthesong.xyz/' 
}

# --- PROSES SCRAPING ---
all_songs_data = []
current_page = 1

print(f"[*] Memulai proses scraping untuk query: '{SEARCH_QUERY}' dengan target {TARGET_DATA_COUNT} data.")

while len(all_songs_data) < TARGET_DATA_COUNT:
    params = {
        'q': SEARCH_QUERY,
        'page': current_page,
        'limit': LIMIT_PER_PAGE
    }

    print(f"[*] Mengambil data halaman {current_page} ({len(all_songs_data)}/{TARGET_DATA_COUNT})...")

    try:
        response = requests.get(API_URL, params=params, headers=HEADERS)

        if response.status_code == 200:
            data = response.json()
            
            # ASUMSI: List lagu ada di dalam key 'data'. 
            # SESUAIKAN NAMA KEY INI ('data') JIKA BERBEDA DENGAN STRUKTUR JSON-MU.
            # Contoh lain mungkin: data['posts'], data['results'], dll.
            new_songs = data.get('data', []) 
            
            if not new_songs:
                print("[!] Halaman tidak berisi data baru atau sudah mencapai halaman terakhir. Menghentikan proses.")
                break
            
            all_songs_data.extend(new_songs)
            current_page += 1

            # Beri jeda 0.25 detik antar request agar tidak membebani server (good practice)
            time.sleep(0.25) 
            
        else:
            print(f"[!] Gagal mengambil data di halaman {current_page}. Status Code: {response.status_code}. Menghentikan proses.")
            break
            
    except requests.exceptions.RequestException as e:
        print(f"[!] Terjadi error koneksi: {e}. Menghentikan proses.")
        break

print(f"\n[+] Total data berhasil dikumpulkan: {len(all_songs_data)}")

# --- PROSES KONVERSI & EXPORT KE CSV ---
if all_songs_data:
    try:
        # Mengubah list of dictionaries menjadi Pandas DataFrame
        df = pd.DataFrame(all_songs_data)
        
        # Menentukan nama file output
        output_filename = f'hasil_scraping_{SEARCH_QUERY.replace(" ", "_")}.csv'
        
        # Menyimpan DataFrame ke file CSV
        # index=False agar nomor index dari DataFrame tidak ikut ditulis ke file
        df.to_csv(output_filename, index=False, encoding='utf-8')
        
        print(f"\n[SUCCESS] Data telah berhasil diekspor ke file: '{output_filename}'")
        
    except Exception as e:
        print(f"\n[!] Terjadi error saat mengonversi ke CSV: {e}")
else:
    print("\n[!] Tidak ada data untuk diekspor.")

[*] Memulai proses scraping untuk query: 'adit' dengan target 20000 data.
[*] Mengambil data halaman 1 (0/20000)...
[*] Mengambil data halaman 2 (15/20000)...
[*] Mengambil data halaman 3 (30/20000)...
[*] Mengambil data halaman 4 (45/20000)...
[*] Mengambil data halaman 5 (60/20000)...
[*] Mengambil data halaman 6 (75/20000)...
[*] Mengambil data halaman 7 (90/20000)...
[*] Mengambil data halaman 8 (105/20000)...
[*] Mengambil data halaman 9 (120/20000)...
[*] Mengambil data halaman 10 (135/20000)...
[*] Mengambil data halaman 11 (150/20000)...
[*] Mengambil data halaman 12 (165/20000)...
[*] Mengambil data halaman 13 (180/20000)...
[*] Mengambil data halaman 14 (195/20000)...
[*] Mengambil data halaman 15 (210/20000)...
[*] Mengambil data halaman 16 (225/20000)...
[*] Mengambil data halaman 17 (240/20000)...
[*] Mengambil data halaman 18 (255/20000)...
[*] Mengambil data halaman 19 (270/20000)...
[*] Mengambil data halaman 20 (285/20000)...
[*] Mengambil data halaman 21 (300/20000)..

# GENERAL SCRAPE


In [30]:
import requests
import pandas as pd
import time
import json

# --- KONFIGURASI ---
API_URL = "https://api.sendthesong.xyz/api/posts"
TARGET_DATA_COUNT = 50000
LIMIT_PER_PAGE = 50  # Tetap 50 untuk efisiensi dan stabilitas
OUTPUT_FILENAME = "all_songs_data_50k.csv"

HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36',
    'Referer': 'https://sendthesong.xyz/' 
}

# --- PROSES SCRAPING ---
all_songs_data = []
current_page = 1

print(f"[*] Memulai proses ekstraksi massal dengan target {TARGET_DATA_COUNT} data.")
print(f"[*] Setiap request akan mengambil {LIMIT_PER_PAGE} data.")

while len(all_songs_data) < TARGET_DATA_COUNT:
    # Parameter kini hanya berisi 'page' dan 'limit', tanpa 'q'
    params = {
        'page': current_page,
        'limit': LIMIT_PER_PAGE
    }

    # Progress bar sederhana di terminal
    print(f"[*] Mengambil data halaman {current_page} | Total data terkumpul: {len(all_songs_data)}/{TARGET_DATA_COUNT}")

    try:
        response = requests.get(API_URL, params=params, headers=HEADERS)

        if response.status_code == 200:
            data = response.json()
            
            # Kita tetap menggunakan asumsi key 'data'
            # Sesuaikan jika perlu
            new_songs = data.get('data', []) 
            
            if not new_songs:
                print("[!] API tidak mengembalikan data baru. Kemungkinan sudah mencapai akhir dari semua data. Menghentikan proses.")
                break
            
            all_songs_data.extend(new_songs)
            
            # Batasi agar tidak melebihi target jika halaman terakhir berisi lebih dari yang dibutuhkan
            if len(all_songs_data) >= TARGET_DATA_COUNT:
                all_songs_data = all_songs_data[:TARGET_DATA_COUNT]
                print(f"[*] Target {TARGET_DATA_COUNT} data telah tercapai.")
                break

            current_page += 1
            time.sleep(1)  # Jeda 1 detik ini sangat penting untuk skala besar
            
        else:
            print(f"[!] Gagal mengambil data di halaman {current_page}. Status Code: {response.status_code}. Menghentikan proses.")
            break
            
    except requests.exceptions.RequestException as e:
        print(f"[!] Terjadi error koneksi: {e}. Menghentikan proses.")
        break

print(f"\n[+] Total data berhasil dikumpulkan: {len(all_songs_data)}")

# --- PROSES KONVERSI & EXPORT KE CSV ---
if all_songs_data:
    try:
        df = pd.DataFrame(all_songs_data)
        df.to_csv(OUTPUT_FILENAME, index=False, encoding='utf-8')
        print(f"\n[SUCCESS] Data telah berhasil diekspor ke file: '{OUTPUT_FILENAME}'")
        
    except Exception as e:
        print(f"\n[!] Terjadi error saat mengonversi ke CSV: {e}")
else:
    print("\n[!] Tidak ada data untuk diekspor.")

[*] Memulai proses ekstraksi massal dengan target 50000 data.
[*] Setiap request akan mengambil 50 data.
[*] Mengambil data halaman 1 | Total data terkumpul: 0/50000
[*] Mengambil data halaman 2 | Total data terkumpul: 15/50000
[*] Mengambil data halaman 3 | Total data terkumpul: 30/50000
[*] Mengambil data halaman 4 | Total data terkumpul: 45/50000
[*] Mengambil data halaman 5 | Total data terkumpul: 60/50000
[*] Mengambil data halaman 6 | Total data terkumpul: 75/50000
[*] Mengambil data halaman 7 | Total data terkumpul: 90/50000
[*] Mengambil data halaman 8 | Total data terkumpul: 105/50000
[*] Mengambil data halaman 9 | Total data terkumpul: 120/50000
[*] Mengambil data halaman 10 | Total data terkumpul: 135/50000
[*] Mengambil data halaman 11 | Total data terkumpul: 150/50000
[*] Mengambil data halaman 12 | Total data terkumpul: 165/50000
[*] Mengambil data halaman 13 | Total data terkumpul: 180/50000
[*] Mengambil data halaman 14 | Total data terkumpul: 195/50000
[*] Mengambil da

In [33]:
import requests
import pandas as pd
import time
import json

# --- KONFIGURASI ---
API_URL = "https://api.sendthesong.xyz/api/posts"
OUTPUT_FILENAME = "hasil_pencarian_nama_tergabung.csv"
LIMIT_PER_PAGE = 50
MAX_PAGES_PER_QUERY = 10 # Batas aman agar tidak terjebak pada nama yg hasilnya ribuan

# 1. Daftar Pencarian yang Diperluas
# Menambahkan beberapa variasi umum untuk cakupan maksimal
SEARCH_QUERIES = [
    'muhammad', 'aditya', 'adit', 'rizky', 'rizki', 'fauzan', 'reza', 
    'kevin', 'arya', 'fajar', 'dimas', 'gilang', 'putri', 'anisa', 
    'anissa', 'amanda', 'sarah', 'nadia', 'dinda', 'cindy', 'sindy',
    'lestari', 'nabila', 'ayu'
]

HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36',
    'Referer': 'https.sendthesong.xyz/' 
}

# --- PROSES SCRAPING ---
all_songs_data = []
total_queries = len(SEARCH_QUERIES)

# 2. Loop Luar: Iterasi untuk setiap nama
for index, query in enumerate(SEARCH_QUERIES):
    print(f"\n{'='*50}")
    print(f"[*] Memulai pencarian untuk: '{query}' ({index + 1}/{total_queries})")
    print(f"{'='*50}")
    
    current_page = 1
    
    # 3. Loop Dalam: Pagiansi untuk nama saat ini
    while current_page <= MAX_PAGES_PER_QUERY:
        params = {
            'q': query,
            'page': current_page,
            'limit': LIMIT_PER_PAGE
        }

        print(f"  -> Mencari '{query}', halaman {current_page}...")

        try:
            response = requests.get(API_URL, params=params, headers=HEADERS)

            if response.status_code == 200:
                data = response.json()
                
                # ASUMSI PENTING: ID unik lagu ada di key 'id'.
                # Ganti 'id' jika nama key-nya berbeda (misal: 'song_id', 'track_id')
                new_songs = data.get('data', [])
                
                if not new_songs:
                    print(f"  -- Tidak ada hasil lagi untuk '{query}'. Lanjut ke nama berikutnya.")
                    break
                
                all_songs_data.extend(new_songs)
                current_page += 1
                time.sleep(1.2) # Jeda sedikit lebih lama karena ini proses yang intensif
            else:
                print(f"  [!] Gagal di halaman {current_page} untuk '{query}'. Status: {response.status_code}. Lanjut ke nama berikutnya.")
                break
        except requests.exceptions.RequestException as e:
            print(f"  [!] Error koneksi untuk '{query}': {e}. Lanjut ke nama berikutnya.")
            break

print(f"\n{'='*50}")
print(f"[+] PROSES PENGAMBILAN DATA SELESAI")
print(f"Total data mentah (termasuk duplikat): {len(all_songs_data)}")
print(f"{'='*50}\n")


# --- PROSES DEDUPLIKASI & EXPORT ---
if all_songs_data:
    print("[*] Memulai proses konversi dan deduplikasi...")
    df = pd.DataFrame(all_songs_data)
    
    # 4. Deduplikasi Cerdas
    # Menghapus baris yang duplikat berdasarkan kolom 'id'.
    # Ganti 'id' dengan kolom unik dari datamu jika berbeda.
    try:
        initial_rows = len(df)
        df.drop_duplicates(subset=['id'], keep='first', inplace=True)
        final_rows = len(df)
        
        print(f"[+] Deduplikasi berhasil. Dihapus {initial_rows - final_rows} data duplikat.")
        print(f"[+] Total data unik: {final_rows}")

        # 5. Ekspor Final
        df.to_csv(OUTPUT_FILENAME, index=False, encoding='utf-8')
        print(f"\n[SUCCESS] Data unik telah berhasil diekspor ke file: '{OUTPUT_FILENAME}'")
    except KeyError:
        print("\n[!!!] ERROR: Kolom 'id' tidak ditemukan untuk deduplikasi.")
        print("    Silakan periksa output JSON-mu, temukan nama kolom ID uniknya, dan ubah di bagian df.drop_duplicates(subset=['id']).")
        print("    Menyimpan data mentah tanpa deduplikasi sebagai gantinya...")
        df.to_csv(f"MENTAH_{OUTPUT_FILENAME}", index=False, encoding='utf-8')
else:
    print("[!] Tidak ada data untuk diekspor.")


[*] Memulai pencarian untuk: 'muhammad' (1/24)
  -> Mencari 'muhammad', halaman 1...
  -> Mencari 'muhammad', halaman 2...
  -> Mencari 'muhammad', halaman 3...
  -> Mencari 'muhammad', halaman 4...
  -> Mencari 'muhammad', halaman 5...
  -> Mencari 'muhammad', halaman 6...
  -> Mencari 'muhammad', halaman 7...
  -> Mencari 'muhammad', halaman 8...
  -> Mencari 'muhammad', halaman 9...
  -> Mencari 'muhammad', halaman 10...

[*] Memulai pencarian untuk: 'aditya' (2/24)
  -> Mencari 'aditya', halaman 1...
  -> Mencari 'aditya', halaman 2...
  -> Mencari 'aditya', halaman 3...
  -> Mencari 'aditya', halaman 4...
  -> Mencari 'aditya', halaman 5...
  -> Mencari 'aditya', halaman 6...
  -> Mencari 'aditya', halaman 7...
  -> Mencari 'aditya', halaman 8...
  -> Mencari 'aditya', halaman 9...
  -> Mencari 'aditya', halaman 10...

[*] Memulai pencarian untuk: 'adit' (3/24)
  -> Mencari 'adit', halaman 1...
  -> Mencari 'adit', halaman 2...
  -> Mencari 'adit', halaman 3...
  -> Mencari 'adit

# Notes

- Increased the wait time for dynamic content to load (20 seconds).
- Added logs to print the page source and count of song cards for debugging.
- If the data still does not appear, inspect the website's structure for changes or use browser developer tools to debug.
- Added a check to verify if song cards are found. If not, the page source is logged for debugging.
- Ensure the CSS selector matches the website's structure. Use browser developer tools to inspect elements.
- If the issue persists, the website may have additional dynamic loading mechanisms.
