In [1]:
import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import pandas as pd
from bs4 import BeautifulSoup

In [1]:
def scrape_data(url):
    # Inisialisasi webdriver Selenium (pastikan Anda telah menginstal WebDriver yang sesuai, seperti chromedriver)
    driver = webdriver.Chrome()  # Ubah 'path_to_chromedriver' ke path sesuai dengan lokasi chromedriver

    # Membuka halaman web dengan webdriver
    driver.get(url)
    
    # Menunggu hingga splash screen hilang (dalam contoh ini, menunggu selama 10 detik)
    time.sleep(10)
    wait = WebDriverWait(driver, 10)
    wait.until(EC.invisibility_of_element_located((By.CLASS_NAME, 'splash-screen')))

    # Menginisialisasi list untuk menyimpan semua data
    all_data = []

    # Mengambil data dari semua halaman
    while True:
        # Mengambil HTML yang dimuat setelah splash screen hilang
        html = driver.page_source

        # Membuat objek BeautifulSoup
        soup = BeautifulSoup(html, 'html.parser')

        # Mencari elemen tabel menggunakan class atau tag yang sesuai
        table = soup.find('table')  # Ganti dengan class atau tag yang sesuai dengan tabel yang ingin Anda scrape

        # Mengambil data dari tabel
        data = []
        for row in table.find_all('tr'):
            row_data = [cell.get_text(strip=True) for cell in row.find_all('td')]
            data.append(row_data)

        # Menambahkan data dari halaman saat ini ke dalam list all_data
        all_data.extend(data)

        # Mencari tombol halaman berikutnya
        next_button = driver.find_element(By.XPATH, '//button[@aria-label="next page"]')

        # Memeriksa apakah tombol halaman berikutnya dapat diklik
        is_enabled = next_button.is_enabled()
        if not is_enabled:
            break  # Keluar dari loop jika tombol halaman berikutnya tidak dapat diklik
        
        time.sleep(3)
        # Klik tombol halaman berikutnya
        next_button.click()

        # Menunggu 5 detik sebelum melanjutkan ke halaman berikutnya
        time.sleep(5)

    # Menutup webdriver
    driver.quit()

    # Membuat DataFrame dari all_data
    df = pd.DataFrame(all_data)

    # Ubah nama kolom, hapus baris dengan nilai NaN, dan set kolom 'No' sebagai indeks
    df = df.rename(columns={
        0: 'No',
        1: 'Nama Siswa',
        2: 'NISN',
        3: 'Status Domisili',
        4: 'Asal Sekolah',
        5: 'Sekolah Pilihan 1',
        6: 'Sekolah Pilihan 2'
    }).dropna().set_index(['No'])

    # Kembalikan DataFrame
    return df

In [2]:
# Link masing-masing sekolah dalam PPDB
smp1 = 'https://ppdb.kotabogor.go.id/statuspendaftar/6058e604-2df5-e011-91f0-e9feaa2e9d74'
smp2 = 'https://ppdb.kotabogor.go.id/statuspendaftar/60f12206-2df5-e011-8a46-6bf253e496ab'
smp3 = 'https://ppdb.kotabogor.go.id/statuspendaftar/e0000704-2df5-e011-842f-5d02e391b0b3'
smp4 = 'https://ppdb.kotabogor.go.id/statuspendaftar/607bb104-2df5-e011-a567-cdd9515cb43f'
smp5 = 'https://ppdb.kotabogor.go.id/statuspendaftar/f0273e04-2df5-e011-961b-63e7601dc96d'
smp6 = 'https://ppdb.kotabogor.go.id/statuspendaftar/70bb2206-2df5-e011-9597-1d0c912b7fe2'
smp7 = 'https://ppdb.kotabogor.go.id/statuspendaftar/90fc7304-2df5-e011-a95a-a72eb9f84dfc'
smp8 = 'https://ppdb.kotabogor.go.id/statuspendaftar/e0ebb904-2df5-e011-9694-2bdcdc771da2'
smp9 = 'https://ppdb.kotabogor.go.id/statuspendaftar/50bdf204-2df5-e011-b95c-d9c2a72684e3'
smp10 = 'https://ppdb.kotabogor.go.id/statuspendaftar/20692206-2df5-e011-b8cd-eb0fff6548c8'
smp11 = 'https://ppdb.kotabogor.go.id/statuspendaftar/50d62206-2df5-e011-8b91-5d869f6d3ae8'
smp12 = 'https://ppdb.kotabogor.go.id/statuspendaftar/00d43304-2df5-e011-ad5f-d91be70663ff'
smp13 = 'https://ppdb.kotabogor.go.id/statuspendaftar/e0762206-2df5-e011-a086-b975477e1497'
smp14 = 'https://ppdb.kotabogor.go.id/statuspendaftar/1012c504-2df5-e011-88b4-8d189dce69ba'
smp15 = 'https://ppdb.kotabogor.go.id/statuspendaftar/5048e004-2df5-e011-9fbe-f373041d48cf'
smp16 = 'https://ppdb.kotabogor.go.id/statuspendaftar/00602306-2df5-e011-8356-59f8c43970df'
smp17 = 'https://ppdb.kotabogor.go.id/statuspendaftar/4049e204-2df5-e011-afcd-97e36bdf92a9'
smp18 = 'https://ppdb.kotabogor.go.id/statuspendaftar/206ae404-2df5-e011-ae3d-9b7426cfeeb7'
smp19 = 'https://ppdb.kotabogor.go.id/statuspendaftar/c069ca04-2df5-e011-9836-fda4cfa6b24a'
smp20 = 'https://ppdb.kotabogor.go.id/statuspendaftar/c02a2306-2df5-e011-b927-093051a2f742'

# Mengambil data penerimaan siswa zonasi per SMP

In [3]:
smp_urls = [
    'https://ppdb.kotabogor.go.id/statuspendaftar/6058e604-2df5-e011-91f0-e9feaa2e9d74',
    'https://ppdb.kotabogor.go.id/statuspendaftar/60f12206-2df5-e011-8a46-6bf253e496ab',
    'https://ppdb.kotabogor.go.id/statuspendaftar/e0000704-2df5-e011-842f-5d02e391b0b3',
    'https://ppdb.kotabogor.go.id/statuspendaftar/607bb104-2df5-e011-a567-cdd9515cb43f',
    'https://ppdb.kotabogor.go.id/statuspendaftar/f0273e04-2df5-e011-961b-63e7601dc96d',
    'https://ppdb.kotabogor.go.id/statuspendaftar/70bb2206-2df5-e011-9597-1d0c912b7fe2',
    'https://ppdb.kotabogor.go.id/statuspendaftar/90fc7304-2df5-e011-a95a-a72eb9f84dfc',
    'https://ppdb.kotabogor.go.id/statuspendaftar/e0ebb904-2df5-e011-9694-2bdcdc771da2',
    'https://ppdb.kotabogor.go.id/statuspendaftar/50bdf204-2df5-e011-b95c-d9c2a72684e3',
    'https://ppdb.kotabogor.go.id/statuspendaftar/20692206-2df5-e011-b8cd-eb0fff6548c8',
    'https://ppdb.kotabogor.go.id/statuspendaftar/50d62206-2df5-e011-8b91-5d869f6d3ae8',
    'https://ppdb.kotabogor.go.id/statuspendaftar/00d43304-2df5-e011-ad5f-d91be70663ff',
    'https://ppdb.kotabogor.go.id/statuspendaftar/e0762206-2df5-e011-a086-b975477e1497',
    'https://ppdb.kotabogor.go.id/statuspendaftar/1012c504-2df5-e011-88b4-8d189dce69ba',
    'https://ppdb.kotabogor.go.id/statuspendaftar/5048e004-2df5-e011-9fbe-f373041d48cf',
    'https://ppdb.kotabogor.go.id/statuspendaftar/00602306-2df5-e011-8356-59f8c43970df',
    'https://ppdb.kotabogor.go.id/statuspendaftar/4049e204-2df5-e011-afcd-97e36bdf92a9',
    'https://ppdb.kotabogor.go.id/statuspendaftar/206ae404-2df5-e011-ae3d-9b7426cfeeb7',
    'https://ppdb.kotabogor.go.id/statuspendaftar/c069ca04-2df5-e011-9836-fda4cfa6b24a',
    'https://ppdb.kotabogor.go.id/statuspendaftar/c02a2306-2df5-e011-b927-093051a2f742'
]

In [6]:
# Membuat DataFrame dan melakukan ekspor ke CSV untuk setiap variabel URL
for i, url in enumerate(smp_urls):
    df = scrape_data(url)
    filename = f'datasets/smp{i+1}_zonasi.csv'
    df.to_csv(filename)
    print(f"'{filename}' berhasil dibuat, bentuk dataframe '{df.shape}'")
    time.sleep(10)

'datasets/smp1_zonasi.csv' berhasil dibuat, bentuk dataframe '(372, 6)'
'datasets/smp2_zonasi.csv' berhasil dibuat, bentuk dataframe '(226, 6)'
'datasets/smp3_zonasi.csv' berhasil dibuat, bentuk dataframe '(452, 6)'
'datasets/smp4_zonasi.csv' berhasil dibuat, bentuk dataframe '(481, 6)'
'datasets/smp5_zonasi.csv' berhasil dibuat, bentuk dataframe '(574, 6)'
'datasets/smp6_zonasi.csv' berhasil dibuat, bentuk dataframe '(515, 6)'
'datasets/smp7_zonasi.csv' berhasil dibuat, bentuk dataframe '(407, 6)'
'datasets/smp8_zonasi.csv' berhasil dibuat, bentuk dataframe '(454, 6)'
'datasets/smp9_zonasi.csv' berhasil dibuat, bentuk dataframe '(600, 6)'
'datasets/smp10_zonasi.csv' berhasil dibuat, bentuk dataframe '(324, 6)'
'datasets/smp11_zonasi.csv' berhasil dibuat, bentuk dataframe '(167, 6)'
'datasets/smp12_zonasi.csv' berhasil dibuat, bentuk dataframe '(455, 6)'
'datasets/smp13_zonasi.csv' berhasil dibuat, bentuk dataframe '(339, 6)'
'datasets/smp14_zonasi.csv' berhasil dibuat, bentuk datafram

# Daya Tampung

In [9]:
# Inisialisasi
driver = webdriver.Chrome()

# Buka halaman web target
driver.get('https://ppdb.kotabogor.go.id/dayatampung')

# Cari elemen tabel
table = driver.find_element(By.CSS_SELECTOR, 'table[role="table"].MuiTable-root.MuiTable-stickyHeader.table-row-color.muiltr-1xzua5t')

# Proses data dalam tabel
data_rows = []
rows = table.find_elements(By.TAG_NAME, 'tr')
for row in rows:
    cells = row.find_elements(By.TAG_NAME, 'td')
    row_data = [cell.text for cell in cells]
    data_rows.append(row_data)

# Tutup WebDriver
driver.quit()

In [16]:
df = pd.DataFrame(data_rows, columns=['No', 'Nama Sekolah', 'NPSN', 'Zonasi (55%)', 'Afirmasi dan ABK (20%)', 'Perpindahan Ortu dan Mutasi GTK (5%)', 'Prestasi Akademik dan Non Akademik (20%)', 'Rombel', 'Jumlah']).dropna().set_index(['No'])

In [17]:
df

Unnamed: 0_level_0,Nama Sekolah,NPSN,Zonasi (55%),Afirmasi dan ABK (20%),Perpindahan Ortu dan Mutasi GTK (5%),Prestasi Akademik dan Non Akademik (20%),Rombel,Jumlah
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,SMP NEGERI 1 BOGOR,20220385,141,51,13,51,8,256
2,SMP NEGERI 2,20220376,158,58,14,58,9,288
3,SMP NEGERI 3 BOGOR,20220377,141,51,13,51,8,256
4,SMP NEGERI 4 BOGOR,20220378,158,58,14,58,9,288
5,SMP NEGERI 5,20220379,158,58,14,58,9,288
6,SMP NEGERI 6,20220380,158,58,14,58,9,288
7,SMP NEGERI 7 BOGOR,20220381,158,58,14,58,9,288
8,SMP NEGERI 8 BOGOR,20220382,158,58,14,58,9,288
9,SMP NEGERI 9 BOGOR,20220354,158,58,14,58,9,288
10,SMP NEGERI 10 BOGOR,20220386,141,51,13,51,8,256


In [18]:
df.to_csv('datasets/smp_dayatampung.csv')