# Assignment Web Scraping

Pertanyaan : Tentukan data apa yang ingin Anda kumpulkan dari halaman salah satu website  di atas dan bagaimana data tersebut dapat digunakan dalam konteks aplikasi dunia nyata. Jelaskan mengapa data tersebut penting dan apa manfaatnya jika disimpan dalam database PostgreSQL.<br>

Jawaban :
Website yang digunakan : https://mamikos.com/booking/jakarta-selatan
Dari website penginapan  tersebut, data yang akan diambil meliputi  Nama Kost, Alamat Kost, Jenis Kost(Putra, Putri, Campur), Fasilitas Kos, Harga, dan Rating. Kumpulan  data ini berguna untuk Memudahkan pencarian dan perbandingan kost berdasarkan lokasi, harga, dan fasilitas, Analisis harga dan tren pasar untuk rekomendasi pemilik kost, Sistem penyaringan dan rekomendasi berdasarkan preferensi pengguna, Integrasi dengan peta untuk navigasi lokasi kost, dan Menyediakan rating dan review untuk transparansi.
Manfaat menyimpan data dalam database PostgreSQL:<br>
* Struktur Data yang Fleksibel, Mendukung tipe data kompleks seperti JSONB untuk menyimpan fasilitas kost yang bervariasi.
* Dukungan Geospatial (PostGIS), Memungkinkan penyimpanan dan analisis lokasi kost untuk pencarian berbasis peta.
* Keamanan dan Konsistensi Data, PostgreSQL memiliki ACID compliance yang menjaga keandalan transaksi data.
* Pencarian Cepat dan Efisien, Fitur Full-Text Search mempercepat pencarian berdasarkan nama, alamat, dan fasilitas.


In [None]:
pip install selenium # menghubungkan yang di local dan di internet



In [None]:
# import library yang dibutuhkan
import requests
from bs4 import BeautifulSoup # melihat analisis strukturan HTML
import time
from selenium import webdriver
import pandas as pd
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
import os
pd.options.display.max_colwidth = 300

## Scraping Villa
- https://www.hostelworld.com/pwa/wds/s?q=Porto,%20Portugal&country=Portugal&city=Porto&type=city&id=3871&from=2025-03-01&to=2025-03-02&guests=2&page=1&maxPrice=2000000&minPrice=200000

In [None]:
url_hotel = "https://mamikos.com/booking/jakarta-selatan"
# jika running di local, maka code option dibawah ini ga perlu di running lagi, cukup 1x diatas saja
# driver = webdriver.Firefox()
option = webdriver.ChromeOptions()
option.add_argument("--start-maximized")

#=============================
# open comment untuk running code dibawah ini jika run di google collab
option.add_argument("--headless")
option.add_argument("--disable-gpu")
option.add_argument("--no-sandbox")
option.add_argument("--remote-debugging-port=9230")
# comment 4 code diatas jika running di local / jupyter notebook dsb
#=============================

# mengkoneksikan - u melihat isi struktur HTML
driver_hotel = webdriver.Chrome(options=option)
driver_hotel.get(url_hotel)
# Membuat objek BeautifulSoup dari konten HTML
soup = BeautifulSoup(driver_hotel.page_source, "html.parser")

In [None]:
nama_kost = []  # list untuk menyimpan isi data
driver_kost = webdriver.Chrome(options=option)
url = f'https://mamikos.com/booking/jakarta-selatan'  # sumber URL
driver_kost.get(url)
time.sleep(3)

for page_num in range(1, 11):
    urls = url.format(page_num)
    page = requests.get(urls)

    try:
        # memunculkan elemen
      WebDriverWait(driver_kost, 20).until(EC.visibility_of_element_located((By.CLASS_NAME, "rc-info__name"))        )
    except:
      print(f"Elemen tidak ditemukan pada halaman")

    soup = BeautifulSoup(driver_kost.page_source, 'html.parser')
    div_containers = soup.select('div.room-list__card')


    for container in div_containers:
      html_nama_kost = container.find('span', attrs={'class': 'rc-info__name'})
      nama_kost.append(html_nama_kost.text.strip())

# membuat dataframe dari list
df_nama_kost = pd.DataFrame({'nama_kost': nama_kost})
print('total properties yang didapat : ', len(df_nama_kost)) # validasi data
# menampilkan dataframe
df_nama_kost

total properties yang didapat :  200


Unnamed: 0,nama_kost
0,Kost 3tranches Home Radio Dalam
1,Kost 3tranches Home Tipe D
2,Kost Habitat Studio
3,Kost Sulthan Tipe C
4,Kost Lauser 62B Tipe B
5,Kost Sulthan Tipe A
6,Kost Amalia Tipe D
7,Kost Purple Ungu Tipe A
8,Kost Tegal Parang Tipe B
9,Kost Tegal Parang Tipe C


In [None]:
alamat_kost = []  # # list untuk menyimpan isi data
driver_kost = webdriver.Chrome(options=option)
url = f'https://mamikos.com/booking/jakarta-selatan'  # sumber URL
driver_kost.get(url)
time.sleep(3)

for page_num in range(1, 11):
    urls = url.format(page_num)
    page = requests.get(urls)

    try:
        # memunculkan elemen
      WebDriverWait(driver_kost, 20).until(EC.visibility_of_element_located((By.CLASS_NAME, "rc-info__location")))
    except:
      print(f"Elemen tidak ditemukan pada halaman")

    soup = BeautifulSoup(driver_kost.page_source, 'html.parser')
    div_containers = soup.select('div.room-list__card')


    for container in div_containers:
      html_alamat_kost = container.find('span', attrs={'class': 'rc-info__location'})
      alamat_kost.append(html_alamat_kost.text.strip())

# membuat dataframe dari list
df_alamat_kost = pd.DataFrame({'alamat_kost': alamat_kost})
print('total properties yang didapat : ', len(df_alamat_kost)) # validasi data
# menampilkan dataframe
df_alamat_kost

total properties yang didapat :  200


Unnamed: 0,alamat_kost
0,Kebayoran Baru
1,Cilandak
2,Kecamatan Kebayoran Baru
3,Cilandak
4,Kebayoran Baru
5,Cilandak
6,Pasar Minggu
7,Pasar Minggu
8,Kecamatan Mampang Prapatan
9,Kecamatan Mampang Prapatan


In [None]:
jenis_kost = []  # # list untuk menyimpan isi data
driver_kost = webdriver.Chrome(options=option)
url = f'https://mamikos.com/booking/jakarta-selatan'  # sumber URL
driver_kost.get(url)
time.sleep(3)

for page_num in range(1, 11):
    urls = url.format(page_num)
    page = requests.get(urls)

    try:
        # memunculkan elemen
      WebDriverWait(driver_kost, 20).until(EC.visibility_of_element_located((By.CLASS_NAME, "rc-overview__label")))
    except:
      print(f"Elemen tidak ditemukan pada halaman")

    soup = BeautifulSoup(driver_kost.page_source, 'html.parser')
    div_containers = soup.select('div.room-list__card')


    for container in div_containers:
      html_jenis_kost = container.find('div', attrs={'class': 'rc-overview__label'})
      jenis_kost.append(html_jenis_kost.text.strip())

# membuat dataframe dari list
df_jenis_kost = pd.DataFrame({'jenis_kost': jenis_kost})
print('total properties yang didapat : ', len(df_jenis_kost)) # validasi data
# menampilkan dataframe
df_jenis_kost

total properties yang didapat :  200


Unnamed: 0,jenis_kost
0,Campur
1,Campur
2,Campur
3,Putri
4,Campur
5,Putri
6,Putri
7,Putri
8,Putri
9,Putri


In [None]:
harga_kost = []  # # list untuk menyimpan isi data
driver_kost = webdriver.Chrome(options=option)
url = f'https://mamikos.com/booking/jakarta-selatan'  # sumber URL
driver_kost.get(url)
time.sleep(3)

for page_num in range(1, 11):
    urls = url.format(page_num)
    page = requests.get(urls)

    try:
        # memunculkan elemen
      WebDriverWait(driver_kost, 20).until(EC.visibility_of_element_located((By.CLASS_NAME, "rc-price__text")))
    except:
      print(f"Elemen tidak ditemukan pada halaman")

    soup = BeautifulSoup(driver_kost.page_source, 'html.parser')
    div_containers = soup.select('div.room-list__card')


    for container in div_containers:
      html_harga_kost = container.find('span', attrs={'class': 'rc-price__text'})
      harga_kost.append(html_harga_kost.text.strip())

# membuat dataframe dari list
df_harga_kost = pd.DataFrame({'harga_kost': harga_kost})
print('total properties yang didapat : ', len(df_harga_kost)) # validasi data
# menampilkan dataframe
df_harga_kost

total properties yang didapat :  200


Unnamed: 0,harga_kost
0,Rp3.500.000
1,Rp4.000.000
2,Rp6.500.000
3,Rp1.165.000
4,Rp2.601.000
5,Rp1.355.000
6,Rp1.640.000
7,Rp1.763.800
8,Rp2.732.500
9,Rp2.352.500


In [None]:
rating_kost = []  # # list untuk menyimpan isi data
driver_kost = webdriver.Chrome(options=option)
url = f'https://mamikos.com/booking/jakarta-selatan'  # sumber URL
driver_kost.get(url)
time.sleep(3)

for page_num in range(1, 11):
    urls = url.format(page_num)
    page = requests.get(urls)

    try:
        # memunculkan elemen
      WebDriverWait(driver_kost, 20).until(EC.visibility_of_element_located((By.CLASS_NAME, "rc-overview__rating-text")))
    except:
      print(f"Elemen tidak ditemukan pada halaman")

    soup = BeautifulSoup(driver_kost.page_source, 'html.parser')
    div_containers = soup.select('div.room-list__card')


    for container in div_containers:
      html_rating_kost = container.find('span', attrs={'class': 'rc-overview__rating-text'})
      rating_kost.append(html_rating_kost.get_text(strip=True) if html_rating_kost else "None")


# membuat dataframe dari list
df_rating_kost = pd.DataFrame({'rating_kost': rating_kost})
print('total properties yang didapat : ', len(df_rating_kost)) # validasi data
# menampilkan dataframe
df_rating_kost

total properties yang didapat :  200


Unnamed: 0,rating_kost
0,5.0
1,3.6
2,
3,4.6
4,4.8
5,4.9
6,5.0
7,4.9
8,4.9
9,4.8


In [None]:
fasilitas_kost = []  # # list untuk menyimpan isi data
driver_kost = webdriver.Chrome(options=option)
url = f'https://mamikos.com/booking/jakarta-selatan'  # sumber URL
driver_kost.get(url)
time.sleep(3)

for page_num in range(1, 11):
    urls = url.format(page_num)
    page = requests.get(urls)

    try:
        # memunculkan elemen
      WebDriverWait(driver_kost, 20).until(EC.visibility_of_element_located((By.CLASS_NAME, "rc-facilities")))
    except:
      print(f"Elemen tidak ditemukan pada halaman")

    soup = BeautifulSoup(driver_kost.page_source, 'html.parser')
    div_containers = soup.select('div.room-list__card')


    for container in div_containers:
      html_fasilitas_kost = container.find('div', attrs={'class': 'rc-facilities'})
      fasilitas_kost.append(html_fasilitas_kost.text.strip())

# membuat dataframe dari list
df_fasilitas_kost = pd.DataFrame({'fasilitas_kost': fasilitas_kost})
print('total properties yang didapat : ', len(df_fasilitas_kost)) # validasi data
# menampilkan dataframe
df_fasilitas_kost

total properties yang didapat :  200


Unnamed: 0,fasilitas_kost
0,K. Mandi Dalam·AC·Kloset Duduk·Kasur
1,K. Mandi Dalam·WiFi·AC·Kloset Duduk·Kasur·Akses 24 Jam
2,K. Mandi Dalam·WiFi·AC·Kloset Duduk·Kasur·Akses 24 Jam
3,K. Mandi Dalam·WiFi·Kasur
4,K. Mandi Dalam·WiFi·AC·Kloset Duduk·Kasur·Akses 24 Jam
5,K. Mandi Dalam·WiFi·Kasur
6,WiFi·AC·Kloset Duduk·Kasur
7,K. Mandi Dalam·WiFi·AC·Kloset Duduk·Kasur·Akses 24 Jam
8,K. Mandi Dalam·WiFi·AC·Kloset Duduk·Kasur·Akses 24 Jam
9,WiFi·AC·Kloset Duduk·Kasur·Akses 24 Jam


## Data Cleaning (sederhana)

In [None]:
#menggabungkan semua data yang telah dilakukan scrapping kedalam 1 dataframe
df_mami_kost_jaksel = pd.concat([df_nama_kost, df_alamat_kost, df_jenis_kost, df_fasilitas_kost, df_harga_kost, df_rating_kost], axis=1)
print('total properties yang didapat : ', len(df_mami_kost_jaksel))
df_mami_kost_jaksel.head(10)

total properties yang didapat :  200


Unnamed: 0,nama_kost,alamat_kost,jenis_kost,fasilitas_kost,harga_kost,rating_kost
0,Kost 3tranches Home Radio Dalam,Kebayoran Baru,Campur,K. Mandi Dalam·AC·Kloset Duduk·Kasur,Rp3.500.000,5.0
1,Kost 3tranches Home Tipe D,Cilandak,Campur,K. Mandi Dalam·WiFi·AC·Kloset Duduk·Kasur·Akses 24 Jam,Rp4.000.000,3.6
2,Kost Habitat Studio,Kecamatan Kebayoran Baru,Campur,K. Mandi Dalam·WiFi·AC·Kloset Duduk·Kasur·Akses 24 Jam,Rp6.500.000,
3,Kost Sulthan Tipe C,Cilandak,Putri,K. Mandi Dalam·WiFi·Kasur,Rp1.165.000,4.6
4,Kost Lauser 62B Tipe B,Kebayoran Baru,Campur,K. Mandi Dalam·WiFi·AC·Kloset Duduk·Kasur·Akses 24 Jam,Rp2.601.000,4.8
5,Kost Sulthan Tipe A,Cilandak,Putri,K. Mandi Dalam·WiFi·Kasur,Rp1.355.000,4.9
6,Kost Amalia Tipe D,Pasar Minggu,Putri,WiFi·AC·Kloset Duduk·Kasur,Rp1.640.000,5.0
7,Kost Purple Ungu Tipe A,Pasar Minggu,Putri,K. Mandi Dalam·WiFi·AC·Kloset Duduk·Kasur·Akses 24 Jam,Rp1.763.800,4.9
8,Kost Tegal Parang Tipe B,Kecamatan Mampang Prapatan,Putri,K. Mandi Dalam·WiFi·AC·Kloset Duduk·Kasur·Akses 24 Jam,Rp2.732.500,4.9
9,Kost Tegal Parang Tipe C,Kecamatan Mampang Prapatan,Putri,WiFi·AC·Kloset Duduk·Kasur·Akses 24 Jam,Rp2.352.500,4.8


In [None]:
df_mami_kost_jaksel.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   nama_kost       200 non-null    object
 1   alamat_kost     200 non-null    object
 2   jenis_kost      200 non-null    object
 3   fasilitas_kost  200 non-null    object
 4   harga_kost      200 non-null    object
 5   rating_kost     200 non-null    object
dtypes: object(6)
memory usage: 9.5+ KB


In [None]:
# Fungsi untuk membersihkan harga dan mengubah ke angka (tanpa Rp.)
import re # Import the 're' module for regular expressions

def clean_price(value):
    if isinstance(value, str):  # Pastikan nilai adalah string
        match = re.search(r'Rp[\s]?([\d\.]+)', value)  # Cari angka setelah "Rp"
        if match:
            return int(match.group(1).replace('.', ''))  # Hapus titik dan ubah ke integer
    return None  # Jika format tidak sesuai, kembalikan None

# Terapkan fungsi ke kolom "Harga Kost"
df_mami_kost_jaksel['harga_kost_numerik'] = df_mami_kost_jaksel['harga_kost'].apply(clean_price)
df_mami_kost_jaksel

Unnamed: 0,nama_kost,alamat_kost,jenis_kost,fasilitas_kost,harga_kost,rating_kost,harga_kost_numerik
0,Kost 3tranches Home Radio Dalam,Kebayoran Baru,Campur,K. Mandi Dalam·AC·Kloset Duduk·Kasur,Rp3.500.000,5.0,3500000
1,Kost 3tranches Home Tipe D,Cilandak,Campur,K. Mandi Dalam·WiFi·AC·Kloset Duduk·Kasur·Akses 24 Jam,Rp4.000.000,3.6,4000000
2,Kost Habitat Studio,Kecamatan Kebayoran Baru,Campur,K. Mandi Dalam·WiFi·AC·Kloset Duduk·Kasur·Akses 24 Jam,Rp6.500.000,,6500000
3,Kost Sulthan Tipe C,Cilandak,Putri,K. Mandi Dalam·WiFi·Kasur,Rp1.165.000,4.6,1165000
4,Kost Lauser 62B Tipe B,Kebayoran Baru,Campur,K. Mandi Dalam·WiFi·AC·Kloset Duduk·Kasur·Akses 24 Jam,Rp2.601.000,4.8,2601000
5,Kost Sulthan Tipe A,Cilandak,Putri,K. Mandi Dalam·WiFi·Kasur,Rp1.355.000,4.9,1355000
6,Kost Amalia Tipe D,Pasar Minggu,Putri,WiFi·AC·Kloset Duduk·Kasur,Rp1.640.000,5.0,1640000
7,Kost Purple Ungu Tipe A,Pasar Minggu,Putri,K. Mandi Dalam·WiFi·AC·Kloset Duduk·Kasur·Akses 24 Jam,Rp1.763.800,4.9,1763800
8,Kost Tegal Parang Tipe B,Kecamatan Mampang Prapatan,Putri,K. Mandi Dalam·WiFi·AC·Kloset Duduk·Kasur·Akses 24 Jam,Rp2.732.500,4.9,2732500
9,Kost Tegal Parang Tipe C,Kecamatan Mampang Prapatan,Putri,WiFi·AC·Kloset Duduk·Kasur·Akses 24 Jam,Rp2.352.500,4.8,2352500


In [None]:
#mengubah None di rating menjadi 0
df_mami_kost_jaksel['rating_kost'].replace('None', 0, inplace=True)
df_mami_kost_jaksel

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_mami_kost_jaksel['rating_kost'].replace('None', 0, inplace=True)


Unnamed: 0,nama_kost,alamat_kost,jenis_kost,fasilitas_kost,harga_kost,rating_kost,harga_kost_numerik
0,Kost 3tranches Home Radio Dalam,Kebayoran Baru,Campur,K. Mandi Dalam·AC·Kloset Duduk·Kasur,Rp3.500.000,5.0,3500000
1,Kost 3tranches Home Tipe D,Cilandak,Campur,K. Mandi Dalam·WiFi·AC·Kloset Duduk·Kasur·Akses 24 Jam,Rp4.000.000,3.6,4000000
2,Kost Habitat Studio,Kecamatan Kebayoran Baru,Campur,K. Mandi Dalam·WiFi·AC·Kloset Duduk·Kasur·Akses 24 Jam,Rp6.500.000,0.0,6500000
3,Kost Sulthan Tipe C,Cilandak,Putri,K. Mandi Dalam·WiFi·Kasur,Rp1.165.000,4.6,1165000
4,Kost Lauser 62B Tipe B,Kebayoran Baru,Campur,K. Mandi Dalam·WiFi·AC·Kloset Duduk·Kasur·Akses 24 Jam,Rp2.601.000,4.8,2601000
5,Kost Sulthan Tipe A,Cilandak,Putri,K. Mandi Dalam·WiFi·Kasur,Rp1.355.000,4.9,1355000
6,Kost Amalia Tipe D,Pasar Minggu,Putri,WiFi·AC·Kloset Duduk·Kasur,Rp1.640.000,5.0,1640000
7,Kost Purple Ungu Tipe A,Pasar Minggu,Putri,K. Mandi Dalam·WiFi·AC·Kloset Duduk·Kasur·Akses 24 Jam,Rp1.763.800,4.9,1763800
8,Kost Tegal Parang Tipe B,Kecamatan Mampang Prapatan,Putri,K. Mandi Dalam·WiFi·AC·Kloset Duduk·Kasur·Akses 24 Jam,Rp2.732.500,4.9,2732500
9,Kost Tegal Parang Tipe C,Kecamatan Mampang Prapatan,Putri,WiFi·AC·Kloset Duduk·Kasur·Akses 24 Jam,Rp2.352.500,4.8,2352500


In [None]:
#merubah dataframe menjadi file csv
df_mami_kost = df_mami_kost_jaksel.to_csv('mami_kost_jaksel.csv')

In [None]:
#mendowload file csv ke local
from google.colab import files
files.download("mami_kost_jaksel.csv")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>