<a href="https://colab.research.google.com/github/doniretrianto/kalkulator.doni/blob/master/Web_Scraping_Starter.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **1. Install Library**

Pada tahap ini, kita melakukan instalasi beberapa library yang dibutuhkan.

In [1]:
!pip install requests
!pip install beautifulsoup4



## **2. Import Library**

Untuk menggunakan library pada Python, kita harus melakukan import library tersebut menggunakan perintah `import`.

In [2]:
import requests
from bs4 import BeautifulSoup
import time # rate limiting
import pandas as pd # untuk export csv

## **3. Fungsi Scrap City (`scrap_city`)**

Fungsi `scrap_city` berfungsi untuk mengambil data-data rumah pada kota tertentu.

In [3]:
def scrap_city(city, url, page=1):
    print(f"Scraping halaman {page} untuk city {city}")

    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"
    }

    # ambil content HTML pada url tersebut
    response = requests.get(url + f"?page={page}", headers=headers)

    # check response
    print(response.status_code)

    # print(response.text)
    soup = BeautifulSoup(response.text, "html.parser")

    # ambil container utama
    container = soup.find('div', {'class': 'card-list-section'})

    # ambil semua elemen rumah
    featured = container.find_all('div', {'class': 'featured-card-component'})

    print(f"Jumlah rumah: {len(featured)}")

    data = [] # untuk menyimpan data hasil scraping

    # loop untuk setiap rumah
    for idx, house in enumerate(featured):
        print(f"Scraping rumah ke-{idx + 1}")

        # ambil container untuk rumah
        content = house.find('div', {'class': 'card-featured__middle-section'})

        if content is None:
            continue

        price = content.find('div', {'class': 'card-featured__middle-section__price'}).text.strip()
        # print(price)

        # ambil judul rumah, anak ke-3 dari content
        title = content.contents[2].text.strip()

        # ambil lokasi rumah, anak ke-4 dari content
        location = content.contents[3].text.strip()

        #print(title)
        #print(location)

        features = content.find('div', {'class': 'card-featured__middle-section__attribute'})
        attributes = features.find_all('span', {'class': 'attribute-text'})

        bedrooms = attributes[0].text.strip()
        bathrooms = attributes[1].text.strip()
        garage = attributes[2].text.strip() if len(attributes) > 2 else ""

        area = features.contents[1].text.strip() # anak ke-2
        building_area = features.contents[2].text.strip() # anak ke-3

        data.append({
            'city': city,
            'title': title,
            'price': price,
            'location': location,
            'area': area,
            'building_area': building_area,
            'bedrooms': bedrooms,
            'bathrooms': bathrooms,
            'garage': garage
        })

    time.sleep(3) # pause 3 second

    return data


## **4. Fungsi untuk Mulai Scrap**

Fungsi `start_scrap` berfungsi untuk memulai proses scraping pada beberapa kota. Didalamnya, fungsi ini akan memanggil fungsi `scrap_city`.

In [4]:
def start_scraping(cities, max_page_per_city = 10):
    data = []

    for city, url in cities.items():
        for page in range(1, max_page_per_city + 1):
            page_data = scrap_city(city, url, page)
            data.extend(page_data)


    return data

## **5. Program Utama**

Ini adalah program utama. Program akan dimulai pada kode ini.

In [5]:
cities = {
    "Jakarta Barat": "https://www.rumah123.com/jual/jakarta-barat/rumah/",
    "Jakarta Timur": "https://www.rumah123.com/jual/jakarta-timur/rumah/",
    "Jakarta Utara": "https://www.rumah123.com/jual/jakarta-utara/rumah/",
    "Jakarta Pusat": "https://www.rumah123.com/jual/jakarta-pusat/rumah/",
    "Depok": "https://www.rumah123.com/jual/depok/rumah/",
}

#scrap_city("Jakarta Barat",
#           "https://www.rumah123.com/jual/jakarta-barat/rumah/")

data = start_scraping(cities, 2)


# simpan ke dalam csv
df = pd.DataFrame(data)
df.to_csv('harga_rumah.csv', index=False)


Scraping halaman 1 untuk city Jakarta Barat
200
Jumlah rumah: 20
Scraping rumah ke-1
Scraping rumah ke-2
Scraping rumah ke-3
Scraping rumah ke-4
Scraping rumah ke-5
Scraping rumah ke-6
Scraping rumah ke-7
Scraping rumah ke-8
Scraping rumah ke-9
Scraping rumah ke-10
Scraping rumah ke-11
Scraping rumah ke-12
Scraping rumah ke-13
Scraping rumah ke-14
Scraping rumah ke-15
Scraping rumah ke-16
Scraping rumah ke-17
Scraping rumah ke-18
Scraping rumah ke-19
Scraping rumah ke-20
Scraping halaman 2 untuk city Jakarta Barat
200
Jumlah rumah: 20
Scraping rumah ke-1
Scraping rumah ke-2
Scraping rumah ke-3
Scraping rumah ke-4
Scraping rumah ke-5
Scraping rumah ke-6
Scraping rumah ke-7
Scraping rumah ke-8
Scraping rumah ke-9
Scraping rumah ke-10
Scraping rumah ke-11
Scraping rumah ke-12
Scraping rumah ke-13
Scraping rumah ke-14
Scraping rumah ke-15
Scraping rumah ke-16
Scraping rumah ke-17
Scraping rumah ke-18
Scraping rumah ke-19
Scraping rumah ke-20
Scraping halaman 1 untuk city Jakarta Timur
429


AttributeError: 'NoneType' object has no attribute 'find_all'