In [1]:
import pandas as pd
import numpy as np

In [2]:
towns = pd.read_csv("data/coastal_towns.csv")
towns.drop(columns=["STT"], inplace=True)
towns.columns = ["tinh", "huyen", "xa"]
towns

Unnamed: 0,tinh,huyen,xa
0,Quảng Ninh\n(250 km),Móng Cái,Hải Hòa
1,Quảng Ninh\n(250 km),Móng Cái,Trà Cổ
2,Quảng Ninh\n(250 km),Móng Cái,Bình Ngọc
3,Quảng Ninh\n(250 km),Móng Cái,Hải Xuân
4,Quảng Ninh\n(250 km),Móng Cái,Vạn Ninh
...,...,...,...
610,Kiên Giang\n(200 km),Phú Quốc,Cửa Dương
611,Kiên Giang\n(200 km),Phú Quốc,Dương Tơ
612,Kiên Giang\n(200 km),Phú Quốc,Gành Dầu
613,Kiên Giang\n(200 km),Phú Quốc,Hàm Ninh


In [3]:
towns["coast_length"] = towns["tinh"].str.split("\n").apply(lambda x: x[1][1:-1].strip(" km"))
towns["tinh"] = towns["tinh"].str.split("\n").apply(lambda x: x[0])

In [4]:
towns

Unnamed: 0,tinh,huyen,xa,coast_length
0,Quảng Ninh,Móng Cái,Hải Hòa,250
1,Quảng Ninh,Móng Cái,Trà Cổ,250
2,Quảng Ninh,Móng Cái,Bình Ngọc,250
3,Quảng Ninh,Móng Cái,Hải Xuân,250
4,Quảng Ninh,Móng Cái,Vạn Ninh,250
...,...,...,...,...
610,Kiên Giang,Phú Quốc,Cửa Dương,200
611,Kiên Giang,Phú Quốc,Dương Tơ,200
612,Kiên Giang,Phú Quốc,Gành Dầu,200
613,Kiên Giang,Phú Quốc,Hàm Ninh,200


In [5]:
islands = pd.read_csv("data/islands.csv")
islands.drop(columns=["STT"], inplace=True)
islands = islands[['Tên huyện đảo', 'Tỉnh']]
islands.columns = ['huyen', 'tinh']
islands

Unnamed: 0,huyen,tinh
0,Cô Tô,Quảng Ninh
1,Vân Đồn,Quảng Ninh
2,Bạch Long Vĩ,Hải Phòng
3,Cát Hải,Hải Phòng
4,Cồn Cỏ,Quảng Trị
5,Hoàng Sa,Đà Nẵng
6,Lý Sơn,Quảng Ngãi
7,Trường Sa,Khánh Hòa
8,Phú Quý,Bình Thuận
9,Côn Đảo,Bà Rịa – Vũng Tàu


In [6]:
df = pd.concat([towns, islands])
df

Unnamed: 0,tinh,huyen,xa,coast_length
0,Quảng Ninh,Móng Cái,Hải Hòa,250
1,Quảng Ninh,Móng Cái,Trà Cổ,250
2,Quảng Ninh,Móng Cái,Bình Ngọc,250
3,Quảng Ninh,Móng Cái,Hải Xuân,250
4,Quảng Ninh,Móng Cái,Vạn Ninh,250
...,...,...,...,...
7,Khánh Hòa,Trường Sa,,
8,Bình Thuận,Phú Quý,,
9,Bà Rịa – Vũng Tàu,Côn Đảo,,
10,Kiên Giang,Kiên Hải,,


In [7]:
df['tinh'] = df['tinh'].str.replace("– ", "")

In [8]:
import re

def to_province_code(s):
    s = s.lower()
    s = re.sub(r'[àáạảãâầấậẩẫăằắặẳẵ]', 'a', s)
    s = re.sub(r'[ÀÁẠẢÃĂẰẮẶẲẴÂẦẤẬẨẪ]', 'A', s)
    s = re.sub(r'[èéẹẻẽêềếệểễ]', 'e', s)
    s = re.sub(r'[ÈÉẸẺẼÊỀẾỆỂỄ]', 'E', s)
    s = re.sub(r'[òóọỏõôồốộổỗơờớợởỡ]', 'o', s)
    s = re.sub(r'[ÒÓỌỎÕÔỒỐỘỔỖƠỜỚỢỞỠ]', 'O', s)
    s = re.sub(r'[ìíịỉĩ]', 'i', s)
    s = re.sub(r'[ÌÍỊỈĨ]', 'I', s)
    s = re.sub(r'[ùúụủũưừứựửữ]', 'u', s)
    s = re.sub(r'[ƯỪỨỰỬỮÙÚỤỦŨ]', 'U', s)
    s = re.sub(r'[ỳýỵỷỹ]', 'y', s)
    s = re.sub(r'[ỲÝỴỶỸ]', 'Y', s)
    s = re.sub(r'[Đ]', 'D', s)
    s = re.sub(r'[đ]', 'd', s)
    s = "-".join(s.split(" "))
    return "tai-" + s

In [9]:
tinhs = df[df['tinh']!="Tp. Hồ Chí Minh"]['tinh'].unique()
tinhs

array(['Quảng Ninh', 'Hải Phòng', 'Thái Bình', 'Nam Định', 'Ninh Bình',
       'Thanh Hóa', 'Nghệ An', 'Hà Tĩnh', 'Quảng Bình', 'Quảng Trị',
       'Thừa Thiên Huế', 'Đà Nẵng', 'Quảng Nam', 'Quảng Ngãi',
       'Bình Định', 'Phú Yên', 'Khánh Hòa', 'Ninh Thuận', 'Bình Thuận',
       'Bà Rịa Vũng Tàu', 'Tiền Giang', 'Bến Tre', 'Trà Vinh',
       'Sóc Trăng', 'Bạc Liêu', 'Cà Mau', 'Kiên Giang'], dtype=object)

In [10]:
tinh_dict = {}
for tinh in tinhs:
    tinh_dict[tinh] = to_province_code(tinh)

In [11]:
tinh_dict

{'Quảng Ninh': 'tai-quang-ninh',
 'Hải Phòng': 'tai-hai-phong',
 'Thái Bình': 'tai-thai-binh',
 'Nam Định': 'tai-nam-dinh',
 'Ninh Bình': 'tai-ninh-binh',
 'Thanh Hóa': 'tai-thanh-hoa',
 'Nghệ An': 'tai-nghe-an',
 'Hà Tĩnh': 'tai-ha-tinh',
 'Quảng Bình': 'tai-quang-binh',
 'Quảng Trị': 'tai-quang-tri',
 'Thừa Thiên Huế': 'tai-thua-thien-hue',
 'Đà Nẵng': 'tai-da-nang',
 'Quảng Nam': 'tai-quang-nam',
 'Quảng Ngãi': 'tai-quang-ngai',
 'Bình Định': 'tai-binh-dinh',
 'Phú Yên': 'tai-phu-yen',
 'Khánh Hòa': 'tai-khanh-hoa',
 'Ninh Thuận': 'tai-ninh-thuan',
 'Bình Thuận': 'tai-binh-thuan',
 'Bà Rịa Vũng Tàu': 'tai-ba-ria-vung-tau',
 'Tiền Giang': 'tai-tien-giang',
 'Bến Tre': 'tai-ben-tre',
 'Trà Vinh': 'tai-tra-vinh',
 'Sóc Trăng': 'tai-soc-trang',
 'Bạc Liêu': 'tai-bac-lieu',
 'Cà Mau': 'tai-ca-mau',
 'Kiên Giang': 'tai-kien-giang'}

# 2. Scraping

A common page that lists a province's projects look like this "https://cafeland.vn/du-an/tai-binh-thuan/" or https://cafeland.vn/du-an/tai-ba-ria-vung-tau/ or https://cafeland.vn/du-an/tai-chau-duc/

Scraping URL database to save 

- Tỉnh (Province)
- Name of Project
- Link
- Type of Project
- Owner
- Location
- Price

In [17]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.keys import Keys
import time

In [19]:
# Set up Chrome options
chrome_options = Options()
chrome_options.add_argument("--incognito")  # Open in incognito mode
chrome_options.add_argument("--headless")  # Optional: run in headless mode (no UI)

# Set up the path to your ChromeDriver (adjust as needed)
service = Service('chromedriver-mac-x64/chromedriver')  # Replace with the path to your ChromeDriver

# Initialize WebDriver
driver = webdriver.Chrome(service=service, options=chrome_options)

In [20]:
import requests
from bs4 import BeautifulSoup

In [21]:
ls = {"tinh": [],
"project": [],
"link": [],
"kind": [],
"location": [],
"price": []}

In [25]:
# Scrape all the data from province listings
# Define headers with a common User-Agent
def scrapeOnePage(tinhCode, pageNum): 
    
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
    }
    
    # print(f"--------------- scraping {tinhCode}-page{pageNum}")

    url = f'https://cafeland.vn/du-an/{tinhCode}/page-{pageNum}'
    print(url)
    # try: 
    driver.get(url)
    print(f"--------------- scraping {tinhCode}-page-{pageNum}")
    print(driver)
    time.sleep(3)
    page_source = driver.page_source
    soup = BeautifulSoup(page_source, 'html.parser')
    all_cards = soup.findAll('li', {"class", "hover-suggestions"})
    if len(all_cards) > 0:
        for card in all_cards:
            ls['tinh'].append(tinhCode)
            
            try: 
                ls["project"].append(card.h3.a.text)
            except:
                ls["project"].append("")

            try: 
                ls["link"].append(card.h3.a['href'])
            except:
                ls["link"].append("") 

            try: 
                ls["kind"].append(card.find('span', {"class": "news-type-title"}).text)
            except:
                ls["kind"].append("") 

            try: 
                ls["location"].append(card.find("div", {"class":"titleProjectSeo"}).text.strip().strip(""))
            except:
                ls["location"].append("") 

            try: 
                ls["price"].append(card.b.text)
            except:
                ls["price"].append("") 

    # except Exception as e:
    #     print(f"Failed to retrieve the webpage. {e}")

In [26]:
scrapeOnePage(tinh_dict["Ninh Thuận"], 1)

https://cafeland.vn/du-an/tai-ninh-thuan/page-1
--------------- scraping tai-ninh-thuan-page1


In [27]:
ls

{'tinh': [],
 'project': [],
 'link': [],
 'kind': [],
 'location': [],
 'price': []}

In [None]:
all_cards = soup.findAll('li', {"class", "hover-suggestions"})
all_cards[0]

In [None]:
all_cards[0].b.text

In [None]:
all_cards[0].find("div", {"class":"titleProjectSeo"}).text.strip().strip("")