In [2]:
import pandas as pd
import numpy as np

# Scrape Data

In [2]:
towns = pd.read_csv("data/coastal_towns.csv")
towns.drop(columns=["STT"], inplace=True)
towns.columns = ["tinh", "huyen", "xa"]
towns

Unnamed: 0,tinh,huyen,xa
0,Quảng Ninh\n(250 km),Móng Cái,Hải Hòa
1,Quảng Ninh\n(250 km),Móng Cái,Trà Cổ
2,Quảng Ninh\n(250 km),Móng Cái,Bình Ngọc
3,Quảng Ninh\n(250 km),Móng Cái,Hải Xuân
4,Quảng Ninh\n(250 km),Móng Cái,Vạn Ninh
...,...,...,...
610,Kiên Giang\n(200 km),Phú Quốc,Cửa Dương
611,Kiên Giang\n(200 km),Phú Quốc,Dương Tơ
612,Kiên Giang\n(200 km),Phú Quốc,Gành Dầu
613,Kiên Giang\n(200 km),Phú Quốc,Hàm Ninh


In [3]:
towns["coast_length"] = towns["tinh"].str.split("\n").apply(lambda x: x[1][1:-1].strip(" km"))
towns["tinh"] = towns["tinh"].str.split("\n").apply(lambda x: x[0])

In [4]:
towns

Unnamed: 0,tinh,huyen,xa,coast_length
0,Quảng Ninh,Móng Cái,Hải Hòa,250
1,Quảng Ninh,Móng Cái,Trà Cổ,250
2,Quảng Ninh,Móng Cái,Bình Ngọc,250
3,Quảng Ninh,Móng Cái,Hải Xuân,250
4,Quảng Ninh,Móng Cái,Vạn Ninh,250
...,...,...,...,...
610,Kiên Giang,Phú Quốc,Cửa Dương,200
611,Kiên Giang,Phú Quốc,Dương Tơ,200
612,Kiên Giang,Phú Quốc,Gành Dầu,200
613,Kiên Giang,Phú Quốc,Hàm Ninh,200


In [5]:
islands = pd.read_csv("data/islands.csv")
islands.drop(columns=["STT"], inplace=True)
islands = islands[['Tên huyện đảo', 'Tỉnh']]
islands.columns = ['huyen', 'tinh']
islands

Unnamed: 0,huyen,tinh
0,Cô Tô,Quảng Ninh
1,Vân Đồn,Quảng Ninh
2,Bạch Long Vĩ,Hải Phòng
3,Cát Hải,Hải Phòng
4,Cồn Cỏ,Quảng Trị
5,Hoàng Sa,Đà Nẵng
6,Lý Sơn,Quảng Ngãi
7,Trường Sa,Khánh Hòa
8,Phú Quý,Bình Thuận
9,Côn Đảo,Bà Rịa – Vũng Tàu


In [6]:
df = pd.concat([towns, islands])
df

Unnamed: 0,tinh,huyen,xa,coast_length
0,Quảng Ninh,Móng Cái,Hải Hòa,250
1,Quảng Ninh,Móng Cái,Trà Cổ,250
2,Quảng Ninh,Móng Cái,Bình Ngọc,250
3,Quảng Ninh,Móng Cái,Hải Xuân,250
4,Quảng Ninh,Móng Cái,Vạn Ninh,250
...,...,...,...,...
7,Khánh Hòa,Trường Sa,,
8,Bình Thuận,Phú Quý,,
9,Bà Rịa – Vũng Tàu,Côn Đảo,,
10,Kiên Giang,Kiên Hải,,


In [47]:
df['huyen'] = df['huyen'].str.replace(" (thị xã)", "")
df['huyen'] = df['huyen'].str.replace(" (huyện)", "")

In [48]:
df['tinh'] = df['tinh'].str.replace("– ", "")

In [8]:
import re

def to_province_code(s):
    s = s.lower()
    s = re.sub(r'[àáạảãâầấậẩẫăằắặẳẵ]', 'a', s)
    s = re.sub(r'[ÀÁẠẢÃĂẰẮẶẲẴÂẦẤẬẨẪ]', 'A', s)
    s = re.sub(r'[èéẹẻẽêềếệểễ]', 'e', s)
    s = re.sub(r'[ÈÉẸẺẼÊỀẾỆỂỄ]', 'E', s)
    s = re.sub(r'[òóọỏõôồốộổỗơờớợởỡ]', 'o', s)
    s = re.sub(r'[ÒÓỌỎÕÔỒỐỘỔỖƠỜỚỢỞỠ]', 'O', s)
    s = re.sub(r'[ìíịỉĩ]', 'i', s)
    s = re.sub(r'[ÌÍỊỈĨ]', 'I', s)
    s = re.sub(r'[ùúụủũưừứựửữ]', 'u', s)
    s = re.sub(r'[ƯỪỨỰỬỮÙÚỤỦŨ]', 'U', s)
    s = re.sub(r'[ỳýỵỷỹ]', 'y', s)
    s = re.sub(r'[ỲÝỴỶỸ]', 'Y', s)
    s = re.sub(r'[Đ]', 'D', s)
    s = re.sub(r'[đ]', 'd', s)
    s = "-".join(s.split(" "))
    return "tai-" + s

In [9]:
tinhs = df[df['tinh']!="Tp. Hồ Chí Minh"]['tinh'].unique()
tinhs

array(['Quảng Ninh', 'Hải Phòng', 'Thái Bình', 'Nam Định', 'Ninh Bình',
       'Thanh Hóa', 'Nghệ An', 'Hà Tĩnh', 'Quảng Bình', 'Quảng Trị',
       'Thừa Thiên Huế', 'Đà Nẵng', 'Quảng Nam', 'Quảng Ngãi',
       'Bình Định', 'Phú Yên', 'Khánh Hòa', 'Ninh Thuận', 'Bình Thuận',
       'Bà Rịa Vũng Tàu', 'Tiền Giang', 'Bến Tre', 'Trà Vinh',
       'Sóc Trăng', 'Bạc Liêu', 'Cà Mau', 'Kiên Giang'], dtype=object)

In [10]:
tinh_dict = {}
for tinh in tinhs:
    tinh_dict[tinh] = to_province_code(tinh)

In [11]:
tinh_dict

{'Quảng Ninh': 'tai-quang-ninh',
 'Hải Phòng': 'tai-hai-phong',
 'Thái Bình': 'tai-thai-binh',
 'Nam Định': 'tai-nam-dinh',
 'Ninh Bình': 'tai-ninh-binh',
 'Thanh Hóa': 'tai-thanh-hoa',
 'Nghệ An': 'tai-nghe-an',
 'Hà Tĩnh': 'tai-ha-tinh',
 'Quảng Bình': 'tai-quang-binh',
 'Quảng Trị': 'tai-quang-tri',
 'Thừa Thiên Huế': 'tai-thua-thien-hue',
 'Đà Nẵng': 'tai-da-nang',
 'Quảng Nam': 'tai-quang-nam',
 'Quảng Ngãi': 'tai-quang-ngai',
 'Bình Định': 'tai-binh-dinh',
 'Phú Yên': 'tai-phu-yen',
 'Khánh Hòa': 'tai-khanh-hoa',
 'Ninh Thuận': 'tai-ninh-thuan',
 'Bình Thuận': 'tai-binh-thuan',
 'Bà Rịa Vũng Tàu': 'tai-ba-ria-vung-tau',
 'Tiền Giang': 'tai-tien-giang',
 'Bến Tre': 'tai-ben-tre',
 'Trà Vinh': 'tai-tra-vinh',
 'Sóc Trăng': 'tai-soc-trang',
 'Bạc Liêu': 'tai-bac-lieu',
 'Cà Mau': 'tai-ca-mau',
 'Kiên Giang': 'tai-kien-giang'}

# 2. Scraping listings

A common page that lists a province's projects look like this "https://cafeland.vn/du-an/tai-binh-thuan/" or https://cafeland.vn/du-an/tai-ba-ria-vung-tau/ or https://cafeland.vn/du-an/tai-chau-duc/

Scraping URL database to save 

- Tỉnh (Province)
- Name of Project
- Link
- Type of Project
- Owner
- Location
- Price

In [2]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.keys import Keys
import time

In [167]:
# Set up Chrome options
chrome_options = Options()
chrome_options.add_argument("--incognito")  # Open in incognito mode
chrome_options.add_argument("--headless")  # Optional: run in headless mode (no UI)

# Set up the path to your ChromeDriver (adjust as needed)
service = Service('chromedriver-mac-x64/chromedriver')  # Replace with the path to your ChromeDriver

# Initialize WebDriver
driver = webdriver.Chrome(service=service, options=chrome_options)

In [3]:
import requests
from bs4 import BeautifulSoup

In [15]:
# Scrape all the data from province listings
# Define headers with a common User-Agent
def scrapeTinh(tinhCode): 
    
    ls = {"tinh": [],
        "project": [],
        "link": [],
        "kind": [],
        "location": [],
        "price": []}
    
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
    }
    
    # print(f"--------------- scraping {tinhCode}-page{pageNum}")

    pageNum = 1
    while True:
        url = f'https://cafeland.vn/du-an/{tinhCode}/page-{pageNum}/'
        print(url)
        try: 
            driver.get(url)
            time.sleep(3)
            page_source = driver.page_source
            soup = BeautifulSoup(page_source, 'html.parser')
            all_cards = soup.findAll('li', {"class", "hover-suggestions"})
            if len(all_cards) > 0:
                for card in all_cards:
                    ls['tinh'].append(tinhCode)
                    
                    try: 
                        ls["project"].append(card.h3.a.text)
                    except:
                        ls["project"].append("")

                    try: 
                        ls["link"].append(card.h3.a['href'])
                    except:
                        ls["link"].append("") 

                    try: 
                        ls["kind"].append(card.find('span', {"class": "news-type-title"}).text)
                    except:
                        ls["kind"].append("") 

                    try: 
                        ls["location"].append(card.find("div", {"class":"titleProjectSeo"}).text.strip().strip(""))
                    except:
                        ls["location"].append("") 

                    try: 
                        ls["price"].append(card.b.text)
                    except:
                        ls["price"].append("") 
            else:
                print(f"Done scraping {tinhCode}")
                break
            pageNum+=1    
        except Exception as e:
            print(f"Failed to retrieve the webpage. {e}")
            break
    
    table = pd.DataFrame(ls)
    table.to_csv(f"data/cafeland/{tinhCode}.csv")
        

In [51]:
for tinh in tinh_dict.keys():
    scrapeTinh(tinh_dict[tinh])

Quảng Ninh
Hải Phòng
Thái Bình
Nam Định
Ninh Bình
Thanh Hóa
Nghệ An
Hà Tĩnh
Quảng Bình
Quảng Trị
Thừa Thiên Huế
Đà Nẵng
Quảng Nam
Quảng Ngãi
Bình Định
Phú Yên
Khánh Hòa
Ninh Thuận
Bình Thuận
Bà Rịa Vũng Tàu
Tiền Giang
Bến Tre
Trà Vinh
Sóc Trăng
Bạc Liêu
Cà Mau
Kiên Giang


In [None]:
for tinh in tinh_dict.keys():
    scrapeTinh(tinh_dict[tinh])

In [18]:
scrapeTinh("tai-kien-giang")

https://cafeland.vn/du-an/tai-kien-giang/page-1/
https://cafeland.vn/du-an/tai-kien-giang/page-2/
https://cafeland.vn/du-an/tai-kien-giang/page-3/
https://cafeland.vn/du-an/tai-kien-giang/page-4/
https://cafeland.vn/du-an/tai-kien-giang/page-5/
https://cafeland.vn/du-an/tai-kien-giang/page-6/
https://cafeland.vn/du-an/tai-kien-giang/page-7/
https://cafeland.vn/du-an/tai-kien-giang/page-8/
Done scraping tai-kien-giang


## Process listing table

In [21]:
cfland = pd.read_csv("data/cafeland/tai-ba-ria-vung-tau.csv", index_col=[0])
cfland

Unnamed: 0,tinh,project,link,kind,location,price
0,tai-ba-ria-vung-tau,Khu đô thị Phước Thắng: Dự án biệt thự và nhà ...,https://cafeland.vn/du-an/khu-do-thi-phuoc-tha...,Khu Đô Thị,"Địa chỉ: Phường 12, TP Vũng Tàu, tỉnh Bà Rịa -...",Địa chỉ:
1,tai-ba-ria-vung-tau,Khu nhà ở xã hội Hodeco huyện Tân Thành: Dự án...,https://cafeland.vn/du-an/khu-nha-o-xa-hoi-hod...,Căn hộ chung cư,Địa chỉ: Bà Rịa - Vũng Tàu,Địa chỉ:
2,tai-ba-ria-vung-tau,"Hodeco Seavillage: Dự án căn hộ, khách sạn tại...",https://cafeland.vn/du-an/hodeco-seavillage-du...,Căn hộ chung cư,"Địa chỉ: Đường 3 tháng 2, TP.Vũng Tàu, Bà Rịa ...",Địa chỉ:
3,tai-ba-ria-vung-tau,Phu My Estate: Dự án khu dân cư tại Bà Rịa – V...,https://cafeland.vn/du-an/phu-my-estate-du-an-...,Khu Đô Thị,"Địa chỉ: đường Hắc Dịch, TX. Phú Mỹ, Bà Rịa - ...",Địa chỉ:
4,tai-ba-ria-vung-tau,Vega Alaric: Dự án tòa tháp căn hộ nghỉ dưỡng ...,https://cafeland.vn/du-an/vega-alaric-du-an-to...,Căn hộ chung cư,"Địa chỉ: Đường 3/2, phường 11, thành phố Vũng ...",Địa chỉ:
...,...,...,...,...,...,...
174,tai-ba-ria-vung-tau,HODECO Phú Mỹ: Hài hòa kiến trúc,https://cafeland.vn/du-an/hodeco-phu-my-hai-ho...,Khu Đô Thị,"Địa chỉ: Quốc lộ 51, Bà Rịa - Vũng Tàu",Địa chỉ:
175,tai-ba-ria-vung-tau,Oceanami Resort & Luxury Home: Nơi sắc hoa Anh...,https://cafeland.vn/du-an/oceanami-resort-luxu...,Bất Động Sản Nghỉ Dưỡng,"Địa chỉ: Bình Châu, Đất Đỏ, Bà Rịa - Vũng Tàu",Địa chỉ:
176,tai-ba-ria-vung-tau,Sanctuary - Biển Hồ Tràm,https://cafeland.vn/du-an/sanctuary-bien-ho-tr...,Nhà Phố - Biệt Thự,"Địa chỉ: ấp Hồ Tràm, xã Phước Thuận, Xuyên Mộc...",Địa chỉ:
177,tai-ba-ria-vung-tau,New Horizon Resort,https://cafeland.vn/du-an/new-horizon-resort-1...,Nhà Phố - Biệt Thự,"Địa chỉ: khu du lịch Chí Linh, TP.Vũng Tàu, Bà...",Địa chỉ:


In [24]:
for tinh in tinh_dict.keys():
    data = pd.read_csv(f"data/cafeland/{tinh_dict[tinh]}.csv", index_col=[0])
    cfland = pd.concat([cfland, data])

In [27]:
cfland.drop_duplicates(inplace=True)

In [28]:
cfland

Unnamed: 0,tinh,project,link,kind,location,price
0,tai-ba-ria-vung-tau,Khu đô thị Phước Thắng: Dự án biệt thự và nhà ...,https://cafeland.vn/du-an/khu-do-thi-phuoc-tha...,Khu Đô Thị,"Địa chỉ: Phường 12, TP Vũng Tàu, tỉnh Bà Rịa -...",Địa chỉ:
1,tai-ba-ria-vung-tau,Khu nhà ở xã hội Hodeco huyện Tân Thành: Dự án...,https://cafeland.vn/du-an/khu-nha-o-xa-hoi-hod...,Căn hộ chung cư,Địa chỉ: Bà Rịa - Vũng Tàu,Địa chỉ:
2,tai-ba-ria-vung-tau,"Hodeco Seavillage: Dự án căn hộ, khách sạn tại...",https://cafeland.vn/du-an/hodeco-seavillage-du...,Căn hộ chung cư,"Địa chỉ: Đường 3 tháng 2, TP.Vũng Tàu, Bà Rịa ...",Địa chỉ:
3,tai-ba-ria-vung-tau,Phu My Estate: Dự án khu dân cư tại Bà Rịa – V...,https://cafeland.vn/du-an/phu-my-estate-du-an-...,Khu Đô Thị,"Địa chỉ: đường Hắc Dịch, TX. Phú Mỹ, Bà Rịa - ...",Địa chỉ:
4,tai-ba-ria-vung-tau,Vega Alaric: Dự án tòa tháp căn hộ nghỉ dưỡng ...,https://cafeland.vn/du-an/vega-alaric-du-an-to...,Căn hộ chung cư,"Địa chỉ: Đường 3/2, phường 11, thành phố Vũng ...",Địa chỉ:
...,...,...,...,...,...,...
94,tai-kien-giang,Khu du lịch nghỉ dưỡng Sonasea Villas & Resort,https://cafeland.vn/du-an/khu-du-lich-nghi-duo...,Bất Động Sản Nghỉ Dưỡng,"Địa chỉ: Trần Hưng Đạo, TP. Phú Quốc, Kiên Giang",Địa chỉ:
95,tai-kien-giang,Căn hộ du lịch Grand World Phú Quốc,https://cafeland.vn/du-an/can-ho-du-lich-grand...,Bất Động Sản Nghỉ Dưỡng,"Địa chỉ: Bãi Dài, TP. Phú Quốc, Kiên Giang",Giá thấp nhất: 10 tỷ
96,tai-kien-giang,Khu du lịch nghỉ dưỡng Sunset Sanato,https://cafeland.vn/du-an/khu-du-lich-nghi-duo...,Bất Động Sản Nghỉ Dưỡng,"Địa chỉ: Bắc bãi Trường, TP. Phú Quốc, Kiên Giang","Giá thấp nhất: 2,40 tỷ"
97,tai-kien-giang,Khu đô thị mới Phú Cường Kiên Giang,https://cafeland.vn/du-an/khu-do-thi-moi-phu-c...,Khu Đô Thị,"Địa chỉ: Khu vực IV & V Khu Lấn Biển, TP. Rạch...",Địa chỉ:


Filter the projects that locate in coastal town only.

In [30]:
# Clean location
cfland['location'] = cfland['location'].apply(lambda x: x[9:])

In [42]:
def get_town(location):
    if location != "":
        if len(location.split(",")) > 1:
            return location.split(",")[-2].strip()
        else: 
            return None
    else:
        return None

In [43]:
# Assumption: The last part of the adress is the province, the second is the town. 
cfland['town'] = cfland['location'].apply(get_town)
cfland



Unnamed: 0,tinh,project,link,kind,location,price,town
0,tai-ba-ria-vung-tau,Khu đô thị Phước Thắng: Dự án biệt thự và nhà ...,https://cafeland.vn/du-an/khu-do-thi-phuoc-tha...,Khu Đô Thị,"Phường 12, TP Vũng Tàu, tỉnh Bà Rịa - Vũng Tàu...",Địa chỉ:,TP.Vũng Tàu
1,tai-ba-ria-vung-tau,Khu nhà ở xã hội Hodeco huyện Tân Thành: Dự án...,https://cafeland.vn/du-an/khu-nha-o-xa-hoi-hod...,Căn hộ chung cư,Bà Rịa - Vũng Tàu,Địa chỉ:,
2,tai-ba-ria-vung-tau,"Hodeco Seavillage: Dự án căn hộ, khách sạn tại...",https://cafeland.vn/du-an/hodeco-seavillage-du...,Căn hộ chung cư,"Đường 3 tháng 2, TP.Vũng Tàu, Bà Rịa - Vũng Tàu",Địa chỉ:,TP.Vũng Tàu
3,tai-ba-ria-vung-tau,Phu My Estate: Dự án khu dân cư tại Bà Rịa – V...,https://cafeland.vn/du-an/phu-my-estate-du-an-...,Khu Đô Thị,"đường Hắc Dịch, TX. Phú Mỹ, Bà Rịa - Vũng Tàu",Địa chỉ:,TX. Phú Mỹ
4,tai-ba-ria-vung-tau,Vega Alaric: Dự án tòa tháp căn hộ nghỉ dưỡng ...,https://cafeland.vn/du-an/vega-alaric-du-an-to...,Căn hộ chung cư,"Đường 3/2, phường 11, thành phố Vũng Tàu, tỉnh...",Địa chỉ:,TP.Vũng Tàu
...,...,...,...,...,...,...,...
94,tai-kien-giang,Khu du lịch nghỉ dưỡng Sonasea Villas & Resort,https://cafeland.vn/du-an/khu-du-lich-nghi-duo...,Bất Động Sản Nghỉ Dưỡng,"Trần Hưng Đạo, TP. Phú Quốc, Kiên Giang",Địa chỉ:,TP. Phú Quốc
95,tai-kien-giang,Căn hộ du lịch Grand World Phú Quốc,https://cafeland.vn/du-an/can-ho-du-lich-grand...,Bất Động Sản Nghỉ Dưỡng,"Bãi Dài, TP. Phú Quốc, Kiên Giang",Giá thấp nhất: 10 tỷ,TP. Phú Quốc
96,tai-kien-giang,Khu du lịch nghỉ dưỡng Sunset Sanato,https://cafeland.vn/du-an/khu-du-lich-nghi-duo...,Bất Động Sản Nghỉ Dưỡng,"Bắc bãi Trường, TP. Phú Quốc, Kiên Giang","Giá thấp nhất: 2,40 tỷ",TP. Phú Quốc
97,tai-kien-giang,Khu đô thị mới Phú Cường Kiên Giang,https://cafeland.vn/du-an/khu-do-thi-moi-phu-c...,Khu Đô Thị,"Khu vực IV & V Khu Lấn Biển, TP. Rạch Giá, Kiê...",Địa chỉ:,TP. Rạch Giá


In [64]:
cfland['town'] = cfland['town'].str.replace("TP. ", "")
cfland['town'] = cfland['town'].str.replace("TX. ", "")
cfland['town'] = cfland['town'].str.replace("TP.", "")
cfland['town'] = cfland['town'].str.replace("TX.", "")
cfland['town'] = cfland['town'].str.replace("huyện ", "")
cfland['town'] = cfland['town'].str.replace("Huyện ", "")
cfland['town'] = cfland['town'].str.replace("Quận ", "")
cfland['town'] = cfland['town'].str.replace("Phan Rang - Tháp Chàm", "Phan Rang – Tháp Chàm")

In [65]:
cfland['town'].unique()

array(['Vũng Tàu', None, 'Phú Mỹ', 'Đất Đỏ', 'Côn Đảo', 'Xuyên Mộc',
       'Quốc lộ 51', 'Bà Rịa', 'Châu Đức', 'đường Hùng Vương',
       'Long Điền', 'Đường Nguyễn Trãi', 'Tỉnh lộ 44A',
       'Đường Mỹ Xuân – Tóc Tiên', 'đường Tóc Tiên – Châu Pha',
       'Đường Trường Chinh (Tỉnh lộ 81)', 'Đường Lê Trọng Tấn',
       'Châu Pha - Tóc Tiên', 'Vân Đồn', 'Hạ Long', 'Cẩm Phả', 'Uông Bí',
       'Đông Triều', 'Móng Cái', 'đường Trần Thái Tông', 'Thủy Nguyên',
       'Kiến An', 'Hải An', 'Đồ Sơn', 'An Dương', 'Ngô Quyền',
       'Hồng Bàng', 'Vĩnh Bảo', 'Lê Chân', 'Dương Kinh',
       'Đường World Bank', 'Cát Hải', 'Thái Bình', 'Đông Hưng',
       'Tiền Hải', 'Thái Thụy', 'Hưng Hà', 'Nam Định', 'Vụ Bản',
       'Tam Điệp', 'Nho Quan', 'Gia Viễn', 'Sầm Sơn', 'Thanh Hóa',
       'Đông Sơn', 'Hoằng Hóa', 'Quảng Xương', 'xã Hải Hòa', 'Vĩnh Lộc',
       'Yên Định', 'Triệu Sơn', 'Như Thanh', 'Thọ Xuân', 'Bỉm Sơn',
       'Vinh', 'Hoàng Mai', 'Nghi Lộc', 'Cửa Lò', 'Thái Hòa', 'Đô Lương',
      

In [45]:
# Compare with master data to see if the town is coastal
df

Unnamed: 0,tinh,huyen,xa,coast_length
0,Quảng Ninh,Móng Cái,Hải Hòa,250
1,Quảng Ninh,Móng Cái,Trà Cổ,250
2,Quảng Ninh,Móng Cái,Bình Ngọc,250
3,Quảng Ninh,Móng Cái,Hải Xuân,250
4,Quảng Ninh,Móng Cái,Vạn Ninh,250
...,...,...,...,...
7,Khánh Hòa,Trường Sa,,
8,Bình Thuận,Phú Quý,,
9,Bà Rịa Vũng Tàu,Côn Đảo,,
10,Kiên Giang,Kiên Hải,,


In [49]:
coastTowns = df['huyen'].unique()
coastTowns

array(['Móng Cái', 'Hải Hà', 'Đầm Hà', 'Tiên Yên', 'Cô Tô', 'Vân Đồn',
       'Cẩm Phả', 'Hạ Long', 'Quảng Yên', 'Cát Hải', 'Hải An',
       'Dương Kinh', 'Đồ Sơn', 'Kiến Thụy', 'Tiên Lãng', 'Bạch Long Vĩ',
       'Thái Thụy', 'Tiền Hải', 'Giao Thủy', 'Hải Hậu', 'Nghĩa Hưng',
       'Kim Sơn', 'Nga Sơn', 'Hậu Lộc', 'Hoằng Hóa', 'Sầm Sơn',
       'Quảng Xương', 'Nghi Sơn', 'Hoàng Mai', 'Quỳnh Lưu', 'Diễn Châu',
       'Nghi Lộc', 'Cửa Lò', 'Nghi Xuân', 'Lộc Hà', 'Thạch Hà',
       'Cẩm Xuyên', 'Kỳ Anh', 'Quảng Trạch', 'Ba Đồn', 'Bố Trạch',
       'Đồng Hới', 'Quảng Ninh', 'Lệ Thủy', 'Vĩnh Linh', 'Gio Linh',
       'Triệu Phong', 'Hải Lăng', 'Cồn Cỏ', 'Phong Điền', 'Quảng Điền',
       'Huế', 'Phú Vang', 'Phú Lộc', 'Liên Chiểu', 'Thanh Khê',
       'Hải Châu', 'Sơn Trà', 'Ngũ Hành Sơn', 'Hoàng Sa', 'Điện Bàn',
       'Hội An', 'Duy Xuyên', 'Thăng Bình', 'Tam Kỳ', 'Núi Thành',
       'Bình Sơn', 'Quảng Ngãi', 'Mộ Đức', 'Đức Phổ', 'Lý Sơn',
       'Hoài Nhơn', 'Phù Mỹ', 'Phù Cát', 'Quy Nhơ

In [66]:
def checkCoast(town):
    if town in coastTowns:
        return 1
    else:
        return 0

cfland['isCoastal'] = cfland['town'].apply(checkCoast)

In [67]:
cfland

Unnamed: 0,tinh,project,link,kind,location,price,town,isCoastal
0,tai-ba-ria-vung-tau,Khu đô thị Phước Thắng: Dự án biệt thự và nhà ...,https://cafeland.vn/du-an/khu-do-thi-phuoc-tha...,Khu Đô Thị,"Phường 12, TP Vũng Tàu, tỉnh Bà Rịa - Vũng Tàu...",Địa chỉ:,Vũng Tàu,1
1,tai-ba-ria-vung-tau,Khu nhà ở xã hội Hodeco huyện Tân Thành: Dự án...,https://cafeland.vn/du-an/khu-nha-o-xa-hoi-hod...,Căn hộ chung cư,Bà Rịa - Vũng Tàu,Địa chỉ:,,0
2,tai-ba-ria-vung-tau,"Hodeco Seavillage: Dự án căn hộ, khách sạn tại...",https://cafeland.vn/du-an/hodeco-seavillage-du...,Căn hộ chung cư,"Đường 3 tháng 2, TP.Vũng Tàu, Bà Rịa - Vũng Tàu",Địa chỉ:,Vũng Tàu,1
3,tai-ba-ria-vung-tau,Phu My Estate: Dự án khu dân cư tại Bà Rịa – V...,https://cafeland.vn/du-an/phu-my-estate-du-an-...,Khu Đô Thị,"đường Hắc Dịch, TX. Phú Mỹ, Bà Rịa - Vũng Tàu",Địa chỉ:,Phú Mỹ,1
4,tai-ba-ria-vung-tau,Vega Alaric: Dự án tòa tháp căn hộ nghỉ dưỡng ...,https://cafeland.vn/du-an/vega-alaric-du-an-to...,Căn hộ chung cư,"Đường 3/2, phường 11, thành phố Vũng Tàu, tỉnh...",Địa chỉ:,Vũng Tàu,1
...,...,...,...,...,...,...,...,...
94,tai-kien-giang,Khu du lịch nghỉ dưỡng Sonasea Villas & Resort,https://cafeland.vn/du-an/khu-du-lich-nghi-duo...,Bất Động Sản Nghỉ Dưỡng,"Trần Hưng Đạo, TP. Phú Quốc, Kiên Giang",Địa chỉ:,Phú Quốc,1
95,tai-kien-giang,Căn hộ du lịch Grand World Phú Quốc,https://cafeland.vn/du-an/can-ho-du-lich-grand...,Bất Động Sản Nghỉ Dưỡng,"Bãi Dài, TP. Phú Quốc, Kiên Giang",Giá thấp nhất: 10 tỷ,Phú Quốc,1
96,tai-kien-giang,Khu du lịch nghỉ dưỡng Sunset Sanato,https://cafeland.vn/du-an/khu-du-lich-nghi-duo...,Bất Động Sản Nghỉ Dưỡng,"Bắc bãi Trường, TP. Phú Quốc, Kiên Giang","Giá thấp nhất: 2,40 tỷ",Phú Quốc,1
97,tai-kien-giang,Khu đô thị mới Phú Cường Kiên Giang,https://cafeland.vn/du-an/khu-do-thi-moi-phu-c...,Khu Đô Thị,"Khu vực IV & V Khu Lấn Biển, TP. Rạch Giá, Kiê...",Địa chỉ:,Rạch Giá,1


In [68]:
# Review the projects that is not coastal
cfland[cfland['isCoastal']==0]['town'].unique()

array([None, 'Quốc lộ 51', 'Bà Rịa', 'Châu Đức', 'đường Hùng Vương',
       'Đường Nguyễn Trãi', 'Tỉnh lộ 44A', 'Đường Mỹ Xuân – Tóc Tiên',
       'đường Tóc Tiên – Châu Pha', 'Đường Trường Chinh (Tỉnh lộ 81)',
       'Đường Lê Trọng Tấn', 'Châu Pha - Tóc Tiên', 'Uông Bí',
       'Đông Triều', 'đường Trần Thái Tông', 'Thủy Nguyên', 'Kiến An',
       'An Dương', 'Ngô Quyền', 'Hồng Bàng', 'Vĩnh Bảo', 'Lê Chân',
       'Đường World Bank', 'Thái Bình', 'Đông Hưng', 'Hưng Hà',
       'Nam Định', 'Vụ Bản', 'Tam Điệp', 'Nho Quan', 'Gia Viễn',
       'Thanh Hóa', 'Đông Sơn', 'xã Hải Hòa', 'Vĩnh Lộc', 'Yên Định',
       'Triệu Sơn', 'Như Thanh', 'Thọ Xuân', 'Bỉm Sơn', 'Vinh',
       'Thái Hòa', 'Đô Lương', 'Hưng Nguyên', 'Đức Thọ', 'Can Lộc',
       'Hương Sơn', 'Hồng Lĩnh', 'Hà Tĩnh', 'Quảng Trị', 'Đông Hà',
       'Hương Thủy', 'Hương Trà', 'Cẩm Lệ', 'Đà Nẵng', 'Hòa Vang',
       'Quế Sơn', 'Nam Giang', 'Tư Nghĩa', 'Sơn Tịnh', 'Nghĩa Hành',
       'Tuy Phước', 'An Nhơn', 'Vân Canh', 'Diên Kh

In [69]:
cfland['isCoastal'].mean()

0.7929589270746018

In [75]:
cfland.shape[0] - cfland['isCoastal'].sum()

247

In [76]:
# Export dataset and continue to check for minor data error
cfland.to_csv("data/cafeland/master.csv")

# Scrape project detail

Reload dataset

In [4]:
cf = pd.read_csv("data/cafeland/master.csv", index_col=[0])
cf

Unnamed: 0,tinh,project,link,kind,location,price,town,isCoastal
0,tai-ba-ria-vung-tau,Khu đô thị Phước Thắng: Dự án biệt thự và nhà ...,https://cafeland.vn/du-an/khu-do-thi-phuoc-tha...,Khu Đô Thị,"Phường 12, TP Vũng Tàu, tỉnh Bà Rịa - Vũng Tàu...",Địa chỉ:,Vũng Tàu,1
2,tai-ba-ria-vung-tau,"Hodeco Seavillage: Dự án căn hộ, khách sạn tại...",https://cafeland.vn/du-an/hodeco-seavillage-du...,Căn hộ chung cư,"Đường 3 tháng 2, TP.Vũng Tàu, Bà Rịa - Vũng Tàu",Địa chỉ:,Vũng Tàu,1
3,tai-ba-ria-vung-tau,Phu My Estate: Dự án khu dân cư tại Bà Rịa – V...,https://cafeland.vn/du-an/phu-my-estate-du-an-...,Khu Đô Thị,"đường Hắc Dịch, TX. Phú Mỹ, Bà Rịa - Vũng Tàu",Địa chỉ:,Phú Mỹ,1
4,tai-ba-ria-vung-tau,Vega Alaric: Dự án tòa tháp căn hộ nghỉ dưỡng ...,https://cafeland.vn/du-an/vega-alaric-du-an-to...,Căn hộ chung cư,"Đường 3/2, phường 11, thành phố Vũng Tàu, tỉnh...",Địa chỉ:,Vũng Tàu,1
5,tai-ba-ria-vung-tau,Antares Beach: Dự án khu du lịch nghỉ dưỡng tạ...,https://cafeland.vn/du-an/antares-beach-du-an-...,Bất Động Sản Nghỉ Dưỡng,"TP.Vũng Tàu, Bà Rịa - Vũng Tàu",Địa chỉ:,Vũng Tàu,1
...,...,...,...,...,...,...,...,...
2,tai-soc-trang,Dự án Garden Home Sóc Trăng,https://cafeland.vn/du-an/du-an-garden-home-so...,Khu Đô Thị,"đường Lê Hồng Phong, TP. Sóc Trăng, Sóc Trăng","Giá thấp nhất: 2,50 tỷ",Sóc Trăng,0
3,tai-soc-trang,Khu dân cư Minh Châu Sóc Trăng,https://cafeland.vn/du-an/khu-dan-cu-minh-chau...,Khu Đô Thị,"Quốc lộ 1A, TP. Sóc Trăng, Sóc Trăng",Địa chỉ:,Sóc Trăng,0
4,tai-soc-trang,Khu đô thị Mekong Centre Sóc Trăng,https://cafeland.vn/du-an/khu-do-thi-mekong-ce...,Khu Đô Thị,"đường Mạc Đỉnh Chi, TP. Sóc Trăng, Sóc Trăng","Giá thấp nhất: 1,12 tỷ",Sóc Trăng,0
0,tai-ca-mau,Cà Mau New City: Dự án Khu đô thị tại Cà Mau,https://cafeland.vn/du-an/ca-mau-new-city-du-a...,Khu Đô Thị,"số 127 Trần Hưng Đạo, TP. Cà Mau, Cà Mau","Giá thấp nhất: 3,84 tỷ",Cà Mau,0


In [5]:
cf[cf['isCoastal'] == 1]

Unnamed: 0,tinh,project,link,kind,location,price,town,isCoastal
0,tai-ba-ria-vung-tau,Khu đô thị Phước Thắng: Dự án biệt thự và nhà ...,https://cafeland.vn/du-an/khu-do-thi-phuoc-tha...,Khu Đô Thị,"Phường 12, TP Vũng Tàu, tỉnh Bà Rịa - Vũng Tàu...",Địa chỉ:,Vũng Tàu,1
2,tai-ba-ria-vung-tau,"Hodeco Seavillage: Dự án căn hộ, khách sạn tại...",https://cafeland.vn/du-an/hodeco-seavillage-du...,Căn hộ chung cư,"Đường 3 tháng 2, TP.Vũng Tàu, Bà Rịa - Vũng Tàu",Địa chỉ:,Vũng Tàu,1
3,tai-ba-ria-vung-tau,Phu My Estate: Dự án khu dân cư tại Bà Rịa – V...,https://cafeland.vn/du-an/phu-my-estate-du-an-...,Khu Đô Thị,"đường Hắc Dịch, TX. Phú Mỹ, Bà Rịa - Vũng Tàu",Địa chỉ:,Phú Mỹ,1
4,tai-ba-ria-vung-tau,Vega Alaric: Dự án tòa tháp căn hộ nghỉ dưỡng ...,https://cafeland.vn/du-an/vega-alaric-du-an-to...,Căn hộ chung cư,"Đường 3/2, phường 11, thành phố Vũng Tàu, tỉnh...",Địa chỉ:,Vũng Tàu,1
5,tai-ba-ria-vung-tau,Antares Beach: Dự án khu du lịch nghỉ dưỡng tạ...,https://cafeland.vn/du-an/antares-beach-du-an-...,Bất Động Sản Nghỉ Dưỡng,"TP.Vũng Tàu, Bà Rịa - Vũng Tàu",Địa chỉ:,Vũng Tàu,1
...,...,...,...,...,...,...,...,...
94,tai-kien-giang,Khu du lịch nghỉ dưỡng Sonasea Villas & Resort,https://cafeland.vn/du-an/khu-du-lich-nghi-duo...,Bất Động Sản Nghỉ Dưỡng,"Trần Hưng Đạo, TP. Phú Quốc, Kiên Giang",Địa chỉ:,Phú Quốc,1
95,tai-kien-giang,Căn hộ du lịch Grand World Phú Quốc,https://cafeland.vn/du-an/can-ho-du-lich-grand...,Bất Động Sản Nghỉ Dưỡng,"Bãi Dài, TP. Phú Quốc, Kiên Giang",Giá thấp nhất: 10 tỷ,Phú Quốc,1
96,tai-kien-giang,Khu du lịch nghỉ dưỡng Sunset Sanato,https://cafeland.vn/du-an/khu-du-lich-nghi-duo...,Bất Động Sản Nghỉ Dưỡng,"Bắc bãi Trường, TP. Phú Quốc, Kiên Giang","Giá thấp nhất: 2,40 tỷ",Phú Quốc,1
97,tai-kien-giang,Khu đô thị mới Phú Cường Kiên Giang,https://cafeland.vn/du-an/khu-do-thi-moi-phu-c...,Khu Đô Thị,"Khu vực IV & V Khu Lấn Biển, TP. Rạch Giá, Kiê...",Địa chỉ:,Rạch Giá,1


In [6]:
cf['kind'].value_counts()

kind
Khu Đô Thị                 363
Bất Động Sản Nghỉ Dưỡng    269
Căn hộ chung cư            267
Đất Nền Dự Án              142
Nhà Phố - Biệt Thự         100
Loại Hình Khác              42
Khu công nghiệp             10
Name: count, dtype: int64

In [8]:
tinh_dict = {'Quảng Ninh': 'tai-quang-ninh',
 'Hải Phòng': 'tai-hai-phong',
 'Thái Bình': 'tai-thai-binh',
 'Nam Định': 'tai-nam-dinh',
 'Ninh Bình': 'tai-ninh-binh',
 'Thanh Hóa': 'tai-thanh-hoa',
 'Nghệ An': 'tai-nghe-an',
 'Hà Tĩnh': 'tai-ha-tinh',
 'Quảng Bình': 'tai-quang-binh',
 'Quảng Trị': 'tai-quang-tri',
 'Thừa Thiên Huế': 'tai-thua-thien-hue',
 'Đà Nẵng': 'tai-da-nang',
 'Quảng Nam': 'tai-quang-nam',
 'Quảng Ngãi': 'tai-quang-ngai',
 'Bình Định': 'tai-binh-dinh',
 'Phú Yên': 'tai-phu-yen',
 'Khánh Hòa': 'tai-khanh-hoa',
 'Ninh Thuận': 'tai-ninh-thuan',
 'Bình Thuận': 'tai-binh-thuan',
 'Bà Rịa Vũng Tàu': 'tai-ba-ria-vung-tau',
 'Tiền Giang': 'tai-tien-giang',
 'Bến Tre': 'tai-ben-tre',
 'Trà Vinh': 'tai-tra-vinh',
 'Sóc Trăng': 'tai-soc-trang',
 'Bạc Liêu': 'tai-bac-lieu',
 'Cà Mau': 'tai-ca-mau',
 'Kiên Giang': 'tai-kien-giang'}

In [163]:
def getDetail(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
    }

    # url = f'https://cafeland.vn/du-an/mer-vista-casilla-phan-khu-can-ho-tai-thanh-long-bay-4056.html'
    # url = "https://cafeland.vn/du-an/khu-nha-pho-thuong-mai-the-sound-thanh-long-bay-binh-thuan-2560.html"

    try: 
        driver.get(url)
        time.sleep(3)
        page_source = driver.page_source
        soup = BeautifulSoup(page_source, 'html.parser')
        
        # Get the main content
        content = soup.find('div', {'class':'infoCafeProject'})
        contentItems = content.findAll(["h2", "p"])
        result = []
        for c in contentItems:
            if c.text == "":
                try:
                    result.append(c.img['src'])
                except:
                    try:
                        result.append(c.a.img['src'])
                    except Exception as e:
                        print(e)
            else:
                result.append(c.text)
        print(f"Successfully retrieve {url}")
        return result
        
    except Exception as e:
        print(f"Cannot extract {url} ---" + e)
        return None

In [169]:
# Regulate the scraping progress
for tinh_code in list(tinh_dict.values())[18:]:
    data = cf[(cf['tinh'] == tinh_code) & (cf['isCoastal'] == 1)][['tinh', 'project', 'link']]
    data['content'] = data['link'].apply(getDetail)
    data.to_csv(f"data/pages/{tinh_code}.csv")

Successfully retrieve https://cafeland.vn/du-an/mer-vista-casilla-phan-khu-can-ho-tai-thanh-long-bay-4056.html
Successfully retrieve https://cafeland.vn/du-an/louis-seaview-du-an-khu-nghi-duong-tai-binh-thuan-3996.html
Successfully retrieve https://cafeland.vn/du-an/the-venice-56-du-an-can-ho-tai-khu-du-lich-sinh-thai-bien-venezia-beach-3867.html
Successfully retrieve https://cafeland.vn/du-an/can-ho-casilla-phan-khu-thuoc-do-thi-nghi-duong-giai-tri-du-lich-thanh-long-bay-3779.html
Successfully retrieve https://cafeland.vn/du-an/pga-golf-villas-phan-khu-biet-thu-tai-novaworld-phan-thiet-3687.html
Successfully retrieve https://cafeland.vn/du-an/dong-tan-thien-du-an-khu-do-thi-tai-tinh-binh-thuan-3682.html
Successfully retrieve https://cafeland.vn/du-an/son-my-1-du-an-khu-cong-nghiep-tai-tinh-binh-thuan-3657.html
Successfully retrieve https://cafeland.vn/du-an/monaco-wellness-phan-khu-biet-thu-du-an-novaworld-phan-thiet-3633.html
Successfully retrieve https://cafeland.vn/du-an/olympic-ph

In [175]:
# Load and combine all content
data = pd.DataFrame()
for tinh_code in list(tinh_dict.values()):
    temp = pd.read_csv(f"data/pages/{tinh_code}.csv")
    data = pd.concat([temp, data])

In [176]:
data

Unnamed: 0.1,Unnamed: 0,tinh,project,link,content
0,0,tai-kien-giang,The Lagom: Dự án biệt thự nghỉ dưỡng tại Phú Quốc,https://cafeland.vn/du-an/the-lagom-du-an-biet...,"['Quy mô dự án The Lagom Phú Quốc', 'https://s..."
1,1,tai-kien-giang,Khu du lịch sinh thái Vũng Bầu tại TP.Phú Quốc,https://cafeland.vn/du-an/khu-du-lich-sinh-tha...,['Quy mô dự án Khu du lịch sinh thái Vũng Bầu'...
2,2,tai-kien-giang,"Forest Bay: Dự án khu du lịch sinh thái, dân c...",https://cafeland.vn/du-an/forest-bay-du-an-khu...,"['Quy mô dự án Forest Bay Phú Quốc', 'https://..."
3,3,tai-kien-giang,Meypearl Harmony: Dự án khu căn hộ cao cấp tại...,https://cafeland.vn/du-an/meypearl-harmony-du-...,"['Quy mô dự án Meypearl Harmony Phú Quốc', 'ht..."
4,4,tai-kien-giang,Residence Hill: Dự án khu phức hợp thương mại ...,https://cafeland.vn/du-an/residence-hill-du-an...,"['Quy mô dự án Residence Hill Kiên Giang', 'ht..."
...,...,...,...,...,...
92,106,tai-quang-ninh,Cao Xanh – Hà Khánh C: Đô thị mới bên bờ biển ...,https://cafeland.vn/du-an/cao-xanh-ha-khanh-c-...,"[' Quy mô dự án:', ' Nằm trên khu đất có diện ..."
93,107,tai-quang-ninh,Khu đô thị Cảng Ngọc Châu: Tiểu khu 22 của đảo...,https://cafeland.vn/du-an/khu-do-thi-cang-ngoc...,"['Quy mô dự án:', 'Khu đô thị Cảng Ngọc Châu c..."
94,108,tai-quang-ninh,Mandaville Hạ Long: Khu du lịch nghỉ dưỡng tại...,https://cafeland.vn/du-an/mandaville-ha-long-k...,"[' ', ' Quy mô dự án:', ' Mandaville Hạ Long n..."
95,109,tai-quang-ninh,The Bay View Towers: Chỉ một màu xanh,https://cafeland.vn/du-an/the-bay-view-towers-...,"['Công trình cao 30 tầng, có 3 tầng dành cho t..."


In [183]:
data = data.drop(columns=["Unnamed: 0"]).reset_index(drop=True)

In [198]:
eval(data.sample()['content'].values[0])

['Quy mô dự án Vĩnh Hy Ninh Thuận',
 'https://static1.cafeland.vn/cafelandnew/hinh-anh/2023/10/23/209/image-20231023151729-1.png?t=1',
 'Quy hoạch tổng mặt bằng dự án Vĩnh Hy',
 'Dự án có tổng diện tích quy hoạch 64, 65 ha, mật độ xây dựng dự án là 4,59%. Khu vực quy hoạch khu nghỉ dưỡng, thuê môi trường rừng là 12,9 ha (trong đó quy hoạch 7,12 ha đất công trình biệt thự nghỉ dưỡng sinh thái, chiều cao 1, 2 tầng, cao <12 m; còn lại 4,78 ha là đất dành cho các công trình hạ tầng kỹ thuật, mặt nước). ',
 'Dự án sẽ được triển khai trong 2 giai đoạn với mục tiêu khai thác tài nguyên du lịch kết hợp sinh thái nghỉ dưỡng tại khu vực Vườn quốc gia Núi Chúa:',
 '- Giai đoạn 1: Xây dựng 54 biệt thự nghỉ dưỡng. Trong đó, 30 căn (diện tích 150 m2) và 24 căn (diện tích 250 m2).',
 '- Giai đoạn 2: 46 biệt thự gồm 10 căn hai phòng ngủ, 31 căn ba phòng ngủ (250 m2), 4 căn 4 phòng ngủ (350 m2) và 1 căn 5 phòng ngủ (1500 m 2). Tất cả biệt thự này chỉ có 1 tầng.',
 'Về\xa0quy\xa0hoạch không gian, dự án 

In [204]:
data.to_csv("data/pages/all_pages.csv")

In [205]:
data

Unnamed: 0,tinh,project,link,content
0,tai-kien-giang,The Lagom: Dự án biệt thự nghỉ dưỡng tại Phú Quốc,https://cafeland.vn/du-an/the-lagom-du-an-biet...,"['Quy mô dự án The Lagom Phú Quốc', 'https://s..."
1,tai-kien-giang,Khu du lịch sinh thái Vũng Bầu tại TP.Phú Quốc,https://cafeland.vn/du-an/khu-du-lich-sinh-tha...,['Quy mô dự án Khu du lịch sinh thái Vũng Bầu'...
2,tai-kien-giang,"Forest Bay: Dự án khu du lịch sinh thái, dân c...",https://cafeland.vn/du-an/forest-bay-du-an-khu...,"['Quy mô dự án Forest Bay Phú Quốc', 'https://..."
3,tai-kien-giang,Meypearl Harmony: Dự án khu căn hộ cao cấp tại...,https://cafeland.vn/du-an/meypearl-harmony-du-...,"['Quy mô dự án Meypearl Harmony Phú Quốc', 'ht..."
4,tai-kien-giang,Residence Hill: Dự án khu phức hợp thương mại ...,https://cafeland.vn/du-an/residence-hill-du-an...,"['Quy mô dự án Residence Hill Kiên Giang', 'ht..."
...,...,...,...,...
947,tai-quang-ninh,Cao Xanh – Hà Khánh C: Đô thị mới bên bờ biển ...,https://cafeland.vn/du-an/cao-xanh-ha-khanh-c-...,"[' Quy mô dự án:', ' Nằm trên khu đất có diện ..."
948,tai-quang-ninh,Khu đô thị Cảng Ngọc Châu: Tiểu khu 22 của đảo...,https://cafeland.vn/du-an/khu-do-thi-cang-ngoc...,"['Quy mô dự án:', 'Khu đô thị Cảng Ngọc Châu c..."
949,tai-quang-ninh,Mandaville Hạ Long: Khu du lịch nghỉ dưỡng tại...,https://cafeland.vn/du-an/mandaville-ha-long-k...,"[' ', ' Quy mô dự án:', ' Mandaville Hạ Long n..."
950,tai-quang-ninh,The Bay View Towers: Chỉ một màu xanh,https://cafeland.vn/du-an/the-bay-view-towers-...,"['Công trình cao 30 tầng, có 3 tầng dành cho t..."


# Read detail of projects

In [None]:
data = pd.read_csv("data/pages/all_pages.csv")
len(data)

In [215]:
data

Unnamed: 0.1,Unnamed: 0,tinh,project,link,content
0,0,tai-kien-giang,The Lagom: Dự án biệt thự nghỉ dưỡng tại Phú Quốc,https://cafeland.vn/du-an/the-lagom-du-an-biet...,"['Quy mô dự án The Lagom Phú Quốc', 'https://s..."
1,1,tai-kien-giang,Khu du lịch sinh thái Vũng Bầu tại TP.Phú Quốc,https://cafeland.vn/du-an/khu-du-lich-sinh-tha...,['Quy mô dự án Khu du lịch sinh thái Vũng Bầu'...
2,2,tai-kien-giang,"Forest Bay: Dự án khu du lịch sinh thái, dân c...",https://cafeland.vn/du-an/forest-bay-du-an-khu...,"['Quy mô dự án Forest Bay Phú Quốc', 'https://..."
3,3,tai-kien-giang,Meypearl Harmony: Dự án khu căn hộ cao cấp tại...,https://cafeland.vn/du-an/meypearl-harmony-du-...,"['Quy mô dự án Meypearl Harmony Phú Quốc', 'ht..."
4,4,tai-kien-giang,Residence Hill: Dự án khu phức hợp thương mại ...,https://cafeland.vn/du-an/residence-hill-du-an...,"['Quy mô dự án Residence Hill Kiên Giang', 'ht..."
...,...,...,...,...,...
947,947,tai-quang-ninh,Cao Xanh – Hà Khánh C: Đô thị mới bên bờ biển ...,https://cafeland.vn/du-an/cao-xanh-ha-khanh-c-...,"[' Quy mô dự án:', ' Nằm trên khu đất có diện ..."
948,948,tai-quang-ninh,Khu đô thị Cảng Ngọc Châu: Tiểu khu 22 của đảo...,https://cafeland.vn/du-an/khu-do-thi-cang-ngoc...,"['Quy mô dự án:', 'Khu đô thị Cảng Ngọc Châu c..."
949,949,tai-quang-ninh,Mandaville Hạ Long: Khu du lịch nghỉ dưỡng tại...,https://cafeland.vn/du-an/mandaville-ha-long-k...,"[' ', ' Quy mô dự án:', ' Mandaville Hạ Long n..."
950,950,tai-quang-ninh,The Bay View Towers: Chỉ một màu xanh,https://cafeland.vn/du-an/the-bay-view-towers-...,"['Công trình cao 30 tầng, có 3 tầng dành cho t..."


In [20]:
# Bảo toàn các số thập phân như: 5,6ha hay 5.6ha hay dấu hàng ngàn như 15,5 hay 15.5 tỷ đồng
import re

def replace_numbers(text):
    # Replace ',' between digits with '#'
    text = re.sub(r'(?<=\d),(?=\d)', '#', text)
    # Replace '.' between digits with '*'
    text = re.sub(r'(?<=\d)\.(?=\d)', '*', text)
    return text

def clean_text(t):
    t = t.replace("*", "")
    t = t.replace("\xa0", "")
    t = replace_numbers(t)
    t = re.sub(r'\s{2,}', ' ', t)
    t = t.replace("…", ".")
    t = t.replace("...", ".")
    t = t.replace("TP.", "thành phố ")
    t = t.replace("Tp.", "thành phố ")
    t = t.replace("P.", "phường ")
    t = t.replace("Co.op", "Coop")
    t = t.replace("Thông tin nhanh", "Thông-tin-nhanh")
    return t.strip()


In [21]:
def clean_list_text(list_text):
    new_list = []
    for l in eval(list_text):
        l = clean_text(l)
        if l!="":
            new_list.append(l)
    return new_list

In [22]:
data['clean_content'] = data['content'].apply(clean_list_text)
data['name'] = data['content'].apply(lambda x: eval(x)[0])
data

Unnamed: 0.1,Unnamed: 0,tinh,project,link,content,clean_content,name,idx
0,0,tai-kien-giang,The Lagom: Dự án biệt thự nghỉ dưỡng tại Phú Quốc,https://cafeland.vn/du-an/the-lagom-du-an-biet...,"['Quy mô dự án The Lagom Phú Quốc', 'https://s...","[Quy mô dự án The Lagom Phú Quốc, https://stat...",Quy mô dự án The Lagom Phú Quốc,"[16, 19]"
1,1,tai-kien-giang,Khu du lịch sinh thái Vũng Bầu tại TP.Phú Quốc,https://cafeland.vn/du-an/khu-du-lich-sinh-tha...,['Quy mô dự án Khu du lịch sinh thái Vũng Bầu'...,"[Quy mô dự án Khu du lịch sinh thái Vũng Bầu, ...",Quy mô dự án Khu du lịch sinh thái Vũng Bầu,"[7, 11]"
2,2,tai-kien-giang,"Forest Bay: Dự án khu du lịch sinh thái, dân c...",https://cafeland.vn/du-an/forest-bay-du-an-khu...,"['Quy mô dự án Forest Bay Phú Quốc', 'https://...","[Quy mô dự án Forest Bay Phú Quốc, https://sta...",Quy mô dự án Forest Bay Phú Quốc,"[12, 17]"
3,3,tai-kien-giang,Meypearl Harmony: Dự án khu căn hộ cao cấp tại...,https://cafeland.vn/du-an/meypearl-harmony-du-...,"['Quy mô dự án Meypearl Harmony Phú Quốc', 'ht...","[Quy mô dự án Meypearl Harmony Phú Quốc, https...",Quy mô dự án Meypearl Harmony Phú Quốc,"[32, 39]"
4,4,tai-kien-giang,Residence Hill: Dự án khu phức hợp thương mại ...,https://cafeland.vn/du-an/residence-hill-du-an...,"['Quy mô dự án Residence Hill Kiên Giang', 'ht...","[Quy mô dự án Residence Hill Kiên Giang, https...",Quy mô dự án Residence Hill Kiên Giang,"[9, 12]"
...,...,...,...,...,...,...,...,...
947,947,tai-quang-ninh,Cao Xanh – Hà Khánh C: Đô thị mới bên bờ biển ...,https://cafeland.vn/du-an/cao-xanh-ha-khanh-c-...,"[' Quy mô dự án:', ' Nằm trên khu đất có diện ...","[Quy mô dự án:, Nằm trên khu đất có diện tích ...",Quy mô dự án:,"[-1, 10]"
948,948,tai-quang-ninh,Khu đô thị Cảng Ngọc Châu: Tiểu khu 22 của đảo...,https://cafeland.vn/du-an/khu-do-thi-cang-ngoc...,"['Quy mô dự án:', 'Khu đô thị Cảng Ngọc Châu c...","[Quy mô dự án:, Khu đô thị Cảng Ngọc Châu có t...",Quy mô dự án:,"[-1, 13]"
949,949,tai-quang-ninh,Mandaville Hạ Long: Khu du lịch nghỉ dưỡng tại...,https://cafeland.vn/du-an/mandaville-ha-long-k...,"[' ', ' Quy mô dự án:', ' Mandaville Hạ Long n...","[Quy mô dự án:, Mandaville Hạ Long nằm trên kh...",,"[-1, 13]"
950,950,tai-quang-ninh,The Bay View Towers: Chỉ một màu xanh,https://cafeland.vn/du-an/the-bay-view-towers-...,"['Công trình cao 30 tầng, có 3 tầng dành cho t...","[Công trình cao 30 tầng, có 3 tầng dành cho tr...","Công trình cao 30 tầng, có 3 tầng dành cho tru...","[-1, -1]"


In [27]:
# ['Quy mô dự án Khu du lịch sinh thái Vũng Bầu',
#  'Khu du lịch sinh thái Vũng Bầu được triển khai trên tổng diện tích đất 406*000m2, cung cấp 832 lô đất bao gồm đất biệt thự nghỉ dưỡng, đất du lịch nghỉ dưỡng (khu đón tiếp, phục vụ, bungalow, nhà hàng), khách sạn, trưng bày cổ vật biển.',
#  'https://static1.cafeland.vn/cafelandnew/hinh-anh/2024/05/18/195/image-20240518152050-1.jpeg?t=1',
#  'Phối cảnh Khu du lịch sinh thái Vũng Bầu Phú Quốc.',
#  'Cụ thể, đất biệt thự nghỉ dưỡng có 304 lô, đất du lịch nghỉ dưỡng có 517 lô, đất khách sạn 01 lô và đất trưng bày cổ vật biển 01 lô.',
#  'Diện tích các sản được bố chí linh hoạt như đất biệt thự rộng 120m2, đất bungalow rộng 45-160m2, đất nhà hàng biển từ 264-648m2, đất khách sạn rộng 10*293m2 và đất trưng bày cổ vật biển rộng 10*343m2.',
#  'Dự án có mật độ xây dựng 15%, sản phẩm tại dự án được xây dựng từ 1-3 tầng. Riêng công trình điểm nhấn cao tối đa 8 tầng.',
#  'Thông tin dự án Khu du lịch sinh thái Vũng Bầu Phú Quốc',
#  'Dự án Khu du lịch sinh thái Vũng Bầu do Công ty CP Phát triển Bất động sản Phát Đạt làm chủ đầu tư.',
#  'Doanh nghiệp được thành lập vào ngày 13/9/2004, 39 Phạm Ngọc Thạch, phường Võ Thị Sáu, quận 3, thành phố HCM. Người dại diện pháp luật là ông Bùi Quang Anh Vũ.',
#  'Lĩnh vực hoạt động chính là Kinh doanh bất động sản, quyền sử dụng đất thuộc chủ sở hữu, chủ sử dụng hoặc đi thuê, Tư vấn, môi giới, đấu giá bất động sản, đấu giá quyền sử dụng đất.',
#  'Thông tin nhanh dự án Khu du lịch sinh thái Vũng Bầu',
#  'Dự án: Khu du lịch sinh thái Vũng Bầu',
#  'Tổng diện tích: 40#6ha',
#  'Vị trí: xã Cửa Cạn, thành phố Phú Quốc, tỉnh Kiên Giang',
#  'Tổng vốn đầu tư:',
#  'Loại hình: khu dân cư',
#  'Năm khởi công:',
#  'Chủ đầu tư: Công ty CP Phát triển Bất động sản Phát Đạt',
#  'Năm hoàn thành:',
#  'Trần Thùy']

def getIdx(list_text):
    idx_cty = -1
    idx_nhanh = -1
    for i in range(len(list_text)):
        if list_text[i].startswith("Thông-tin-nhanh"):
            idx_nhanh = i
        elif list_text[i].startswith("Thông tin"):
            idx_cty = i
    return [idx_cty, idx_nhanh]

In [68]:
data['idx'] = data['clean_content'].apply(getIdx)

In [85]:
t = data['clean_content'][1]
t

['Quy mô dự án Khu du lịch sinh thái Vũng Bầu',
 'Khu du lịch sinh thái Vũng Bầu được triển khai trên tổng diện tích đất 406*000m2, cung cấp 832 lô đất bao gồm đất biệt thự nghỉ dưỡng, đất du lịch nghỉ dưỡng (khu đón tiếp, phục vụ, bungalow, nhà hàng), khách sạn, trưng bày cổ vật biển.',
 'https://static1.cafeland.vn/cafelandnew/hinh-anh/2024/05/18/195/image-20240518152050-1.jpeg?t=1',
 'Phối cảnh Khu du lịch sinh thái Vũng Bầu Phú Quốc.',
 'Cụ thể, đất biệt thự nghỉ dưỡng có 304 lô, đất du lịch nghỉ dưỡng có 517 lô, đất khách sạn 01 lô và đất trưng bày cổ vật biển 01 lô.',
 'Diện tích các sản được bố chí linh hoạt như đất biệt thự rộng 120m2, đất bungalow rộng 45-160m2, đất nhà hàng biển từ 264-648m2, đất khách sạn rộng 10*293m2 và đất trưng bày cổ vật biển rộng 10*343m2.',
 'Dự án có mật độ xây dựng 15%, sản phẩm tại dự án được xây dựng từ 1-3 tầng. Riêng công trình điểm nhấn cao tối đa 8 tầng.',
 'Thông tin dự án Khu du lịch sinh thái Vũng Bầu Phú Quốc',
 'Dự án Khu du lịch sinh thá

In [86]:
def splitText(txt, idx):
    if idx[0]!=-1 and idx[1]!=-1:
        info = txt[1:idx[0]]
        cty = txt[idx[0]:idx[1]]
        nhanh = txt[idx[1]:]
    elif idx[0]==-1 and idx[1]!=-1:
        info = txt[1:idx[1]]
        cty = []
        nhanh = txt[idx[1]:]
    elif idx[0]!=-1 and idx[1]==-1:
        info = txt[1:idx[0]]
        cty = txt[idx[0]:idx[1]]
        nhanh = []
    elif idx[0]==-1 and idx[1]==-1:
        info = txt
        cty = []
        nhanh = []
    
    imgs = []
    description = []
    for t in info:
        if t.startswith("http"):
            imgs.append(t)
        else:
            description.append(t)

    tong_dien_tich = vi_tri = tong_von_dau_tu = loai_hinh = nam_khoi_cong = chu_dau_tu = nam_hoan_thanh = ""
    if nhanh!=[]:
        for n in nhanh:
            if n.startswith("Tổng diện tích"):
                tong_dien_tich = n.replace("Tổng diện tích", "")
            elif n.startswith("Vị trí"):
                vi_tri = n.replace("Vị trí", "")
            elif n.startswith("Tổng vốn đầu tư"):
                tong_von_dau_tu = n.replace("Tổng vốn đầu tư", "")
            elif n.startswith("Loại hình"):
                loai_hinh = n.replace("Loại hình", "")
            elif n.startswith("Năm khởi công"):
                nam_khoi_cong = n.replace("Năm khởi công", "")
            elif n.startswith("Chủ đầu tư"):
                chu_dau_tu = n.replace("Chủ đầu tư", "")
            elif n.startswith("Năm hoàn thành"):
                nam_hoan_thanh = n.replace("Năm hoàn thành", "")

        
    return {'imgs': imgs,
            'description': description,
            'cty': cty,
            'nhanh': nhanh,
            'tong_dien_tich': tong_dien_tich,
            'vi_tri': vi_tri,
            'tong_von_dau_tu': tong_von_dau_tu,
            'loai_hinh': loai_hinh,
            'nam_khoi_cong': nam_khoi_cong,
            'chu_dau_tu': chu_dau_tu,
            'nam_hoan_thanh': nam_hoan_thanh} 

#  'Tổng diện tích: 40#6ha',
#  'Vị trí: xã Cửa Cạn, thành phố Phú Quốc, tỉnh Kiên Giang',
#  'Tổng vốn đầu tư:',
#  'Loại hình: khu dân cư',
#  'Năm khởi công:',
#  'Chủ đầu tư: Công ty CP Phát triển Bất động sản Phát Đạt',
#  'Năm hoàn thành:',

In [87]:
data['splitted'] = data[['clean_content', 'idx']].apply(lambda x: splitText(x.clean_content, x.idx), axis=1)

In [88]:
data

Unnamed: 0.1,Unnamed: 0,tinh,project,link,content,clean_content,name,splitted,idx
0,0,tai-kien-giang,The Lagom: Dự án biệt thự nghỉ dưỡng tại Phú Quốc,https://cafeland.vn/du-an/the-lagom-du-an-biet...,"['Quy mô dự án The Lagom Phú Quốc', 'https://s...","[Quy mô dự án The Lagom Phú Quốc, https://stat...",Quy mô dự án The Lagom Phú Quốc,{'imgs': ['https://static1.cafeland.vn/cafelan...,"[16, 19]"
1,1,tai-kien-giang,Khu du lịch sinh thái Vũng Bầu tại TP.Phú Quốc,https://cafeland.vn/du-an/khu-du-lich-sinh-tha...,['Quy mô dự án Khu du lịch sinh thái Vũng Bầu'...,"[Quy mô dự án Khu du lịch sinh thái Vũng Bầu, ...",Quy mô dự án Khu du lịch sinh thái Vũng Bầu,{'imgs': ['https://static1.cafeland.vn/cafelan...,"[7, 11]"
2,2,tai-kien-giang,"Forest Bay: Dự án khu du lịch sinh thái, dân c...",https://cafeland.vn/du-an/forest-bay-du-an-khu...,"['Quy mô dự án Forest Bay Phú Quốc', 'https://...","[Quy mô dự án Forest Bay Phú Quốc, https://sta...",Quy mô dự án Forest Bay Phú Quốc,{'imgs': ['https://static1.cafeland.vn/cafelan...,"[12, 17]"
3,3,tai-kien-giang,Meypearl Harmony: Dự án khu căn hộ cao cấp tại...,https://cafeland.vn/du-an/meypearl-harmony-du-...,"['Quy mô dự án Meypearl Harmony Phú Quốc', 'ht...","[Quy mô dự án Meypearl Harmony Phú Quốc, https...",Quy mô dự án Meypearl Harmony Phú Quốc,{'imgs': ['https://static1.cafeland.vn/cafelan...,"[32, 39]"
4,4,tai-kien-giang,Residence Hill: Dự án khu phức hợp thương mại ...,https://cafeland.vn/du-an/residence-hill-du-an...,"['Quy mô dự án Residence Hill Kiên Giang', 'ht...","[Quy mô dự án Residence Hill Kiên Giang, https...",Quy mô dự án Residence Hill Kiên Giang,{'imgs': ['https://static1.cafeland.vn/cafelan...,"[9, 12]"
...,...,...,...,...,...,...,...,...,...
947,947,tai-quang-ninh,Cao Xanh – Hà Khánh C: Đô thị mới bên bờ biển ...,https://cafeland.vn/du-an/cao-xanh-ha-khanh-c-...,"[' Quy mô dự án:', ' Nằm trên khu đất có diện ...","[Quy mô dự án:, Nằm trên khu đất có diện tích ...",Quy mô dự án:,"{'imgs': [], 'description': ['Nằm trên khu đất...","[6, 10]"
948,948,tai-quang-ninh,Khu đô thị Cảng Ngọc Châu: Tiểu khu 22 của đảo...,https://cafeland.vn/du-an/khu-do-thi-cang-ngoc...,"['Quy mô dự án:', 'Khu đô thị Cảng Ngọc Châu c...","[Quy mô dự án:, Khu đô thị Cảng Ngọc Châu có t...",Quy mô dự án:,{'imgs': ['https://cafeland.vn/image-data/600-...,"[10, 13]"
949,949,tai-quang-ninh,Mandaville Hạ Long: Khu du lịch nghỉ dưỡng tại...,https://cafeland.vn/du-an/mandaville-ha-long-k...,"[' ', ' Quy mô dự án:', ' Mandaville Hạ Long n...","[Quy mô dự án:, Mandaville Hạ Long nằm trên kh...",,"{'imgs': [], 'description': ['Mandaville Hạ Lo...","[9, 13]"
950,950,tai-quang-ninh,The Bay View Towers: Chỉ một màu xanh,https://cafeland.vn/du-an/the-bay-view-towers-...,"['Công trình cao 30 tầng, có 3 tầng dành cho t...","[Công trình cao 30 tầng, có 3 tầng dành cho tr...","Công trình cao 30 tầng, có 3 tầng dành cho tru...",{'imgs': ['https://cafeland.vn/image-data/600-...,"[-1, -1]"


In [89]:
# Unpack the 'info' column into multiple columns
info_df = pd.json_normalize(data['splitted'])

# Combine the new columns with the original DataFrame
df = pd.concat([data[['tinh', 'project', 'link']], info_df], axis=1)
df.drop(columns=['nhanh'], inplace=True)

In [90]:
df.sample(2)

Unnamed: 0,tinh,project,link,imgs,description,cty,tong_dien_tich,vi_tri,tong_von_dau_tu,loai_hinh,nam_khoi_cong,chu_dau_tu,nam_hoan_thanh
176,tai-ba-ria-vung-tau,Tổ hợp nghỉ dưỡng Wyndham Tropicana Long Hải,https://cafeland.vn/du-an/to-hop-nghi-duong-wy...,[],[Wyndham Tropicana được quy hoạch trên tổng di...,"[Thông tin, Ngày 20/07/2019 vừa qua, Công ty B...",,": Tỉnh lộ 44A, thị trấn Phước Hải, huyện Đất Đ...",,": Biệt thự, condotel",,: Công ty Bến Thành – Long Hải,
940,tai-quang-ninh,Khu căn hộ Mon Bay,https://cafeland.vn/du-an/khu-can-ho-mon-bay-1...,[],[Được xây dựng trên khu đất có tổng diện tích ...,"[Thông tin, Khu dự án Mon Bay có tổng vốn đầu ...",xây dựng: 17#89 ha,": Đường Trần Quốc Nghiễn, Hồng Hải, Hạ Long",: hơn 4*000 tỷ đồng,":Biệt thự, nhà liên kế, căn hộ, shophouse",,: HD Mon Holdings,: Quý 4/2017


In [91]:
for col in ["tong_dien_tich",	"vi_tri",	"tong_von_dau_tu",	"loai_hinh",	"nam_khoi_cong",	"chu_dau_tu",	"nam_hoan_thanh"]:
    df[col] = df[col].str.replace(":","").str.strip()

In [92]:
df.head()

Unnamed: 0,tinh,project,link,imgs,description,cty,tong_dien_tich,vi_tri,tong_von_dau_tu,loai_hinh,nam_khoi_cong,chu_dau_tu,nam_hoan_thanh
0,tai-kien-giang,The Lagom: Dự án biệt thự nghỉ dưỡng tại Phú Quốc,https://cafeland.vn/du-an/the-lagom-du-an-biet...,[https://static1.cafeland.vn/cafelandnew/hinh-...,"[Phối cảnh tổng thể dự án The Lagom Phú Quốc.,...","[Thông tin dự án The Lagom Phú Quốc, Dự án The...",1#1ha,"Bãi trường, thành phố Phú Quốc, tỉnh Kiên Giang",,Biệt thự nghỉ dưỡng,,Công ty Cổ phần Tập đoàn Hạ tầng đô thị Copora...,
1,tai-kien-giang,Khu du lịch sinh thái Vũng Bầu tại TP.Phú Quốc,https://cafeland.vn/du-an/khu-du-lich-sinh-tha...,[https://static1.cafeland.vn/cafelandnew/hinh-...,[Khu du lịch sinh thái Vũng Bầu được triển kha...,[Thông tin dự án Khu du lịch sinh thái Vũng Bầ...,40#6ha,"xã Cửa Cạn, thành phố Phú Quốc, tỉnh Kiên Giang",,khu dân cư,,Công ty CP Phát triển Bất động sản Phát Đạt,
2,tai-kien-giang,"Forest Bay: Dự án khu du lịch sinh thái, dân c...",https://cafeland.vn/du-an/forest-bay-du-an-khu...,[https://static1.cafeland.vn/cafelandnew/hinh-...,[Phối cảnh tổng quan dự án Forest Bay Phú Quốc...,"[Thông tin dự án Forest Bay Phú Quốc, Chủ đầu ...",173#5 ha,"Ấp Rạch Tràm, xã Bãi Thơm, thành phố Phú ...",4*900 tỷ đồng,"Biệt thự, khách sạn",Năm 2023,Công ty Cổ phần Đầu tư Địa ốc Thành Phố - Đảo ...,
3,tai-kien-giang,Meypearl Harmony: Dự án khu căn hộ cao cấp tại...,https://cafeland.vn/du-an/meypearl-harmony-du-...,[https://static1.cafeland.vn/cafelandnew/hinh-...,[Tổng quan Khu căn hộ Maypearl Harmony Phú Quố...,"[Thông tin dự án Meypearl Harmony Phú Quốc, Dự...",17*409 m2,"Bãi Trường, phường An Thới, thành phố Phú Quốc",,Căn hộ,Quý 4/2023,Công ty Cổ phần Bất động sản Tập đoàn Tân Á Đạ...,Quý 4/2027
4,tai-kien-giang,Residence Hill: Dự án khu phức hợp thương mại ...,https://cafeland.vn/du-an/residence-hill-du-an...,[https://static1.cafeland.vn/cafelandnew/hinh-...,[Dự án Khu phức hợp thương mại – căn hộ cao cấ...,"[Thông tin dự án Residence Hill Kiên Giang, Ch...",4#33 ha,"Đường Trần Hưng Đạo, phường Dương Đông, thành ...",10*000 tỷ đồng,Căn hộ,,Công ty Cổ phần Tập đoàn Tư vấn Đầu tư Xây dựn...,


In [97]:
df[df['tong_von_dau_tu']!=""].shape

(271, 13)

In [94]:
df['loai_hinh'].value_counts()

loai_hinh
Đất nền                           127
Căn hộ                            100
Biệt thự                           72
                                   48
Shophouse                          23
                                 ... 
Căn hộ condotel                    1
đất ở                               1
Khách sạn, biệt thự nghỉ dưỡng      1
Nhà phố, khách sạn                  1
Hotel, Condotel, căn hộ             1
Name: count, Length: 333, dtype: int64

In [99]:
df['description'][123]

['The Sea Class là phân khu thứ hai tại dự án Charm Resort Hồ Tràm, có tổng diện tích 18#9 ha. Dự án được thiết kế xây dựng với mô hình tòa tháp căn hộ và biệt thự nghỉ dưỡng với mật độ chỉ 25%.',
 'Giai đoạn đầu của dự án, The Sea Class có ra mắt thị trường tòa tháp Sophia, có chiều cao 20 tầng. Cung cấp ra thị trường các sản phẩm condotel, có kết cấu từ 1 – 3 phòng ngủ, diện tích từ 38 – 51 – 84 – 120 m2. Bên cạnh đó còn phát triển một số căn hộ duplex thông tầng.',
 'Mặt bằng căn hộ tại phân khu The Sea Class',
 'Dự án The Sea Class sở hữu những tiện ích nội khu bao gồm: chuỗi tiện ích wellness chăm sóc sức khỏe, trung tâm thương mại, khu vui chơi trẻ em, hồ bơi, khu công viên cây xanh, nhà hàng, trung tâm thể dục thể thao.',
 'Phối cảnh tiện ích tại phân khu The Sea Class',
 'Từ dự án, thuận tiện di chuyển đến các khu vực tiện ích lân cận như: 5 phút đến sân golf The Bluffs Hồ Tràm và bãi tắm Hồ Cốc, 6 phút đến casino The Grand Hồ Tràm Strip, 15 phút tới khu du lịch Bình Châu, khoả

In [None]:
# Extract images

# all_imgs = []

# def extract_img(row):
#     t = eval(row)
#     for item in t:
#         if item.startswith("http"):
#             all_imgs.append(item)

# data['content'].apply(extract_img)
# len(all_imgs)
# to_export = {}
# to_export['imgs'] = all_imgs
# import json
# with open('src/assets/data.json', 'w') as f:
#     json.dump(to_export, f)

## EDA


In [None]:
# all = []
# for i in range(len(data)):
#     contents = eval(data['content'][i])
#     for c in contents:
#         if c.startswith("http"):
#             continue
#         else:
#             all.append(c)
# allTxt = " ".join(all)
# f = open("demofile2.txt", "a")
# f.write(allTxt)
# f.close()

In [147]:
df['desc_clean'] = df['description'].str.join(" ").str.lower()

In [148]:
df

Unnamed: 0,tinh,project,link,imgs,description,cty,tong_dien_tich,vi_tri,tong_von_dau_tu,loai_hinh,nam_khoi_cong,chu_dau_tu,nam_hoan_thanh,desc_clean
0,tai-kien-giang,The Lagom: Dự án biệt thự nghỉ dưỡng tại Phú Quốc,https://cafeland.vn/du-an/the-lagom-du-an-biet...,[https://static1.cafeland.vn/cafelandnew/hinh-...,"[Phối cảnh tổng thể dự án The Lagom Phú Quốc.,...","[Thông tin dự án The Lagom Phú Quốc, Dự án The...",1#1ha,"Bãi trường, thành phố Phú Quốc, tỉnh Kiên Giang",,Biệt thự nghỉ dưỡng,,Công ty Cổ phần Tập đoàn Hạ tầng đô thị Copora...,,phối cảnh tổng thể dự án the lagom phú quốc. t...
1,tai-kien-giang,Khu du lịch sinh thái Vũng Bầu tại TP.Phú Quốc,https://cafeland.vn/du-an/khu-du-lich-sinh-tha...,[https://static1.cafeland.vn/cafelandnew/hinh-...,[Khu du lịch sinh thái Vũng Bầu được triển kha...,[Thông tin dự án Khu du lịch sinh thái Vũng Bầ...,40#6ha,"xã Cửa Cạn, thành phố Phú Quốc, tỉnh Kiên Giang",,khu dân cư,,Công ty CP Phát triển Bất động sản Phát Đạt,,khu du lịch sinh thái vũng bầu được triển khai...
2,tai-kien-giang,"Forest Bay: Dự án khu du lịch sinh thái, dân c...",https://cafeland.vn/du-an/forest-bay-du-an-khu...,[https://static1.cafeland.vn/cafelandnew/hinh-...,[Phối cảnh tổng quan dự án Forest Bay Phú Quốc...,"[Thông tin dự án Forest Bay Phú Quốc, Chủ đầu ...",173#5 ha,"Ấp Rạch Tràm, xã Bãi Thơm, thành phố Phú ...",4*900 tỷ đồng,"Biệt thự, khách sạn",Năm 2023,Công ty Cổ phần Đầu tư Địa ốc Thành Phố - Đảo ...,,phối cảnh tổng quan dự án forest bay phú quốc ...
3,tai-kien-giang,Meypearl Harmony: Dự án khu căn hộ cao cấp tại...,https://cafeland.vn/du-an/meypearl-harmony-du-...,[https://static1.cafeland.vn/cafelandnew/hinh-...,[Tổng quan Khu căn hộ Maypearl Harmony Phú Quố...,"[Thông tin dự án Meypearl Harmony Phú Quốc, Dự...",17*409 m2,"Bãi Trường, phường An Thới, thành phố Phú Quốc",,Căn hộ,Quý 4/2023,Công ty Cổ phần Bất động sản Tập đoàn Tân Á Đạ...,Quý 4/2027,tổng quan khu căn hộ maypearl harmony phú quốc...
4,tai-kien-giang,Residence Hill: Dự án khu phức hợp thương mại ...,https://cafeland.vn/du-an/residence-hill-du-an...,[https://static1.cafeland.vn/cafelandnew/hinh-...,[Dự án Khu phức hợp thương mại – căn hộ cao cấ...,"[Thông tin dự án Residence Hill Kiên Giang, Ch...",4#33 ha,"Đường Trần Hưng Đạo, phường Dương Đông, thành ...",10*000 tỷ đồng,Căn hộ,,Công ty Cổ phần Tập đoàn Tư vấn Đầu tư Xây dựn...,,dự án khu phức hợp thương mại – căn hộ cao cấp...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
947,tai-quang-ninh,Cao Xanh – Hà Khánh C: Đô thị mới bên bờ biển ...,https://cafeland.vn/du-an/cao-xanh-ha-khanh-c-...,[],"[Nằm trên khu đất có diện tích 51#99ha, với mậ...","[Thông tin:, Khu đô thị mới Cao Xanh – Hà Khán...",51#99ha,"Phường Cao Xanh, thành phố Hạ Long, tỉnh Quảng...",350 tỷ đồng,Đất nền,,Công ty Cổ phần Phát triển Dự án Biển Đông,,"nằm trên khu đất có diện tích 51#99ha, với mật..."
948,tai-quang-ninh,Khu đô thị Cảng Ngọc Châu: Tiểu khu 22 của đảo...,https://cafeland.vn/du-an/khu-do-thi-cang-ngoc...,[https://cafeland.vn/image-data/600-0/static2....,[Khu đô thị Cảng Ngọc Châu có tổng diện tích 1...,"[Thông tin:, Khu đô thị Cảng Ngọc Châu đã được...",1#37ha,"Đảo Tuần Châu, phường Tuần Châu, thành phố Hạ...",,Biệt thự,,Công ty Bất động sản Lucky,Tháng 8 /2012,khu đô thị cảng ngọc châu có tổng diện tích 1#...
949,tai-quang-ninh,Mandaville Hạ Long: Khu du lịch nghỉ dưỡng tại...,https://cafeland.vn/du-an/mandaville-ha-long-k...,[],[Mandaville Hạ Long nằm trên khu đất có diện t...,"[Thông tin:, Mandaville Hạ Long do Công ty Cổ ...",29#2ha,"Phường Bãi Cháy, thành phố Hạ Long, tỉnh Quảng...",,Khu du lịch nghỉ dưỡng,,Công ty Cổ phần Hạ Long Monaco (thuộc Tập đoàn...,2013,mandaville hạ long nằm trên khu đất có diện tí...
950,tai-quang-ninh,The Bay View Towers: Chỉ một màu xanh,https://cafeland.vn/du-an/the-bay-view-towers-...,[https://cafeland.vn/image-data/600-0/static2....,"[Công trình cao 30 tầng, có 3 tầng dành cho tr...",[],,,,,,,,"công trình cao 30 tầng, có 3 tầng dành cho tru..."


In [149]:
clean = " ".join(df['desc_clean'].values).split(".")
clean

['phối cảnh tổng thể dự án the lagom phú quốc',
 ' the lagom phú quốc được triển khai trên khu đất rộng 1#1ha, cung cấp 81 căn biệt thự',
 ' trong đó, có 56 căn biệt thự tứ lập và 25 căn biệt thự song lập',
 ' mặt bằng dự án the lagom phú quốc',
 ' về thiết kế, biệt thự song lập có diện tích 91#4-112#6m2, chiều cao 2 tầng và 2 phòng ngủ',
 ' biệt thự tứ lập có diện tích 86#2-97#2m2, chiều cao 2 tầng và 2 phòng ngủ',
 ' thiết kế lay out biệt thự song lập tại dự án the lagom phú quốc',
 ' thiết kế layout biệt thự tứ lập tại dự án the lagom phú quốc',
 ' các sản phẩm the lagom phú quốc được thừa hưởng hệ thống tiện ích đa dạng khi nằm con đường lễ hội – trục giao thông chính dẫn thẳng tới tổ hợp vui chơi giải trí sôi động sailing club phú quốc, bãi biển, quảng trường biển và khu chợ đêm',
 ' bên cạnh đó, dự án cũng gần với công viên nước quốc tế',
 ' phía sau dự án là hồ cảnh quan, cùng các tiện ích nội khu như bể bơi riêng, nhà hàng, spa, gym, khu vui chơi, công viên cây xanh',
 ' tiện í

### Tiện ích

In [150]:
# Gom tất cả thông tin về tiện ích. 
tienIch = []
for a in clean:
    idx = a.find("tiện ích")
    if idx!= -1:
        allTienIch = a[idx:].split("tiện ích")
        for t in allTienIch:
            if t.strip() != "":
                t = "tiện ích" + t 
                tienIch.append(t.strip())

In [151]:
tienIch

['tiện ích đa dạng khi nằm con đường lễ hội – trục giao thông chính dẫn thẳng tới tổ hợp vui chơi giải trí sôi động sailing club phú quốc, bãi biển, quảng trường biển và khu chợ đêm',
 'tiện ích nội khu như bể bơi riêng, nhà hàng, spa, gym, khu vui chơi, công viên cây xanh',
 'tiện ích bể bơi trong nhà tại dự án the lagom phú quốc',
 'tiện ích nội khu như bãi tắm riêng, câu lạc bộ biển, quảng trường biển, khu thể thao dưới nuớc, hồ bơi ngoài trời, bến du thuyền, phố mua sắm – ẩm thực, khu trị liệu, khu vui chơi trẻ em, quần thể công viên cây xanh,',
 'tiện ích hồ bơi forest bay',
 'tiện ích bến du thuyền forest bay từ dự án, cư dân có thể dễ dàng tiếp cận với hệ thống các điểm trường học mầm non, trung học, phổ thông quanh đây',
 'tiện ích cần thiết cho cuộc sống hàng ngày bao gồm bệnh viện quốc tế, trường học quốc tế, công viên cây xanh, các cơ quan hành chính, và hệ thống an ninh 24/24, như hồ bơi, phòng tập gym, khu vui chơi trẻ em và khu vườn xanh rộng lớn',
 'tiện ích công cộng nh

In [None]:
tienIch_ = []
for t in tienIch:
    t = t.replace("như:", ":")
    t = t.replace("như", ":")
    t = t.replace("gồm:", ":")
    t = t.replace("gồm", ":")
    if t.find(":")!=-1:
        t = t.split(":")[1]
    t = t.replace("tiện ích", "")
    t = t.replace("nội khu", "")
    t = t.replace("ngoại khu", "")
    t = t.replace("tại đây", " ")
    t = t.replace("đặc biệt là", "")
    t = t.replace("đến", "cách")
    t = t.replace("bao gồm", "")
    t = t.replace(";", ",")
    t = t.replace("và ", ", ")
    # t = t.replace("@", "")
    tienIch_.append(t.strip())


In [158]:
tienIch_

['đa dạng khi nằm con đường lễ hội – trục giao thông chính dẫn thẳng tới tổ hợp vui chơi giải trí sôi động sailing club phú quốc, bãi biển, quảng trường biển , khu chợ đêm',
 'bể bơi riêng, nhà hàng, spa, gym, khu vui chơi, công viên cây xanh',
 'bể bơi trong nhà tại dự án the lagom phú quốc',
 'bãi tắm riêng, câu lạc bộ biển, quảng trường biển, khu thể thao dưới nuớc, hồ bơi ngoài trời, bến du thuyền, phố mua sắm – ẩm thực, khu trị liệu, khu vui chơi trẻ em, quần thể công viên cây xanh,',
 'hồ bơi forest bay',
 'bến du thuyền forest bay từ dự án, cư dân có thể dễ dàng tiếp cận với hệ thống các điểm trường học mầm non, trung học, phổ thông quanh đây',
 'hồ bơi, phòng tập gym, khu vui chơi trẻ em , khu vườn xanh rộng lớn',
 'nhà hàng, thư viện, công viên cây xanh, hồ bơi, nhà trẻ, bãi đậu xe rộng rãi, đáp ứng nhu cầu nghỉ dưỡng, an cư, kinh doanh cho khách du lịch, cư dân, nhà đầu tư trong , ngoài nước',
 'tại residence hill tuyến dân cư đường số 2 có tổng diện tích quy hoạch là 10#69 h

In [None]:
# Tách thành các phần nhỏ trong câu
features = []
distance = []

for t in tienIch_:
    for i in list(map(lambda x: x.strip(), t.split(","))):
        if i!="" and len(i)>1 and not i.startswith("của") and not i.startswith("dự ") and not i.startswith("tại ") and not i.startswith("tầng ") and not i.startswith("tới ") and not i.startswith("từ ") and not i.startswith("với") and not i.startswith("bên trong") and not i.startswith("đi kèm"):
            if i.startswith("cách"):
                distance.append(i)
            else:
                features.append(i)


In [168]:
list(sorted(set(distance)))

['cách 1#5kmđến đại lộ nam sông mã',
 'cách 10 phút đến công viên phú tài',
 'cách 10 phút đến sân golf paradise',
 'cách 15 phút đến công viên khu vực 7',
 'cách 2 km đến th thạch linh',
 'cách 2#6km đến chợ môi',
 'cách 20 phút đến trung tâm thành phố quy nhơn',
 'cách 240m đến trường thcs phước hội 2',
 'cách 3 km đến bệnh viện đa khoa hà tĩnh',
 'cách 3km đến bệnh viện 71 trung ương',
 'cách 5 phút đến chợ khu vực 7',
 'cách 5 phút đến hệ thống sân golf',
 'cách 5 phút đến khu đô thị chí linh',
 'cách 750m đến ubnd phường quảng phú',
 'cách 800m đến nhà máy sữa vinamilk thanh hóa',
 'cách big c hạ long 16 phút di chuyển',
 'cách big c quy nhơn 1km',
 'cách biển 500 m',
 'cách biển chỉ 500 m',
 'cách biển hồ tràm km',
 'cách biển kỳ co 10 phút',
 'cách biển mỹ khê 500 m',
 'cách biển mỹ khê khoảng 5#8km',
 'cách biển non nước cùng bãi tắm công cộng 800 m',
 'cách biển sầm sơn 15 km',
 'cách biển thuận an khoảng 12 km',
 'cách biển điện dương 4#6km',
 'cách brg coastal city',
 'cách 

In [171]:
list(sorted(set(features)))

['(tầng 1) dự án căn hộ ramada by windham ha long bay view phối cảnh tổng thể dự án condotel best western premier sapphire ha long best western premier sapphire ha long nằm trong tổ hợp dự án dragon bay với tổng diện tích quy hoạch 4#7ha',
 '+ khách sạn',
 '- tới sân bay long thành trong vòng 30 phút',
 '- từ tầng 19-41 là các căn hộ khách sạn với số lượng 264 căn - tầng 42-43 dành cho các căn penthouse phân bổ tháp nobu residences đà nẵng',
 '01 biệt thự lô d',
 '05 biệt thự lô c',
 '1 block khách sạn 18 tầng với 250 phòng',
 '1 hồ bơi trẻ em',
 '1 hội trường sức chứa 350 chỗ',
 '1 km tới ngân hàng vietcombank',
 '1 lửng',
 '1 sân bóng giữa khu đô thị',
 '1 tầng hầm',
 '1 tầng hầm đỗ xe',
 '1 tầng penthouse & sky villas',
 '1#2 km tới bệnh viện vinmec',
 '1#2km đến cảng cá lagi beach',
 '1*742 m2',
 '10 phút đến bãi sao',
 '10 phút đến bến xe trung tâm thành phố',
 '10 phút đến nhà thuốc trung tâm y tế phường nhơn bình',
 '10 phút đến trường quốc tế iec',
 '12 tầng độc đáo hướng biển'

In [172]:
f_ = '\n'.join(list(sorted(set(features))))
f = open("tien_ich.txt", "a")
f.write(f_)
f.close()

In [162]:
for i in list(sorted(set(features))):
    if len(i.split()) == 1:
        print(i) 

ballroom
bar
bbq
biển
bungalow
cafe
café
café)
casino
chung
chuỗi
chợ
clb
club
club-house
clubhouse
cocobay
coffee
ct10
ct6
ct7
ct8
ct9
các
có
cụm
của
detox
f&b
fitness
gardenia)
grandworld
gym
gym-spa
gồm
hotel
hydrotherapy
ii
iii
internet
jacuzzi
karaoke
kayak
khu
khác
lagoon
lounge
lạnh
marine
massage
mice
minibar
minimart
ngồi
nhiều
nhật
những
nino
núi
nội
penthouse
pháp
plaza
prado
pub
racquetball
resort
retails
riêng
rooftop
salon
sapporo
sau
sauna
shophouse
shopping
shoptel
skybar
sofa
spa
squash
streamwalk
sundeck
sông
tennis
th
thcs
tiger
tttm
tv
ubnd
victoria
vinholiday
vinmec
vinoasis
vinpearl
vinpearland
yoga
đêm
đường


### Phong cách

In [145]:
# Gom tất cả thông tin về phong cách. 
phongCach = []
for a in all:
    idx = a.find("phong cách")
    if idx!= -1:
        phongCach.append(a[idx:-1].strip())

In [146]:
phongCach

['phong cách hiện đại cùng với sự kết hợp mảng xanh trong không gian sống.',
 'phong cách Địa Trung Hải Amalfi. Mỗi căn shophouse có diện tích 120 – 320 m2 được xây dựng xao từ 3 – 6 tầng.',
 'phong cách kiến trúc Taormina nằm ngay trung tâm của thị trấn Hoàng Hôn. Các sản phẩm có diện tích từ 120 – 320 m2 với chiều cao xây dựng 5 tầng.',
 'phong cách Maldives, với những villa nằm nổi trên mặt nước tại vùng biển Phú Quốc, Việt Nam.',
 'phong cách Santorini (Hy Lạp).',
 'phong cách Bắc Âu với các loại hình biệt thự, shophouse, condotel đi kèm hệ thống tiện ích đa dạng.',
 'phong cách Santorini và biệt thự Commercial Villas (biệt thự bãi Trào).',
 'phong cách đương đại với địa thế lưng hướng núi, mặt hướng biển và kết cấu xây dựng 1 trệt 1 lầu.',
 'phong cách Mid Century Morden với các loại hình căn hộ: 1 phòng ngủ diện tích từ 41,6 – 49,9 m2, căn hộ 2 phòng ngủ từ 52,5 – 70,8 m2, căn hộ 3 phòng ngủ từ 82,1 m2, căn studio diện tích từ 26,3 – 28,6 m2 và các căn dual key diện tích từ 55,9 

In [148]:
set(sorted(phongCach))

{'phong cách Bắc Âu với các loại hình biệt thự, shophouse, condotel đi kèm hệ thống tiện ích đa dạng.',
 'phong cách Châu Âu với 5 loại hình cơ bản gồm:',
 'phong cách Hideaway.',
 'phong cách Hometel - The Venice 5&6.',
 'phong cách Hoàng gia Dubai với gam màu sáng, nội thất sang trọng.',
 'phong cách Hy Lạp và Bermuda mang phong cách châu Âu. Diện tích dành cho các căn nhà tại đây từ 114 – 120 m2 với diện tích sàn từ 245 m2.',
 'phong cách Intergrated Resort với định hướng phát triển thành khu du lịch nghỉ dưỡng sinh thái đa chức năng.\xa0 Bao gồm các loại hình sản phẩm như: single villas (biệt thự đơn lập), semi – detached villas (biệt thự song lập), nhà phố thương mại (shophouse) và boutique hotel.',
 'phong cách Las Vegas, Sân golf The Bluffs, khu vực tắm bùn và suối nước nóng, khu du lịch sinh thái,….',
 'phong cách Maldives, với những villa nằm nổi trên mặt nước tại vùng biển Phú Quốc, Việt Nam.',
 'phong cách Memphis và Scandinavian',
 'phong cách Mid Century Morden với các loạ

### Quy mô

In [62]:
# Gom tất cả thông tin về tiện ích. 
quyMo = []
for a in all:
    idx = a.find("tỷ đồng")
    if idx!= -1:
        quyMo.append(a[idx-5:idx+7])

In [63]:
quyMo

['.900 tỷ đồng',
 '.000 tỷ đồng',
 '.900 tỷ đồng',
 '.000 tỷ đồng',
 '.000 tỷ đồng',
 ' 760 tỷ đồng',
 '.496 tỷ đồng',
 ' 702 tỷ đồng',
 ' 760 tỷ đồng',
 '35,6 tỷ đồng',
 ' 1,5 tỷ đồng',
 '35,6 tỷ đồng',
 ' 1,5 tỷ đồng',
 ' 737 tỷ đồng',
 ' 737 tỷ đồng',
 '– 35 tỷ đồng',
 'ng 7 tỷ đồng',
 'ừ 11 tỷ đồng',
 ' 140 tỷ đồng',
 '- 90 tỷ đồng',
 '.000 tỷ đồng',
 '.000 tỷ đồng',
 '- 90 tỷ đồng',
 '14,5 tỷ đồng',
 '.000 tỷ đồng',
 '12,5 tỷ đồng',
 ' 500 tỷ đồng',
 '.000 tỷ đồng',
 '.000 tỷ đồng',
 '.000 tỷ đồng',
 '.000 tỷ đồng',
 'ừ 20 tỷ đồng',
 '23,5 tỷ đồng',
 '.000 tỷ đồng',
 '.000 tỷ đồng',
 '.000 tỷ đồng',
 '.000 tỷ đồng',
 '– 12 tỷ đồng',
 ' 7,3\xa0tỷ đồng',
 'ý 45 tỷ đồng',
 '.800 tỷ đồng',
 '– 10 tỷ đồng',
 '20,1 tỷ đồng',
 '11,8 tỷ đồng',
 '.800 tỷ đồng',
 '.000 tỷ đồng',
 ' 400 tỷ đồng',
 'à 45 tỷ đồng',
 '.484 tỷ đồng',
 ' 500 tỷ đồng',
 '.000 tỷ đồng',
 'n 50 tỷ đồng',
 'g 15 tỷ đồng',
 '.600 tỷ đồng',
 '.600 tỷ đồng',
 '.135 tỷ đồng',
 '.135 tỷ đồng',
 '.500 tỷ đồng',
 ' 500 tỷ đ

### Cách

In [None]:
# Gom tất cả thông tin về phong cách. 
cach = []
for a in all:
    a = a.replace("một cách", "một-cách")
    a = a.replace("quy cách", "quy-cách")
    a = a.replace("khoảng cách", "khoảng-cách")
    a = a.replace("Khoảng cách", "khoảng-cách")
    a = a.replace("phong cách", "phong-cách")
    a = a.replace("Phong cách", "Phong-cách")
    a = a.replace("tư cách", "tư-cách")
    a = a.replace("cách âm", "-cách-âm")
    a = a.replace("cách nhiệt", "-cách-nhiệt")
    idx = a.find(" cách")
    if (idx!= -1):
        cach.append(a[idx:])

In [123]:
cach_ = []
for c in cach: 
    c = c.replace("@", "")
    c = c.replace("…", "")
    c = c.replace("\xa0", " ")

    c = c.split(".")[0]

    cach_.append(c.strip())

In [124]:
print("\n".join(cach_))

cách Resort Park Hyatt Phú Quốc 13,5 m, cùng khoảng-cách có thể đến Thành phố hoặc vườn Băng Tuyết Ice Jungle
cách Cảng hàng không Quốc tế Phú Quốc 15 km, cách Vườn Quốc gia Phú Quốc 23 km, cách VinWonder Phú Quốc & Vinpearl Safari Phú Quốc 26 km
cách cảng hàng không quốc tế và chợ đêm Dương Đông 5 phút, cách Khu du lịch sinh thái Núi Đá Bàn 15 phút, cách chùa Hộ Quốc 20 phút, cách hệ thống cáp treo 25 phút
cách cảng Quốc tế Dương Đông & KĐT mới Vingroup 3 km, cách KDL Suối Đá Bàn 5 km, cách trung tâm Dương Đông 5 km, cách sân bay quốc tế Phú Quốc, cách cáp treo An Thới 30 km
cách Bãi Kem 7 k, cách sân golf 18 lỗ An Thới 8 km, cách khách sạn JW Marriott Phú Quốc 7 km, cách ga đi cáp treo Hòn Thơm 9 km, cách sân bay Phú Quốc 16 km
cách Bãi Kem 7 k, cách sân golf 18 lỗ An Thới 8 km, cách khách sạn JW Marriott Phú Quốc 7 km, cách ga đi cáp treo Hòn Thơm 9 km, cách sân bay Phú Quốc 16 km
cách Ban Quản lý Dự án Rạch Tràm 6,3km; đến Trường Mầm non Bãi Thơm 9,3km; di chuyển đến Sân bay Quốc t