# IMPORT LIBRARIES

In [1]:
%pip install geopy

Note: you may need to restart the kernel to use updated packages.




In [2]:
from geopy.geocoders import Nominatim
from geopy.exc import GeocoderTimedOut
import time
import requests
import pandas as pd


# CRAWL DATA

In [3]:
import requests
import time

def get_lat_lon_osm(province):
    url = f"https://nominatim.openstreetmap.org/search?format=json&q={province}, Việt Nam"
    headers = {"User-Agent": "YourAppNameHere"}  # tránh bị chặn
    response = requests.get(url, headers=headers)
    data = response.json()
    if data:
        return data[0]["lat"], data[0]["lon"]
    return None, None

provinces = ["Bình Dương", "Hồ Chí Minh", "Vũng Tàu"]  
for province in provinces:
    lat, lon = get_lat_lon_osm(province)
    print(f"{province}: {lat}, {lon}")
    time.sleep(1)  


Bình Dương: 11.1836551, 106.7031737
Hồ Chí Minh: 10.7763897, 106.7011391
Vũng Tàu: 10.3486485, 107.0765028


In [None]:
filename = "three_provinces.csv"
def save_to_csv(data, filename):
    df = pd.DataFrame(data)
    df.to_csv(filename, index=False)
    print(f"Data saved to {filename}")


# HCM

In [48]:

min_lon, min_lat = 105.2, 10.2  # Góc Tây Nam gần Bình Dương
max_lon, max_lat = 108.1, 12.3  # Góc Đông Bắc gần Bà Rịa - Vũng Tàu

# Chia nhỏ khu vực thành các viewbox nhỏ hơn để tăng số lượng kết quả
lon_steps = 3
lat_steps = 3

lon_range = max_lon - min_lon
lat_range = max_lat - min_lat

for i in range(lon_steps):
    for j in range(lat_steps):
        current_min_lon = min_lon + (lon_range / lon_steps) * i
        current_max_lon = min_lon + (lon_range / lon_steps) * (i + 1)
        current_min_lat = min_lat + (lat_range / lat_steps) * j
        current_max_lat = min_lat + (lat_range / lat_steps) * (j + 1)

        viewbox = f"{current_min_lon},{current_min_lat},{current_max_lon},{current_max_lat}"
        print(f"Đang crawl khu vực: {viewbox}")

        for keyword in keywords:
            params = {
                'q': keyword,
                'format': 'json',
                'viewbox': viewbox,
                'limit': 10,
                'addressdetails': 1,
                'accept-language': 'vi'
            }

            try:
                response = requests.get("https://nominatim.openstreetmap.org/search", params=params, headers=headers)
                data = response.json()

                if data:
                    for loc in data:
                        display_name = loc.get("display_name", "").lower()
                        if keyword.lower() in display_name:
                            results.append({
                                "Từ khóa": keyword,
                                "Tên hiển thị": loc.get("display_name", ""),
                                "Latitude": loc.get("lat", ""),
                                "Longitude": loc.get("lon", "")
                            })
                else:
                    print(f"Không tìm thấy kết quả cho từ khóa: {keyword} trong khu vực {viewbox}")

            except Exception as e:
                print(f"Lỗi: {e}")

            time.sleep(1)

df = pd.DataFrame(results)

if not df.empty:
    print("\nBẢNG KẾT QUẢ:")
    print(df.to_string(index=False))
else:
    print("Không có dữ liệu phù hợp.")

Đang crawl khu vực: 105.2,10.2,106.16666666666667,10.9
Đang crawl khu vực: 105.2,10.9,106.16666666666667,11.6
Đang crawl khu vực: 105.2,11.6,106.16666666666667,12.3
Đang crawl khu vực: 106.16666666666667,10.2,107.13333333333333,10.9
Đang crawl khu vực: 106.16666666666667,10.9,107.13333333333333,11.6
Đang crawl khu vực: 106.16666666666667,11.6,107.13333333333333,12.3
Đang crawl khu vực: 107.13333333333333,10.2,108.1,10.9
Đang crawl khu vực: 107.13333333333333,10.9,108.1,11.6
Đang crawl khu vực: 107.13333333333333,11.6,108.1,12.3

BẢNG KẾT QUẢ:
   Từ khóa                                                                                                                                                           Tên hiển thị    Latitude    Longitude
  kho hàng                                                                                    Kho hàng, Trần Anh Tông, Phường 8, Thành phố Đà Lạt, Tỉnh Lâm Đồng, 66100, Việt Nam  11.9645334  108.4534065
  kho hàng                                   

In [49]:
# nếu trong tên hiển thị không có "Thành phố Hồ Chí Minh", "Bình Dương", "Bà Rịa - Vũng Tàu" thì xóa đi
df = df[
    df["Tên hiển thị"].str.contains("Thành phố Hồ Chí Minh|Bình Dương|Bà Rịa - Vũng Tàu", case=False, na=False)
]
df = df.reset_index(drop=True)

# BÌNH DƯƠNG

In [50]:

min_lon, min_lat = 106.33, 10.87  # Góc Tây Nam gần Bình Dương
max_lon, max_lat = 106.95, 11.5  # Góc Đông Bắc gần Bà Rịa - Vũng Tàu

# Chia nhỏ khu vực thành các viewbox nhỏ hơn để tăng số lượng kết quả
lon_steps = 3
lat_steps = 3

lon_range = max_lon - min_lon
lat_range = max_lat - min_lat

for i in range(lon_steps):
    for j in range(lat_steps):
        current_min_lon = min_lon + (lon_range / lon_steps) * i
        current_max_lon = min_lon + (lon_range / lon_steps) * (i + 1)
        current_min_lat = min_lat + (lat_range / lat_steps) * j
        current_max_lat = min_lat + (lat_range / lat_steps) * (j + 1)

        viewbox = f"{current_min_lon},{current_min_lat},{current_max_lon},{current_max_lat}"
        print(f"Đang crawl khu vực: {viewbox}")

        for keyword in keywords:
            params = {
                'q': keyword,
                'format': 'json',
                'viewbox': viewbox,
                'limit': 10,
                'addressdetails': 1,
                'accept-language': 'vi'
            }

            try:
                response = requests.get("https://nominatim.openstreetmap.org/search", params=params, headers=headers)
                data = response.json()

                if data:
                    for loc in data:
                        display_name = loc.get("display_name", "").lower()
                        if keyword.lower() in display_name:
                            results.append({
                                "Từ khóa": keyword,
                                "Tên hiển thị": loc.get("display_name", ""),
                                "Latitude": loc.get("lat", ""),
                                "Longitude": loc.get("lon", "")
                            })
                else:
                    print(f"Không tìm thấy kết quả cho từ khóa: {keyword} trong khu vực {viewbox}")

            except Exception as e:
                print(f"Lỗi: {e}")

            time.sleep(1)

# hợp với df cũ
df = pd.concat([df, pd.DataFrame(results)], ignore_index=True)

Đang crawl khu vực: 106.33,10.87,106.53666666666666,11.08
Đang crawl khu vực: 106.33,11.08,106.53666666666666,11.29
Đang crawl khu vực: 106.33,11.29,106.53666666666666,11.5
Đang crawl khu vực: 106.53666666666666,10.87,106.74333333333334,11.08
Đang crawl khu vực: 106.53666666666666,11.08,106.74333333333334,11.29
Đang crawl khu vực: 106.53666666666666,11.29,106.74333333333334,11.5
Đang crawl khu vực: 106.74333333333334,10.87,106.95,11.08
Đang crawl khu vực: 106.74333333333334,11.08,106.95,11.29
Đang crawl khu vực: 106.74333333333334,11.29,106.95,11.5


## BÀ RỊA VŨNG TÀU

In [51]:

min_lon, min_lat = 106.33, 10.87  # Góc Tây Nam gần Bình Dương
max_lon, max_lat = 106.95, 11.5  # Góc Đông Bắc gần Bà Rịa - Vũng Tàu

# Chia nhỏ khu vực thành các viewbox nhỏ hơn để tăng số lượng kết quả
lon_steps = 3
lat_steps = 3

lon_range = max_lon - min_lon
lat_range = max_lat - min_lat

for i in range(lon_steps):
    for j in range(lat_steps):
        current_min_lon = min_lon + (lon_range / lon_steps) * i
        current_max_lon = min_lon + (lon_range / lon_steps) * (i + 1)
        current_min_lat = min_lat + (lat_range / lat_steps) * j
        current_max_lat = min_lat + (lat_range / lat_steps) * (j + 1)

        viewbox = f"{current_min_lon},{current_min_lat},{current_max_lon},{current_max_lat}"
        print(f"Đang crawl khu vực: {viewbox}")

        for keyword in keywords:
            params = {
                'q': keyword,
                'format': 'json',
                'viewbox': viewbox,
                'limit': 10,
                'addressdetails': 1,
                'accept-language': 'vi'
            }

            try:
                response = requests.get("https://nominatim.openstreetmap.org/search", params=params, headers=headers)
                data = response.json()

                if data:
                    for loc in data:
                        display_name = loc.get("display_name", "").lower()
                        if keyword.lower() in display_name:
                            results.append({
                                "Từ khóa": keyword,
                                "Tên hiển thị": loc.get("display_name", ""),
                                "Latitude": loc.get("lat", ""),
                                "Longitude": loc.get("lon", "")
                            })
                else:
                    print(f"Không tìm thấy kết quả cho từ khóa: {keyword} trong khu vực {viewbox}")

            except Exception as e:
                print(f"Lỗi: {e}")

            time.sleep(1)

# hợp với df cũ
df = pd.concat([df, pd.DataFrame(results)], ignore_index=True)

Đang crawl khu vực: 106.33,10.87,106.53666666666666,11.08
Đang crawl khu vực: 106.33,11.08,106.53666666666666,11.29
Đang crawl khu vực: 106.33,11.29,106.53666666666666,11.5
Đang crawl khu vực: 106.53666666666666,10.87,106.74333333333334,11.08
Đang crawl khu vực: 106.53666666666666,11.08,106.74333333333334,11.29
Đang crawl khu vực: 106.53666666666666,11.29,106.74333333333334,11.5
Đang crawl khu vực: 106.74333333333334,10.87,106.95,11.08
Đang crawl khu vực: 106.74333333333334,11.08,106.95,11.29
Đang crawl khu vực: 106.74333333333334,11.29,106.95,11.5


In [54]:
# print results
results = df.drop_duplicates(subset=["Tên hiển thị"])
results 

Unnamed: 0,Từ khóa,Tên hiển thị,Latitude,Longitude
0,kho hàng,"Kho hàng Lazada, Hẻm 161 Âu Cơ, Phường 14, Quậ...",10.7722909,106.6487944
1,kho hàng,"Kho Hàng Hùng Hậu, 29/4, Trường Chinh, Phường ...",10.8304431,106.6216245
2,vận chuyển,"USAMua Express - Vận Chuyển Quốc Tế, 2770A, Đư...",10.7198482,106.6337319
3,bưu cục,"Bưu Cục Củ Chi, Tỉnh lộ 8, Thị trấn Củ Chi, Hu...",10.9745320,106.4968361
4,bưu cục,"Bưu Cục Tân Chánh Hiệp, Trần Thị Năm, Phường T...",10.8672136,106.6265235
...,...,...,...,...
76,bưu cục,"Bưu Cục Hàng Cót, 16D, Phố Phùng Hưng, Phường ...",21.0379952,105.8462541
77,vận chuyển,Trung tâm Khai thác vận chuyển - Bưu điện TP.H...,10.7763794,106.6574133
78,bưu cục,"Bưu cục Hoá An, Đường Nguyễn Ái Quốc, An Hoà, ...",10.9377383,106.8045084
79,bưu cục,"Bưu cục Thạnh Phú, Đường tỉnh 768, Ấp 4, Xã Th...",11.0111856,106.8406225


In [52]:
# lọc trùng

df = df.drop_duplicates(subset=["Tên hiển thị", "Latitude", "Longitude"])
df = df.reset_index(drop=True)

# in df
print(df.to_string(index=False))


   Từ khóa                                                                                                                                                           Tên hiển thị    Latitude    Longitude
  kho hàng                                                                             Kho hàng Lazada, Hẻm 161 Âu Cơ, Phường 14, Quận 11, Thành phố Hồ Chí Minh, 72000, Việt Nam  10.7722909  106.6487944
  kho hàng                                                           Kho Hàng Hùng Hậu, 29/4, Trường Chinh, Phường Tân Thới Nhất, Quận 12, Thành phố Hồ Chí Minh, 71509, Việt Nam  10.8304431  106.6216245
vận chuyển                                              USAMua Express - Vận Chuyển Quốc Tế, 2770A, Đường Phạm Thế Hiển, Phường 7, Quận 8, Thành phố Hồ Chí Minh, 73000, Việt Nam  10.7198482  106.6337319
   bưu cục                                                                       Bưu Cục Củ Chi, Tỉnh lộ 8, Thị trấn Củ Chi, Huyện Củ Chi, Thành phố Hồ Chí Minh, 71608, Việt Nam  10.974532

In [None]:

# save as csv
df.to_csv("results.csv", index=False, encoding="utf-8-sig")

print("\nKết quả đã được lưu vào file results.csv")