### Nhập các thư viện cần thiết

In [None]:
import os
import json
import time
import pandas as pd
import requests
import asyncio
import aiohttp
import nest_asyncio
from bs4 import BeautifulSoup



### Cài đặt thông tin về API và search engine

In [None]:
API_KEY = 'AIzaSyC_CV0R8HYOdmO1TQAZtQ-uJ6gYDoZl1KY'
SEARCH_ENGINE_ID = '8342fd8de859e41dc'


### Dictionary về các tỉnh thành phố

In [None]:
province_dict = {
    "THÀNH PHỐ HÀ NỘI": 1, "THÀNH PHỐ HỒ CHÍ MINH": 2,"THÀNH PHỐ HẢI PHÒNG": 3,"THÀNH PHỐ ĐÀ NẴNG": 4,"TỈNH HÀ GIANG": 5, "TỈNH CAO BẰNG": 6, "TỈNH LAI CHÂU": 7,
    "TỈNH LÀO CAI": 8, "TỈNH TUYÊN QUANG": 9,"TỈNH LẠNG SƠN": 10,"TỈNH BẮC KẠN": 11,"TỈNH THÁI NGUYÊN": 12,"TỈNH YÊN BÁI": 13,"TỈNH SƠN LA": 14, "TỈNH PHÚ THỌ": 15,
    "TỈNH VĨNH PHÚC": 16, "TỈNH QUẢNG NINH": 17, "TỈNH BẮC GIANG": 18, "TỈNH BẮC NINH": 19, "TỈNH HẢI DƯƠNG": 21, "TỈNH HƯNG YÊN": 22, "TỈNH HÒA BÌNH": 23, "TỈNH HÀ NAM": 24,
    "TỈNH NAM ĐỊNH": 25,"TỈNH THÁI BÌNH": 26,"TỈNH NINH BÌNH": 27, "TỈNH THANH HÓA": 28,"TỈNH NGHỆ AN": 29, "TỈNH HÀ TĨNH": 30, "TỈNH QUẢNG BÌNH": 31, "TỈNH QUẢNG TRỊ": 32,
    "TỈNH THỪA THIÊN": 33,"TỈNH QUẢNG NAM": 34, "TỈNH QUẢNG NGÃI": 35, "TỈNH KON TUM": 36, "TỈNH BÌNH ĐỊNH": 37,"TỈNH GIA LAI": 38,"TỈNH PHÚ YÊN": 39, "TỈNH ĐẮK LẮK": 40,
    "TỈNH KHÁNH HÒA": 41, "TỈNH LÂM ĐỒNG": 42, "TỈNH BÌNH PHƯỚC": 43,"TỈNH BÌNH DƯƠNG": 44,"TỈNH NINH THUẬN": 45,"TỈNH TÂY NINH": 46,"TỈNH BÌNH THUẬN": 47,"TỈNH ĐỒNG NAI": 48,
    "TỈNH LONG AN": 49,"TỈNH ĐỒNG THÁP": 50,"TỈNH AN GIANG": 51, "TỈNH BÀ RỊA": 52,"TỈNH TIỀN GIANG": 53, "TỈNH KIÊN GIANG": 54, "THÀNH PHỐ CẦN THƠ": 55,"TỈNH BẾN TRE": 56,
    "TỈNH VĨNH LONG": 57,"TỈNH TRÀ VINH": 58,"TỈNH SÓC TRĂNG": 59,"TỈNH BẠC LIÊU": 60,"TỈNH CÀ MAU": 61,"TỈNH ĐIỆN BIÊN": 62,"TỈNH ĐĂK NÔNG": 63,"TỈNH HẬU GIANG": 64
}

### Cài đặt các hàm cần thiết cho quá trình thu thập dữ liệu

In [None]:
headers = {'User-Agent': 'Mozilla/5.0'}

def clean_filename(name):
    return "".join(c if c.isalnum() else "_" for c in name)

def search_google(query, num_results=15):
    url = f"https://www.googleapis.com/customsearch/v1?q={query}&key={API_KEY}&cx={SEARCH_ENGINE_ID}"
    try:
        response = requests.get(url, headers=headers)
        return response.json().get('items', [])
    except requests.exceptions.RequestException as e:
        print(f"Lỗi tìm kiếm {query}: {e}")
        return []

def collect_urls(category, path):
    os.makedirs(path, exist_ok=True)
    all_data = []
    
    for province in province_dict.keys():
        query = f"{category} {province}"
        print(f"Tìm kiếm: {query}")
        search_results = search_google(query, num_results=15)
        
        for item in search_results[:10]:
            info = {"Tỉnh thành phố": province, "Tiêu đề": item['title'], "Nguồn": item['link']}
            all_data.append(info)
    
    df = pd.DataFrame(all_data)
    json_path, csv_path = os.path.join(path, "urls.json"), os.path.join(path, "urls.csv")
    df.to_json(json_path, force_ascii=False, indent=4)
    df.to_csv(csv_path, index=False, encoding='utf-8-sig')
    print(f"Đã lưu danh sách URL tại {json_path} và {csv_path}")

def extract_main_content(html):
    soup = BeautifulSoup(html, 'html.parser')
    return '\n'.join([f"[{tag.name.upper()}] {tag.get_text(strip=True)}" for tag in soup.find_all(['h1', 'h2', 'h3', 'p'])])

async def fetch(session, url):
    try:
        async with session.get(url, headers=headers, timeout=10) as response:
            return await response.text()
    except Exception as e:
        # print(f"Lỗi khi tải {url}: {e}")
        print("Skipped 1 link.")
        return None

async def download_texts(input_csv, output_dir):
    os.makedirs(output_dir, exist_ok=True)
    df = pd.read_csv(input_csv)
    
    async with aiohttp.ClientSession() as session:
        tasks = []
        for index, row in df.iterrows():
            province, url = clean_filename(row['Tỉnh thành phố']), row['Nguồn']
            filename = os.path.join(output_dir, f"{province}_{index+1:02d}.txt")
            tasks.append((session, url, filename))
        
        for session, url, filename in tasks:
            html = await fetch(session, url)
            if html:
                with open(filename, 'w', encoding='utf-8') as f:
                    f.write(extract_main_content(html))
                print(f"Đã lưu: {filename}")
            await asyncio.sleep(2)  # Tránh bị chặn

def main():
    nest_asyncio.apply()
    
    for category, folder in [("điểm du lịch", "travel"), ("ẩm thực đặc sản", "food")]:
        collect_urls(category, folder)
        try:
            loop = asyncio.get_running_loop()
        except RuntimeError:
            loop = None
        
        if loop and loop.is_running():
            asyncio.create_task(download_texts(f"{folder}/urls.csv", f"{folder}/texts"))
        else:
            asyncio.run(download_texts(f"{folder}/urls.csv", f"{folder}/texts"))


Tìm kiếm: điểm du lịch THÀNH PHỐ HÀ NỘI
Tìm kiếm: điểm du lịch THÀNH PHỐ HỒ CHÍ MINH
Đã lưu danh sách URL tại travel\urls.json và travel\urls.csv
Tìm kiếm: ẩm thực đặc sản THÀNH PHỐ HÀ NỘI
Tìm kiếm: ẩm thực đặc sản THÀNH PHỐ HỒ CHÍ MINH
Đã lưu danh sách URL tại food\urls.json và food\urls.csv


Đã lưu: food/texts\THÀNH_PHỐ_HÀ_NỘI_01.txt
Đã lưu: travel/texts\THÀNH_PHỐ_HÀ_NỘI_01.txt
Đã lưu: food/texts\THÀNH_PHỐ_HÀ_NỘI_02.txt
Đã lưu: travel/texts\THÀNH_PHỐ_HÀ_NỘI_02.txt
Đã lưu: food/texts\THÀNH_PHỐ_HÀ_NỘI_03.txt
Đã lưu: travel/texts\THÀNH_PHỐ_HÀ_NỘI_03.txt
Lỗi khi tải https://www.bachhoaxanh.com/kinh-nghiem-hay/top-10-mon-an-dac-san-ha-noi-thom-ngon-noi-tieng-tai-ha-noi-1363040: Cannot connect to host www.bachhoaxanh.com:443 ssl:default [[SSL: UNSAFE_LEGACY_RENEGOTIATION_DISABLED] unsafe legacy renegotiation disabled (_ssl.c:1000)]
Đã lưu: travel/texts\THÀNH_PHỐ_HÀ_NỘI_04.txt
Đã lưu: food/texts\THÀNH_PHỐ_HÀ_NỘI_05.txt
Đã lưu: travel/texts\THÀNH_PHỐ_HÀ_NỘI_05.txt
Đã lưu: food/texts\THÀNH_PHỐ_HÀ_NỘI_06.txt
Đã lưu: food/texts\THÀNH_PHỐ_HÀ_NỘI_07.txt
Đã lưu: food/texts\THÀNH_PHỐ_HÀ_NỘI_08.txt
Đã lưu: food/texts\THÀNH_PHỐ_HÀ_NỘI_09.txt
Đã lưu: food/texts\THÀNH_PHỐ_HÀ_NỘI_10.txt
Lỗi khi tải https://www.vietnamairlines.com/vn/vi/useful-information/travel-guide/du-lich-ha-noi: 
Đã lưu: 

In [None]:
if __name__ == "__main__":
    main()