# Scrape งบการเงิน

In [3]:
import requests
from bs4 import BeautifulSoup
import os
import mimetypes

url = "https://data.bangkok.go.th/dataset/2567"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

blocks = soup.find_all("div", class_="bs5-row g-2 justify-content-md-between")
os.makedirs("downloads", exist_ok=True)

for block in blocks:
    title_tag = block.find("h3", class_="body1-medium m-0")
    download_tag = block.find("a", class_="bs5-btn bs5-btn-dark text-decoration-none")
    
    if title_tag and download_tag:
        name = title_tag.text.strip().replace("/", "_")
        download_url = download_tag['href']

        # Head request to guess extension before downloading
        head = requests.head(download_url, allow_redirects=True)
        content_type = head.headers.get("Content-Type", "")
        ext = mimetypes.guess_extension(content_type.split(";")[0].strip()) or ""

        file_path = os.path.join("downloads", f"{name}{ext}")
        if os.path.exists(file_path):
            print(f"✅ Skipping already downloaded: {file_path}")
            continue

        # Download and save
        print(f"⬇️ Downloading: {file_path}")
        r = requests.get(download_url)
        with open(file_path, "wb") as f:
            f.write(r.content)

print("🌟 Done! Skipped already-downloaded files.")


✅ Skipping already downloaded: downloads/ประมาณการรายรับ 2567.pdf
✅ Skipping already downloaded: downloads/รายงานการคลัง 2567.pdf
✅ Skipping already downloaded: downloads/ข้อบัญญัติงบประมาณรายจ่ายปี 2567.pdf
✅ Skipping already downloaded: downloads/งบประมาณโดยสังเขป.pdf
✅ Skipping already downloaded: downloads/จำแนกตามโครงสร้างแผนงานงบประมาณ.pdf
✅ Skipping already downloaded: downloads/จำแนกตามยุทธศาสตร์บูรณาการ.pdf
✅ Skipping already downloaded: downloads/งบกลาง สำนักงานคณะกรรมการข้าราชการกรุงเทพมหานคร สำนักการคลัง....pdf
✅ Skipping already downloaded: downloads/สำนักงานเลขานุการสภากรุงเทพมหานคร สำนักงานเลขานุการผู้ว่าราชการกรุงเทพมหานคร....pdf
✅ Skipping already downloaded: downloads/สำนักการระบายน้ำ.pdf
✅ Skipping already downloaded: downloads/สำนักสิ่งแวดล้อม.pdf
✅ Skipping already downloaded: downloads/สำนักการโยธา.pdf
✅ Skipping already downloaded: downloads/สำนักการจราจรและขนส่ง.pdf
✅ Skipping already downloaded: downloads/สำนักการวางผังและพัฒนาเมือง.pdf
✅ Skipping already downl

In [1]:
import requests
from bs4 import BeautifulSoup
import re

url = 'https://www.interbangkok.com/bangkok-district/'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')

all_tags = soup.find_all(['p', 'div'])

districts = []
seen = set()

for tag in all_tags:
    text = tag.get_text(separator=' ', strip=True)
    
    
    if 'เขต' in text and 'พื้นที่' in text and 'ประชากร' in text:
        match_district = re.search(r'\d+\.\s*เขต([^\s<]+)', text)
        district_name = match_district.group(1).strip() if match_district else None

        if district_name in seen:
            continue

        match_area = re.search(r'พื้นที่\s*:\s*([\d\.]+)', text)
        area = float(match_area.group(1)) if match_area else None

        match_pop = re.search(r'ประชากร\s*:\s*([\d,]+)', text)
        population = int(match_pop.group(1).replace(',', '')) if match_pop else None

        if district_name and area and population:
            seen.add(district_name)
            districts.append({
                'เขต': district_name,
                'พื้นที่': area,
                'ประชากร': population
            })


districts+=[{'เขต': 'ดุสิต', 'พื้นที่': 10.665, 'ประชากร': 78602}]
print(len(districts))
# Output
for d in districts:
    print(d)

    


50
{'เขต': 'พระนคร', 'พื้นที่': 5.536, 'ประชากร': 41646}
{'เขต': 'หนองจอก', 'พื้นที่': 236.261, 'ประชากร': 181367}
{'เขต': 'บางรัก', 'พื้นที่': 5.54, 'ประชากร': 43914}
{'เขต': 'บางเขน', 'พื้นที่': 42.123, 'ประชากร': 185369}
{'เขต': 'บางกะปิ', 'พื้นที่': 28.523, 'ประชากร': 141489}
{'เขต': 'ปทุมวัน', 'พื้นที่': 8.369, 'ประชากร': 40844}
{'เขต': 'ป้อมปราบศัตรูพ่าย', 'พื้นที่': 1.931, 'ประชากร': 39310}
{'เขต': 'พระโขนง', 'พื้นที่': 13.986, 'ประชากร': 86290}
{'เขต': 'มีนบุรี', 'พื้นที่': 63.645, 'ประชากร': 141030}
{'เขต': 'ลาดกระบัง', 'พื้นที่': 123.859, 'ประชากร': 178350}
{'เขต': 'ยานนาวา', 'พื้นที่': 16.662, 'ประชากร': 74114}
{'เขต': 'สัมพันธวงศ์', 'พื้นที่': 1.416, 'ประชากร': 20168}
{'เขต': 'พญาไท', 'พื้นที่': 9.595, 'ประชากร': 65275}
{'เขต': 'ธนบุรี', 'พื้นที่': 8.551, 'ประชากร': 99591}
{'เขต': 'บางกอกใหญ่', 'พื้นที่': 6.18, 'ประชากร': 61579}
{'เขต': 'ห้วยขวาง', 'พื้นที่': 15.033, 'ประชากร': 83493}
{'เขต': 'คลองสาน', 'พื้นที่': 6.051, 'ประชากร': 66347}
{'เขต': 'ตลิ่งชัน', 'พื้นที่': 29.4

In [None]:
import pandas as pd

# Load your cleaned budget CSV
df = pd.read_csv('data/cleaned_budgets.csv')

# Your previously scraped district data (from earlier step)
scraped_data = districts

# Convert to DataFrame
df_scraped = pd.DataFrame(scraped_data)

# Extract short district name to match easier
df['เขต_clean'] = df['เขต'].str.replace('สำนักงานเขต', '').str.strip()
df_scraped['เขต'] = df_scraped['เขต'].str.strip()

# Merge on cleaned district name
merged = df_scraped.merge(df, left_on='เขต', right_on='เขต_clean', how='right')

# Drop เขต_y and เขต_clean
merged = merged.drop(columns=['เขต_y', 'เขต_clean'])

# Rename เขต_x to เขต
merged = merged.rename(columns={'เขต_x': 'เขต'})

# Optional: save or preview
merged.to_csv('data/area_population_budgets.csv', index=False)
merged.head()



Unnamed: 0,เขต,พื้นที่,ประชากร,รวมงบประมาณทั้งสิ้น,งานรายจ่ายบุคลากร,งานอำนวยการและบริหารสำนักงานเขต,งานปกครอง,งานบริหารทั่วไปและบริการทะเบียน,งานบริหารทั่วไปและบริหารการคลัง,งานบริหารทั่วไปและจัดเก็บรายได้,...,งานพัฒนาชุมชนและบริการสังคม,งานบริหารทั่วไปฝ่ายสิ่งแวดล้อมและสุขาภิบาล,งานสุขาภิบาลอาหารและอนามัยสิ่งแวดล้อม,งานป้องกันและควบคุมโรค,งานบริหารทั่วไปฝ่ายการศึกษา,งานงบประมาณโรงเรียน,โครงการจ้างงานคนพิการเพื่อปฏิบัติงาน,โครงการครอบครัวรักการอ่าน,โครงการการจัดสวัสดิการ การสงเคราะห์ช่วยเหลือเด็ก สตรี ครอบครัว ผู้ด้อยโอกาส ผู้สูงอายุ และคนพิการ,โครงการบูรณาการความร่วมมือในการพัฒนาประสิทธิภาพการแก้ไขปัญหาโรคไข้เลือดออกในพื้นที่กรุงเทพมหานคร
0,วัฒนา,12.565,80830,369693530.0,186276900.0,17822550.0,125100.0,1015000.0,865000.0,2132800.0,...,7958900.0,186600.0,1030000.0,10000.0,909000.0,51900880.0,1134000.0,120000.0,225500.0,87100.0
1,บางรัก,5.54,43914,251616775.0,150802100.0,5370400.0,831600.0,1198600.0,596500.0,1419000.0,...,14404540.0,249700.0,1021400.0,11200.0,263000.0,22628500.0,1134000.0,0.0,275000.0,69600.0
2,ลาดพร้าว,22.157,114275,439171770.0,188866120.0,10675560.0,507020.0,1361200.0,751800.0,1309400.0,...,17280370.0,1068900.0,193860.0,0.0,693200.0,94806420.0,1134000.0,120000.0,300000.0,301360.0
3,บางนา,18.789,86155,345957300.0,154865870.0,7322890.0,573600.0,2281600.0,659000.0,1912200.0,...,11261840.0,120400.0,303000.0,6695100.0,4737100.0,8229300.0,1134000.0,50000.0,1350000.0,180900.0
4,หนองแขม,35.825,155243,567238800.0,191069200.0,8653640.0,532700.0,1427000.0,719600.0,1567500.0,...,51761060.0,1142100.0,124600.0,11700.0,625500.0,131041960.0,1134000.0,0.0,1000000.0,232800.0
