# Data Scrapping

## Import necessary libraries

In [1]:
%pip install -qq -r ../requirements.txt

Note: you may need to restart the kernel to use updated packages.


In [2]:
# Add current directory to Python path for imports
import os
import sys

# Add the parent directory (project root) to Python path so we can import from src
project_root = os.path.dirname(os.getcwd())
if project_root not in sys.path:
    sys.path.append(project_root)

In [3]:
import pandas as pd

## Scrapping Population Data

In [4]:
from src.scrapping import PopulationScrapping

# Scrape population for year: 2567 (2024), level: 'subdistrict'
scraper = PopulationScrapping()
population_df = scraper.fetch_and_clean(save_to_csv=True)
population_df.head(5)

Unnamed: 0,province-name,district-name,subdistrict-name,total,household
0,กรุงเทพมหานคร,พระนคร,พระบรมมหาราชวัง,2884,1195
1,กรุงเทพมหานคร,พระนคร,วังบูรพาภิรมย์,8360,5322
2,กรุงเทพมหานคร,พระนคร,วัดราชบพิธ,2781,979
3,กรุงเทพมหานคร,พระนคร,สำราญราษฎร์,2619,1096
4,กรุงเทพมหานคร,พระนคร,ศาลเจ้าพ่อเสือ,2574,1001


In [5]:
# Scrape population for year: 2567 (2024), level: 'village'
scraper = PopulationScrapping(year=2567, level="village")
population_df = scraper.fetch_and_clean(save_to_csv=True)
population_df.head(5)

Unnamed: 0,province-name,district-name,subdistrict-name,village-name,total,household
0,สมุทรปราการ,เมืองสมุทรปราการ,แพรกษา,คลองนา,2452,904
1,สมุทรปราการ,เมืองสมุทรปราการ,แพรกษา,คลองเล้าหมู,3578,1482
2,สมุทรปราการ,เมืองสมุทรปราการ,แพรกษา,แพรกษาจอมทอง,4247,1997
3,สมุทรปราการ,เมืองสมุทรปราการ,แพรกษา,คลองขวาง,20445,8571
4,สมุทรปราการ,เมืองสมุทรปราการ,แพรกษา,คลองประสงค์,5211,2821


In [6]:
# Scrape population for year: 2566 (2023), level: 'subdistrict'
scraper = PopulationScrapping(year=2566, level="subdistrict")
population_df = scraper.fetch_and_clean(save_to_csv=True)
population_df.head(5)

Unnamed: 0,province-name,district-name,subdistrict-name,total,household
0,กรุงเทพมหานคร,พระนคร,พระบรมมหาราชวัง,2896,1195
1,กรุงเทพมหานคร,พระนคร,วังบูรพาภิรมย์,8489,5326
2,กรุงเทพมหานคร,พระนคร,วัดราชบพิธ,2846,979
3,กรุงเทพมหานคร,พระนคร,สำราญราษฎร์,2654,1105
4,กรุงเทพมหานคร,พระนคร,ศาลเจ้าพ่อเสือ,2676,1000


In [7]:
# Scrape population for year: 2565 (2022), level: 'subdistrict'
scraper = PopulationScrapping(year=2565, level="subdistrict")
population_df = scraper.fetch_and_clean(save_to_csv=True)
population_df.head(5)

Unnamed: 0,province-name,district-name,subdistrict-name,total,household
0,กรุงเทพมหานคร,พระนคร,พระบรมมหาราชวัง,3137,1195
1,กรุงเทพมหานคร,พระนคร,วังบูรพาภิรมย์,8792,5361
2,กรุงเทพมหานคร,พระนคร,วัดราชบพิธ,2913,979
3,กรุงเทพมหานคร,พระนคร,สำราญราษฎร์,2712,1129
4,กรุงเทพมหานคร,พระนคร,ศาลเจ้าพ่อเสือ,2747,1000


---

## Scrapping Bangkok Index Data

In [8]:
from src.scrapping import BangkokIndexScrapping

scraper = BangkokIndexScrapping()
df_bangkok_index = scraper.fetch_and_clean(save_to_csv=True)
df_bangkok_index.head(5)

Unnamed: 0,จังหวัด,เขต,Overall_Rank,คะแนนรวม,บริการสาธารณะ/อันดับ,บริการสาธารณะ/คะแนน,เศรษฐกิจ/อันดับ,เศรษฐกิจ/คะแนน,สวัสดิภาพ/อันดับ,สวัสดิภาพ/คะแนน,สิ่งแวดล้อม/อันดับ,สิ่งแวดล้อม/คะแนน
0,กรุงเทพมหานคร,ป้อมปราบศัตรูพ่าย,1,34.85,15,29.79,8,39.56,1,43.54,21,26.5
1,กรุงเทพมหานคร,ปทุมวัน,2,34.75,2,38.79,1,48.69,7,35.13,45,16.38
2,กรุงเทพมหานคร,พระนคร,2,34.75,17,28.88,6,41.56,4,38.08,15,30.5
3,กรุงเทพมหานคร,สัมพันธวงศ์,4,33.53,26,26.21,4,43.19,2,41.08,32,23.63
4,กรุงเทพมหานคร,ราชเทวี,5,32.32,4,37.92,10,38.31,22,26.67,22,26.38


In [9]:
df_bangkok_index.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 12 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   จังหวัด               50 non-null     object 
 1   เขต                   50 non-null     object 
 2   Overall_Rank          50 non-null     int64  
 3   คะแนนรวม              50 non-null     float64
 4   บริการสาธารณะ/อันดับ  50 non-null     int64  
 5   บริการสาธารณะ/คะแนน   50 non-null     float64
 6   เศรษฐกิจ/อันดับ       50 non-null     int64  
 7   เศรษฐกิจ/คะแนน        50 non-null     float64
 8   สวัสดิภาพ/อันดับ      50 non-null     int64  
 9   สวัสดิภาพ/คะแนน       50 non-null     float64
 10  สิ่งแวดล้อม/อันดับ    50 non-null     int64  
 11  สิ่งแวดล้อม/คะแนน     50 non-null     float64
dtypes: float64(5), int64(5), object(2)
memory usage: 4.8+ KB


---