# Data Scrapping

## Import necessary libraries

In [1]:
%pip install -qq -r ../requirements.txt

Note: you may need to restart the kernel to use updated packages.


In [2]:
# Add current directory to Python path for imports
import os
import sys

# Add the parent directory (project root) to Python path so we can import from src
project_root = os.path.dirname(os.getcwd())
if project_root not in sys.path:
    sys.path.append(project_root)

---

## Scrapping Population Data

In [3]:
from src.scrapping import PopulationScrapping

# Scrape population for year: 2567 (2024), level: 'subdistrict'
scraper = PopulationScrapping()
population_df = scraper.fetch_and_clean(save_to_csv=True)
population_df.head(5)

Unnamed: 0,province-name,district-name,subdistrict-name,total,household
0,กรุงเทพมหานคร,พระนคร,พระบรมมหาราชวัง,2884,1195
1,กรุงเทพมหานคร,พระนคร,วังบูรพาภิรมย์,8360,5322
2,กรุงเทพมหานคร,พระนคร,วัดราชบพิธ,2781,979
3,กรุงเทพมหานคร,พระนคร,สำราญราษฎร์,2619,1096
4,กรุงเทพมหานคร,พระนคร,ศาลเจ้าพ่อเสือ,2574,1001


In [4]:
# Scrape population for year: 2567 (2024), level: 'village'
scraper = PopulationScrapping(year=2567, level="village")
population_df = scraper.fetch_and_clean(save_to_csv=True)
population_df.head(5)

Unnamed: 0,province-name,district-name,subdistrict-name,village-name,total,household
0,สมุทรปราการ,เมืองสมุทรปราการ,แพรกษา,คลองนา,2452,904
1,สมุทรปราการ,เมืองสมุทรปราการ,แพรกษา,คลองเล้าหมู,3578,1482
2,สมุทรปราการ,เมืองสมุทรปราการ,แพรกษา,แพรกษาจอมทอง,4247,1997
3,สมุทรปราการ,เมืองสมุทรปราการ,แพรกษา,คลองขวาง,20445,8571
4,สมุทรปราการ,เมืองสมุทรปราการ,แพรกษา,คลองประสงค์,5211,2821


In [5]:
# Scrape population for year: 2566 (2023), level: 'subdistrict'
scraper = PopulationScrapping(year=2566, level="subdistrict")
population_df = scraper.fetch_and_clean(save_to_csv=True)
population_df.head(5)

Unnamed: 0,province-name,district-name,subdistrict-name,total,household
0,กรุงเทพมหานคร,พระนคร,พระบรมมหาราชวัง,2896,1195
1,กรุงเทพมหานคร,พระนคร,วังบูรพาภิรมย์,8489,5326
2,กรุงเทพมหานคร,พระนคร,วัดราชบพิธ,2846,979
3,กรุงเทพมหานคร,พระนคร,สำราญราษฎร์,2654,1105
4,กรุงเทพมหานคร,พระนคร,ศาลเจ้าพ่อเสือ,2676,1000


In [6]:
# Scrape population for year: 2565 (2022), level: 'subdistrict'
scraper = PopulationScrapping(year=2565, level="subdistrict")
population_df = scraper.fetch_and_clean(save_to_csv=True)
population_df.head(5)

Unnamed: 0,province-name,district-name,subdistrict-name,total,household
0,กรุงเทพมหานคร,พระนคร,พระบรมมหาราชวัง,3137,1195
1,กรุงเทพมหานคร,พระนคร,วังบูรพาภิรมย์,8792,5361
2,กรุงเทพมหานคร,พระนคร,วัดราชบพิธ,2913,979
3,กรุงเทพมหานคร,พระนคร,สำราญราษฎร์,2712,1129
4,กรุงเทพมหานคร,พระนคร,ศาลเจ้าพ่อเสือ,2747,1000


---

## Scrapping Bangkok Index Data

In [7]:
from src.scrapping import BangkokIndexScrapping

scraper = BangkokIndexScrapping()
df_bangkok_index = scraper.fetch_and_clean(save_to_csv=True)
df_bangkok_index.head(5)

Unnamed: 0,district,total_score,public_service,economy,welfare,environment
0,ป้อมปราบศัตรูพ่าย,34.85,29.79,39.56,43.54,26.5
1,ปทุมวัน,34.75,38.79,48.69,35.13,16.38
2,พระนคร,34.75,28.88,41.56,38.08,30.5
3,สัมพันธวงศ์,33.53,26.21,43.19,41.08,23.63
4,ราชเทวี,32.32,37.92,38.31,26.67,26.38


In [8]:
df_bangkok_index.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   district        50 non-null     object 
 1   total_score     50 non-null     float64
 2   public_service  50 non-null     float64
 3   economy         50 non-null     float64
 4   welfare         50 non-null     float64
 5   environment     50 non-null     float64
dtypes: float64(5), object(1)
memory usage: 2.5+ KB


---