<a href="https://colab.research.google.com/github/sspsaun/Thailand-Government-Spending-Data/blob/main/TGS.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Data Collection & Preparation, Exploratory Data Analysis (EDA) and Data Visualization**

## **Import Libraries**

In [1]:
from requests import request
import bs4
from pprint import pprint
import urllib
import urllib.request
import requests
import pandas as pd
import json
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import os
import plotly.express as px
%matplotlib inline

In [2]:
import sys
sys.version

'3.8.16 (default, Dec  7 2022, 01:12:13) \n[GCC 7.5.0]'

In [3]:
!wget -q https://github.com/Phonbopit/sarabun-webfont/raw/master/fonts/thsarabunnew-webfont.ttf

In [4]:
matplotlib.font_manager.fontManager.addfont('thsarabunnew-webfont.ttf')

In [5]:
plt.rc('font', family='TH Sarabun New', size=20)

In [6]:
pd.set_option('float_format', '{:f}'.format)

## Task 1: Identify one or more suitable web API(s)

**API :** เลือกใช้ api จากเว็บไซต์ https://govspending.data.go.th/ ซึ่งเป็นเว็บไซต์ที่รวบรวมข้อมูลเกี่ยวกับการใช้จ่ายของภาครัฐ เช่น ข้อมูลโครงการจัดซื้อจัดจ้าง ข้อมูลงบประมาณและการเบิกจ่าย เป็นต้น

**ขอบเขต :** วิเคราะห์ข้อมูลงบประมาณภาครัฐตั้งแต่ปี 2560-2564






## Task 2: Collect data your chosen API(s)

In [7]:
#ดึงข้อมูลโครงการจัดซื้อจัดจ้างของปี 2560
params = {"api-key": "tLBAbdSekSd16oBfoeFnosXS28xtWomG","year":"2560","limit":"2000"}
response = requests.get("https://opend.data.go.th/govspending/cgdcontract?", params)
data60 = response.json()["result"]

In [8]:
#ดึงข้อมูลโครงการจัดซื้อจัดจ้างของปี 2561
params = {"api-key": "tLBAbdSekSd16oBfoeFnosXS28xtWomG","year":"2561","limit":"2000"}
response = requests.get("https://opend.data.go.th/govspending/cgdcontract?", params)
data61 = response.json()["result"]

In [9]:
#ดึงข้อมูลโครงการจัดซื้อจัดจ้างของปี 2562
params = {"api-key": "tLBAbdSekSd16oBfoeFnosXS28xtWomG","year":"2562","limit":"2000"}
response = requests.get("https://opend.data.go.th/govspending/cgdcontract?", params)
data62 = response.json()["result"]

In [11]:
#ดึงข้อมูลโครงการจัดซื้อจัดจ้างของปี 2563
params = {"api-key": "tLBAbdSekSd16oBfoeFnosXS28xtWomG","year":"2563","limit":"2000"}
response = requests.get("https://opend.data.go.th/govspending/cgdcontract?", params)
data63 = response.json()["result"]

In [13]:
#ดึงข้อมูลโครงการจัดซื้อจัดจ้างของปี 2564
params = {"api-key": "tLBAbdSekSd16oBfoeFnosXS28xtWomG","year":"2564","limit":"2000"}
response = requests.get("https://opend.data.go.th/govspending/cgdcontract?", params)
data64 = response.json()["result"]

## Task 3: Parse the collected data, and store it in an appropriate file format

In [14]:
#สร้างฟังก์ชันเพื่อเก็บข้อมูลที่จะใช้ และสร้างเป็น dataframe
def create_df(data):
  project_id, project_name, project_type_name,dept_name,dept_sub_name,purchase_method_name,purchase_method_group_name,announce_date,project_money,price_build,sum_price_agree,budget_year,transaction_date,province,district,subdistrict,project_status = [],[],[],[],[],[],[],[],[],[],[],[],[],[],[],[],[]
  for i in data:
    project_id.append(i.get("project_id"))
    project_name.append(i.get("project_name"))
    project_type_name.append(i.get("project_type_name"))
    dept_name.append(i.get("dept_name"))
    dept_sub_name.append(i.get("dept_sub_name"))
    purchase_method_name.append(i.get("purchase_method_name"))
    purchase_method_group_name.append(i.get("purchase_method_group_name"))
    announce_date.append(i.get("announce_date"))
    project_money.append(i.get("project_money").replace(',',''))
    price_build.append(i.get("price_build").replace(',',''))
    sum_price_agree.append(i.get("sum_price_agree").replace(',',''))
    budget_year.append(i.get("budget_year"))
    transaction_date.append(i.get("transaction_date"))
    province.append(i.get("province"))
    district.append(i.get("district"))
    subdistrict.append(i.get("subdistrict"))
    project_status.append(i.get("project_status"))
  df = pd.DataFrame({"project_id":project_id,
                   "project_name":project_name,
                   "project_type_name":project_type_name,
                   "dept_name":dept_name,
                   "dept_sub_name":dept_sub_name,
                   "purchase_method_name":purchase_method_name,
                   "purchase_method_group_name":purchase_method_group_name,
                   "announce_date":announce_date,
                   "project_money":project_money,
                   "price_build":price_build,
                   "sum_price_agree":sum_price_agree,
                   "budget_year":budget_year,
                   "transaction_date":transaction_date,
                   "province":province,
                   "district":district,
                   "subdistrict":subdistrict,
                   "project_status":project_status
                   })
  return df

In [15]:
# นำข้อมูลที่ได้จากการ query แต่ละปีมาสร้างเป็น dataframe ด้วยฟังก์ชัน create_df()
df60 = create_df(data60)
df61 = create_df(data61)
df62 = create_df(data62)
df63 = create_df(data63)
df64 = create_df(data64)

In [16]:
#นำ dataframe ที่ได้มาต่อกัน
my_df = pd.concat([df60,df61,df62,df63,df64], axis=0)
my_df

Unnamed: 0,project_id,project_name,project_type_name,dept_name,dept_sub_name,purchase_method_name,purchase_method_group_name,announce_date,project_money,price_build,sum_price_agree,budget_year,transaction_date,province,district,subdistrict,project_status
0,59126216244,จ้างสร้างเรือดำน้ำ (25.11.17.01 ) โดยวิธีกรณีพ...,จ้างทำของ/จ้างเหมาบริการ,กองทัพเรือ,กองทัพเรือ (สยป.ทร/งานโครงการจัดหายุทโธปกรณ์หล...,กรณีพิเศษ,วิธีการจัดหา ประกาศเชิญชวนทั่วไป คัดเลือก เฉพา...,-,13500000000,13500000000,13481863800,2560,5 พ.ค. 60,กรุงเทพมหานคร,บางกอกใหญ่,วัดอรุณ,ระหว่างดำเนินการ
1,60016013525,ประกวดราคาจ้างสร้างอาคารโครงการปรับวางที่ตั้งโ...,จ้างก่อสร้าง,กองทัพอากาศ,กรมช่างโยธาทหารอากาศ กรุงเทพฯ,ประกวดราคาอิเล็กทรอนิกส์ (e-bidding),วิธีการจัดหา ประกาศเชิญชวนทั่วไป คัดเลือก เฉพา...,20 ม.ค. 60,2783087000,2783087000,2690000000,2560,17 ก.ค. 60,กรุงเทพมหานคร,ดอนเมือง,ดอนเมือง,ระหว่างดำเนินการ
2,59045046820,เช่าระบบคอมพิวเตอร์ซอฟต์แวร์สำเร็จรูปสำหรับธุร...,เช่า,การไฟฟ้าส่วนภูมิภาค,การไฟฟ้าส่วนภูมิภาค (กฟภ.) กรุงเทพฯ,พิเศษ,วิธีการจัดหา ประกาศเชิญชวนทั่วไป คัดเลือก เฉพา...,-,2966724800,2752413430,2639005200,2560,11 พ.ย. 59,กรุงเทพมหานคร,จตุจักร,ลาดยาว,ระหว่างดำเนินการ
3,60045009031,ประกวดราคาจ้างงานก่อสร้างอาคารศูนย์บริหารทางพิ...,จ้างก่อสร้าง,การทางพิเศษแห่งประเทศไทย,การทางพิเศษแห่งประเทศไทย (กทพ.) กรุงเทพฯ,ประกวดราคาด้วยวิธีการทางอิเล็กทรอนิกส์,วิธีการจัดหา ประกาศเชิญชวนทั่วไป คัดเลือก เฉพา...,4 พ.ค. 60,2985686318,2985686318,2543000000,2560,20 ก.ย. 60,กรุงเทพมหานคร,พระนคร,พระบรมมหาราชวัง,ระหว่างดำเนินการ
4,58065138000,ประกวดราคาจ้างSupply and Construction of 500/2...,จ้างก่อสร้าง,การไฟฟ้าฝ่ายผลิตแห่งประเทศไทย,การไฟฟ้าฝ่ายผลิตแห่งประเทศไทย (กฟผ.) นนทบุรี,ประกวดราคา,วิธีการจัดหา ประกาศเชิญชวนทั่วไป คัดเลือก เฉพา...,15 มิ.ย. 58,3670000000,3834000000,2335644502,2560,27 ม.ค. 60,นนทบุรี,บางกรวย,บางกรวย,ระหว่างดำเนินการ
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1048,64037173784,ประกวดราคาจ้างก่อสร้างโครงการวางท่อขยายเขตจำหน...,จ้างก่อสร้าง,องค์การบริหารส่วนจังหวัดชลบุรี,องค์การบริหารส่วนจังหวัดชลบุรี,ประกวดราคาอิเล็กทรอนิกส์ (e-bidding),วิธีการจัดหา ประกาศเชิญชวนทั่วไป คัดเลือก เฉพา...,26 มี.ค. 64,87913000,87913000,87880000,2564,20 ก.ค. 64,ชลบุรี,เมืองชลบุรี,เสม็ด,ระหว่างดำเนินการ
1049,64087157886,จ้างก่อสร้างนำสายไฟลงใต้ดิน เพื่อส่งเสริมสภาพพ...,จ้างก่อสร้าง,กองทัพเรือ,กรมช่างโยธาทหารเรือ กรุงเทพฯ,คัดเลือก,วิธีการจัดหา ประกาศเชิญชวนทั่วไป คัดเลือก เฉพา...,-,88500000,88500000,87845000,2564,27 ก.ย. 64,กรุงเทพมหานคร,บางกอกใหญ่,วัดอรุณ,ระหว่างดำเนินการ
1050,64037371910,ซื้อรถปฏิบัติการรักษาความปลอดภัยในการชุมนุม จำ...,ซื้อ,สำนักงานตำรวจแห่งชาติ,กองสรรพาวุธ สำนักงานส่งกำลังบำรุง,คัดเลือก,วิธีการจัดหา ประกาศเชิญชวนทั่วไป คัดเลือก เฉพา...,-,87950000,87950000,87800000,2564,3 ส.ค. 64,กรุงเทพมหานคร,ดุสิต,ถนนนครไชยศรี,ระหว่างดำเนินการ
1051,64057418929,ซื้อติดตั้งโคมไฟถนนพลังงานแสงอาทิตย์ขององค์การ...,ซื้อ,องค์การบริหารส่วนจังหวัดนครปฐม,องค์การบริหารส่วนจังหวัดนครปฐม,คัดเลือก,วิธีการจัดหา ประกาศเชิญชวนทั่วไป คัดเลือก เฉพา...,-,87850000,87850000,87724500,2564,11 มิ.ย. 64,นครปฐม,เมืองนครปฐม,พระปฐมเจดีย์,ระหว่างดำเนินการ


In [17]:
# create directory data
os.makedirs("data", exist_ok=True)

In [18]:
# export dataframe to csv into subfolder /data/
my_df.to_csv('/content/data/budget.csv')

## Task 4: Load and represent the data using an appropriate data structure. Apply any pre-processing steps to clean/filter/combine the data

### **อธิบายคอลัมน์**

project_id	:	รหัสโครงการ

project_name	:	ชื่อโครงการที่จัดซื้อจัดจ้าง

project_type_name	:	ชื่อประเภทโครงการ

dept_name	:	ชื่อหน่วยงาน

dept_sub_name	:	ชื่อหน่วยงานย่อย

purchase_method_name	:	ชื่อวิธีการจัดซื้อจัดจ้าง

purchase_method_group_name	:	ชื่อกลุ่มวิธีการจัดซื้อจัดจ้าง

announce_date	:	วันที่ประกาศจัดซื้อจัดจ้าง

project_money	:	วงเงินงบประมาณ

price_build	:	ราคากลาง

sum_price_agree	:	ราคาที่ตกลงซื้อ / จ้าง ซึ่งรวมทุกสัญญาในโครงการ

budget_year	:	ปีงบประมาณ

transaction_date	:	วันที่เกิดรายการ

province	:	ชื่อจังหวัด

district	:	ชื่อเขต / อำเภอ

subdistrict	:	ชื่อแขวง / ตำบล

project_status	:	สถานะโครงการ


In [19]:
# import ข้อมูล budget.csv
df = pd.read_csv('/content/data/budget.csv')

In [20]:
# แสดงผลข้อมูล 20 rows แรก
df.head(20)

Unnamed: 0.1,Unnamed: 0,project_id,project_name,project_type_name,dept_name,dept_sub_name,purchase_method_name,purchase_method_group_name,announce_date,project_money,price_build,sum_price_agree,budget_year,transaction_date,province,district,subdistrict,project_status
0,0,59126216244,จ้างสร้างเรือดำน้ำ (25.11.17.01 ) โดยวิธีกรณีพ...,จ้างทำของ/จ้างเหมาบริการ,กองทัพเรือ,กองทัพเรือ (สยป.ทร/งานโครงการจัดหายุทโธปกรณ์หล...,กรณีพิเศษ,วิธีการจัดหา ประกาศเชิญชวนทั่วไป คัดเลือก เฉพา...,-,13500000000,13500000000,13481863800,2560,5 พ.ค. 60,กรุงเทพมหานคร,บางกอกใหญ่,วัดอรุณ,ระหว่างดำเนินการ
1,1,60016013525,ประกวดราคาจ้างสร้างอาคารโครงการปรับวางที่ตั้งโ...,จ้างก่อสร้าง,กองทัพอากาศ,กรมช่างโยธาทหารอากาศ กรุงเทพฯ,ประกวดราคาอิเล็กทรอนิกส์ (e-bidding),วิธีการจัดหา ประกาศเชิญชวนทั่วไป คัดเลือก เฉพา...,20 ม.ค. 60,2783087000,2783087000,2690000000,2560,17 ก.ค. 60,กรุงเทพมหานคร,ดอนเมือง,ดอนเมือง,ระหว่างดำเนินการ
2,2,59045046820,เช่าระบบคอมพิวเตอร์ซอฟต์แวร์สำเร็จรูปสำหรับธุร...,เช่า,การไฟฟ้าส่วนภูมิภาค,การไฟฟ้าส่วนภูมิภาค (กฟภ.) กรุงเทพฯ,พิเศษ,วิธีการจัดหา ประกาศเชิญชวนทั่วไป คัดเลือก เฉพา...,-,2966724800,2752413430,2639005200,2560,11 พ.ย. 59,กรุงเทพมหานคร,จตุจักร,ลาดยาว,ระหว่างดำเนินการ
3,3,60045009031,ประกวดราคาจ้างงานก่อสร้างอาคารศูนย์บริหารทางพิ...,จ้างก่อสร้าง,การทางพิเศษแห่งประเทศไทย,การทางพิเศษแห่งประเทศไทย (กทพ.) กรุงเทพฯ,ประกวดราคาด้วยวิธีการทางอิเล็กทรอนิกส์,วิธีการจัดหา ประกาศเชิญชวนทั่วไป คัดเลือก เฉพา...,4 พ.ค. 60,2985686318,2985686318,2543000000,2560,20 ก.ย. 60,กรุงเทพมหานคร,พระนคร,พระบรมมหาราชวัง,ระหว่างดำเนินการ
4,4,58065138000,ประกวดราคาจ้างSupply and Construction of 500/2...,จ้างก่อสร้าง,การไฟฟ้าฝ่ายผลิตแห่งประเทศไทย,การไฟฟ้าฝ่ายผลิตแห่งประเทศไทย (กฟผ.) นนทบุรี,ประกวดราคา,วิธีการจัดหา ประกาศเชิญชวนทั่วไป คัดเลือก เฉพา...,15 มิ.ย. 58,3670000000,3834000000,2335644502,2560,27 ม.ค. 60,นนทบุรี,บางกรวย,บางกรวย,ระหว่างดำเนินการ
5,5,60076079396,ซื้อครุภัณฑ์โครงการเพิ่มประสิทธิภาพการตรวจพิสู...,ซื้อ,สำนักงานตำรวจแห่งชาติ,กองพลาธิการ สนง.ส่งกำลังบำรุง,พิเศษ,วิธีการจัดหา ประกาศเชิญชวนทั่วไป คัดเลือก เฉพา...,-,2126073600,2126073600,2116000000,2560,11 ก.ค. 60,กรุงเทพมหานคร,ดุสิต,ถนนนครไชยศรี,ระหว่างดำเนินการ
6,6,59096215317,ประกวดราคาจ้างโครงการก่อสร้างทางหลวงพิเศษระหว่...,จ้างก่อสร้าง,กรมทางหลวง,สำนักก่อสร้างทางที่ 2 กรมทางหลวง กรุงเทพฯ,ประกวดราคาอิเล็กทรอนิกส์ (e-bidding),วิธีการจัดหา ประกาศเชิญชวนทั่วไป คัดเลือก เฉพา...,27 ก.ย. 59,2000000000,1999985104,1994000000,2560,15 มี.ค. 60,กรุงเทพมหานคร,ราชเทวี,ทุ่งพญาไท,ระหว่างดำเนินการ
7,7,59096233814,ประกวดราคาจ้างโครงการก่อสร้างทางหลวงพิเศษระหว่...,จ้างก่อสร้าง,กรมทางหลวง,สำนักก่อสร้างทางที่ 2 กรมทางหลวง กรุงเทพฯ,ประกวดราคาอิเล็กทรอนิกส์ (e-bidding),วิธีการจัดหา ประกาศเชิญชวนทั่วไป คัดเลือก เฉพา...,27 ก.ย. 59,2000000000,1987676075,1981700000,2560,15 มี.ค. 60,กรุงเทพมหานคร,ราชเทวี,ทุ่งพญาไท,ระหว่างดำเนินการ
8,8,59116272226,ประกวดราคาจ้างงานจ้างเหมาโครงการก่อสร้างทางหลว...,จ้างก่อสร้าง,กรมทางหลวง,กรมทางหลวง กรุงเทพฯ,ประกวดราคาอิเล็กทรอนิกส์ (e-bidding),วิธีการจัดหา ประกาศเชิญชวนทั่วไป คัดเลือก เฉพา...,7 ธ.ค. 59,2000000000,1943492188,1938840000,2560,12 เม.ย. 60,กรุงเทพมหานคร,ราชเทวี,ทุ่งพญาไท,ระหว่างดำเนินการ
9,9,59096225619,ประกวดราคาจ้างโครงการก่อสร้างทางหลวงพิเศษระหว่...,จ้างก่อสร้าง,กรมทางหลวง,สำนักก่อสร้างทางที่ 2 กรมทางหลวง กรุงเทพฯ,ประกวดราคาอิเล็กทรอนิกส์ (e-bidding),วิธีการจัดหา ประกาศเชิญชวนทั่วไป คัดเลือก เฉพา...,26 ก.ย. 59,2000000000,1932436048,1926299000,2560,15 มี.ค. 60,กรุงเทพมหานคร,ราชเทวี,ทุ่งพญาไท,ระหว่างดำเนินการ


In [21]:
# ดูชื่อคอลัมน์, ค่า null, ประเภทของข้อมูลทั้งหมด
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5212 entries, 0 to 5211
Data columns (total 18 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   Unnamed: 0                  5212 non-null   int64 
 1   project_id                  5212 non-null   int64 
 2   project_name                5212 non-null   object
 3   project_type_name           5212 non-null   object
 4   dept_name                   5212 non-null   object
 5   dept_sub_name               5212 non-null   object
 6   purchase_method_name        5212 non-null   object
 7   purchase_method_group_name  5212 non-null   object
 8   announce_date               5212 non-null   object
 9   project_money               5212 non-null   int64 
 10  price_build                 5212 non-null   int64 
 11  sum_price_agree             5212 non-null   int64 
 12  budget_year                 5212 non-null   int64 
 13  transaction_date            5212 non-null   obje

In [22]:
# หาค่าสถิติเบื้องต้นของข้อมูล
df.describe()

Unnamed: 0.1,Unnamed: 0,project_id,project_money,price_build,sum_price_agree,budget_year
count,5212.0,5212.0,5212.0,5212.0,5212.0,5212.0
mean,520.828281,61502257025.337296,414447449.453761,406591152.021873,365220068.126247,2562.01957
std,301.164767,1541944200.031056,1837237154.878332,1806546429.348057,1678601760.736669,1.410681
min,0.0,57065276759.0,31651298.0,8.0,55779983.0,2560.0
25%,260.0,60086144736.5,100000000.0,99796628.0,96262221.25,2561.0
50%,521.0,61117114379.0,158110584.0,154132997.5,143068525.0,2562.0
75%,781.0,63037564204.5,330000000.0,322692458.5,291119857.5,2563.0
max,1059.0,64216000006.0,97572658000.0,97572658000.0,97572658000.0,2564.0


In [23]:
# drop column Unnamed: 0 ทิ้ง
df = df.drop(["Unnamed: 0"], axis=1)

In [24]:
# เปลี่ยนประเภทของข้อมูลที่เป็น object ให้เป็น string
df['project_name'] = df['project_name'].astype("string")
df['project_type_name'] = df['project_type_name'].astype("string")
df['dept_name'] = df['dept_name'].astype("string")
df['dept_sub_name'] = df['dept_sub_name'].astype("string")
df['dept_sub_name'] = df['dept_sub_name'].astype("string")
df['purchase_method_name'] = df['purchase_method_name'].astype("string")
df['purchase_method_group_name'] = df['purchase_method_group_name'].astype("string")
df['announce_date'] = df['announce_date'].astype("string")
df['price_build'] = df['price_build'].astype("string")
df['budget_year'] = df['budget_year'].astype("string")
df['transaction_date'] = df['transaction_date'].astype("string")
df['province'] = df['province'].astype("string")
df['district'] = df['district'].astype("string")
df['subdistrict'] = df['subdistrict'].astype("string")
df['project_status'] = df['project_status'].astype("string")

In [25]:
# ดูจำนวนของข้อมูลแต่ละประเภท
df.dtypes.value_counts()

string    14
int64      3
dtype: int64

In [26]:
# เปลี่ยนค่าของข้อมูลที่ขาดหายไปซึ่งก็คือ - ให้เป็นค่า 0
df['announce_date'] = df['announce_date'].replace("-","0")

In [27]:
# เช็คข้อมูลดูอีกรอบ
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5212 entries, 0 to 5211
Data columns (total 17 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   project_id                  5212 non-null   int64 
 1   project_name                5212 non-null   string
 2   project_type_name           5212 non-null   string
 3   dept_name                   5212 non-null   string
 4   dept_sub_name               5212 non-null   string
 5   purchase_method_name        5212 non-null   string
 6   purchase_method_group_name  5212 non-null   string
 7   announce_date               5212 non-null   string
 8   project_money               5212 non-null   int64 
 9   price_build                 5212 non-null   string
 10  sum_price_agree             5212 non-null   int64 
 11  budget_year                 5212 non-null   string
 12  transaction_date            5212 non-null   string
 13  province                    5212 non-null   stri

In [28]:
# เปลี่ยน announce_date ให้เป็นปีพ.ศ.อย่างเดียว
announce_convert = []
for i in range(len(df)):
  if df['announce_date'][i] != "0":
    year = df['announce_date'][i].split(' ')[-1]
    announce_convert.append(int("25"+year))
  else:
    announce_convert.append(0)

df['announce_date'] = announce_convert

In [29]:
# เปลี่ยน transaction_date ให้เป็นปีพ.ศ.อย่างเดียว
transaction_convert = []
for i in range(len(df)):
  if df['transaction_date'][i] != "0":
    year = df['transaction_date'][i].split(' ')[-1]
    transaction_convert.append(int("25"+year))
  else:
    transaction_convert.append(0)

df['transaction_date'] = transaction_convert

In [30]:
# ดูค่าสถิติของข้อมูล
df.describe()

Unnamed: 0,project_id,announce_date,project_money,sum_price_agree,transaction_date
count,5212.0,5212.0,5212.0,5212.0,5212.0
mean,61502257025.337296,1963.833845,414447449.453761,365220068.126247,2561.806984
std,1541944200.031056,1083.429915,1837237154.878332,1678601760.736669,1.47348
min,57065276759.0,0.0,31651298.0,55779983.0,2559.0
25%,60086144736.5,2559.0,100000000.0,96262221.25,2560.0
50%,61117114379.0,2561.0,158110584.0,143068525.0,2562.0
75%,63037564204.5,2562.0,330000000.0,291119857.5,2563.0
max,64216000006.0,2564.0,97572658000.0,97572658000.0,2564.0


## Task 5: Analyse and summarise the cleaned dataset


In [31]:
cleandf = df
cleandf

Unnamed: 0,project_id,project_name,project_type_name,dept_name,dept_sub_name,purchase_method_name,purchase_method_group_name,announce_date,project_money,price_build,sum_price_agree,budget_year,transaction_date,province,district,subdistrict,project_status
0,59126216244,จ้างสร้างเรือดำน้ำ (25.11.17.01 ) โดยวิธีกรณีพ...,จ้างทำของ/จ้างเหมาบริการ,กองทัพเรือ,กองทัพเรือ (สยป.ทร/งานโครงการจัดหายุทโธปกรณ์หล...,กรณีพิเศษ,วิธีการจัดหา ประกาศเชิญชวนทั่วไป คัดเลือก เฉพา...,0,13500000000,13500000000,13481863800,2560,2560,กรุงเทพมหานคร,บางกอกใหญ่,วัดอรุณ,ระหว่างดำเนินการ
1,60016013525,ประกวดราคาจ้างสร้างอาคารโครงการปรับวางที่ตั้งโ...,จ้างก่อสร้าง,กองทัพอากาศ,กรมช่างโยธาทหารอากาศ กรุงเทพฯ,ประกวดราคาอิเล็กทรอนิกส์ (e-bidding),วิธีการจัดหา ประกาศเชิญชวนทั่วไป คัดเลือก เฉพา...,2560,2783087000,2783087000,2690000000,2560,2560,กรุงเทพมหานคร,ดอนเมือง,ดอนเมือง,ระหว่างดำเนินการ
2,59045046820,เช่าระบบคอมพิวเตอร์ซอฟต์แวร์สำเร็จรูปสำหรับธุร...,เช่า,การไฟฟ้าส่วนภูมิภาค,การไฟฟ้าส่วนภูมิภาค (กฟภ.) กรุงเทพฯ,พิเศษ,วิธีการจัดหา ประกาศเชิญชวนทั่วไป คัดเลือก เฉพา...,0,2966724800,2752413430,2639005200,2560,2559,กรุงเทพมหานคร,จตุจักร,ลาดยาว,ระหว่างดำเนินการ
3,60045009031,ประกวดราคาจ้างงานก่อสร้างอาคารศูนย์บริหารทางพิ...,จ้างก่อสร้าง,การทางพิเศษแห่งประเทศไทย,การทางพิเศษแห่งประเทศไทย (กทพ.) กรุงเทพฯ,ประกวดราคาด้วยวิธีการทางอิเล็กทรอนิกส์,วิธีการจัดหา ประกาศเชิญชวนทั่วไป คัดเลือก เฉพา...,2560,2985686318,2985686318,2543000000,2560,2560,กรุงเทพมหานคร,พระนคร,พระบรมมหาราชวัง,ระหว่างดำเนินการ
4,58065138000,ประกวดราคาจ้างSupply and Construction of 500/2...,จ้างก่อสร้าง,การไฟฟ้าฝ่ายผลิตแห่งประเทศไทย,การไฟฟ้าฝ่ายผลิตแห่งประเทศไทย (กฟผ.) นนทบุรี,ประกวดราคา,วิธีการจัดหา ประกาศเชิญชวนทั่วไป คัดเลือก เฉพา...,2558,3670000000,3834000000,2335644502,2560,2560,นนทบุรี,บางกรวย,บางกรวย,ระหว่างดำเนินการ
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5207,64037173784,ประกวดราคาจ้างก่อสร้างโครงการวางท่อขยายเขตจำหน...,จ้างก่อสร้าง,องค์การบริหารส่วนจังหวัดชลบุรี,องค์การบริหารส่วนจังหวัดชลบุรี,ประกวดราคาอิเล็กทรอนิกส์ (e-bidding),วิธีการจัดหา ประกาศเชิญชวนทั่วไป คัดเลือก เฉพา...,2564,87913000,87913000,87880000,2564,2564,ชลบุรี,เมืองชลบุรี,เสม็ด,ระหว่างดำเนินการ
5208,64087157886,จ้างก่อสร้างนำสายไฟลงใต้ดิน เพื่อส่งเสริมสภาพพ...,จ้างก่อสร้าง,กองทัพเรือ,กรมช่างโยธาทหารเรือ กรุงเทพฯ,คัดเลือก,วิธีการจัดหา ประกาศเชิญชวนทั่วไป คัดเลือก เฉพา...,0,88500000,88500000,87845000,2564,2564,กรุงเทพมหานคร,บางกอกใหญ่,วัดอรุณ,ระหว่างดำเนินการ
5209,64037371910,ซื้อรถปฏิบัติการรักษาความปลอดภัยในการชุมนุม จำ...,ซื้อ,สำนักงานตำรวจแห่งชาติ,กองสรรพาวุธ สำนักงานส่งกำลังบำรุง,คัดเลือก,วิธีการจัดหา ประกาศเชิญชวนทั่วไป คัดเลือก เฉพา...,0,87950000,87950000,87800000,2564,2564,กรุงเทพมหานคร,ดุสิต,ถนนนครไชยศรี,ระหว่างดำเนินการ
5210,64057418929,ซื้อติดตั้งโคมไฟถนนพลังงานแสงอาทิตย์ขององค์การ...,ซื้อ,องค์การบริหารส่วนจังหวัดนครปฐม,องค์การบริหารส่วนจังหวัดนครปฐม,คัดเลือก,วิธีการจัดหา ประกาศเชิญชวนทั่วไป คัดเลือก เฉพา...,0,87850000,87850000,87724500,2564,2564,นครปฐม,เมืองนครปฐม,พระปฐมเจดีย์,ระหว่างดำเนินการ


In [32]:
cleandf.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5212 entries, 0 to 5211
Data columns (total 17 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   project_id                  5212 non-null   int64 
 1   project_name                5212 non-null   string
 2   project_type_name           5212 non-null   string
 3   dept_name                   5212 non-null   string
 4   dept_sub_name               5212 non-null   string
 5   purchase_method_name        5212 non-null   string
 6   purchase_method_group_name  5212 non-null   string
 7   announce_date               5212 non-null   int64 
 8   project_money               5212 non-null   int64 
 9   price_build                 5212 non-null   string
 10  sum_price_agree             5212 non-null   int64 
 11  budget_year                 5212 non-null   string
 12  transaction_date            5212 non-null   int64 
 13  province                    5212 non-null   stri

## ปีที่ใช้งบประมาณมากที่สุด

In [33]:
# หางบประมาณทั้งหมดที่ใช้ในแต่ละปี
sum_bg = cleandf[['sum_price_agree','budget_year']]
sum_bg = sum_bg.groupby(by=['budget_year'], as_index=False).sum()
sum_bg

Unnamed: 0,budget_year,sum_price_agree
0,2560,263606662570
1,2561,283454806276
2,2562,420945041887
3,2563,409941322955
4,2564,525579161386


In [34]:
# plot line chart งบประมาณที่ใช้ตั้งแต่ปี 2560-2564
fig = px.line(sum_bg, x="budget_year", y="sum_price_agree", title='งบประมาณที่ใช้ในแต่ละปี')
fig.update_traces(mode="markers+lines")
fig.update_layout(
    hoverlabel=dict(
        bgcolor="white",
        font_size=16,
        font_family="Rockwell"
    )
)
fig.show()

จากกราฟจะเห็นว่าปี 2564 เป็นปีที่ใช้งบประมาณมากที่สุด

## งบประมาณโครงการทั้งหมดที่ใช้ในแต่ละจังหวัดในปี2564

In [35]:
# หางบประมาณที่ใช้ในแต่ละจังหวัด
sum_pv = cleandf[cleandf['budget_year'] == '2564']
sum_pv = sum_pv[['sum_price_agree','province']]
sum_pv = sum_pv.groupby(by=['province'],as_index=False).sum()
sum_pv

Unnamed: 0,province,sum_price_agree
0,กรุงเทพมหานคร,482649320415
1,กาฬสินธุ์,211611800
2,ขอนแก่น,651104200
3,ชลบุรี,2968604242
4,ชัยนาท,99888600
5,ชัยภูมิ,105600000
6,ตรัง,149900000
7,นครนายก,148817000
8,นครปฐม,577925768
9,นครพนม,197920000


In [36]:
# plot tree map งบประมาณที่ใช้ในแต่ละจังหวัด
colors=['#fae588','#f79d65','#f9dc5c','#e8ac65','#e76f51','#ef233c','#b7094c']
fig = px.treemap(sum_pv, path=['province'],values='sum_price_agree', width=900, height=600, title="งบประมาณที่ใช้ในแต่ละจังหวัดปี2564")
fig.update_layout(
    treemapcolorway = colors,
    margin = dict(t=50, l=25, r=25, b=25))
fig.show()

จากกราฟจะเห็นว่าจังหวัดกรุงเทพมหานครมีการใช้งบประมาณมากที่สุดในปี 2564

## งบประมาณที่ใช้แต่ละหน่วยงานในจังหวัดกรุงทพมหานครปี2564

In [37]:
# หางบประมาณที่แต่ละหน่วยงานใช้
sum_dept = cleandf[(cleandf['budget_year'] == '2564') & (cleandf['province']=='กรุงเทพมหานคร')]
sum_dept = sum_dept[['dept_name','sum_price_agree']]
sum_dept = sum_dept.groupby(by=['dept_name'],as_index=False).sum()
sum_dept

Unnamed: 0,dept_name,sum_price_agree
0,กรมการขนส่งทางบก,493005700
1,กรมการข้าว,1435699888
2,กรมการปกครอง,2560019350
3,กรมชลประทาน,20624541560
4,กรมทรัพยากรน้ำ,462900000
...,...,...
97,องค์การสงเคราะห์ทหารผ่านศึก,94274395
98,องค์การเภสัชกรรม,2145730045
99,โรงพยาบาลพระมงกุฎเกล้า,180000000
100,โรงพยาบาลราชวิถี,12563350381


In [38]:
# เลือกหน่วยงาน10อันดับแรกที่ใช้งบเยอะที่สุด
sum_dept = sum_dept.sort_values(by="sum_price_agree", ascending=False).head(10)
sum_dept

Unnamed: 0,dept_name,sum_price_agree
39,การรถไฟแห่งประเทศไทย,158325297409
6,กรมทางหลวง,56269475913
26,กรุงเทพมหานคร,43834200992
42,การไฟฟ้าส่วนภูมิภาค,21721257614
3,กรมชลประทาน,20624541560
36,การประปานครหลวง,18648855470
25,กรมโยธาธิการและผังเมือง,17899698400
41,การไฟฟ้านครหลวง,16717447742
78,สำนักงานตำรวจแห่งชาติ,14983282949
100,โรงพยาบาลราชวิถี,12563350381


In [39]:
fig = px.bar(sum_dept, x='dept_name', y='sum_price_agree', title="10อันดับหน่วยงานแรกที่ใช้งบประมาณมากที่สุดของกรุงเทพมหานคร ปี 2564")
fig.update_layout(
    hoverlabel=dict(
        bgcolor="white",
        font_size=16,
        font_family="Rockwell"
    )
)
fig.show()

จากกราฟจะเห็นว่าการรถไฟแห่งประเทศไทยมีการใช้งบประมาณมากที่สุดในจังหวัดกรุงเทพมหานครปี2564

## งบประมาณที่ใช้ทั้งหมดปี2564ของจังหวัดกรุงเทพมหานครในแต่ละเขต

In [40]:
sum_dt = cleandf[(cleandf['budget_year'] == '2564') & (cleandf['province']=='กรุงเทพมหานคร')]
sum_dt = sum_dt[['district','sum_price_agree']]
sum_dt = sum_dt.groupby(by=['district'],as_index=False).sum()
sum_dt

Unnamed: 0,district,sum_price_agree
0,-,3358220673
1,คลองเตย,10641554966
2,จตุจักร,34463447021
3,ดอนเมือง,2352853637
4,ดินแดง,43623620984
5,ดุสิต,42077470566
6,ทุ่งครุ,394600000
7,บางกอกน้อย,525443450
8,บางกอกใหญ่,5078003555
9,บางกะปิ,699550000


In [41]:
# plot tree map งบประมาณที่ใช้ในเขตในจังหวัดกรุงเทพ ปี2564
fig = px.treemap(sum_dt, path=['district'],values='sum_price_agree', width=900, height=600,title="งบประมาณที่ใช้แต่ละเขตในจังหวัดกรุงเทพปี2564")
fig.show()

จากกราฟจะเห็นว่าเขตประทุมวันมีการใช้งบประมาณมากที่สุดในปี 2564

## งบประมาณแต่ละโครงการในเขตประทุมวันปี2564

In [42]:
# หางบประมาณที่ใช้ในแต่ละโครงการ
sum_pj = cleandf[(cleandf['budget_year'] == '2564') & (cleandf['province']=='กรุงเทพมหานคร') & (cleandf['district']=='ปทุมวัน')]
sum_pj = sum_pj[['project_name','sum_price_agree']]
sum_pj = sum_pj.groupby(by=['project_name'],as_index=False).sum()
sum_pj

Unnamed: 0,project_name,sum_price_agree
0,จ้างการจัดจ้างบริการสื่อสารและโทรคมนาคม โครงกา...,328999080
1,จ้างก่อสร้างปรับปรุงโครงการพัฒนาศูนย์ความเป็นเ...,129882324
2,จ้างบริหารการเดินรถไฟฟ้า ระบบขนส่งทางรถไฟเชื่อ...,329181297
3,ซื้อเครื่องมือพิเศษเพื่อเพิ่มประสิทธิภาพการสืบ...,239290000
4,ซื้อโครงการเพิ่มประสิทธิภาพในการสืบสวนอาชญากรร...,467400000
5,ประกวดราคาจ้างก่อสร้างจ้างก่อสร้างอาคารเรียนสา...,479479000
6,ประกวดราคาจ้างก่อสร้างจ้างตกแต่งภายในและงานระบ...,298400000
7,ประกวดราคาจ้างก่อสร้างปรับปรุงประสิทธิภาพและเพ...,113153900
8,ประกวดราคาจ้างก่อสร้างฝาย อาคารโรงไฟฟ้า ระบบส่...,112678000
9,ประกวดราคาจ้างก่อสร้างออกแบบ จัดหาและติดตั้งระ...,425000000


In [43]:
sum_pj = sum_pj.sort_values(by="sum_price_agree", ascending=False).head(10)
sum_pj

Unnamed: 0,project_name,sum_price_agree
13,ประกวดราคาจ้างก่อสร้างโครงการความร่วมมือระหว่า...,23050701000
12,ประกวดราคาจ้างก่อสร้างโครงการความร่วมมือระหว่า...,21140000000
11,ประกวดราคาจ้างก่อสร้างโครงการความร่วมมือระหว่า...,19696000000
17,ประกวดราคาจ้างก่อสร้างโครงการความร่วมมือระหว่า...,19675994794
15,ประกวดราคาจ้างก่อสร้างโครงการความร่วมมือระหว่า...,18857999938
19,ประกวดราคาจ้างก่อสร้างโครงการความร่วมมือระหว่า...,17120000000
18,ประกวดราคาจ้างก่อสร้างโครงการความร่วมมือระหว่า...,15500000000
14,ประกวดราคาจ้างก่อสร้างโครงการความร่วมมือระหว่า...,13146000000
16,ประกวดราคาจ้างก่อสร้างโครงการความร่วมมือระหว่า...,8558618780
5,ประกวดราคาจ้างก่อสร้างจ้างก่อสร้างอาคารเรียนสา...,479479000


In [44]:
fig = px.bar(sum_pj, x='project_name', y='sum_price_agree')
fig.update_layout(
    title="Plot Title",
    font=dict(size=5))


**สรุป** : จากปี 2560-2564 พบว่า ปี 2564 เป็นปีที่มีการใช้งบประมาณมากที่สุด โดยใช้ในจังหวัดกรุงเทพมหานคร เขตปทุมวันมากที่สุด ซึ่งใช้ไปกับประเภทโครงการก่อสร้าง ซึ่งก็คือโครงการรถไฟความเร็วสูง เส้นทางกรุงเทพ-หนองคาย ภายใต้หน่วยงานการรถไฟแห่งประเทศไทย 