# Saudi Government Projects Analysis 

## Objective
Analyze ongoing government projects in Saudi Arabia using Python and Power BI.

import pandas as pd

df = pd.read_csv("projects data under implementation CSV.csv")
df.head()

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 87 entries, 0 to 86
Data columns (total 9 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   الجهة                            87 non-null     object 
 1   القطاع                           87 non-null     object 
 2   اسم المشروع                      87 non-null     object 
 3   Asset Type (1) / نوع الأصول (1)  87 non-null     object 
 4   Asset Type (2) / نوع الأصول (2)  87 non-null     object 
 5   البيانات الفنية                  87 non-null     object 
 6   السعة / الأطوال                  87 non-null     object 
 7   تاريخ البدء                      87 non-null     object 
 8   Unnamed: 8                       0 non-null      float64
dtypes: float64(1), object(8)
memory usage: 6.2+ KB


In [9]:
df = df.drop(columns=["Unnamed: 8"], errors="ignore")

In [10]:
df["تاريخ البدء"] = pd.to_datetime(df["تاريخ البدء"], errors="coerce")

In [11]:
asset1_count = (
    df.groupby("Asset Type (1) / نوع الأصول (1)")
    .size()
    .reset_index(name="عدد المشاريع")
    .sort_values(by="عدد المشاريع", ascending=False)
)

asset1_count


Unnamed: 0,Asset Type (1) / نوع الأصول (1),عدد المشاريع
4,توزيع,46
3,تجميع,35
6,نقل,2
2,الفئات الأخرى,1
1,إنتاج,1
0,إعادة الاستخدام,1
5,معالجة,1


In [12]:
asset_sector = pd.crosstab(
    df["Asset Type (1) / نوع الأصول (1)"],
    df["القطاع"]
)

asset_sector

القطاع,القطاع الأوسط
Asset Type (1) / نوع الأصول (1),Unnamed: 1_level_1
إعادة الاستخدام,1
إنتاج,1
الفئات الأخرى,1
تجميع,35
توزيع,46
معالجة,1
نقل,2


In [13]:
infra_entities = (
    df[df["Asset Type (1) / نوع الأصول (1)"] == "Infrastructure"]
    .groupby("الجهة")
    .size()
    .reset_index(name="عدد مشاريع البنية التحتية")
    .sort_values(by="عدد مشاريع البنية التحتية", ascending=False)
)

infra_entities.head(10)

Unnamed: 0,الجهة,عدد مشاريع البنية التحتية


In [14]:
df["سنة البدء"] = df["تاريخ البدء"].dt.year

year_asset = (
    df.groupby(["سنة البدء", "Asset Type (1) / نوع الأصول (1)"])
    .size()
    .reset_index(name="عدد المشاريع")
)

year_asset

Unnamed: 0,سنة البدء,Asset Type (1) / نوع الأصول (1),عدد المشاريع
0,2018,توزيع,1
1,2022,تجميع,1
2,2023,إعادة الاستخدام,1
3,2023,تجميع,2
4,2024,تجميع,25
5,2024,توزيع,26
6,2024,نقل,2
7,2025,إنتاج,1
8,2025,الفئات الأخرى,1
9,2025,تجميع,7


In [15]:
year_asset.columns = ["سنة البدء", "نوع الأصل", "عدد المشاريع"]
year_asset

Unnamed: 0,سنة البدء,نوع الأصل,عدد المشاريع
0,2018,توزيع,1
1,2022,تجميع,1
2,2023,إعادة الاستخدام,1
3,2023,تجميع,2
4,2024,تجميع,25
5,2024,توزيع,26
6,2024,نقل,2
7,2025,إنتاج,1
8,2025,الفئات الأخرى,1
9,2025,تجميع,7


In [16]:
top_asset_per_year = (
    year_asset
    .sort_values(["سنة البدء", "عدد المشاريع"], ascending=[True, False])
    .groupby("سنة البدء")
    .first()
    .reset_index()
)

top_asset_per_year

Unnamed: 0,سنة البدء,نوع الأصل,عدد المشاريع
0,2018,توزيع,1
1,2022,تجميع,1
2,2023,تجميع,2
3,2024,توزيع,26
4,2025,توزيع,19


In [17]:
comparison = year_asset[
    year_asset["سنة البدء"].isin([2024, 2025])
]

comparison

Unnamed: 0,سنة البدء,نوع الأصل,عدد المشاريع
4,2024,تجميع,25
5,2024,توزيع,26
6,2024,نقل,2
7,2025,إنتاج,1
8,2025,الفئات الأخرى,1
9,2025,تجميع,7
10,2025,توزيع,19
11,2025,معالجة,1


In [21]:
df.to_csv("processed_projects.csv", index=False)

In [23]:
import os
os.getcwd()

'C:\\Users\\swaad'