# Importing libraries

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
sns.set(color_codes=True)
import locale
from translate import Translator

In [2]:
pip install translate

Note: you may need to restart the kernel to use updated packages.


# Importing data

In [3]:
data = pd.read_csv('number-of-smes-2022-q1.csv' , delimiter = ',' , header=0 , names=['year','quarter','location','economic activity'
                                                                                     ,'micro enterprises','small enterprises','medium enterprises'
                                                                                     ,'large enterprises','total number of enterprises'])
data

Unnamed: 0,year,quarter,location,economic activity,micro enterprises,small enterprises,medium enterprises,large enterprises,total number of enterprises
0,2022,1,مكتب المنطقة الشرقية,أبحاث الإعلان والسوق,124,30,1,0,155
1,2022,1,مكتب المنطقة الشرقية,إصلاح أجهزة الحاسوب والسلع الشخصية والمنزلية,302,74,9,1,386
2,2022,1,مكتب المنطقة الشرقية,إصلاح وتركيب الآلات والمعدات,201,72,6,1,280
3,2022,1,مكتب المنطقة الشرقية,أنشطة أنتاج الأفلام والبرامج التلفزيونية والتس...,30,4,0,0,34
4,2022,1,مكتب المنطقة الشرقية,أنشطة الأمن والتحقيقات,22,17,11,4,54
...,...,...,...,...,...,...,...,...,...
5308,2022,1,مكتب منطقة نجران,صنع منتجات المطاط واللدائن,21,2,0,0,23
5309,2022,1,مكتب منطقة نجران,صنع منتجات المعادن اللافلزية الأخرى,66,31,9,1,107
5310,2022,1,مكتب منطقة نجران,صنع منتجات المعادن المشكلة ( باستثناء الآلات و...,175,14,4,0,193
5311,2022,1,مكتب منطقة نجران,صيد الأسماك وتربية المائيات,135,1,0,0,136


# Data Cleaning

### Finding how many duplicates in the data 

In [4]:
data.duplicated().sum()

782

### Dropping duplicate data 

In [5]:
data.drop_duplicates(inplace = True ,keep='first')
data

Unnamed: 0,year,quarter,location,economic activity,micro enterprises,small enterprises,medium enterprises,large enterprises,total number of enterprises
0,2022,1,مكتب المنطقة الشرقية,أبحاث الإعلان والسوق,124,30,1,0,155
1,2022,1,مكتب المنطقة الشرقية,إصلاح أجهزة الحاسوب والسلع الشخصية والمنزلية,302,74,9,1,386
2,2022,1,مكتب المنطقة الشرقية,إصلاح وتركيب الآلات والمعدات,201,72,6,1,280
3,2022,1,مكتب المنطقة الشرقية,أنشطة أنتاج الأفلام والبرامج التلفزيونية والتس...,30,4,0,0,34
4,2022,1,مكتب المنطقة الشرقية,أنشطة الأمن والتحقيقات,22,17,11,4,54
...,...,...,...,...,...,...,...,...,...
5306,2022,1,مكتب منطقة نجران,صُنع المواد الكيميائية والمنتجات الكيميائية,22,4,1,0,27
5307,2022,1,مكتب منطقة نجران,صُنع الورق ومنتجات الورق,11,4,1,0,16
5309,2022,1,مكتب منطقة نجران,صنع منتجات المعادن اللافلزية الأخرى,66,31,9,1,107
5310,2022,1,مكتب منطقة نجران,صنع منتجات المعادن المشكلة ( باستثناء الآلات و...,175,14,4,0,193


#### Checking again for duplicates

In [6]:
data.duplicated().sum()

0

### Changing location data from arabic to english

In [7]:
data['location'].unique()

array(['مكتب المنطقة الشرقية', 'مكتب محافظة الأحساء',
       'مكتب محافظة الجبيل', 'مكتب محافظة الخرج', 'مكتب محافظة الدوادمي',
       'مكتب محافظة الطائف', 'مكتب محافظة بيشة', 'مكتب محافظة حفر الباطن',
       'مكتب محافظة ينبع', 'مكتب مكة المكرمة', 'مكتب منطقة الباحة',
       'مكتب منطقة الجوف', 'مكتب منطقة الحدود الشمالية',
       'مكتب منطقة الرياض', 'مكتب منطقة القصيم',
       'مكتب منطقة المدينة المنورة', 'مكتب منطقة تبوك',
       'مكتب منطقة جازان', 'مكتب منطقة حائل', 'مكتب منطقة عسير',
       'مكتب منطقة مكة المكرمة/جدة', 'مكتب منطقة نجران', 'المركز الرئيسي'],
      dtype=object)

In [8]:
data['location'] = data['location'].replace(['مكتب المنطقة الشرقية', 'مكتب محافظة الأحساء',
       'مكتب محافظة الجبيل', 'مكتب محافظة الخرج', 'مكتب محافظة الدوادمي',
       'مكتب محافظة الطائف', 'مكتب محافظة بيشة', 'مكتب محافظة حفر الباطن',
       'مكتب محافظة ينبع', 'مكتب مكة المكرمة', 'مكتب منطقة الباحة',
       'مكتب منطقة الجوف', 'مكتب منطقة الحدود الشمالية',
       'مكتب منطقة الرياض', 'مكتب منطقة القصيم',
       'مكتب منطقة المدينة المنورة', 'مكتب منطقة تبوك',
       'مكتب منطقة جازان', 'مكتب منطقة حائل', 'مكتب منطقة عسير',
       'مكتب منطقة مكة المكرمة/جدة', 'مكتب منطقة نجران', 'المركز الرئيسي'],['Eastern Region Office','Al-Ahsa Governorate Office',
       'Jubail Governorate Office', 'Al-Kharj Office', 'Dawadmi Governorate Office','Taif Governorate Office', 'Bishah Governorate Office', 'Hafr Al-Batin Governorate Office',
       'Yanbu Governorate Office','Makkah Al-Mukarramah Office', 'Al-Baha District Office',
       'Al-Jouf Region Office', 'Northern Border Region Office',
       'Riyadh Region Office', 'Qassim Region Office',
       'Al-Madinah Al-Munawwarah Region Office', 'Tabuk Region Office',
       'Jazan Region Office', 'Hail Region Office', 'Asir Region Office',
       'Makkah / Jeddah Region Office', 'Najran Region Office', 'Head Office'])
data

Unnamed: 0,year,quarter,location,economic activity,micro enterprises,small enterprises,medium enterprises,large enterprises,total number of enterprises
0,2022,1,Eastern Region Office,أبحاث الإعلان والسوق,124,30,1,0,155
1,2022,1,Eastern Region Office,إصلاح أجهزة الحاسوب والسلع الشخصية والمنزلية,302,74,9,1,386
2,2022,1,Eastern Region Office,إصلاح وتركيب الآلات والمعدات,201,72,6,1,280
3,2022,1,Eastern Region Office,أنشطة أنتاج الأفلام والبرامج التلفزيونية والتس...,30,4,0,0,34
4,2022,1,Eastern Region Office,أنشطة الأمن والتحقيقات,22,17,11,4,54
...,...,...,...,...,...,...,...,...,...
5306,2022,1,Najran Region Office,صُنع المواد الكيميائية والمنتجات الكيميائية,22,4,1,0,27
5307,2022,1,Najran Region Office,صُنع الورق ومنتجات الورق,11,4,1,0,16
5309,2022,1,Najran Region Office,صنع منتجات المعادن اللافلزية الأخرى,66,31,9,1,107
5310,2022,1,Najran Region Office,صنع منتجات المعادن المشكلة ( باستثناء الآلات و...,175,14,4,0,193


### Changing Economic activity from arabic to english using python translate

In [9]:
data['economic activity'].nunique()

87

In [10]:
translator= Translator(to_lang='en')
translation = translator.translate("مرحبا")
print(translation)

مرحبا


# Basic data information

In [11]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4531 entries, 0 to 5311
Data columns (total 9 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   year                         4531 non-null   int64 
 1   quarter                      4531 non-null   int64 
 2   location                     4531 non-null   object
 3   economic activity            4531 non-null   object
 4   micro enterprises            4531 non-null   int64 
 5   small enterprises            4531 non-null   int64 
 6   medium enterprises           4531 non-null   int64 
 7   large enterprises            4531 non-null   int64 
 8   total number of enterprises  4531 non-null   int64 
dtypes: int64(7), object(2)
memory usage: 354.0+ KB


# The total number of enterprises

In [12]:
cols = ['micro enterprises','small enterprises','medium enterprises','large enterprises']
total = 0
for columns in data[cols]:
    total = total + data[columns].sum()
    print ('THE TOTAL NUMBER OF',columns.upper() ,'IN SAUDI ARABIA IS',f"{data[columns].sum():,}")
print ('THE TOTAL NUMBER OF ENTERPRISES IN SAUDI ARABIA IS', f"{total:,}")

THE TOTAL NUMBER OF MICRO ENTERPRISES IN SAUDI ARABIA IS 1,671,657
THE TOTAL NUMBER OF SMALL ENTERPRISES IN SAUDI ARABIA IS 404,824
THE TOTAL NUMBER OF MEDIUM ENTERPRISES IN SAUDI ARABIA IS 48,067
THE TOTAL NUMBER OF LARGE ENTERPRISES IN SAUDI ARABIA IS 10,218
THE TOTAL NUMBER OF ENTERPRISES IN SAUDI ARABIA IS 2,134,766


# Grouping locaion based on the sum of each enterprise 

In [23]:
sum =(data.groupby(['location'], sort=True)['micro enterprises','small enterprises','medium enterprises','large enterprises']).sum()
sum

  sum =(data.groupby(['location'], sort=True)['micro enterprises','small enterprises','medium enterprises','large enterprises']).sum()


Unnamed: 0_level_0,micro enterprises,small enterprises,medium enterprises,large enterprises
location,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Al-Ahsa Governorate Office,34842,9978,815,138
Al-Baha District Office,16138,3471,150,7
Al-Jouf Region Office,26398,4781,254,20
Al-Kharj Office,39300,7272,600,76
Al-Madinah Al-Munawwarah Region Office,75264,15738,1135,149
Asir Region Office,84012,16378,1235,151
Bishah Governorate Office,17113,2573,104,16
Dawadmi Governorate Office,27263,3183,224,21
Eastern Region Office,104909,45900,7411,1910
Hafr Al-Batin Governorate Office,27412,5090,427,37


In [28]:
sum2 =(data.groupby(['economic activity'], sort=True)['micro enterprises','small enterprises','medium enterprises','large enterprises']).sum()
sum2

  sum2 =(data.groupby(['economic activity'], sort=True)['micro enterprises','small enterprises','medium enterprises','large enterprises']).sum()


Unnamed: 0_level_0,micro enterprises,small enterprises,medium enterprises,large enterprises
economic activity,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
أبحاث الإعلان والسوق,4011,777,11,0
أنشطة أنتاج الأفلام والبرامج التلفزيونية والتسجيلات الصوتية و نشرالموسيقى,1284,349,13,9
أنشطة الأمن والتحقيقات,710,317,148,65
أنشطة الاستخدام,3036,662,90,118
أنشطة الاسر المعيشية التي تستخدم أفراداً للعمل المنزلي,132,9,0,0
...,...,...,...,...
صُنع المنسوجات,3508,1170,134,34
صُنع المواد الكيميائية والمنتجات الكيميائية,4156,1913,416,37
صُنع الورق ومنتجات الورق,636,488,134,20
صُنع منتجات التبغ,42,14,0,0


In [29]:
data.to_csv('sme-2022.csv')