### Import required libraries
- Import `clean_data` module from `scripts`.
- Import `sqlite3` for database interaction.
- Import `warnings` and disable warnings.
- Import `pandas` for data manipulation.

In [1]:
from scripts.clean_data import *
import sqlite3
import warnings
import pandas as pd

warnings.filterwarnings("ignore")

### Load and preview data
- Load CSV file `egypt_raw.csv` from `../data/raw/` into DataFrame.
- Display first 5 rows of the DataFrame.

In [2]:
df_egypt = pd.read_csv('../data/raw/egypt_raw.csv')
df_egypt.head()

Unnamed: 0.1,Unnamed: 0,link,title,date,salary,career_level,location,num_of_vacancies,industry,description,...,remote,num_of_exp,residence_area,nationality,sex,qualification,age,specialization,experience,company_name
0,0,https://www.bayt.com/ar/egypt/jobs/%D9%81%D9%8...,فنى صيانة معدات (ميكانيكا ),اليوم,"$1,500 - $2,000",دوام كامل,العامرية · الإسكندرية · مصر,,10-49 موظف · إنتاج الأغذية والمشروبات,مطلوب فنى صيانة ميكانيكا معدات - لمصنع مخبوزات...,...,,,,,,,,,,Alexandrina for trade
1,1,https://www.bayt.com/ar/egypt/jobs/%D9%85%D8%A...,متخصص فى مجال السوشيال ميديا,في الامس,,دوام جزئي · الحد الأدنى 3 سنوات من الخبرة,القاهرة · مصر,الوظائف المتاحة عدد 10,10-49 موظف · الإنترنت والتجارة الإلكترونية - أ...,متخصص فى مجال السوشيال ميديا ( الفيس بوك - الا...,...,هجين,الحد الأدنى: 3,مصر,مصر,ذكر,بكالوريوس/ دبلوم عالي,الحد الأدنى: 25 الحد الأقصى: 50,بدون,,المجموعة الدولية لحلول الملكية الفكرية
2,2,https://www.bayt.com/ar/egypt/jobs/%D9%85%D9%8...,موظف مبيعات,في الامس,,دوام كامل · 1-3 سنوات من الخبرة,القاهرة الجديدة · القاهرة · مصر,,10-49 موظف · وكلاء السيارات,الحفاظ على سجلات المبيعات والتسليم ، وكذلك تحق...,...,,الحد الأدنى: 1 الحد الأقصى: 3,,مصر,أنثى,,الحد الأدنى: 22 الحد الأقصى: 28,,,awija auto
3,3,https://www.bayt.com/ar/egypt/jobs/%D9%85%D9%8...,موظف مبيعات,في الامس,,دوام كامل · 1-3 سنوات من الخبرة,القاهرة الجديدة · القاهرة · مصر,,10-49 موظف · صيانة السيارات وقطع الغيار وخدمات...,الحفاظ على سجلات المبيعات والتسليم ، وكذلك تحق...,...,,الحد الأدنى: 1 الحد الأقصى: 3,,مصر,أنثى,,الحد الأدنى: 22 الحد الأقصى: 28,,,awija auto
4,4,https://www.bayt.com/ar/egypt/jobs/%D9%85%D9%8...,مندوب مبيعات,في الامس,$0 - $500,دوام كامل,منية النصر · مصر,الوظائف المتاحة عدد 20,10-49 موظف · البيع بالتجزئة وبالجملة,مندوب مبيعات سجائر الكتروني في محيط القاهرة وا...,...,,,,,,,,,,Almanna Import & Export


### Split location and career_level columns
- Split `location` column by separator `·`, keep index 1 as `city`.
- Split `career_level` column by separator `·`, keep indexes 0, 1, 2 as `type`, `exp`, and `no_exp`.
- Further process `career_level` column using `split_career_level` function.

In [3]:
split_column(df_egypt, 'location', [1], '·', ['city'], reverse=True)
split_career_level(df_egypt)
df_egypt.head(15)

Unnamed: 0.1,Unnamed: 0,link,title,date,salary,career_level,location,num_of_vacancies,industry,description,...,sex,qualification,age,specialization,experience,company_name,city,type,exp,no_exp
0,0,https://www.bayt.com/ar/egypt/jobs/%D9%81%D9%8...,فنى صيانة معدات (ميكانيكا ),اليوم,"$1,500 - $2,000",دوام كامل,العامرية · الإسكندرية · مصر,,10-49 موظف · إنتاج الأغذية والمشروبات,مطلوب فنى صيانة ميكانيكا معدات - لمصنع مخبوزات...,...,,,,,,Alexandrina for trade,الإسكندرية,دوام كامل,Unknown,Unknown
1,1,https://www.bayt.com/ar/egypt/jobs/%D9%85%D8%A...,متخصص فى مجال السوشيال ميديا,في الامس,,دوام جزئي · الحد الأدنى 3 سنوات من الخبرة,القاهرة · مصر,الوظائف المتاحة عدد 10,10-49 موظف · الإنترنت والتجارة الإلكترونية - أ...,متخصص فى مجال السوشيال ميديا ( الفيس بوك - الا...,...,ذكر,بكالوريوس/ دبلوم عالي,الحد الأدنى: 25 الحد الأقصى: 50,بدون,,المجموعة الدولية لحلول الملكية الفكرية,القاهرة,دوام جزئي,Unknown,الحد الأدنى 3 سنوات من الخبرة
2,2,https://www.bayt.com/ar/egypt/jobs/%D9%85%D9%8...,موظف مبيعات,في الامس,,دوام كامل · 1-3 سنوات من الخبرة,القاهرة الجديدة · القاهرة · مصر,,10-49 موظف · وكلاء السيارات,الحفاظ على سجلات المبيعات والتسليم ، وكذلك تحق...,...,أنثى,,الحد الأدنى: 22 الحد الأقصى: 28,,,awija auto,القاهرة,دوام كامل,Unknown,1-3 سنوات من الخبرة
3,3,https://www.bayt.com/ar/egypt/jobs/%D9%85%D9%8...,موظف مبيعات,في الامس,,دوام كامل · 1-3 سنوات من الخبرة,القاهرة الجديدة · القاهرة · مصر,,10-49 موظف · صيانة السيارات وقطع الغيار وخدمات...,الحفاظ على سجلات المبيعات والتسليم ، وكذلك تحق...,...,أنثى,,الحد الأدنى: 22 الحد الأقصى: 28,,,awija auto,القاهرة,دوام كامل,Unknown,1-3 سنوات من الخبرة
4,4,https://www.bayt.com/ar/egypt/jobs/%D9%85%D9%8...,مندوب مبيعات,في الامس,$0 - $500,دوام كامل,منية النصر · مصر,الوظائف المتاحة عدد 20,10-49 موظف · البيع بالتجزئة وبالجملة,مندوب مبيعات سجائر الكتروني في محيط القاهرة وا...,...,,,,,,Almanna Import & Export,منية النصر,دوام كامل,Unknown,Unknown
5,5,https://www.bayt.com/ar/egypt/jobs/%D9%85%D8%A...,مدير انتاج للعمل بالسعودية,قبل يومين,,دوام كامل,هليوبوليس · القاهرة · مصر,,10-49 موظف · وكالات التوظيف,إدارة وتنظيم عمليات الإنتاج اليومية لضمان تحقي...,...,,,,,,شركة البدوي للتوظيف/ Albadwy Recruitment,القاهرة,دوام كامل,Unknown,Unknown
6,6,https://www.bayt.com/ar/egypt/jobs/%D9%85%D9%8...,مندوب مبيعات,قبل يومين,,دوام كامل · مبتدئ الخبرة · 0-1 سنوات من الخبرة,شرم الشيخ · مصر,الوظائف المتاحة عدد 3,50-99 موظف · التجارة,المسمي الوظيفي : مندوب مبيعات المدير المباشر و...,...,ذكر,بكالوريوس/ دبلوم عالي,الحد الأدنى: 25 الحد الأقصى: 31,المبيعات,مبتدئ الخبرة,sittin egy food,شرم الشيخ,دوام كامل,مبتدئ الخبرة,0-1 سنوات من الخبرة
7,7,https://www.bayt.com/ar/egypt/jobs/%D8%A7%D9%8...,امين مخازن,قبل 3 أيام,,دوام كامل · متوسط الخبرة · 1-2 سنوات من الخبرة,شرم الشيخ · مصر,الوظائف المتاحة عدد 2,50-99 موظف · التجارة,المسمي الوظيفي : امين مخازنالمدير المباشر : مد...,...,ذكر,بكالوريوس/ دبلوم عالي,الحد الأدنى: 25 الحد الأقصى: 31,مخازن,متوسط الخبرة,sittin egy food,شرم الشيخ,دوام كامل,متوسط الخبرة,1-2 سنوات من الخبرة
8,8,https://www.bayt.com/ar/egypt/jobs/%D9%85%D8%B...,مسئول التسويق والمبيعات,قبل 5 أيام,,دوام كامل,القاهرة · مصر,,1-9 موظف · التسويق - أبحاث السوق,إعلان وظيفي: مسئول التسويق والمبيعاتشركة أنظمة...,...,,,,,,الشربيني لأنظمة البناء الداخلي,القاهرة,دوام كامل,Unknown,Unknown
9,9,https://www.bayt.com/ar/egypt/jobs/%D9%85%D8%A...,مدير مبيعات,قبل 5 أيام,,دوام كامل,مصر,,1-9 موظف · التسويق,فرصة عمل في Vixilia Agency – مدير مبيعات (Sale...,...,,,,,,وكالة فيكسليا,Unknown,دوام كامل,Unknown,Unknown


### Clean and combine experience columns
- Replace 'Unknown' values in `exp` column with `NaN`.
- Combine `experience` column with `exp` column into a new column `experience_` using `combine_first`.
- Replace 'Unknown' values in `no_exp` column with `NaN`.
- Combine `num_of_exp` column with `no_exp` column into a new column `num_of_exp_years` using `combine_first`.

In [4]:
df_egypt['exp'].replace('Unknown', np.nan, inplace=True)
df_egypt['experience_'] = df_egypt['experience'].combine_first(df_egypt['exp'])
df_egypt['no_exp'].replace('Unknown', np.nan, inplace=True)
df_egypt['num_of_exp_years'] = df_egypt['num_of_exp'].combine_first(df_egypt['no_exp'])
df_egypt.head(15)

Unnamed: 0.1,Unnamed: 0,link,title,date,salary,career_level,location,num_of_vacancies,industry,description,...,age,specialization,experience,company_name,city,type,exp,no_exp,experience_,num_of_exp_years
0,0,https://www.bayt.com/ar/egypt/jobs/%D9%81%D9%8...,فنى صيانة معدات (ميكانيكا ),اليوم,"$1,500 - $2,000",دوام كامل,العامرية · الإسكندرية · مصر,,10-49 موظف · إنتاج الأغذية والمشروبات,مطلوب فنى صيانة ميكانيكا معدات - لمصنع مخبوزات...,...,,,,Alexandrina for trade,الإسكندرية,دوام كامل,,,,
1,1,https://www.bayt.com/ar/egypt/jobs/%D9%85%D8%A...,متخصص فى مجال السوشيال ميديا,في الامس,,دوام جزئي · الحد الأدنى 3 سنوات من الخبرة,القاهرة · مصر,الوظائف المتاحة عدد 10,10-49 موظف · الإنترنت والتجارة الإلكترونية - أ...,متخصص فى مجال السوشيال ميديا ( الفيس بوك - الا...,...,الحد الأدنى: 25 الحد الأقصى: 50,بدون,,المجموعة الدولية لحلول الملكية الفكرية,القاهرة,دوام جزئي,,الحد الأدنى 3 سنوات من الخبرة,,الحد الأدنى: 3
2,2,https://www.bayt.com/ar/egypt/jobs/%D9%85%D9%8...,موظف مبيعات,في الامس,,دوام كامل · 1-3 سنوات من الخبرة,القاهرة الجديدة · القاهرة · مصر,,10-49 موظف · وكلاء السيارات,الحفاظ على سجلات المبيعات والتسليم ، وكذلك تحق...,...,الحد الأدنى: 22 الحد الأقصى: 28,,,awija auto,القاهرة,دوام كامل,,1-3 سنوات من الخبرة,,الحد الأدنى: 1 الحد الأقصى: 3
3,3,https://www.bayt.com/ar/egypt/jobs/%D9%85%D9%8...,موظف مبيعات,في الامس,,دوام كامل · 1-3 سنوات من الخبرة,القاهرة الجديدة · القاهرة · مصر,,10-49 موظف · صيانة السيارات وقطع الغيار وخدمات...,الحفاظ على سجلات المبيعات والتسليم ، وكذلك تحق...,...,الحد الأدنى: 22 الحد الأقصى: 28,,,awija auto,القاهرة,دوام كامل,,1-3 سنوات من الخبرة,,الحد الأدنى: 1 الحد الأقصى: 3
4,4,https://www.bayt.com/ar/egypt/jobs/%D9%85%D9%8...,مندوب مبيعات,في الامس,$0 - $500,دوام كامل,منية النصر · مصر,الوظائف المتاحة عدد 20,10-49 موظف · البيع بالتجزئة وبالجملة,مندوب مبيعات سجائر الكتروني في محيط القاهرة وا...,...,,,,Almanna Import & Export,منية النصر,دوام كامل,,,,
5,5,https://www.bayt.com/ar/egypt/jobs/%D9%85%D8%A...,مدير انتاج للعمل بالسعودية,قبل يومين,,دوام كامل,هليوبوليس · القاهرة · مصر,,10-49 موظف · وكالات التوظيف,إدارة وتنظيم عمليات الإنتاج اليومية لضمان تحقي...,...,,,,شركة البدوي للتوظيف/ Albadwy Recruitment,القاهرة,دوام كامل,,,,
6,6,https://www.bayt.com/ar/egypt/jobs/%D9%85%D9%8...,مندوب مبيعات,قبل يومين,,دوام كامل · مبتدئ الخبرة · 0-1 سنوات من الخبرة,شرم الشيخ · مصر,الوظائف المتاحة عدد 3,50-99 موظف · التجارة,المسمي الوظيفي : مندوب مبيعات المدير المباشر و...,...,الحد الأدنى: 25 الحد الأقصى: 31,المبيعات,مبتدئ الخبرة,sittin egy food,شرم الشيخ,دوام كامل,مبتدئ الخبرة,0-1 سنوات من الخبرة,مبتدئ الخبرة,الحد الأدنى: 0 الحد الأقصى: 1
7,7,https://www.bayt.com/ar/egypt/jobs/%D8%A7%D9%8...,امين مخازن,قبل 3 أيام,,دوام كامل · متوسط الخبرة · 1-2 سنوات من الخبرة,شرم الشيخ · مصر,الوظائف المتاحة عدد 2,50-99 موظف · التجارة,المسمي الوظيفي : امين مخازنالمدير المباشر : مد...,...,الحد الأدنى: 25 الحد الأقصى: 31,مخازن,متوسط الخبرة,sittin egy food,شرم الشيخ,دوام كامل,متوسط الخبرة,1-2 سنوات من الخبرة,متوسط الخبرة,الحد الأدنى: 1 الحد الأقصى: 2
8,8,https://www.bayt.com/ar/egypt/jobs/%D9%85%D8%B...,مسئول التسويق والمبيعات,قبل 5 أيام,,دوام كامل,القاهرة · مصر,,1-9 موظف · التسويق - أبحاث السوق,إعلان وظيفي: مسئول التسويق والمبيعاتشركة أنظمة...,...,,,,الشربيني لأنظمة البناء الداخلي,القاهرة,دوام كامل,,,,
9,9,https://www.bayt.com/ar/egypt/jobs/%D9%85%D8%A...,مدير مبيعات,قبل 5 أيام,,دوام كامل,مصر,,1-9 موظف · التسويق,فرصة عمل في Vixilia Agency – مدير مبيعات (Sale...,...,,,,وكالة فيكسليا,Unknown,دوام كامل,,,,


### Split and Clean Columns
1. **Split `industry` column** using the `split_industry` function.
2. **Split `location` column**:
   - Extract the city from the `location` column by splitting at '·'.
   - The resulting values are stored in the new `city` column, reversing the split.
3. **Split `num_of_vacancies` column**:
   - Extract the number of vacancies by splitting at a space (' ').
   - Fill missing values with `1` if no vacancies are specified.

In [5]:
split_industry(df_egypt)
split_column(df_egypt, 'location', index=[1], split_char='·', names=['city'], reverse=True)
split_column(df_egypt, 'num_of_vacancies', index=[3], split_char=' ', names=['num_of_vacancies'], fill_value=1)
df_egypt.head(15)

Unnamed: 0.1,Unnamed: 0,link,title,date,salary,career_level,location,num_of_vacancies,industry,description,...,experience,company_name,city,type,exp,no_exp,experience_,num_of_exp_years,industry_,company_size
0,0,https://www.bayt.com/ar/egypt/jobs/%D9%81%D9%8...,فنى صيانة معدات (ميكانيكا ),اليوم,"$1,500 - $2,000",دوام كامل,العامرية · الإسكندرية · مصر,1,10-49 موظف · إنتاج الأغذية والمشروبات,مطلوب فنى صيانة ميكانيكا معدات - لمصنع مخبوزات...,...,,Alexandrina for trade,الإسكندرية,دوام كامل,,,,,إنتاج الأغذية والمشروبات,10-49 موظف
1,1,https://www.bayt.com/ar/egypt/jobs/%D9%85%D8%A...,متخصص فى مجال السوشيال ميديا,في الامس,,دوام جزئي · الحد الأدنى 3 سنوات من الخبرة,القاهرة · مصر,10,10-49 موظف · الإنترنت والتجارة الإلكترونية - أ...,متخصص فى مجال السوشيال ميديا ( الفيس بوك - الا...,...,,المجموعة الدولية لحلول الملكية الفكرية,القاهرة,دوام جزئي,,الحد الأدنى 3 سنوات من الخبرة,,الحد الأدنى: 3,الإنترنت والتجارة الإلكترونية - أبحاث السوق,10-49 موظف
2,2,https://www.bayt.com/ar/egypt/jobs/%D9%85%D9%8...,موظف مبيعات,في الامس,,دوام كامل · 1-3 سنوات من الخبرة,القاهرة الجديدة · القاهرة · مصر,1,10-49 موظف · وكلاء السيارات,الحفاظ على سجلات المبيعات والتسليم ، وكذلك تحق...,...,,awija auto,القاهرة,دوام كامل,,1-3 سنوات من الخبرة,,الحد الأدنى: 1 الحد الأقصى: 3,وكلاء السيارات,10-49 موظف
3,3,https://www.bayt.com/ar/egypt/jobs/%D9%85%D9%8...,موظف مبيعات,في الامس,,دوام كامل · 1-3 سنوات من الخبرة,القاهرة الجديدة · القاهرة · مصر,1,10-49 موظف · صيانة السيارات وقطع الغيار وخدمات...,الحفاظ على سجلات المبيعات والتسليم ، وكذلك تحق...,...,,awija auto,القاهرة,دوام كامل,,1-3 سنوات من الخبرة,,الحد الأدنى: 1 الحد الأقصى: 3,صيانة السيارات وقطع الغيار وخدمات الدعم,10-49 موظف
4,4,https://www.bayt.com/ar/egypt/jobs/%D9%85%D9%8...,مندوب مبيعات,في الامس,$0 - $500,دوام كامل,منية النصر · مصر,20,10-49 موظف · البيع بالتجزئة وبالجملة,مندوب مبيعات سجائر الكتروني في محيط القاهرة وا...,...,,Almanna Import & Export,منية النصر,دوام كامل,,,,,البيع بالتجزئة وبالجملة,10-49 موظف
5,5,https://www.bayt.com/ar/egypt/jobs/%D9%85%D8%A...,مدير انتاج للعمل بالسعودية,قبل يومين,,دوام كامل,هليوبوليس · القاهرة · مصر,1,10-49 موظف · وكالات التوظيف,إدارة وتنظيم عمليات الإنتاج اليومية لضمان تحقي...,...,,شركة البدوي للتوظيف/ Albadwy Recruitment,القاهرة,دوام كامل,,,,,وكالات التوظيف,10-49 موظف
6,6,https://www.bayt.com/ar/egypt/jobs/%D9%85%D9%8...,مندوب مبيعات,قبل يومين,,دوام كامل · مبتدئ الخبرة · 0-1 سنوات من الخبرة,شرم الشيخ · مصر,3,50-99 موظف · التجارة,المسمي الوظيفي : مندوب مبيعات المدير المباشر و...,...,مبتدئ الخبرة,sittin egy food,شرم الشيخ,دوام كامل,مبتدئ الخبرة,0-1 سنوات من الخبرة,مبتدئ الخبرة,الحد الأدنى: 0 الحد الأقصى: 1,التجارة,50-99 موظف
7,7,https://www.bayt.com/ar/egypt/jobs/%D8%A7%D9%8...,امين مخازن,قبل 3 أيام,,دوام كامل · متوسط الخبرة · 1-2 سنوات من الخبرة,شرم الشيخ · مصر,2,50-99 موظف · التجارة,المسمي الوظيفي : امين مخازنالمدير المباشر : مد...,...,متوسط الخبرة,sittin egy food,شرم الشيخ,دوام كامل,متوسط الخبرة,1-2 سنوات من الخبرة,متوسط الخبرة,الحد الأدنى: 1 الحد الأقصى: 2,التجارة,50-99 موظف
8,8,https://www.bayt.com/ar/egypt/jobs/%D9%85%D8%B...,مسئول التسويق والمبيعات,قبل 5 أيام,,دوام كامل,القاهرة · مصر,1,1-9 موظف · التسويق - أبحاث السوق,إعلان وظيفي: مسئول التسويق والمبيعاتشركة أنظمة...,...,,الشربيني لأنظمة البناء الداخلي,القاهرة,دوام كامل,,,,,التسويق - أبحاث السوق,1-9 موظف
9,9,https://www.bayt.com/ar/egypt/jobs/%D9%85%D8%A...,مدير مبيعات,قبل 5 أيام,,دوام كامل,مصر,1,1-9 موظف · التسويق,فرصة عمل في Vixilia Agency – مدير مبيعات (Sale...,...,,وكالة فيكسليا,Unknown,دوام كامل,,,,,التسويق,1-9 موظف


### Fill Missing Values in Columns
1. **Fill missing values in the `remote` column** with `'من المقر'` to indicate office-based positions.
2. **Fill missing values in the `age` column** with `'لا تفضيل'` to represent no preference regarding age.
3. **Fill missing values in the `sex` column** with `'لا تفضيل'` to represent no preference regarding sex.
4. **Fill missing values in the `experience_` column** with `'لا تفضيل'` to represent no preference regarding experience.
5. **Fill missing values in the `num_of_exp_years` column** with `'لا تفضيل'` to represent no preference regarding years of experience.

In [6]:
df_egypt['remote'].fillna('من المقر', inplace=True)
df_egypt['age'].fillna('لا تفضيل', inplace=True)
df_egypt['sex'].fillna('لا تفضيل', inplace=True)
df_egypt['experience_'].fillna('لا تفضيل', inplace=True)
df_egypt['num_of_exp_years'].fillna('لا تفضيل', inplace=True)
df_egypt.head(15)

Unnamed: 0.1,Unnamed: 0,link,title,date,salary,career_level,location,num_of_vacancies,industry,description,...,experience,company_name,city,type,exp,no_exp,experience_,num_of_exp_years,industry_,company_size
0,0,https://www.bayt.com/ar/egypt/jobs/%D9%81%D9%8...,فنى صيانة معدات (ميكانيكا ),اليوم,"$1,500 - $2,000",دوام كامل,العامرية · الإسكندرية · مصر,1,10-49 موظف · إنتاج الأغذية والمشروبات,مطلوب فنى صيانة ميكانيكا معدات - لمصنع مخبوزات...,...,,Alexandrina for trade,الإسكندرية,دوام كامل,,,لا تفضيل,لا تفضيل,إنتاج الأغذية والمشروبات,10-49 موظف
1,1,https://www.bayt.com/ar/egypt/jobs/%D9%85%D8%A...,متخصص فى مجال السوشيال ميديا,في الامس,,دوام جزئي · الحد الأدنى 3 سنوات من الخبرة,القاهرة · مصر,10,10-49 موظف · الإنترنت والتجارة الإلكترونية - أ...,متخصص فى مجال السوشيال ميديا ( الفيس بوك - الا...,...,,المجموعة الدولية لحلول الملكية الفكرية,القاهرة,دوام جزئي,,الحد الأدنى 3 سنوات من الخبرة,لا تفضيل,الحد الأدنى: 3,الإنترنت والتجارة الإلكترونية - أبحاث السوق,10-49 موظف
2,2,https://www.bayt.com/ar/egypt/jobs/%D9%85%D9%8...,موظف مبيعات,في الامس,,دوام كامل · 1-3 سنوات من الخبرة,القاهرة الجديدة · القاهرة · مصر,1,10-49 موظف · وكلاء السيارات,الحفاظ على سجلات المبيعات والتسليم ، وكذلك تحق...,...,,awija auto,القاهرة,دوام كامل,,1-3 سنوات من الخبرة,لا تفضيل,الحد الأدنى: 1 الحد الأقصى: 3,وكلاء السيارات,10-49 موظف
3,3,https://www.bayt.com/ar/egypt/jobs/%D9%85%D9%8...,موظف مبيعات,في الامس,,دوام كامل · 1-3 سنوات من الخبرة,القاهرة الجديدة · القاهرة · مصر,1,10-49 موظف · صيانة السيارات وقطع الغيار وخدمات...,الحفاظ على سجلات المبيعات والتسليم ، وكذلك تحق...,...,,awija auto,القاهرة,دوام كامل,,1-3 سنوات من الخبرة,لا تفضيل,الحد الأدنى: 1 الحد الأقصى: 3,صيانة السيارات وقطع الغيار وخدمات الدعم,10-49 موظف
4,4,https://www.bayt.com/ar/egypt/jobs/%D9%85%D9%8...,مندوب مبيعات,في الامس,$0 - $500,دوام كامل,منية النصر · مصر,20,10-49 موظف · البيع بالتجزئة وبالجملة,مندوب مبيعات سجائر الكتروني في محيط القاهرة وا...,...,,Almanna Import & Export,منية النصر,دوام كامل,,,لا تفضيل,لا تفضيل,البيع بالتجزئة وبالجملة,10-49 موظف
5,5,https://www.bayt.com/ar/egypt/jobs/%D9%85%D8%A...,مدير انتاج للعمل بالسعودية,قبل يومين,,دوام كامل,هليوبوليس · القاهرة · مصر,1,10-49 موظف · وكالات التوظيف,إدارة وتنظيم عمليات الإنتاج اليومية لضمان تحقي...,...,,شركة البدوي للتوظيف/ Albadwy Recruitment,القاهرة,دوام كامل,,,لا تفضيل,لا تفضيل,وكالات التوظيف,10-49 موظف
6,6,https://www.bayt.com/ar/egypt/jobs/%D9%85%D9%8...,مندوب مبيعات,قبل يومين,,دوام كامل · مبتدئ الخبرة · 0-1 سنوات من الخبرة,شرم الشيخ · مصر,3,50-99 موظف · التجارة,المسمي الوظيفي : مندوب مبيعات المدير المباشر و...,...,مبتدئ الخبرة,sittin egy food,شرم الشيخ,دوام كامل,مبتدئ الخبرة,0-1 سنوات من الخبرة,مبتدئ الخبرة,الحد الأدنى: 0 الحد الأقصى: 1,التجارة,50-99 موظف
7,7,https://www.bayt.com/ar/egypt/jobs/%D8%A7%D9%8...,امين مخازن,قبل 3 أيام,,دوام كامل · متوسط الخبرة · 1-2 سنوات من الخبرة,شرم الشيخ · مصر,2,50-99 موظف · التجارة,المسمي الوظيفي : امين مخازنالمدير المباشر : مد...,...,متوسط الخبرة,sittin egy food,شرم الشيخ,دوام كامل,متوسط الخبرة,1-2 سنوات من الخبرة,متوسط الخبرة,الحد الأدنى: 1 الحد الأقصى: 2,التجارة,50-99 موظف
8,8,https://www.bayt.com/ar/egypt/jobs/%D9%85%D8%B...,مسئول التسويق والمبيعات,قبل 5 أيام,,دوام كامل,القاهرة · مصر,1,1-9 موظف · التسويق - أبحاث السوق,إعلان وظيفي: مسئول التسويق والمبيعاتشركة أنظمة...,...,,الشربيني لأنظمة البناء الداخلي,القاهرة,دوام كامل,,,لا تفضيل,لا تفضيل,التسويق - أبحاث السوق,1-9 موظف
9,9,https://www.bayt.com/ar/egypt/jobs/%D9%85%D8%A...,مدير مبيعات,قبل 5 أيام,,دوام كامل,مصر,1,1-9 موظف · التسويق,فرصة عمل في Vixilia Agency – مدير مبيعات (Sale...,...,,وكالة فيكسليا,Unknown,دوام كامل,,,لا تفضيل,لا تفضيل,التسويق,1-9 موظف


### Drop Unnecessary Columns
 * **Remove columns** from the DataFrame that are not needed for further analysis:
   - `age`, `exp`, `no_exp`, `num_of_exp`, `experience`, `career_level`, `industry`, `location`, `link`, `Unnamed: 0`, `salary`, `nationality`, `residence_area`, `qualification`, `specialization`.

In [7]:
df_egypt.drop(
    columns=['age', 'exp', 'no_exp', 'num_of_exp', 'exp', 'experience', 'career_level', 'industry', 'location', 'link',
             'Unnamed: 0', 'salary', 'nationality', 'residence_area', 'qualification', 'specialization'],
    inplace=True)
df_egypt.head(15)

Unnamed: 0,title,date,num_of_vacancies,description,skills,remote,sex,company_name,city,type,experience_,num_of_exp_years,industry_,company_size
0,فنى صيانة معدات (ميكانيكا ),اليوم,1,مطلوب فنى صيانة ميكانيكا معدات - لمصنع مخبوزات...,المهارات\nفهم تقني للمعدات: معرفة عميقة بأنواع...,من المقر,لا تفضيل,Alexandrina for trade,الإسكندرية,دوام كامل,لا تفضيل,لا تفضيل,إنتاج الأغذية والمشروبات,10-49 موظف
1,متخصص فى مجال السوشيال ميديا,في الامس,10,متخصص فى مجال السوشيال ميديا ( الفيس بوك - الا...,المهارات\nالعمل فى مجال السويال ميديا لعمل الا...,هجين,ذكر,المجموعة الدولية لحلول الملكية الفكرية,القاهرة,دوام جزئي,لا تفضيل,الحد الأدنى: 3,الإنترنت والتجارة الإلكترونية - أبحاث السوق,10-49 موظف
2,موظف مبيعات,في الامس,1,الحفاظ على سجلات المبيعات والتسليم ، وكذلك تحق...,المهارات\nالقدرة على تحفيز وتشجيع فريق العمل.إ...,من المقر,أنثى,awija auto,القاهرة,دوام كامل,لا تفضيل,الحد الأدنى: 1 الحد الأقصى: 3,وكلاء السيارات,10-49 موظف
3,موظف مبيعات,في الامس,1,الحفاظ على سجلات المبيعات والتسليم ، وكذلك تحق...,المهارات\nامتلاك مهارات البيع المختلفة وإعداد ...,من المقر,أنثى,awija auto,القاهرة,دوام كامل,لا تفضيل,الحد الأدنى: 1 الحد الأقصى: 3,صيانة السيارات وقطع الغيار وخدمات الدعم,10-49 موظف
4,مندوب مبيعات,في الامس,20,مندوب مبيعات سجائر الكتروني في محيط القاهرة وا...,المهارات\nفهم وتحليل احتياجات العملاء والقدرة ...,من المقر,لا تفضيل,Almanna Import & Export,منية النصر,دوام كامل,لا تفضيل,لا تفضيل,البيع بالتجزئة وبالجملة,10-49 موظف
5,مدير انتاج للعمل بالسعودية,قبل يومين,1,إدارة وتنظيم عمليات الإنتاج اليومية لضمان تحقي...,المهارات\nبكالوريوس في الهندسة زراعية أو علوم ...,من المقر,لا تفضيل,شركة البدوي للتوظيف/ Albadwy Recruitment,القاهرة,دوام كامل,لا تفضيل,لا تفضيل,وكالات التوظيف,10-49 موظف
6,مندوب مبيعات,قبل يومين,3,المسمي الوظيفي : مندوب مبيعات المدير المباشر و...,المهارات\nالشروط المطلوب توافرها :1- مؤهل عالي...,من المقر,ذكر,sittin egy food,شرم الشيخ,دوام كامل,مبتدئ الخبرة,الحد الأدنى: 0 الحد الأقصى: 1,التجارة,50-99 موظف
7,امين مخازن,قبل 3 أيام,2,المسمي الوظيفي : امين مخازنالمدير المباشر : مد...,المهارات\n1- مؤهل عالي (يفضل بكالوريوس تجارة) ...,من المقر,ذكر,sittin egy food,شرم الشيخ,دوام كامل,متوسط الخبرة,الحد الأدنى: 1 الحد الأقصى: 2,التجارة,50-99 موظف
8,مسئول التسويق والمبيعات,قبل 5 أيام,1,إعلان وظيفي: مسئول التسويق والمبيعاتشركة أنظمة...,المهارات\nالمؤهلات والمهارات المطلوبةدرجة جامع...,من المقر,لا تفضيل,الشربيني لأنظمة البناء الداخلي,القاهرة,دوام كامل,لا تفضيل,لا تفضيل,التسويق - أبحاث السوق,1-9 موظف
9,مدير مبيعات,قبل 5 أيام,1,فرصة عمل في Vixilia Agency – مدير مبيعات (Sale...,المهارات\nالمؤهلات والخبرات المطلوبة:🔸 خبرة لا...,عن بُعد,لا تفضيل,وكالة فيكسليا,Unknown,دوام كامل,لا تفضيل,لا تفضيل,التسويق,1-9 موظف


### Analyze Date Data
* **Call `analyses_date()` function** to analyze the date data in the DataFrame (`df`):
   - Parameter `num_days=120` specifies the number of days to consider for analysis.

In [8]:
analyses_date(df_egypt, num_days=120)
df_egypt.head(15)

Unnamed: 0,title,date,num_of_vacancies,description,skills,remote,sex,company_name,city,type,experience_,num_of_exp_years,industry_,company_size
0,فنى صيانة معدات (ميكانيكا ),2025-04-15,1,مطلوب فنى صيانة ميكانيكا معدات - لمصنع مخبوزات...,المهارات\nفهم تقني للمعدات: معرفة عميقة بأنواع...,من المقر,لا تفضيل,Alexandrina for trade,الإسكندرية,دوام كامل,لا تفضيل,لا تفضيل,إنتاج الأغذية والمشروبات,10-49 موظف
3847,Senior AP Accountant,2025-04-15,1,Senior AP Accountant page is loaded Senior AP ...,,من المقر,لا تفضيل,Technikland,القاهرة,Unknown,لا تفضيل,لا تفضيل,خدمات الدعم التجاري الأخرى,Unknown
70,Sales Representative,2025-04-15,1,1.Responsible for the company's injection mold...,المهارات\n1.a mechanical professional backgrou...,من المقر,لا تفضيل,TOPSTAR WORLDWIDE GROUP LIMITED,القاهرة,دوام كامل,لا تفضيل,الحد الأدنى: 1 الحد الأقصى: 3,الهندسة الميكانيكية,500 موظف أو أكثر
69,Customer Care Representative (Location:Zahraa ...,2025-04-15,1,Manage large amounts of inbound and outbound c...,المهارات\nIt is also a Plus if they have:-Prev...,من المقر,لا تفضيل,Vodafone - Egypt,القاهرة,دوام كامل,لا تفضيل,لا تفضيل,الاتصالات والشبكات,50-99 موظف
494,Treasury Accountant,2025-04-15,1,"About Bosta: Launched in 2017, Bosta is an ove...",,من المقر,لا تفضيل,Albostany for real estate,القاهرة,Unknown,لا تفضيل,لا تفضيل,خدمات الدعم التجاري الأخرى,10-49 موظف
350,Oracle HCM Analyst,2025-04-15,1,Join our dynamic team and embark on a journey ...,,من المقر,لا تفضيل,Accenture,القاهرة,Unknown,لا تفضيل,لا تفضيل,خدمات الدعم التجاري الأخرى,Unknown
396,Design Manager - Primary,2025-04-15,1,Job Description - Design Manager - Primary (25...,,من المقر,لا تفضيل,El Sewedy Electric Company,القاهرة,Unknown,لا تفضيل,لا تفضيل,خدمات الدعم التجاري الأخرى,Unknown
398,Operations Engineer,2025-04-15,1,Tagaddod is pioneering in the field of waste c...,,من المقر,لا تفضيل,Tagaddod,Unknown,Unknown,لا تفضيل,لا تفضيل,خدمات الدعم التجاري الأخرى,Unknown
351,SAP Finance Senior Analyst,2025-04-15,1,Join our dynamic team and embark on a journey ...,,من المقر,لا تفضيل,Accenture,القاهرة,Unknown,لا تفضيل,لا تفضيل,خدمات الدعم التجاري الأخرى,Unknown
279,People Technology Senior Specialist (HRIS),2025-04-15,1,Support and enhance the organization's People ...,,من المقر,لا تفضيل,Giza Systems,القاهرة,Unknown,لا تفضيل,لا تفضيل,التعليم العالي,500 موظف أو أكثر


### Sort and Save Data
1. **Sort the DataFrame** by the 'title' column in descending order:
   - The `ascending=False` argument sorts the data in descending order.
2. **Save the DataFrame to an SQLite database** (commented-out code)

In [9]:
df_egypt.sort_values(by=['title'], ascending=False, inplace=True)
# conn = sqlite3.connect('../database.db')
# df.to_sql('EGYPT', con=conn, if_exists='replace', index=False)

### Manual Data Cleaning and Translation
1. **Manual Cleaning of 'title' Column**:
   - Some manual adjustments were made to the 'title' column before starting the translation.
2. **Translate the 'title' Column**:
   - After the manual cleaning, the translation was applied to the 'title' column for the first 400 rows using the `apply_translation` function.
3. **Save the Data**

In [10]:
df_egypt = pd.read_csv('../data/processed/egypt_clean.csv')
df_egypt.sort_values(by=['title'], ascending=False, inplace=True)
apply_translation(df_egypt, 'title', rows=df_egypt.iloc[:40, :].index.tolist())

In [11]:
df_egypt = df_egypt[~df_egypt['title'].str.contains('سعودية', na=False)]
df_egypt = df_egypt[~df_egypt['title'].str.contains('سعوديه', na=False)]
df_egypt = df_egypt[~df_egypt['title'].str.contains('سعوية', na=False)]
df_egypt = df_egypt[~df_egypt['title'].str.contains('saudi arabia', na=False)]
df_egypt = df_egypt[~df_egypt['title'].str.contains('saudi', na=False)]

### Data Transformation Process
1. **Translation**:
   - Translated 'experience_', 'type', 'sex', and 'remote' using respective translation functions.
2. **Gender Extraction**:
   - Extracted gender information from 'title', 'description', and 'skills'.
3. **Remote Work Extraction**:
   - Extracted remote work information from 'title', 'description', and 'skills'.
4. **Drop Irrelevant Columns**:
   - Dropped 'description' and 'skills' columns.
5. **Split 'num_of_exp_years' Column**:
   - Split and processed the 'num_of_exp_years' column.
6. **Save the Data**

In [12]:
df_egypt = pd.read_csv('../data/processed/egypt_clean.csv')

In [13]:
translate_experience(df_egypt)
translate_type(df_egypt)
translate_sex(df_egypt)
translate_remote(df_egypt)

In [14]:
extract_job_grade(df_egypt)
extract_gender(df_egypt, 'title')
extract_gender(df_egypt, 'description')
extract_gender(df_egypt, 'skills')
extract_remotely(df_egypt, 'title')
extract_remotely(df_egypt, 'description')
extract_remotely(df_egypt, 'skills')

In [15]:
df_egypt.drop(columns=['description', 'skills'], inplace=True)
split_num_of_exp_years(df_egypt)
conn = sqlite3.connect('../data/database.db')
# df.to_sql('EGYPT', con=conn, if_exists='replace', index=False)
conn.close()
df_egypt.head(15)

Unnamed: 0.1,Unnamed: 0,title,date,num_of_vacancies,remote,qualification,age,specialization,company_name,city,type,industry_,company_size,job_level,gender,min_num_of_years,max_num_of_years
0,16,waiter,2025-04-03,1,On-site,دبلوم,لا تفضيل,,كانتري هيلز,Unknown,Full-Time,المطاعم وخدمات الطعام,100-499 موظف,Mid Level,No Preference,1,3
1,2,Sales employee,2025-04-14,1,On-site,,الحد الأدنى: 22 الحد الأقصى: 28,,awija auto,القاهرة,Full-Time,وكلاء السيارات,10-49 موظف,No Preference,Female,1,3
2,3,Sales employee,2025-04-14,1,On-site,,الحد الأدنى: 22 الحد الأقصى: 28,,awija auto,القاهرة,Full-Time,صيانة السيارات وقطع الغيار وخدمات الدعم,10-49 موظف,No Preference,Female,1,3
3,25,Sales employee,2025-03-22,1,On-site,,الحد الأقصى: 30,,uptimecode,القاهرة,Part-Time,تطوير البرمجيات,1-9 موظف,No Preference,No Preference,Unknown,Unknown
4,31,Mechanical engineer,2025-03-20,1,On-site,,لا تفضيل,,United Coating,الإسكندرية,Full-Time,تصنيع المواد الكيميائية,50-99 موظف,No Preference,No Preference,Unknown,Unknown
5,13,Technical office engineer,2025-04-08,1,On-site,,لا تفضيل,,Sun Energy Tech,القاهرة,Full-Time,توليد الطاقة الكهربائية,10-49 موظف,No Preference,No Preference,Unknown,Unknown
6,19,Technical office engineer,2025-03-26,1,On-site,,لا تفضيل,,Osirion,القاهرة,Full-Time,الهندسة المعمارية,10-49 موظف,No Preference,No Preference,Unknown,Unknown
7,30,Electrical engineer,2025-03-21,1,On-site,,لا تفضيل,,United Coating,الإسكندرية,Full-Time,تصنيع المواد الكيميائية,50-99 موظف,No Preference,No Preference,Unknown,Unknown
8,67,Training coordinator,2025-03-15,1,On-site,,لا تفضيل,,Raya Holding for Financial Investments,دمياط,Unknown,Unknown,Unknown,No Preference,Male,Unknown,Unknown
9,27,sales representative,2025-03-20,4,On-site,دبلوم,الحد الأدنى: 21 الحد الأقصى: 30,المبيعات,qenawy server,القاهرة,Part-Time,أمن المعلومات و الشبكات - صناعة أجهزة الكمبيوت...,1-9 موظف,Junior,Female,0,3


### Data Transformation Steps for 'title' Column
1. **Remove Leading Numbers**:
   - Removed leading numbers and periods (e.g., "1.", "2."), and stripped any leading or trailing spaces.
2. **Remove Leading "a"**:
   - Removed any instance of the letter "a" at the beginning of the title followed by a space.
3. **Convert to Lowercase**:
   - Converted all titles to lowercase for consistency.
4. **Sort Titles**:
   - Sorted the titles alphabetically in ascending order.

In [16]:
conn = sqlite3.connect('../data/database.db')
df_egypt = pd.read_sql('SELECT * FROM EGYPT', conn)

In [17]:
df_egypt['title'] = df_egypt['title'].str.replace(r'^\d+\.', '', regex=True).str.strip()
df_egypt['title'] = df_egypt['title'].str.replace(r'^a\s\b', '', regex=True).str.strip()
df_egypt.title = df_egypt.title.str.lower()
df_egypt.sort_values(by=['title'], inplace=True)
df_egypt.head(15)

Unnamed: 0,index,title,date,num_of_vacancies,remote,company_name,city,type,industry_,company_size,min_num_of_years,max_num_of_years,gender,job_level
4007,4007,3d designer,2025-04-07,1,On-site,SSC,Unknown,Unknown,خدمات الدعم التجاري الأخرى,Unknown,Unknown,Unknown,No Preference,No Preference
2675,2675,3d designer,2025-03-26,1,On-site,Talent 360,Unknown,Unknown,خدمات الدعم التجاري الأخرى,Unknown,Unknown,Unknown,No Preference,No Preference
4005,4005,3d visualizer ( interior & architect ),2025-02-25,1,On-site,Talent 360,القاهرة,Unknown,خدمات الدعم التجاري الأخرى,Unknown,Unknown,Unknown,Male,No Preference
4004,4004,a&r project manager (m/w/d),2025-04-01,1,On-site,Believe,القاهرة,Management,خدمات الدعم التجاري الأخرى,Unknown,Unknown,Unknown,No Preference,Management
4003,4003,a/c technician,2025-01-30,1,On-site,Palma Bay Rotana,العلمين الجديدة,Unknown,الضيافة والسكن,500 موظف أو أكثر,Unknown,Unknown,No Preference,No Preference
4002,4002,a/c technician,2025-04-12,1,On-site,Rotana Hotel Management Corporation,Unknown,Unknown,الاستشارات الهندسية العامة,Unknown,Unknown,Unknown,No Preference,No Preference
4001,4001,a/r accountant,2025-04-09,1,On-site,Rashideen Egypt for Trade Company,القاهرة,Unknown,خدمات الدعم التجاري الأخرى,500 موظف أو أكثر,Unknown,Unknown,No Preference,No Preference
4000,4000,a/r accountant,2025-04-14,1,On-site,KEY RECRUITERS,القاهرة,Unknown,خدمات الدعم التجاري الأخرى,Unknown,Unknown,Unknown,No Preference,No Preference
3822,3822,account assistant,2025-03-05,1,Remote,ProjectGrowth,Unknown,Unknown,خدمات الدعم التجاري الأخرى,Unknown,Unknown,Unknown,No Preference,No Preference
3836,3836,account assistant,2025-02-24,1,On-site,Giza Systems,القاهرة,Unknown,Unknown,Unknown,Unknown,Unknown,No Preference,No Preference


### Job Title Cleaning Process
1. **Pattern Replacement**:
   - Applied a regular expression pattern to remove unwanted terms like "sr", "ssr", "senior", "junior", "staff", gender-related terms (e.g., "male", "female"), and specific job rank indicators (e.g., "trainee", "graduate").
   - Cleaned up job titles to ensure they follow the correct format without extra symbols, spaces, or unnecessary words.
2. **Title Editing**:
   - Applied a predefined title mapping (`edite_title_mapping`) to standardize job titles, ensuring consistency across the dataset (e.g., "cashier" becomes "cashier", "driller" becomes "drilling operator").
3. **Save the Data**:
   - The cleaned titles were saved back into the database for further analysis, ensuring all records follow the standardized format.

In [18]:
final_mapping_title_egypt = {
    r'3d designer': '3d designer',
    r'^account director': 'account director',
    r'account executive': 'account executive',
    r'account management': 'account management',
    r'(?=.*(account))(?=.*(receivable))': 'account receivable',
    r'ai engineer\b': 'ai engineer',
    r'^ai$': 'ai engineer',
    r'(?=.*(account))(?=.*(manage))^(?!.*(?:sale|hr\b|humanresources|humansresources|human\s*resources|humans\s*resources|market|trade)).*': 'account manager',
    r'^account payable accountant.*': 'account payable accountant',
    r'^account receivable.*': 'account receivable',
    r'^accounting (& financial|& reporting|manager).*': 'accounting manager',
    r'^accounting (section|supervisor|team|assistant|advisory).*': 'accounting supervisor',
    r'^accounting intern.*?': 'accountant',
    r'^accounts payable.*': 'accounts payable',
    r'^accounts receivable.*': 'accounts receivable',
    r'^accounts supervisor.*': 'accounts receivable supervisor',
    r'^accountant.*(?!.*(?:receivable))': 'accountant',
    r'^tax accountant.*': 'accountant',
    r'^tax & legal.*': 'accountant',
    r'(?=.*(operations|operation))(?=.*(manager|senior manager|area manager))(?=.*(ad|campaign))': 'ad operations manager',
    r'(?=.*(admin))(?=.*(assistant))': 'account assistant',
    r'administrative assistant': 'administrative assistant',
    r'ai product manager': 'ai product manager',
    r'(?=.*(machine learning|ml|machinelearning))(?=.*(engineer))^(?!.*(?:mlops|ops)).*': 'ai/ml engineer',
    r'^analyst': 'analyst',
    r'application specialist': 'application specialist',
    r'architectural engineer': 'architectural engineer',
    r'(?=.*engineer)(?=.*architectur)': 'architectural engineer',
    r'architecture (- co-op trainee|engineer)': 'architecture engineer',
    r'area manager': 'area manager',
    r'art director': 'art director',
    r'assistant director': 'assistant director',
    r'assistant manager': 'assistant manager',
    r'assistant project manager': 'assistant project manager',
    r'assurance - external audit(?!.*manager)': 'assurance - external audit',
    r'(?=.*(operations|operation))(?=.*(specialist|coordinator|associate))(?=.*(audit))': 'audit operations specialist',
    r'area sales manager': 'area sales manager',
    r'area sales engineer': 'area sales engineer',
    r'area security manager': 'area security engineer',
    r'automation testing engineer': 'automation testing engineer',
    r'associate customer success manager': 'associate customer success manager',
    r'assistant sales manager': 'assistant sales manager',
    r'ar accountant': 'accountant',
    r'arabic english interpreter': 'arabic english interpreter',
    # -------------------------------------------------------------------------
    r'backend developer': 'backend developer',
    r'(?=.*(developer))(?=.*backend)^(?!.*(?:lead|manager|test automation)).*': 'backend developer',
    r'^web developer$': 'fullstack developer',
    r'(?=.*(web developer))^(?!.*(?:full stack)).*': 'backend developer',
    r'^barista': 'barista',
    r'(?=.*(bim))(?=.*(structur))': 'bim structure engineer',
    r'(?<!associate )business analyst': 'business analyst',
    r'^business development(\\s-|$)': 'business development',
    r'business development executive': 'business development executive',
    r'business development lead': 'business development lead',
    r'(business development [a-z]+ manager)|(business development manager)|(manager .* business development)': 'business development manager',
    r'business development representative': 'business development representative',
    r'(business development specialist)|(specialist .* business development)': 'business development specialist',
    r'^business support(?!.*manager)': 'business support',
    r'brand manager': 'brand manager',
    r'(?=.*(development))(?=.*(business))^(?!.*(?:manager|lead|office|director|executive|representative|specialist|associate)).*': 'business development',
    r'(?=.*(intelligence))(?=.*(engineer))(?=.*(business))': 'business intelligence engineer',
    r'(?=.*(research))(?=.*(business))^(?!.*(?:manager|lead)).*': 'business research',
    r'(?=.*(research))(?=.*(business))^(?=.*(manager))': 'business research manager',
    r'(?=.*(research))(?=.*(business))^(?=.*(lead))': 'business research lead',
    # -------------------------------------------------------------------------
    r'(?=.*(call))(?=.*(center))^(?!.*(?:manager|lead)).*': 'call center agent',
    r'(?=.*(call))(?=.*(center))^(?=.*(lead))': 'call center lead',
    r'(?=.*(call))(?=.*(center|centre))^(?=.*(manager))': 'call center manager',
    r'cashier': 'cashier',
    r'category manager': 'category manager',
    r'(?=.*(ceo))': 'ceo assistant',
    r'^(?!.*demi).*chef de partie': 'chef de partie',
    r'(?=.*(chief))(?=.*(accountant))': 'chief accountant',
    r'chief concierge': 'chief concierge',
    r'^(?!.*assistant).*chief engineer': 'chief engineer',
    r'civil 3d': 'civil 3d',
    r'(?=.*engineer)(?=.*civil)^(?!.*(?:mechanical|manager|structure)).*': 'civil engineer',
    r'client partner manager': 'client partner manager',
    r'cluster director': 'cluster director',
    r'commercial manager': 'commercial manager',
    r'commi( |s |s$)': 'commis',
    r'compliance manager': 'compliance manager',
    r'^(?!.*(?:chief|trade|payroll|tax)).*compliance officer': 'compliance officer',
    r'^(?!.*(?:manager|senior)).*^consulting': 'consulting',
    r'^consulting.*senior manager': 'consulting senior manager',
    r'content (creator|maker)': 'content creator',
    r'content (writer|researcher)': 'content writer',
    r'^contract(s)? specialist': 'contract specialist',
    r'contract(s)? engineer': 'contracts engineer',
    r'controls engineer': 'controls engineer',
    r'^coordinator': 'coordinator',
    r'copywriter': 'copywriter',
    r'^cost control engineer': 'cost control engineer',
    r'^counsel': 'counsel',
    r'(?=.*(operations|operation))(?=.*(manager|senior manager|area manager))(?=.*(customer))': 'customer operations manager',
    r'customer service executive': 'customer service executive',
    r'(?=.*(operations|operation))(?=.*(specialist|coordinator|associate))(?=.*(lost\\s+and\\s+found))': 'customer service specialist',
    r'cyber security': 'cyber security',
    'captian': 'captain',
    'center quality manager': 'center quality manager',
    'channel management': 'channel management',
    '^consultant.*': 'consultant',
    r'^(consulting)(?!.*(?:manager|quality|lead)).*': 'consultant',
    r'^(?=.*(content))(?=.*(specialist))^(?!.*(?:marketing|photo)).*': 'content specialist',
    r'(?=.*(customer))(?=.*(representative))': 'customer representative',
    r'(?=.*(customer))(?=.*(service))': 'customer service',
    r'(?=.*(customer))(?=.*(support))(?=.*(specialist))': 'customer support specialist',
    r'(?=.*(customer))(?=.*(experience))(?=.*(specialist))': 'customer experience specialist',

    r'^data center': 'data center engineer',
    r'(?=.*(data))(?=.*(analy))^(?!.*(?:manager|quality|lead)).*': 'data analyst',
    r'database expert': 'database engineer',
    r'^data engineer': 'data engineer',
    r'(?=.*(operations|operation))(?=.*(specialist|coordinator|associate))(?=.*(data|collection))': 'data operations specialist',
    r'data scientist': 'data scientist',
    r'^team lead data scientist': 'data scientist lead',
    r'demi chef de partie': 'demi chef de partie',
    r'^design engineer': 'design engineer',
    r'^design manager': 'design manager',
    r'^developer': 'developer',
    r'^(?!.*(?:lead)).*^devops engineer': 'devops engineer',
    r'(?=.*(engineer))(?=.*(devops))(?=.*(operations|operation))': 'devops operations engineer ',
    r'^director .*(finance|faas)': 'director – finance',
    r'^document controller': 'document controller',
    r'data integrat': 'data integration developer',
    r'(?=.*(data))(?=.*(management))(?=.*(consultant))': 'data management consultant',
    r'(?=.*(data))(?=.*(quality))': 'data quality analyst',
    r'(?=.*(data))(?=.*(scien))^(?!.*(?:manager|director)).*': 'data scientist',
    r'demi coding instructor physical': 'demi coding instructor physical',
    r'(?=.*(digital))(?=.*(marketing))(?=.*(specialist))': 'digital marketing specialist',
    'draftsman': 'draftsman',
    # -------------------------------------------------------------------------
    r'(?=.*(operations|operation))(?=.*(manager|senior manager|area manager))(?=.*(ecommerce|b2b))': 'ecommerce operations manager',
    r'(?=.*(electrical))(?=.*(design))(?=.*(engineer))': 'electrical design engineer',
    r'(?=.*(electrical))(?=.*(engineer))^(?!.*(?:lead|design|support|office|maintenance)).*': 'electrical design engineer',
    r'(?i)(?=.*\\b(?:electrical)\\b).*\\boffice engineer\\b.*': 'electrical office engineer',
    r'(?=.*(electrical))(?=.*(technical))(?=.*(office))(?=.*(engineer))': 'electrical technical office engineer',
    r'energy analyst': 'energy analyst',
    r'(?=.*engineer)(?=.*manager)^(?!.*(?:department|and|data|neighborhoods|mechanical|design|interface|cloud|area|divisional|project|software|technical|solution|&|sales|fire)).*': 'engineer manager',
    r'(?=.*engineer)(?=.*planning)^(?!.*(?:strategic|and|master|maintenance|electrical|lead)).*': 'engineer planning',
    r'(?<!ai )engineering manager': 'engineering manager',
    r'(?=.*estimator)': 'estimator',
    r'(?=.*execution)(?=.*manager)': 'execution manager',
    r'(?=.*e-commerce)(?=.*manager)': 'e-commerce manager',
    r'(?=.*executive)(?=.*assistan)^(?!.*(?:manager|front|and)).*': 'executive assistant',
    r'(?=.*executive)(?=.*chef)^(?!.*(?:pastry|sous)).*': 'executive chef',
    r'(?=.*expeditor)': 'expeditor',
    r'engineer \(r\&d\)': 'engineer',
    # -------------------------------------------------------------------------
    r'(?=.*finance controller)': 'finance controller',
    r'(?=.*^finance)(?=.*manager)': 'finance manager',
    r'(?=.*(operations|operation))(?=.*(manager|senior manager|area manager))(?=.*(finance))': 'finance operations manager',
    r'(?<!lead )financial analyst': 'financial analyst',
    r'(?=.*front)(?=.*office)(?=.*agent)': 'front office agent',
    r'(?=.*front)(?=.*office)(?=.*manager)': 'front office manager',
    r'(?=.*(developer))(?=.*(frontend|front end|front\-end))^(?!.*(?:lead|manager|test automation)).*': 'frontend developer',
    r'(?=.*(developer))(?=.*(fullstack|full stack|full\-stack))^(?!.*(?:lead|manager|test automation)).*': 'fullstack developer',
    r'(?=.*(web developer))^(?!.*(?:php)).*': 'fullstack developer',
    r'(?=.*(developer))(?=.*((fullstack|full stack|full\-stack)|full stack))(?=.*lead)': 'fullstack developer lead',
    r'(?=.*(engineer))(?=.*(fullstack|full stack|full\-stack))(?=.*lead)': 'fullstack engineer lead',
    r'finance director': 'finance director',
    r'data collector': 'data collector',
    r'(?=.*(finance))(?=.*(account))^(?!.*(?:manager)).*': 'finance account',
    r'(?=.*(financ))(?=.*(controller))': 'finance controller',
    r'(?=.*(financ))(?=.*(planning))(?=.*(analysis))^(?!.*(?:head)).*': 'finance planning analysis manager',
    r'first mile hub supervisor': 'first mile hub supervisor',
    r'food and beverage manager': 'food and beverage manager',
    r'fp&a analyst': 'fp&a analyst',
    r'(?=.*(front))(?=.*(desk))^(?!.*(?:manager|officer|supervisor|clerk|receptionist)).*': 'front desk agent',
    # -------------------------------------------------------------------------
    r'(?=.*government)(?=.*(relation))(?=.*officer)^(?!.*&).*': 'government relation officer',
    r'(?=.*graphic)(?=.*(design))^(?!.*(?:and|manager|concept|specialist)).*': 'graphic design',
    r'(?=.*guest)(?=.*(experience))(?=.*agent)': 'guest experience agent',
    r'general accountant': 'general accountant',
    r'global procurement associate analyst': 'global procurement associate analyst',
    # -------------------------------------------------------------------------
    r'(?=.*(hr))(?=.*(account\\s+manager))': 'hr account manager',
    r'(?=.*(hr\b|humanresources|humansresources|human\s*resources|humans\s*resources))(?=.*(specialist))(?=.*(admin|payroll))': 'hr admin & payroll specialist',
    r'(?=.*(hr\b|humanresources|humansresources|human\s*resources|humans\s*resources))(?=.*(analyst))': 'hr analyst',
    r'(?=.*(hr\b|humanresources|humansresources|human\s*resources|humans\s*resources))(?=.*(business\\s*partner))': 'hr business partner',
    r'(?=.*(hr))(?=.*(service\\s+delivery))(?=.*(compensation|benefit))': 'hr compensation & benefits associate',
    r'(?=.*(hr))(?=.*(coordinator))': 'hr coordinator',
    r'(?=.*(director))(?=.*(human\\s*resources))^(?!.*(?:assistant)).*': 'hr director',
    r'(?=.*(hr))(?=.*(employer\\s+branding|marketing))': 'hr employer branding specialist',
    r'(?=.*(hr\b|humanresources|humansresources|human\s*resources|humans\s*resources))(?=.*(generalist))': 'hr generalist',
    r'(?=.*(head))(?=.*(hr\b|humanresources|humansresources|human\s*resources|humans\s*resources))': 'hr head',
    r'(?=.*(hr\b|humanresources|humansresources|human\s*resources|humans\s*resources))(?=.*(intern|graduate))': 'hr intern',
    r'(?=.*(hr\b|humanresources|humansresources|human\s*resources|humans\s*resources))(?=.*(lead))': 'hr lead',
    r'(?=.*(hr\b|humanresources|humansresources|human\s*resources|humans\s*resources))(?=.*(manager))': 'hr manager',
    r'(?=.*(hr\b|humanresources|humansresources|human\s*resources|humans\s*resources))(?=.*(officer|executive))': 'hr officer',
    r'(?=.*(hr\b|humanresources|humansresources|human\s*resources|humans\s*resources))(?=.*(specialist))(?=.*(resourcing|recruitment))': 'hr recruitment specialist',
    r'(?=.*(operations|operation))(?=.*(specialist|coordinator|associate))(?=.*(people|hr))': 'hr specialist',
    r'(?=.*(hr\b|humanresources|humansresources|human\s*resources|humans\s*resources))(?=.*(specialist))': 'hr specialist',
    r'(?=.*(hr))(?=.*(application|process|pmo))': 'hr systems/process specialist',
    r'(?=.*(hr))(?=.*(partner))(?=.*(talent|performance))': 'hr talent partner',
    r'(?=.*(hub))(?=.*(operations))(?=.*(coordinator))^(?!.*(?:section head|manager)).*': 'hub operations coordinator',
    r'a427-esg': 'hvac technician',
    # -------------------------------------------------------------------------
    r'(?=.*(information))(?=.*(security))^(?!.*(?:section head|manager)).*': 'information security',
    r'(?=.*(integration))(?=.*(developer))': 'integration developer',
    r'(?=.*(interior))(?=.*(designer))': 'interior designer',
    r'(?=.*(design))(?=.*(interior))^(?!.*(?:manager)).*': 'interior designer',
    r'(?=.*(audit))(?=.*(internal))': 'internal auditor',
    r'(?=.*(operations|operation))(?=.*(manager|senior manager|area manager))(?=.*(technology|it))': 'it operations manager',
    r'it operations': 'it support',
    # -------------------------------------------------------------------------
    r'(?=.*(java))(?=.*(developer))': 'java developer',
    r'(?=.*(java))(?=.*(engineer))': 'java engineer',
    # -------------------------------------------------------------------------
    r'7pqe\\+ dispute resolution associate': 'legal counsel',
    r'(?=.*(logistics))(?=.*(coordinator))^(?!.*(?:section head|manager)).*': 'logistics coordinator',
    r'(?=.*(logistics))(?=.*(coordintor|coordinatoor|coordinator))': 'logistics coordinator',
    # -------------------------------------------------------------------------
    r'maintenance technician': 'maintenance technician',
    r'marketing manager': 'marketing manager',
    r'(?=.*(marketing))(?=.*(manager))': 'marketing manager',
    r'(?=.*engineer)(?=.*mechanical)^(?!.*(?:electrical|manager|design|reliability|civil|maintenance|lead)).*': 'mechanical engineer',
    r'(?=.*engineer)(?=.*mechanical)^(?!.*(?:manager|design|reliability|civil|maintenance|lead)).*': 'mechanical engineer',
    r'(?i)(?=.*\\b(?:mechanical)\\b).*\\boffice engineer\\b.*': 'mechanical office engineer',
    r'(?=.*(medical))(?=.*(assistant))^(?!.*(?:manager|design|reliability|civil|maintenance|lead)).*': 'media assistant',
    r'(?=.*(medical))(?=.*(assistant))': 'media assistant lead',
    r'(?=.*(media))(?=.*(buyer))^(?!.*(?:manager|design|reliability|civil|maintenance|lead)).*': 'media buyer',
    r'(?=.*(media))(?=.*(buyer|buying))(?=.*(lead))': 'media buyer lead',
    r'medical representative': 'medical representative',
    r'(?=.*(operations|operation))(?=.*(manager|senior manager|area manager))(?=.*(merchant|vendor))': 'merchant operations manager',
    r'(?=.*(developer))(?=.*(mobile|ios|android|flutter))^(?!.*(?:lead|manager|test automation)).*': 'mobile developer',
    r'(?=.*(developer))(?=.*mobile)(?=.*lead)': 'mobile developer lead',
    r'(?=.*(developer))(?=.*mobile)(?=.*manager)': 'mobile developer manager',
    r'(?=.*(developer))(?=.*mobile)(?=.*test automation)': 'mobile developer test automation',
    r'(?=.*(engineer))(?=.*mobile)(?=.*lead)': 'mobile engineer lead',
    r'(?=.*(engineer))(?=.*mobile)(?=.*manager)': 'mobile engineer manager',
    r'(?=.*(engineer))(?=.*mobile)(?=.*test automation)': 'mobile engineer test automation',
    # -------------------------------------------------------------------------
    r'odoo developer': 'odoo developer',
    r'^(?!.*\\b(architecture|electrical|mechanical)\\b).*office engineer.*': 'office engineer',
    r'(?=.*(manager))(?=.*(office))^(?!.*(?:assistant)).*': 'office manager',
    r'^(?!.*\\b(cyber security|cybersecurity|devops)\\b).*operations engineer.*': 'operations engineer',
    r'(?=.*(engineer))(?=.*(operations|operation))^(?!.*(?:devops)).*': 'operations engineer',
    r'(?=.*(operations|operation))(?=.*(manager|senior manager|area manager))^(?!.*(sales|strategic|data|lost|live|hardware|hub|finance|financial|mall|retail|product|strategy|planning|technology|it|security|soc|merchant|customer|ad|ecommerce|b2b|gym|fitness|procurement)).*': 'operations manager',
    r'(?=.*(operations|operation))(?=.*(specialist|coordinator|associate))^(?!.*(sales|strategic|data|lost|live|hardware|hub|finance|financial|mall|retail|product|strategy|planning|technology|it|security|soc|merchant|customer|ad|ecommerce|b2b|gym|fitness|procurement)).*': 'operations specialist',
    r'data collection': 'operations specialist data collection',
    # -------------------------------------------------------------------------
    r'people operations specialist': 'people operations specialist',
    r'(?=.*(personal))(?=.*(assistant))': 'personal assistant',
    r'(?=.*(personal))(?=.*(banker))^(?!.*(?:payroll)).*': 'personal banker',
    r'(?=.*(pharmacist))': 'pharmacist',
    r'(?=.*(operations|operation))(?=.*(manager|senior manager|area manager))(?=.*(procurement))': 'procurement operations manager',
    r'product designer': 'product designer',
    r'(?<!ai )product manager': 'product manager',
    r'(?=.*(operations|operation))(?=.*(manager|senior manager|area manager))(?=.*(product))': 'product operations manager',
    r'product owner (vois)': 'product owner',
    r'project manager (architect or civil engineer)': 'project manager engineer',
    r'(?=.*(purchase|purchasing))(?=.*(specialist))': 'purchasing specialist',
    # -------------------------------------------------------------------------
    r'qa engineer': 'qa engineer',
    r'quality engineer': 'quality engineer',
    # -------------------------------------------------------------------------
    r'(?=.*(operations|operation))(?=.*(manager|senior manager|area manager))(?=.*(retail))': 'retail operations manager',
    # -------------------------------------------------------------------------
    r'sales and business development manager': 'sales & business development manager',
    r'sales account manager': 'sales account manager',
    r'sales assistant(?!.*analyst)': 'sales assistant',
    r'sales development representative': 'sales development representative',
    r'sales director': 'sales director',
    r'sales executive': 'sales executive',
    r'(?<!assistant )sales manager': 'sales manager',
    r'sales manager / account manager': 'sales manager / account manager',
    r'(?=.*(operations|operation))(?=.*(specialist|coordinator|associate))(?=.*(sales))': 'sales operations specialist',
    r'(?=.*(sales))(?=.*(support))(?=.*(specialist))': 'sales operations specialist',
    r'scrum master smart village,cairo,egypt + 1 more product development posted 14 hours ago': 'scrum master',
    r'security engineer': 'security engineer',
    r'service manager': 'service manager',
    r'(?=.*(operations|operation))(?=.*(manager|senior manager|area manager))(?=.*(security|soc))': 'soc manager',
    r'social media moderator*': 'social media moderator',
    r'(?!.*\\b(backend|frontend|front end|front\-end|mobile|lead|.net)\\b).*^software engineer.*': 'software engineer',
    r'(?=.*(engineer|engineering))(?=.*backend)^(?!.*(?:lead|manager|test automation)).*': 'software engineer backend',
    r'(?=.*software)(?=.*(engineer|engineering))(?=.*backend)^(?!.*(?:lead|manager|test automation)).*': 'software engineer backend',
    r'(?=.*software)(?=.*(engineer|engineering))(?=.*backend)(?=.*lead)': 'software backend engineer  lead',
    r'(?=.*software)(?=.*(engineer|engineering))(?=.*(frontend|front end|front\-end))': 'software frontend engineer',
    r'(?=.*(engineer|engineering))(?=.*frontend)': 'software frontend engineer',
    r'(?=.*(engineer|engineering))(?=.*(fullstack|full stack|full\-stack))^(?!.*(?:lead|manager|test automation)).*': 'software engineer fullstack',
    r'(?=.*software)(?=.*(engineer|engineering))(?=.*(fullstack|full stack|full\-stack))^(?!.*(?:lead|manager|test automation)).*': 'software engineer fullstack',
    r'(?=.*software)(?=.*(engineer|engineering))(?=.*(mobile|ios|android|flutter))': 'software mobile engineer',
    r'(?=.*(engineer|engineering))(?=.*(mobile|ios|android|flutter))': 'software mobile engineer',
    r'store manager.*': 'store manager',
    r'(?=.*(operations|operation))(?=.*(manager|senior manager|area manager))(?=.*(strategy|planning))': 'strategy & operations manager',
    r'^(?!.*manager).*supply (chain|planning|demand|analyst).*': 'supply chain analyst',
    r'supply chain executive': 'supply chain lead',
    r'(?i)(?=.*\\b(?:(manager|management))\\b).*\\bsupply (chain|planning|demand|analyst).*': 'supply chain manager',
    r'technical support': 'support engineer',
    r'support engineer': 'support engineer',
    r'technical support &': 'support manager',
    r'system administrator.*': 'system administrator',
    r'system(s)? engineer.*': 'system engineer',
    r'(?=.*(Account))(?=.*(Manager))(?=.*(Sale))': 'Sales Account Manager',
    # -------------------------------------------------------------------------
    r'^talent acquisition .*(manager|head).*': 'talent acquisition manager',
    r'talent acquisition (specialist|partner|&).*': 'talent acquisition specialist',
    r'^talent acquisition and learning and development specialist': 'talent acquisition specialist',
    r'^technical consulting.*': 'technical consulting',
    r'(?!.*\\b(java|(ai/ml)|.net)\\b).*^(technical|tech) lead.*': 'technical lead',
    r'(technical|tech) lead': 'technical lead',
    r'testing engineer|tester': 'testing engineer',
    r'software tester': 'testing engineer',
    r'training manager': 'training manager',
    r'^treasury senior accountant': 'treasury accountant',
    r'^treasury (section|head).*': 'treasury lead',
    r'^treasurer$': 'treasury specialist',
    r'^treasur(y|er)\\s?(specialist|senior specialist|and| - emea).*': 'treasury specialist',
    # -------------------------------------------------------------------------
    r'(?=.*(designer))(?=.*(ux/ui|ui/ux|ux|ui))': 'ux/ui designer',
    r'(?=.*(developer))(?=.*(ux/ui|ui/ux|ux|ui))': 'ux/ui developer',
    # -------------------------------------------------------------------------
}
df_egypt.title.value_counts()

title
accountant                                         83
business analyst                                   65
account manager                                    62
support engineer                                   41
graphic design                                     38
                                                   ..
wealth management relationship manager              1
water treatment chemicals senior sales engineer     1
warehouses manager                                  1
warehouse operations supervisor                     1
warehouse keeper                                    1
Name: count, Length: 2025, dtype: int64

In [19]:
pattern_replace = r'(^((sr(\b|\s)|\ssr(\b|\s))|senior|junior|staff|female|\bmen\b|\bmale\b|women(\'s)|tpe (iv|iii|ii|i|v)(\s)?(-|/)?)( (senior|graduate))?|^graduate|^trainee\b( -)?)(\s)?(\.|-|/|\\)?|(\.|\-|/|\,|\\)$'
df_egypt.title = df_egypt.title.str.replace(pattern_replace, '', regex=True).str.strip()
df_egypt = df_egypt.sort_values(by="title", ascending=False, key=lambda col: col.str.lower()).reset_index(drop=True)

In [20]:
review_matches(df_egypt, final_mapping_title_egypt)

------------------------------------------------------3d designer-------------------------------------------------------
4007    3d designer
4008    3d designer
Name: title, dtype: object
########################################################################################################################
---------------------------------------------------^account director----------------------------------------------------
3981    account director
Name: title, dtype: object
########################################################################################################################
---------------------------------------------------account executive----------------------------------------------------
3972    account executive
3973    account executive
3974    account executive
3975    account executive
3976    account executive
3977    account executive
3978    account executive
3979    account executive
3980    account executive
Name: title, dtype: object
###############

In [21]:
edit_title(df_egypt, final_mapping_title_egypt)
df_egypt.title.value_counts()

title
Accountant                                                                                                                 83
Business Analyst                                                                                                           65
Account Manager                                                                                                            63
Software Engineer                                                                                                          52
Support Engineer                                                                                                           41
Graphic Design                                                                                                             38
Customer Service                                                                                                           34
Sales Manager                                                                                                   

In [22]:
conn = sqlite3.connect('../data/database.db')
# df.to_sql('EGYPT', con=conn, if_exists='replace')
# conn.close()
