In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import klib
import plotly_express as px
from geopy.geocoders import Nominatim


In [2]:
df=pd.read_csv('../data/processed/student_data.csv')

In [3]:
df.head()

Unnamed: 0.2,Unnamed: 0.1,student_id,Student_name,School,Administration,Division,Student_status,Arabic,English,French,...,biology,Geology,AppliedMathematics,Physics,Total Score,Religious Education,Citizenship Education,Economics and Statistics,Percentage,Unnamed: 0
0,0,1002330,ابراهيم سعيد محمد فرج,النور ث للمكفوفين بالجيزة بنين,الدقى,أدبي,ناجح,48,25,31.0,...,غير مقرر,غير مقرر,غير مقرر,غير مقرر,224.0,20.0,13.0,26,54.63,
1,1,1002331,احمد حسام السيد حارون,النور ث للمكفوفين بالجيزة بنين,الدقى,أدبي,ناجح,56,41,40.0,...,غير مقرر,غير مقرر,غير مقرر,غير مقرر,284.0,18.0,18.0,32,69.27,
2,2,1002332,احمد صلاح حسن احمد جعفر,النور ث للمكفوفين بالجيزة بنين,الدقى,أدبي,ناجح,53,25,37.0,...,غير مقرر,غير مقرر,غير مقرر,غير مقرر,236.0,20.0,18.0,28,57.56,
3,3,1002333,توفيق محمد توفيق مهران قاسم,النور ث للمكفوفين بالجيزة بنين,الدقى,أدبي,ناجح,79,37,38.0,...,غير مقرر,غير مقرر,غير مقرر,غير مقرر,359.0,17.0,20.0,29,87.56,
4,4,1002334,زياد حسن محمد احمد,النور ث للمكفوفين بالجيزة بنين,الدقى,أدبي,ناجح,65,36,40.0,...,غير مقرر,غير مقرر,غير مقرر,غير مقرر,286.0,16.0,19.0,27,69.76,


<h1>Data cleaning </h1>

<h5> 1-  <b style="color : blue">drop Unnamed: 0</b>  </h5>
<p>Delete the column Unnamed: 0 because it does not help us in the analysis process</p>


In [4]:
df.drop('Unnamed: 0',axis=1,inplace=True)

<h3> 2- <b style="color:blue"> missing  value </b></h3>
<p> it is clear to us that the missing value in the data don't exceed 1 % ,so we can drop it</p>


In [5]:
np.round((df.isnull().sum().sum() / len(df))*100,2)

0.35

In [6]:
df.dropna(inplace=True)

<h3>3- <b style="color:blue">fix some value in the columns </b></h3>
<p> some value in the data has a <b style="color : red "> غائب , مؤجل ,غير مقرر </b> that we can replace it bt zero</p>

In [7]:
df['Arabic']= df['Arabic'].replace(('غائب','مؤجل','غير مقرر'),(0,0,0)) 
df['English']= df['English'].replace(('غائب','مؤجل','غير مقرر'),(0,0,0))
df['French']= df['French'].replace(('غائب','مؤجل','غير مقرر'),(0,0,0))
df['pure_mathematics']= df['pure_mathematics'].replace(('غائب','مؤجل','غير مقرر'),(0,0,0))
df['history']=df['history'].replace(('غائب','مؤجل','غير مقرر'),(0,0,0))
df['geography']=df['geography'].replace(('غائب','مؤجل','غير مقرر'),(0,0,0))
df['philosophy']=df['philosophy'].replace(('غائب','مؤجل','غير مقرر'),(0,0,0))
df['psychology and sociology']=df['psychology and sociology'].replace(('غائب','مؤجل','غير مقرر'),(0,0,0))
df['chemistry']=df['chemistry'].replace(('غائب','مؤجل','غير مقرر'),(0,0,0))
df['biology']=df['biology'].replace(('غائب','مؤجل','غير مقرر'),(0,0,0))
df['Geology']=df['Geology'].replace(('غائب','مؤجل','غير مقرر'),(0,0,0))
df['AppliedMathematics']=df['AppliedMathematics'].replace(('غائب','مؤجل','غير مقرر'),(0,0,0))
df['Physics']=df['Physics'].replace(('غائب','مؤجل','غير مقرر'),(0,0,0))
df['Economics and Statistics']=df['Economics and Statistics'].replace(('غائب','مؤجل','غير مقرر'),(0,0,0))
df['Religious Education']=df['Religious Education'].replace(('غائب','مؤجل','غير مقرر'),(0,0,0))
df['Citizenship Education']=df['Citizenship Education'].replace(('غائب','مؤجل','غير مقرر'),(0,0,0))


In [8]:
df.query("history=='غائب'").count()[0],df.query("history=='مؤجل'").count()[0],df.query("history=='غير مقرر'").count()[0]

(0, 0, 0)

In [9]:
df.head()

Unnamed: 0,Unnamed: 0.1,student_id,Student_name,School,Administration,Division,Student_status,Arabic,English,French,...,chemistry,biology,Geology,AppliedMathematics,Physics,Total Score,Religious Education,Citizenship Education,Economics and Statistics,Percentage
0,0,1002330,ابراهيم سعيد محمد فرج,النور ث للمكفوفين بالجيزة بنين,الدقى,أدبي,ناجح,48,25,31.0,...,0,0,0,0,0,224.0,20.0,13.0,26,54.63
1,1,1002331,احمد حسام السيد حارون,النور ث للمكفوفين بالجيزة بنين,الدقى,أدبي,ناجح,56,41,40.0,...,0,0,0,0,0,284.0,18.0,18.0,32,69.27
2,2,1002332,احمد صلاح حسن احمد جعفر,النور ث للمكفوفين بالجيزة بنين,الدقى,أدبي,ناجح,53,25,37.0,...,0,0,0,0,0,236.0,20.0,18.0,28,57.56
3,3,1002333,توفيق محمد توفيق مهران قاسم,النور ث للمكفوفين بالجيزة بنين,الدقى,أدبي,ناجح,79,37,38.0,...,0,0,0,0,0,359.0,17.0,20.0,29,87.56
4,4,1002334,زياد حسن محمد احمد,النور ث للمكفوفين بالجيزة بنين,الدقى,أدبي,ناجح,65,36,40.0,...,0,0,0,0,0,286.0,16.0,19.0,27,69.76


<h3 >4- <b style="color: blue "> Division </b><h3>


In [10]:
df['Division'].value_counts()

Division
علمي علوم      40666
أدبي           33005
علمي رياضة      9489
 غير محدد         93
 أدبي             55
غير محدد          29
 علمي علوم        10
 علمي رياضة        4
Name: count, dtype: int64

> to fixd this columns i will used a strip function to delete the spaces

In [11]:
df['Division']=df['Division'].apply(lambda x: x.strip())

In [12]:
df['Division'].value_counts()

Division
علمي علوم     40676
أدبي          33060
علمي رياضة     9493
غير محدد        122
Name: count, dtype: int64

In [13]:
df[df['Division']=='غير محدد']

Unnamed: 0,Unnamed: 0.1,student_id,Student_name,School,Administration,Division,Student_status,Arabic,English,French,...,chemistry,biology,Geology,AppliedMathematics,Physics,Total Score,Religious Education,Citizenship Education,Economics and Statistics,Percentage
460,460,1002970,محمد هشام مصطفي الشعراوي,الالمانية الانجيلية خ بنين (ابيتور),الدقى,غير محدد,راسب دور ثاني,40,0,0,...,0,0,0,0,0,0.0,13,15,0,0.0
461,461,1002975,يوسف حازم علي شيحه,الالمانية الانجيلية خ بنين (ابيتور),الدقى,غير محدد,راسب دور ثاني,40,0,0,...,0,0,0,0,0,0.0,16,14,0,0.0
462,462,1003001,فريده حسام الدين محمود ماهر,الالمانية الانجيلية خ بنات (ابيتور),الدقى,غير محدد,راسب دور ثاني,40,0,0,...,0,0,0,0,0,0.0,17,19,0,0.0
463,463,1003016,ناديه احمد خليل ابراهيم حسنين,الالمانية الانجيلية خ بنات (ابيتور),الدقى,غير محدد,راسب دور ثاني,0,0,0,...,0,0,0,0,0,0.0,0,13,0,0.0
464,464,1003053,احمد شريف حلمي احمد عيسوي,نارمر ث خ لغات بنين(I.G.C.S.E),الدقى,غير محدد,راسب دور ثاني,40,0,0,...,0,0,0,0,0,0.0,13,19,0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
74087,3405,1109027,ملك مدين شريف البقلي,مدارس النيل المصريه بنات,أكتوبر,غير محدد,ناجح,0,0,33,...,0,0,0,0,0,0.0,18,21,0,0.0
74088,3406,1109028,يارا علاءالدين عادل مدبولي احمد,مدارس النيل المصريه بنات,أكتوبر,غير محدد,ناجح,0,0,35.5,...,0,0,0,0,0,0.0,21,22,0,0.0
74089,3407,1109029,سلمي سلطان صلاح ابوطالب احمد,مدارس النيل المصريه بنات,أكتوبر,غير محدد,ناجح,0,0,معفى,...,0,0,0,0,0,0.0,22,21,0,0.0
74090,3408,1109030,سلمي محمد عبدالنبي عطيه,مدارس النيل المصريه بنات,أكتوبر,غير محدد,ناجح,0,0,معفى,...,0,0,0,0,0,0.0,21,20,0,0.0


In [14]:
df.drop(df[df['Division'] == 'غير محدد'].index, axis=0, inplace=True)

<h3>5- <b style = "color:blue">fixed some values in columns</b><h3>

<h3> A- <b style="color:yellow"> ملغى </b> </h3>
<h4>There are some students for whom the exam was canceled. This may be due to the fact that he cheated, so to solve this problem, we will compensate for it with zero.</h4>

In [15]:
df[df['Arabic']=='ملغى']

Unnamed: 0,Unnamed: 0.1,student_id,Student_name,School,Administration,Division,Student_status,Arabic,English,French,...,chemistry,biology,Geology,AppliedMathematics,Physics,Total Score,Religious Education,Citizenship Education,Economics and Statistics,Percentage
60005,3543,1080670,ابوعبيده حسن عمر عبدالعظيم,خدمات الشهيد عبد المنعم رياض ث بنين,ببا,أدبي,راسب دور أول,ملغى,3,20,...,0,0,0,0,0,109.0,16,7,25,26.59
64363,7901,1087761,ريهام ايمن محمود عبدالسميع,الشهيد مصطفى احمد عبد المجيد محمود عبيدو بنات,منشأة القناطر,علمي علوم,راسب دور أول,ملغى,9,20,...,14.5,30,30,0,30,133.5,15,13,25,32.56
65565,9103,1089579,فارس هشام محمد سليمان,الدعوة الاسلامية ث خ بنين,بنى سويف,أدبي,راسب دور أول,ملغى,ملغى,27,...,0,0,0,0,0,117.0,22,16,25,28.54
65868,9406,1090005,محمد سعيد عبدالرحمن محمد,الشهيد عبد المنعم رياض ث بنين,ببا,علمي علوم,راسب دور أول,ملغى,0,30,...,2,1,48,0,0,81.0,21,20,26,19.76
66825,10363,1091426,شهد ايمن يحيا عبدالفتاح,العجميين ث بنات,ابشواى,علمي علوم,راسب دور أول,ملغى,ملغى,ملغى,...,ملغى,ملغى,ملغى,0,ملغى,0.0,16,18,25,0.0
68385,11923,1094016,اياد ياسر سعدالدين محروس,خدمات الشهيد عبد المنعم رياض ث بنين,ببا,أدبي,راسب دور أول,ملغى,32,20,...,0,0,0,0,0,149.5,13,14,25,36.46
68850,12388,1094821,محمد عبدالسلام نصرالله عبدالغني,خدمات عويس عليوة ث بنين بسنهور,سنورس,أدبي,راسب دور أول,ملغى,ملغى,ملغى,...,0,0,0,0,0,132.0,16,15,25,32.2
71037,355,1101680,محمد سامي محمد عبدالمجيد,منازل ادارة العجوزة بنين,العجوزة,علمي علوم,راسب دور أول,ملغى,ملغى,34,...,ملغى,ملغى,ملغى,0,ملغى,34.0,إجتياز,إجتياز,إجتياز,8.29
71307,625,1102115,عبدالرحمن احمد محمد عيد سالم,منازل ادارة بولاق الدكرور بنين,بولاق الدكرور,علمي علوم,راسب دور أول,ملغى,ملغى,ملغى,...,ملغى,31,48,0,ملغى,79.0,إجتياز,إجتياز,إجتياز,19.27
71441,759,1102388,محمد السيد ابراهيم محمد الخلالى,منازل ادارة الهرم بنين,الهرم,أدبي,راسب دور أول,ملغى,30,20,...,0,0,0,0,0,110.0,19,14,25,26.83


In [16]:
df['history']=df['history'].replace('ملغى',0)
df['chemistry']=df['chemistry'].replace('ملغى',0)
df['biology']=df['biology'].replace('ملغى',0)
df['Geology']=df['Geology'].replace('ملغى',0)
df['Physics']=df['Physics'].replace('ملغى',0)
df['pure_mathematics']=df['pure_mathematics'].replace('ملغى',0)
df['English']=df['English'].replace('ملغى',0)
df['Arabic']=df['Arabic'].replace('ملغى',0)
df['French']=df['French'].replace('ملغى',0)
df['philosophy']=df['philosophy'].replace('ملغى',0)
df['AppliedMathematics']=df['AppliedMathematics'].replace('ملغى',0)
df['Religious Education']=df['Religious Education'].replace('ملغى',0)
df['Citizenship Education']=df['Citizenship Education'].replace('ملغى',0)
df['Economics and Statistics']=df['Economics and Statistics'].replace('ملغى',0)

<h2> B- <b style="color:yellow">French </b> </h2>
<p>As for the column for grades in the French subject, note that there is an exempt value in the column. This means that the student has passed the exam before, and this can be seen from the total grades for the subjects.
Therefore, to solve this problem, we will add the student’s grades in the subjects and subtract them from the total sum of the subjects</p>


<h3>We convert the data type to the important subjects that will be added to the student’s total grades</h3>

In [17]:
df = df.astype({'Arabic': float, 'English': float,
            'pure_mathematics': float, 'history': float,'geography':float,'philosophy':float,'psychology and sociology':float,
            'chemistry':float,'biology':float,'Geology':float,'AppliedMathematics':float,'Physics':float})

In [18]:
pd.options.display.max_columns = None
df[df['French']=='معفى']

Unnamed: 0,Unnamed: 0.1,student_id,Student_name,School,Administration,Division,Student_status,Arabic,English,French,pure_mathematics,history,geography,philosophy,psychology and sociology,chemistry,biology,Geology,AppliedMathematics,Physics,Total Score,Religious Education,Citizenship Education,Economics and Statistics,Percentage
174,174,1002623,الهام سمير السيد علي,الاوقاف ث بنات,العجوزة,أدبي,ناجح,67.0,25.0,معفى,0.0,45.0,52.0,52.0,42.0,0.0,0.0,0.0,0.0,0.0,283.0,19,23,25.0,69.02
175,175,1002624,ملك عصام صالح محمد,الاوقاف ث بنات,العجوزة,أدبي,ناجح,67.0,26.0,معفى,0.0,35.0,54.0,52.0,42.0,0.0,0.0,0.0,0.0,0.0,276.0,16,23,25.5,67.32
176,176,1002625,الاء حسين ابراهيم حسين,العجوزة ث بنات,العجوزة,أدبي,ناجح,61.0,25.0,معفى,0.0,55.0,38.0,42.0,30.0,0.0,0.0,0.0,0.0,0.0,251.0,18,15,25.0,61.22
177,177,1002626,جني عاطف ابراهيم اسماعيل,العجوزة ث بنات,العجوزة,علمي علوم,ناجح,76.0,40.0,معفى,0.0,0.0,0.0,0.0,0.0,58.0,56.0,53.0,0.0,50.0,333.0,22,23,35.0,81.22
180,180,1002629,حبيبه محمد كامل محمد,الكرامة الثانوية بنات,العجوزة,أدبي,ناجح,64.0,28.0,معفى,0.0,53.0,45.0,42.0,46.0,0.0,0.0,0.0,0.0,0.0,278.0,22,22,29.0,67.80
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
81190,10508,1451962,مروه خالد احمد حسين الشرقاوى,الشهيد/ عزت الشافعى,شرق كفر الشيخ,علمي علوم,ناجح,70.5,45.5,معفى,0.0,0.0,0.0,0.0,0.0,41.0,45.5,56.0,0.0,41.5,300.0,22,22,43,73.17
81548,10866,1452359,رنا محمد حسن حسن كسبر,سخا الثانويه بنات,شرق كفر الشيخ,علمي علوم,ناجح,47.0,30.0,معفى,0.0,0.0,0.0,0.0,0.0,41.0,44.0,33.5,0.0,39.5,235.0,17,19,30,57.32
81549,10867,1452360,مريم ابراهيم شريف متولي ابراهيم,سخا الثانويه بنات,شرق كفر الشيخ,علمي علوم,ناجح,66.5,40.5,معفى,0.0,0.0,0.0,0.0,0.0,55.0,52.0,56.5,0.0,55.0,325.5,23,20,34,79.39
81864,11182,1452886,يوسف محمد حسن صالح السيد,الابراهيمية الخاصة الثانوية,غرب كفر الشيخ,أدبي,ناجح,57.0,36.0,معفى,0.0,48.0,36.0,54.0,48.0,0.0,0.0,0.0,0.0,0.0,279.0,18,17,30.5,68.05


In [19]:
def calculate_french_score(row):
    if row['French'] == 'معفى':
        return 0
    else:
        return row['French']
    
df['French'] = df.apply(calculate_french_score, axis=1)

<h3> C- <b style="color:yellow"> Passed value </b> </h3>
For subjects that are not added to the total, there are some values such as Passed, which means that the student has passed the exam, so we will compensate for it with the average for each column.

In [20]:
df[df['Religious Education']=='إجتياز']

Unnamed: 0,Unnamed: 0.1,student_id,Student_name,School,Administration,Division,Student_status,Arabic,English,French,pure_mathematics,history,geography,philosophy,psychology and sociology,chemistry,biology,Geology,AppliedMathematics,Physics,Total Score,Religious Education,Citizenship Education,Economics and Statistics,Percentage
425,425,1002880,اسراء شوقي مهدي محمد,منازل ادارة منشأة القناطر بنات,منشأة القناطر,علمي علوم,ناجح,74.0,35.0,28,0.0,0.0,0.0,0.0,0.0,51.0,50.0,32.0,0.0,30.0,300.0,إجتياز,إجتياز,إجتياز,73.17
429,429,1002884,ايه مصطفي فاروق السيد,منازل ادارة اوسيم بنات,اوسيم,أدبي,ناجح,40.0,25.0,35,0.0,30.0,30.0,35.0,30.0,0.0,0.0,0.0,0.0,0.0,225.0,إجتياز,إجتياز,إجتياز,54.88
434,434,1002889,رحاب عبدالقادر احمد محمود,منازل ادارة العياط بنات,العياط,أدبي,ناجح,44.0,25.0,20,0.0,30.0,30.0,32.0,52.0,0.0,0.0,0.0,0.0,0.0,233.0,إجتياز,إجتياز,إجتياز,56.83
441,441,1002896,ايمان ايمن احمد محمد,منازل ادارة العجوزة بنات,العجوزة,علمي علوم,ناجح,40.0,28.0,30,0.0,0.0,0.0,0.0,0.0,30.0,30.0,30.0,0.0,31.0,219.0,إجتياز,إجتياز,إجتياز,53.41
1067,1067,1002880,اسراء شوقي مهدي محمد,منازل ادارة منشأة القناطر بنات,منشأة القناطر,علمي علوم,ناجح,74.0,35.0,28,0.0,0.0,0.0,0.0,0.0,51.0,50.0,32.0,0.0,30.0,300.0,إجتياز,إجتياز,إجتياز,73.17
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
75325,4643,1304753,روان ايهاب محمود محمد محمود,منازل إدارة قويسنا,قويسنا,علمي رياضة,ناجح,58.5,31.5,29,41.5,0.0,0.0,0.0,0.0,30.0,0.0,0.0,30.0,30.0,250.5,إجتياز,إجتياز,إجتياز,61.10
75326,4644,1304806,روفيدا احمد محروس ابراهيم,منازل إدارة الشهداء,الشهداء,أدبي,ناجح,49.0,35.0,20,0.0,30.0,33.0,30.0,40.0,0.0,0.0,0.0,0.0,0.0,237.0,إجتياز,إجتياز,إجتياز,57.80
75327,4645,1304807,امينه احمد محمود سعد,منازل إدارة الشهداء,الشهداء,علمي علوم,ناجح,42.0,38.0,20,0.0,0.0,0.0,0.0,0.0,30.0,30.0,33.0,0.0,30.0,223.0,إجتياز,إجتياز,إجتياز,54.39
75328,4646,1304928,عبدالله على حسن احمد,منازل إدارة مرسى علم,مرسى علم,أدبي,ناجح,40.0,40.0,21,0.0,37.0,30.0,30.0,33.0,0.0,0.0,0.0,0.0,0.0,231.0,إجتياز,إجتياز,إجتياز,56.34


In [21]:
numerical_value= df[df['Religious Education']!='إجتياز']
numerical_value['Religious Education']=numerical_value['Religious Education'].astype(float)
numerical_mean=np.round(numerical_value['Religious Education'].mean(),2)
df['Religious Education']=df['Religious Education'].replace('إجتياز',numerical_mean)
numerical_mean

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  numerical_value['Religious Education']=numerical_value['Religious Education'].astype(float)


17.58

In [22]:
#Citizenship Education
numerical_value= df[df['Citizenship Education']!='إجتياز']
numerical_value['Citizenship Education']=numerical_value['Citizenship Education'].astype(float)
numerical_mean=np.round(numerical_value['Citizenship Education'].mean(),2)
df['Citizenship Education']=df['Citizenship Education'].replace('إجتياز',numerical_mean)
numerical_mean

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  numerical_value['Citizenship Education']=numerical_value['Citizenship Education'].astype(float)


17.32

In [23]:
#Economics and Statistics
numerical_value= df[df['Economics and Statistics']!='إجتياز']
numerical_value['Economics and Statistics']=numerical_value['Economics and Statistics'].astype(float)
numerical_mean=np.round(numerical_value['Economics and Statistics'].mean(),2)
df['Economics and Statistics']=df['Economics and Statistics'].replace('إجتياز',numerical_mean)
numerical_mean

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  numerical_value['Economics and Statistics']=numerical_value['Economics and Statistics'].astype(float)


27.11

In [24]:
df['Student_status']=df['Student_status'].apply(lambda x: x.strip())
df['Student_status'].unique()

array(['ناجح', 'ناجح دور ثاني', 'راسب دور ثاني', 'راسب دور أول'],
      dtype=object)

<h3> D- <b style="color:yellow"> change some value of the columns  </b> </h3>


In [25]:
df['Student_status']=df['Student_status'].replace(('ناجح','راسب دور أول','راسب دور ثاني','ناجح دور ثاني',),('successful','Failed first round','Failed second round','Successful second round'))
df['Division']=df['Division'].replace(('علمي علوم','أدبي','علمي رياضة'),('science','literary','mathematics_branch'))

In [26]:
df['Student_status'].value_counts()

Student_status
successful                 75245
Failed first round          7915
Successful second round       57
Failed second round           12
Name: count, dtype: int64

<h2>7-<b style="color :blue"> create new features  </b> </h2>

<h3> A- <b style="color:yellow"> create   governorate columns</b> </h3>


In [27]:
df['Administration'].unique()

array(['الدقى', 'أكتوبر', 'أكتوبر ', 'غرب الفيوم', 'بنى سويف', 'الزيتون',
       'النزهة', 'مدينة السلام', 'بنها', 'شبين الكوم', 'شمال الاسماعيلية',
       'الغردقة', 'غرب الزقازيق', 'دمياط', 'غرب المنصورة', 'شمال السويس',
       'الزهور', 'العريش', 'غرب طنطا', 'شرق الأسكندرية', 'العجوزة',
       'بولاق الدكرور', 'الهرم', 'حدائق أكتوبر', ' حدائق أكتوبر',
       'الشيخ زايد', 'اوسيم', 'كرداسة', 'منشأة القناطر', 'ابو النمرس',
       'الحوامدية', 'البدرشين', 'العياط', 'الواسطى', 'الفشن', 'ببا',
       'ناصر', 'سمسطا', 'شرق الفيوم', 'اطسا', 'سنورس', 'ابشواى',
       'الواحات البحرية', 'اهناسيا', 'يوسف الصديق', 'طامية', 'العمرانية',
       'الوراق', 'الصف', 'اطفيح', 'منوف', 'سرس الليان', 'السادات', 'تلا',
       'اشمون', 'قويسنا', 'الباجور', 'الشهداء', 'بركة السبع', 'القصير',
       'رأس غارب', 'سفاجا', 'حلايب', 'شلاتيــن', 'شرق مدينة نصر',
       'الخليفة', 'مصر القديمة', 'شمال الجيزة', 'جنوب الجيزة', 'مرسى علم',
       'الجمرك', 'شرق كفر الشيخ', 'غرب كفر الشيخ', 'سيدى غازى', 'الرياض',
   

In [28]:
df['Administration'].nunique()

76

In [29]:
df['Administration']=df['Administration'].apply(lambda x: x.strip())

In [30]:
administration_list=list(df['Administration'].unique())
administration_list


['الدقى',
 'أكتوبر',
 'غرب الفيوم',
 'بنى سويف',
 'الزيتون',
 'النزهة',
 'مدينة السلام',
 'بنها',
 'شبين الكوم',
 'شمال الاسماعيلية',
 'الغردقة',
 'غرب الزقازيق',
 'دمياط',
 'غرب المنصورة',
 'شمال السويس',
 'الزهور',
 'العريش',
 'غرب طنطا',
 'شرق الأسكندرية',
 'العجوزة',
 'بولاق الدكرور',
 'الهرم',
 'حدائق أكتوبر',
 'الشيخ زايد',
 'اوسيم',
 'كرداسة',
 'منشأة القناطر',
 'ابو النمرس',
 'الحوامدية',
 'البدرشين',
 'العياط',
 'الواسطى',
 'الفشن',
 'ببا',
 'ناصر',
 'سمسطا',
 'شرق الفيوم',
 'اطسا',
 'سنورس',
 'ابشواى',
 'الواحات البحرية',
 'اهناسيا',
 'يوسف الصديق',
 'طامية',
 'العمرانية',
 'الوراق',
 'الصف',
 'اطفيح',
 'منوف',
 'سرس الليان',
 'السادات',
 'تلا',
 'اشمون',
 'قويسنا',
 'الباجور',
 'الشهداء',
 'بركة السبع',
 'القصير',
 'رأس غارب',
 'سفاجا',
 'حلايب',
 'شلاتيــن',
 'شرق مدينة نصر',
 'الخليفة',
 'مصر القديمة',
 'شمال الجيزة',
 'جنوب الجيزة',
 'مرسى علم',
 'الجمرك',
 'شرق كفر الشيخ',
 'غرب كفر الشيخ',
 'سيدى غازى',
 'الرياض',
 'سيدى سالم']

In [31]:
geolocator = Nominatim(user_agent="Data Science Course")
location = list(geolocator.geocode('طامية'))
location =location[0].strip().split(',')
location[-3].strip()

'محافظة الفيوم'

In [32]:
location_dict={}
for i in administration_list :
    try:
        location = list(geolocator.geocode(f' مصر- {i}'))
        location =location[0].strip().split(',')
        location = location[-3].strip()
        
        location_dict[i]=location
    except:
        continue
location_dict

{'الدقى': 'الجيزة',
 'أكتوبر': 'مدينة السادس من أكتوبر',
 'الزيتون': 'القاهرة',
 'النزهة': 'القاهرة',
 'مدينة السلام': 'القليوبية',
 'بنها': 'القليوبية',
 'شبين الكوم': 'المنوفية',
 'شمال الاسماعيلية': 'الجفجافه',
 'الغردقة': 'البحر الأحمر',
 'غرب الزقازيق': 'الإسماعيلية',
 'دمياط': 'دمياط',
 'الزهور': 'بورسعيد',
 'العريش': 'العريش',
 'غرب طنطا': 'الإسماعيلية',
 'شرق الأسكندرية': 'الإسكندرية',
 'العجوزة': 'الجيزة',
 'بولاق الدكرور': 'الجيزة',
 'الهرم': 'الجيزة',
 'حدائق أكتوبر': 'الجيزة',
 'الشيخ زايد': 'الجيزة',
 'اوسيم': 'الجيزة',
 'كرداسة': 'الجيزة',
 'منشأة القناطر': 'الجيزة',
 'ابو النمرس': 'الجيزة',
 'الحوامدية': 'الجيزة',
 'البدرشين': 'الجيزة',
 'العياط': 'الجيزة',
 'الواسطى': 'بنى سويف',
 'الفشن': 'بنى سويف',
 'ببا': 'بنى سويف',
 'ناصر': 'سوهاج',
 'سمسطا': 'بنى سويف',
 'اطسا': 'محافظة الفيوم',
 'سنورس': 'محافظة الفيوم',
 'ابشواى': 'محافظة الفيوم',
 'الواحات البحرية': 'الجيزة',
 'اهناسيا': 'بنى سويف',
 'يوسف الصديق': 'يوسف الصديق',
 'طامية': 'محافظة الفيوم',
 'العمرانية': 'الجيز

In [33]:
location_dict['ناصر']='بني سويف'
location_dict['يوسف الصديق']='الفيوم'


In [34]:
def Governorate(row):
    administration_value = row['Administration']
    if administration_value in location_dict:
        return str(location_dict[administration_value])
    elif administration_value=='غرب الفيوم' or administration_value=='شرق الفيوم':
        return 'Fayoum'
    elif administration_value=='بنى سويف':
        return 'Bani Sweif'
    elif administration_value=='غرب المنصورة':
        return 'Mansoura'
    
    elif administration_value=='شمال السويس':
        return 'Suze'
    elif administration_value=='جنوب الجيزة':
        return 'Giza'

df['governorate'] = df.apply(Governorate, axis=1)

In [35]:
df[df['governorate'].isnull()]

Unnamed: 0,Unnamed: 0.1,student_id,Student_name,School,Administration,Division,Student_status,Arabic,English,French,pure_mathematics,history,geography,philosophy,psychology and sociology,chemistry,biology,Geology,AppliedMathematics,Physics,Total Score,Religious Education,Citizenship Education,Economics and Statistics,Percentage,governorate


In [36]:
df['governorate']=df['governorate'].apply(lambda x: x.strip())
df['governorate']=df['governorate'].replace(('بنى سويف','الجيزة','محافظة الفيوم','المنوفية','الإسكندرية','الشرقية','القليوبية','دمياط','البحر الأحمر','العريش'),('Bani Sweif','Giza','Fayoum','Menoufia','Alexandria','alsharqia','Qalyubia','Damietta','The Red Sea','Arish'))
df['governorate']=df['governorate'].replace(('بني سويف','كفر الشيخ','حلايب','الغربية','بورسعيد','الإسماعيلية','مدينة السادات','الفيوم','مدينة السادس من أكتوبر','القاهرة','الجفجافه'),
                                            ('Bani Sweif','Kafr El-Sheikh','Halayeb','algharbia','Port Said','Ismailia','Menoufia','Fayoum','Giza','Cairo','North Sinai'))

In [37]:
df['governorate'].value_counts()

governorate
Giza              42756
Bani Sweif        15952
Fayoum            15079
Alexandria         4084
Ismailia           2631
Damietta            988
Menoufia            664
algharbia           480
Kafr El-Sheikh      271
Cairo               197
The Red Sea          35
North Sinai          30
Qalyubia             19
Mansoura             18
Port Said            14
Suhein                4
Halayeb               3
Suze                  2
Arish                 2
Name: count, dtype: int64

<h3> A- <b style="color:yellow"> create   gender columns</b> </h3>


In [38]:
df[df['School'].str.contains('بنات')]

Unnamed: 0,Unnamed: 0.1,student_id,Student_name,School,Administration,Division,Student_status,Arabic,English,French,pure_mathematics,history,geography,philosophy,psychology and sociology,chemistry,biology,Geology,AppliedMathematics,Physics,Total Score,Religious Education,Citizenship Education,Economics and Statistics,Percentage,governorate
12,12,1002342,اسراء محمد عبدالنبي محمد اسماعيل,النور ث للمكفوفين بالجيزة بنات,الدقى,literary,successful,46.0,25.0,32.0,0.0,30.0,30.0,30.0,30.0,0.0,0.0,0.0,0.0,0.0,223.0,17.0,13.0,29,54.39,Giza
13,13,1002343,اماني سعد محمد محمد علي سالم,النور ث للمكفوفين بالجيزة بنات,الدقى,literary,successful,70.0,42.0,37.0,0.0,48.0,48.0,45.0,41.0,0.0,0.0,0.0,0.0,0.0,331.0,19.0,23.0,26,80.73,Giza
14,14,1002344,رحمه رجب محمد فؤاد,النور ث للمكفوفين بالجيزة بنات,الدقى,literary,Successful second round,44.0,25.0,31.0,0.0,30.0,32.0,30.0,30.0,0.0,0.0,0.0,0.0,0.0,222.0,18.0,12.5,25,54.15,Giza
15,15,1002345,رحمه محمد ابوالنجا عبدالغني,النور ث للمكفوفين بالجيزة بنات,الدقى,literary,successful,69.0,39.0,27.0,0.0,44.0,39.0,37.0,30.0,0.0,0.0,0.0,0.0,0.0,285.0,16.0,23.0,25,69.51,Giza
16,16,1002346,شهد صلاح الدين علي عبدالباقي,النور ث للمكفوفين بالجيزة بنات,الدقى,literary,successful,72.0,42.0,39.0,0.0,46.0,60.0,54.0,47.0,0.0,0.0,0.0,0.0,0.0,360.0,17.0,21.0,30,87.80,Giza
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
83108,12426,1454365,الاء محمد خليل الصادق,عابد عبدالعال الثانوية بنات,الرياض,mathematics_branch,successful,51.0,25.0,35.5,30.0,0.0,0.0,0.0,0.0,30.0,0.0,0.0,30.0,30.0,231.5,17,18,26,56.46,Damietta
83109,12427,1454366,امانى عبد الحكيم السيد محمود مجاهد,عابد عبدالعال الثانوية بنات,الرياض,mathematics_branch,successful,72.0,48.0,36.5,53.0,0.0,0.0,0.0,0.0,47.0,0.0,0.0,55.5,46.5,358.5,15,16,25,87.44,Damietta
83110,12428,1454367,رانيا محمود محمد عثمان,عابد عبدالعال الثانوية بنات,الرياض,mathematics_branch,successful,49.5,25.0,28.5,44.5,0.0,0.0,0.0,0.0,30.0,0.0,0.0,30.0,30.0,237.5,16,14,33,57.93,Damietta
83111,12429,1454368,سلمى زين محمد عبدالحميد متولى القاضى,عابد عبدالعال الثانوية بنات,الرياض,mathematics_branch,successful,73.0,46.0,38.5,47.5,0.0,0.0,0.0,0.0,47.0,0.0,0.0,47.5,44.0,343.5,20,20,36,83.78,Damietta


In [39]:
def gender(row):
    school_value = row['School']

    if 'بنين' in school_value:
        return 'Male'
    elif 'بنات' in school_value:
        return 'Female'
    else:
            return 'Male'    
df['gender'] = df.apply(gender, axis=1)

In [40]:
df['gender'].value_counts()

gender
Female    42416
Male      40813
Name: count, dtype: int64

<h3>8-<b style="color :blue"> change type of the columns </b> </h3>

In [41]:
df = df.astype({'Arabic': float, 'English': float,'French':float,
            'pure_mathematics': float, 'history': float,'geography':float,'philosophy':float,'psychology and sociology':float,
            'chemistry':float,'biology':float,'Geology':float,'AppliedMathematics':float,'Physics':float,'Religious Education':float,'Citizenship Education':float,'Economics and Statistics':float})

<h3>9-<b style="color :blue"> fixed columns name </b> </h3>

In [42]:
# to remove the space between the names 
df=df.rename(columns=lambda x: x.replace(' ','_').lower())

In [43]:
df.columns

Index(['unnamed:_0.1', 'student_id', 'student_name', 'school',
       'administration', 'division', 'student_status', 'arabic', 'english',
       'french', 'pure_mathematics', 'history', 'geography', 'philosophy',
       'psychology_and_sociology', 'chemistry', 'biology', 'geology',
       'appliedmathematics', 'physics', 'total_score', 'religious_education',
       'citizenship_education', 'economics_and_statistics', 'percentage',
       'governorate', 'gender'],
      dtype='object')

<hr>
<hr>
<hr>

<h1 style="color: yellow; text-align:center">Finally, we will save the data for the Next stage</1h>

In [44]:
df.to_csv('../data/processed/cleaned_data.csv')