In [1]:
import pandas as pd
import numpy as np
import plotly.express as px
import re

In [2]:
houses = pd.read_csv("../Data/riyadh_houses_original.csv")

pd.options.display.max_colwidth = 1000

In [3]:
houses.sample(50)

Unnamed: 0,listTitle,time,location,size,price,bedrooms,bathrooms,details
7701,فيلا للبيع في شارع هبة الله بن عساكر ، حي الخليج ، الرياض,قبل 6 ايام,حي الخليج - الرياض,930,1500000,5,3,شارع جنوبي 10م وشمالي 8م \nدور دور مفصول \nالدور الاول مجلس مقلط صاله عدد ثلاث غراف نوم حوش مدخل سياره \nالدور الثاني نفس الدور الاول \nمواجر ‏بالكامل 40الف \n\nالعماره مرهونه عند بنك العقار \nباقي من القرض ‏تقريبا 100الف ‏:\n‏القصد الشهري 1000ريال \n\n(العقار...
893,فيلا للبيع في شارع المجاز ، حي الحزم ، الرياض,قبل اسبوع,حي الحزم - الرياض,312,1200000,7,5,درج صالة وشقة مودرن تحت التشطيب وممكن المشاركة بالتشطيبات والاختيارات يوجد عدد 8 فلل متفرقة بالموقع ولدي تخليص وحسبة لدى البنوك\nالصورة للشكل النهائي والفلة تحت التشطيب والإنشاء
1229,فيلا للبيع في الرياض,قبل يومين,حي النرجس - الرياض,437,2150000,4,5,الحي :النرجس 4 \nالمساحة:437 \nالواجهة: شمالية \nالشارع:15\n\nمدخل سيارة + غرفة سائق + ملحق + مصعد\n\nالدور الارضي:\nمجلس ودورة مياه + صالة طعام + صالة جلوس كبيرة ودورة مياه +مطبخ \n\nالدور الاول:\nغرفتين ماستر + غرفتين بدورة مياه\n\nالدور الثاني:\nغرفة خادمة وغس...
6462,فيلا للبيع في الرياض,قبل يوم,حي النرجس - الرياض,346,1350000,3,3,فيلا للبيع دور + دور + شقة
8298,فيلا للبيع في طريق الملك عبدالعزيز ، الرياض,قبل شهرين,حي العارض - الرياض,432,1700000,4,4,ڤيلا بحي العارض ..\nمقدمة حوش مع ملحق خارجي \nمجلس ، مقلط ، صالة واسعة \nأربع غرف نوم بدورات مياه ، غرفة سائق وغرفة خادمة وغسيل \n\n-درج داخلي \n-بالإضافة إلى شقتين \n\n\nاللوكيشن غير دقيق ✨\n\nV172
3773,فيلا للبيع في شارع ابن زيادة ، حي صلاح الدين ، الرياض,قبل 3 ايام,حي صلاح الدين - الرياض,650,2000000,5,5,عمر الفيلا 11سنه يوجد بها حوش ومدخل السيارات وبها قبو
614,فيلا للبيع في طريق الملك عبدالعزيز ، الرياض,قبل 36 دقيقة,حي العارض - الرياض,420,2000000,7,5,ڤيلا بالقمرا ٧ \nبناء شخصي مميز جداً . \n\nيشتمل على شقة ، مصعد مؤسس \n\nاللوكيشن غير دقيق ✨\n\nV222
5299,فيلا للبيع في الرياض,قبل اسبوعين,حي المهدية - الرياض,200,830000,7,5,دبلكس مساحته ٢٠٠ ف التقاطع الاول تصميم فاخر وشغل مضمون
2412,فيلا للبيع في المملكة العربية السعودية,قبل يوم,حي قرطبة - الرياض,420,2000000,4,4,درج داخلي وشقتين
9003,فيلا للبيع في حي الملقا ، الرياض,قبل يومين,حي الملقا - الرياض,420,2200000,5,3,للبيع فيلا درج صالة \nفي حطين النموذجي مساحة \n٤٢٠متر وجهة شرقية شارع ١٥م \nالدور الارضي إستقبال بالكامل ويتكون مدخل سيارة غرفة سايق مجلس ومقلط وصالة ومجلس نساء \nملحق خارجي ومسبح ومصعد\nالدور الأول علوي ٥ غرف نوم ماستر مع صالة \nالسطح غرف بحمام وغرفة غسيل...


---
## Extract from 'time' feature:

In [4]:
def extract_pattern(series, pattern, other_value=np.nan):
    '''
    this function creates new series that have extracted pattern from the original series elements,
    and other_value in every un-match element.
    
    params:
    series: the series that will match its element with the pattern.
    pattern: pattern that will try to find in every element and extract.
    other_value: the value that will put in every un-match element.
    
    return:
    new series.
    '''
    new_series = []
    for string in series:
        pattern = re.compile(pattern)
        matches = re.findall(pattern, string)
        
        if matches:
            new_series.append(matches[0])
        else:
            new_series.append(other_value)
    
    return pd.Series(new_series)



def map_pattern(series, pattern, match_value, other_value):
    '''
    this function creates new series that have the match_value in every matching pattern
    from the original series elements, and other_value in every un-match element.
    
    params:
    series: the series that will match its element with the pattern.
    pattern: pattern that will try to find in every element.
    match_value: the value that will put if the element is matching hte pattern.
    other_value: the value that will put in every un-match element.
    
    return:
    new series.
    '''
    new_series = []
    for string in series:
        pattern = re.compile(pattern)
        matches = re.finditer(pattern, string)
        matches = tuple(matches)
    
        is_there_match = bool(matches)
        if is_there_match:
            new_series.append(match_value)
        else:
            new_series.append(other_value)
    
    return pd.Series(new_series)



def map_patterns_collection(series, pattern_value_pairs, other_value):
    '''
    this function creates new series that have all match_values in every matching patterns
    in the patterns pairs, and apply it to the original series elements, and the rest of elements 
    that haven't any match it will assign other_value.
    
    params:
    series: the series that will match its element with the patterns.
    pattern_value_pairs: list of tuples have (pattern, value) pair, will try to find every pattern
                         in the pair in the element, if found will assign its paired value.
    other_value: the value that will put in every element that haven't any match.
    
    return:
    new series.
    '''
    matches = []
    for pattern_value in pattern_value_pairs:
        match = map_pattern(series, pattern_value[0], pattern_value[1], other_value)
        matches.append(match)
        
    return sum(matches)



def mins_unit_factor(series, other_value=0):
    '''
    this function creates new series that have minutes unit factor for every pattern in arabic,
    for example: element with the word "ساعة" will put its factor to 60, means the hour have 60 mins
     
    params:
    series: the series that will match its element with the mins unis factor patterns.
    other_value: the value that will put in every element that haven't any time match.
    
    return:
    new series.
    '''
    min_pattern = r"دق"
    hour_pattern = r"ساع"
    day_pattern = r"(يوم|يام)"
    week_pattern = r"(سبوع|سابيع)"
    month_pattern = r"(شهر|شهرين|شهور)"
    year_pattern = r"(سنة|سنين|سنتين|سنه)"
    patterns_collection = [
        (min_pattern, 1),                 # 1 min
        (hour_pattern, 60),               # 60 mins
        (day_pattern, 24*60),             # 1440 mins
        (week_pattern, 7*24*60),          # 10,080 mins
        (month_pattern, (365*24*60)/12 ), # 43,800 mins
        (year_pattern, 365*24*60)         # 525,600 mins
    ]
    
    return map_patterns_collection(series, patterns_collection, other_value)

In [5]:
def get_time_in_mins(time_series):
    '''
    this function extract time in minutes from arabic string.
    
    params:
    time_series: the series of arabic string that will extract time as mins from its element.
    
    return:
    dataframe have a column named time_in_mins. 
    '''
    time_df = pd.DataFrame()
    
    repeatation_pattern = r"[0-9]+"
    
    time_df['mins_factor'] = mins_unit_factor(time_series)
    time_df['repeatation_factor'] = extract_pattern(time_series, repeatation_pattern, other_value=1)
    
    binary_pattern = r"ين"
    time_df['binary_rep_factor'] = map_patterns_collection(time_series, [(binary_pattern, 2)], other_value=0)
    
    binary_mask = time_df['binary_rep_factor'] == 2
    time_df.loc[binary_mask, 'repeatation_factor'] = 2
    
    time_df['repeatation_factor'] = time_df['repeatation_factor'].astype('int')
    time_df['time_in_mins'] = time_df['repeatation_factor'] * time_df['mins_factor']
    
    time_df.drop(columns=['mins_factor', 'repeatation_factor', 'binary_rep_factor'], inplace=True)
    
    return time_df

In [6]:
#create new dataframe named time and copy the time column to it as time_text.
time = pd.DataFrame()
time['time_text'] = houses['time'].copy()

#get time in mins by calling the function, and then convert the time_in_mins series elements
#from int type to timedelta type.
time_in_mins = get_time_in_mins(time['time_text'])['time_in_mins']
time_duration = pd.to_timedelta(time_in_mins, unit='m')

#add the new time series that has the time as timedelta to the time dataframe and name its column as time_duration.
time['time_duration'] = time_duration

In [7]:
#show 10 random different rows from the dataframe.
time.sample(10)

Unnamed: 0,time_text,time_duration
7641,قبل 3 ايام,3 days 00:00:00
3301,قبل شهر,30 days 10:00:00
8663,قبل 3 شهور,91 days 06:00:00
7967,قبل اسبوعين,14 days 00:00:00
4084,قبل 6 ايام,6 days 00:00:00
9560,قبل 9 ساعة,0 days 09:00:00
2774,قبل ساعة,0 days 01:00:00
7536,قبل 3 اسابيع,21 days 00:00:00
607,قبل 11 ساعة,0 days 11:00:00
9012,قبل 3 اسابيع,21 days 00:00:00


---
## Extract from 'location' feature:

In [8]:
#loop through location feature and find the pattern that extracting the neighborhood name only
#then assign it to neighborhoods list.
neighborhoods = []
neighborhood_pattern = r" [ء-ي]* -"

for string in houses['location']:
    pattern_compile = re.compile(neighborhood_pattern)
    matches = re.findall(pattern_compile, string)
    for match in matches:
        match = match.replace("-", "")
        match = match.strip()
        neighborhoods.append(match)


        
#creates new dataframe named location_df and assign the neighborhoods to it.
location_df = pd.DataFrame()
location_df['neighborhood'] = pd.Series(neighborhoods, dtype='object')

In [9]:
location_df.sample(10)

Unnamed: 0,neighborhood
2906,طويق
8443,طويق
9710,الضباط
2922,عكاظ
3990,عرقة
1473,العقيق
7841,طويق
6791,الرمال
3843,العارض
6383,الملقا


---
## Extract from 'details' feature:

In [10]:
#living_rooms, garage, yard, street_nums, floors, apartments, details_value

#مستوى الحداثة
a = []
#الغرف الموجودة
b = []
#مواد البناء
c = []
#الحوش والسيارة
d = []
#عدد الشوارع ومساحتها
e = []
#عدد الادوار
f = []

houses.iloc[3:10]

Unnamed: 0,listTitle,time,location,size,price,bedrooms,bathrooms,details
3,فيلا للبيع في الرياض,قبل 3 شهور,حي طويق - الرياض,336,1200000,4,5,للبيع بحي طويق مخطط الغروب فيلا درج صاله وشقتين شارعين شرقي شمالي موقع ممتاز تعمير شخصي قريبه جدا من جامع السعيدان للاستفسار الاتصال على 0508209474
4,فيلا للبيع في شارع وادي الساحل ، الرياض,قبل 13 ساعة,حي الرمال - الرياض,373,1230000,4,4,"فيلا درج داخلي وشقتين بحى الرمال مخطط واحة الرمال) \n""بسم الله الرحمن الرحيم""\nشركة سكن المعالي العقارية تتشرف بخدمتكم وتسعى جاهدة لارضاء عملائها والعمل على راحتهم وتوفير الوقت والجهد وتقديم كل ماهو جديد في عالم العقارات .\nنوع العقار : درج داخلي وشقتين..."
5,فيلا للبيع في الرياض,قبل 4 ساعة,حي النرجس - الرياض,300,1500000,5,4,اربع فيلل في حى النرجس شمال الملك سلمان شرق ابوبكر الكيلو السادس حى مميز\nتتكون الفيلا من تحت استقبال كامل مجلس ومقلط وصاله وغرفة سائق وملحق خارجى مؤسس مصعد تكييف مركزى الدور الاول خمس اجنحه كل غرفة بحمام اكرمكم الله السطح غرفتين وصاله رياضة كبيره شغل...
6,"فيلا للبيع في شارع الغاط, التعاون, الرياض",قبل يومين,حي التعاون - الرياض,625,3000000,5,5,للبيع فيلا٦٢٥م درج داخلي في حي التعاون ٠٥٥٦٠٩٤٦٢٢
7,فيلا للبيع في الرياض,قبل 3 ايام,حي طويق - الرياض,270,1050000,5,5,
8,فيلا للبيع في شارع زينب بنت خزيمة ، حي الملك فهد ، الرياض,قبل 11 ساعة,حي الملك فهد - الرياض,1500,3000000,3,2,للبيع قصر قديم بقيمه ارض حي الملك فهد\n\nثلاث شوارع\n٢٠ جنوبى و١٠ شرقي و٨ غربي\n\nالمساحه ١٥٠٠م\nالاطوال ٣٠ عالجنوبي ×٥٠ عالغربي والشرقي\n\nالقصر عباره عن ٣ وحدات سكنيه الان\n\nمطلوب ٣ مليون صافي
9,فيلا للبيع في حي الملقا ، الرياض,قبل 4 ساعة,حي الملقا - الرياض,340,2300000,4,5,فيلا بريارص الخزامي درج صاله مودرن ومصعد تكيف مخفي\n\nالدور الارضي\nمجلس ومقلط وصاله ومجلس نساء\n\nالدور الاول\n٤غرف نوم وصاله\nالدور الثاني\nغرفتين بلسطح\nالضمانات سباكه وكهرباء


In [11]:
def count_matches(series, pattern):
    details = houses['details'].copy()
    details.fillna("", inplace=True)
    
    matches_counts = []
    for string in series:
        pattern_compile = re.compile(pattern)
        matches = re.finditer(pattern_compile, string)
        matches = tuple(matches)
        matches_counts.append(len(matches))
        
    return pd.Series(matches_counts)

    
details = pd.DataFrame()
details['details'] = houses['details'].copy()
details['details'].fillna("", inplace=True)

living_rooms_pattern = r"(صالة|مجلس|مجالس|صالات|صاله|ديوانية|ديوانيه|مشب)"
details['living_rooms'] = count_matches(details['details'], living_rooms_pattern)

mask = details['living_rooms'] == 0
details.sample(50)

Unnamed: 0,details,living_rooms
1538,درج داخلي وشقه شارع ١٥ جنوبي شغل ممتاز,0
8901,دبوس مثبّت\nبالقرب من الملقا، الرياض\nhttps://maps.app.goo.gl/qqLqa5LuxjuHbHmY7\n\n\nللبيع ٢ فيلا بحي الملقا غرب طريق الخير\nمساحة فيلاا ٤٥٠ متر\nجنوبية شارع ٢٠\nالتفاصيل\nالدور الأرضي\nمدخل سياره غرفه سائق ملحق خارجي مجلس استقبال ومقلط ومجلس نساء وغرفه كبار س...,2
6098,فلل لبن \nفلتين دبلكس المساحة ٨٧٥ م \nمكونة كل فله من ٣ ادوار كل دور مكون من ٧ غرف ومطبخ و٣ دورات مياه مجالس كبيرة جميع الفلل ديكورات جبسية ورخام وباركية وغاز مركزي ومصاعد لكل فلة وجميع المغاسل رخام والبناء خاص وتشطيبات دلوكس ( سكن خاص ) مشب خارجي أمام...,2
9233,فله جديده \nالمساحه ٣٧٢\nدور ودرج داخلي وشقتين \nشامله الضمنات على جميع ادوات السباكه والكهرباء\nبناء شخصي\nويوجد اكثر من فله بمساحة ٤٠٠ \nحي الرمال الواحه,0
9425,اسعد الله اوقاتكم بكل خير تعلن شركة مبارك للعقارات عن وجود \nفيلا فاخره للبيع درج صاله وشقتين بحي الحزم جنوب الرياض \nمساحة ٣١٢ متر واجهه شماليه وعرض الشارع ١٥ متر \nوالسعر مليون ريال حد تتميز بموقع ممتاز وقريب من المسجد والمرافق شغل شخصي تشطيب ممتاز ج...,1
9245,للبيع فيلا بحي رياض الخزامي\nمساحة ٦٠٢م\nشارع ١٥ شمالي\nشغل مودرن\nمسبح ومصعد تكييف مخفي\n٥ اجنحه نوم وصالة واوفيس\nالصالة غرفة خادمة وغرفة غسيل وصالة العاب\nتحت التشطيب\nالبيع ٣ مليون و٧٠٠ غير الضريبه,3
8803,للبيع فيلا ممتازة شغل شخصى\nفيلا دوبلكس مساحة ٢٩٠ م وعليها مليون و ٨٠ الف\nواجهه جنوبيه شارع ٢٠\nتشطيب لوكس,0
4923,للبيع فيلا درج صاله مع شقتين حي حطين النموذجي\nشرقيه شارع ١٥م\n\nالمساحه ٤٥٥م\nالمواصفات\nالدور الارضي استقبال بالكامل من مدخل سياره وملحق خارجي ومجلس رجال ومجلس نساء ومقلط وغرفه سائق ومطبخ ومستودع وغرفه خادمه وغسيل\n\nالدور العلوي\n٤ اجنحه وصاله\n\nالشقق\nالدو...,4
5842,فيلا درج بالصالة مع شقة شمالية شارع ١٨متر الدور الارضي غرفة سائق ومدخل سيارة وملحق خارجي ومجلس ومقلط وصالة وحمام ومطبخ وحديقة في الخلف الدور العلوي اربع غرف نوم ماستر والسطح غرفة خادمة وغرفة غسيل الشقة مجلس وصالة ومطبخ وغرفتين نوم مساحة ٤٠٠ متر بيع م...,5
8356,فيلا ٤٠٠ متر\nتفصيل ممتاز جدا\nحوش خارجي + حوش داخلي\nبناء ممتاز جدا\n\nتم ترميمها واصلاح وتغيير مايلزم وبالنهايه على ذوق الشاري\n\nللتواصل من المالك مباشره \nابوعبدالله 0507475695,0


In [13]:
# titles = houses['listTitle']
#locations = houses['location']
#locations_mask = locations.str.contains("الرياض", case=False)
#titles_mask = titles.str.contains("فيلا", case=False)
#print(len(titles[titles_mask]))
#print(len(locations[locations_mask]))

- listTitle: (فيلا) in each row
- location: (الرياض) in each row

---
## Merge Extra Features:

In [17]:
extra_features = pd.DataFrame()
extra_features['time_duration'] = time['time_duration']
extra_features['neighborhood'] = location_df['neighborhood']

extra_features

Unnamed: 0,time_duration,neighborhood
0,7 days 00:00:00,نمار
1,0 days 00:01:00,الياسمين
2,1 days 00:00:00,الربيع
3,91 days 06:00:00,طويق
4,0 days 13:00:00,الرمال
...,...,...
9969,0 days 22:00:00,لبن
9970,0 days 08:00:00,الياسمين
9971,30 days 10:00:00,العارض
9972,0 days 01:00:00,الروضة


---
## Save The Extra Features Into New CSV File

In [18]:
# save the extra features into csv file named "riyadh_houses_extra_features" for analysis use
extra_features.to_csv("../Data/riyadh_houses_extra_features.csv", index=False)