In [1]:
# Standard library
import sys
import os

# Related third party imports
import pandas as pd

# Local imports
target = os.path.abspath(os.path.abspath(''))
while (target.split("\\")[-1] != "Road"):
    target = os.path.dirname(target)
sys.path.append(target)
from source.features import transformation as TF

In [2]:
data = pd.read_csv('../data/interim/cleaned_data.csv')
# I will drop these 2 line after make the changes request on Data Cleaning PR
data.dropna(subset='message', inplace=True)
data.drop(columns='Unnamed: 0', inplace=True)

In [3]:
data.head(10)

Unnamed: 0,id,message,from_id,year,month,day,hour,minute,second,reply
0,409427,حواره للخارج من نابلس,325418964,2023,3,7,13,50,2,سالك سالك
1,409429,حوارة في عليها مستوطنين,5633332941,2023,3,7,13,50,18,لا مافب
2,409431,كيف طريق من طوباس لرام الله,5661074759,2023,3,7,13,50,35,
3,409432,سلام,5593129285,2023,3,7,13,50,37,
4,409434,شو وضع المربعه,1507939991,2023,3,7,13,50,39,في حاجز بس سالك
5,409436,حوارة سالكة,5190660308,2023,3,7,13,50,57,سالكة حركة سير طبيعية
6,409437,في ازمة عحاجز حوارة,5403676950,2023,3,7,13,50,58,
7,409438,شباب كيف الوضع صرة ودير شرف,2122512266,2023,3,7,13,51,8,لهسه مناح
8,409439,hollowredcircleحاجز حواره سالك حركه سير طبيعيه,1827882971,2023,3,7,13,51,13,
9,409440,سالك صره,1827882971,2023,3,7,13,51,17,


In [4]:
# Create a column to check for the presence of the message stating the Huara barrier.
data['Huara_barrier'] = data['message'].astype(str).apply(TF.huara_matches)

data.head(10)

Unnamed: 0,id,message,from_id,year,month,day,hour,minute,second,reply,Huara_barrier
0,409427,حواره للخارج من نابلس,325418964,2023,3,7,13,50,2,سالك سالك,1
1,409429,حوارة في عليها مستوطنين,5633332941,2023,3,7,13,50,18,لا مافب,1
2,409431,كيف طريق من طوباس لرام الله,5661074759,2023,3,7,13,50,35,,0
3,409432,سلام,5593129285,2023,3,7,13,50,37,,0
4,409434,شو وضع المربعه,1507939991,2023,3,7,13,50,39,في حاجز بس سالك,0
5,409436,حوارة سالكة,5190660308,2023,3,7,13,50,57,سالكة حركة سير طبيعية,1
6,409437,في ازمة عحاجز حوارة,5403676950,2023,3,7,13,50,58,,1
7,409438,شباب كيف الوضع صرة ودير شرف,2122512266,2023,3,7,13,51,8,لهسه مناح,0
8,409439,hollowredcircleحاجز حواره سالك حركه سير طبيعيه,1827882971,2023,3,7,13,51,13,,1
9,409440,سالك صره,1827882971,2023,3,7,13,51,17,,0


In [5]:
# Create a column to check for the message category(question, answered or unknown)
data['category'] = data.apply(TF.categorize_message, axis=1)

data.head(10)

Unnamed: 0,id,message,from_id,year,month,day,hour,minute,second,reply,Huara_barrier,category
0,409427,حواره للخارج من نابلس,325418964,2023,3,7,13,50,2,سالك سالك,1,answered
1,409429,حوارة في عليها مستوطنين,5633332941,2023,3,7,13,50,18,لا مافب,1,answered
2,409431,كيف طريق من طوباس لرام الله,5661074759,2023,3,7,13,50,35,,0,question
3,409432,سلام,5593129285,2023,3,7,13,50,37,,0,question
4,409434,شو وضع المربعه,1507939991,2023,3,7,13,50,39,في حاجز بس سالك,0,answered
5,409436,حوارة سالكة,5190660308,2023,3,7,13,50,57,سالكة حركة سير طبيعية,1,answered
6,409437,في ازمة عحاجز حوارة,5403676950,2023,3,7,13,50,58,,1,question
7,409438,شباب كيف الوضع صرة ودير شرف,2122512266,2023,3,7,13,51,8,لهسه مناح,0,answered
8,409439,hollowredcircleحاجز حواره سالك حركه سير طبيعيه,1827882971,2023,3,7,13,51,13,,1,question
9,409440,سالك صره,1827882971,2023,3,7,13,51,17,,0,question


In [6]:
# Create a column to determine status of the Huara barrier is open or not
data['status'] = data['reply'].apply(TF.get_status)

data.head(10)

Unnamed: 0,id,message,from_id,year,month,day,hour,minute,second,reply,Huara_barrier,category,status
0,409427,حواره للخارج من نابلس,325418964,2023,3,7,13,50,2,سالك سالك,1,answered,1
1,409429,حوارة في عليها مستوطنين,5633332941,2023,3,7,13,50,18,لا مافب,1,answered,0
2,409431,كيف طريق من طوباس لرام الله,5661074759,2023,3,7,13,50,35,,0,question,-1
3,409432,سلام,5593129285,2023,3,7,13,50,37,,0,question,-1
4,409434,شو وضع المربعه,1507939991,2023,3,7,13,50,39,في حاجز بس سالك,0,answered,1
5,409436,حوارة سالكة,5190660308,2023,3,7,13,50,57,سالكة حركة سير طبيعية,1,answered,1
6,409437,في ازمة عحاجز حوارة,5403676950,2023,3,7,13,50,58,,1,question,-1
7,409438,شباب كيف الوضع صرة ودير شرف,2122512266,2023,3,7,13,51,8,لهسه مناح,0,answered,1
8,409439,hollowredcircleحاجز حواره سالك حركه سير طبيعيه,1827882971,2023,3,7,13,51,13,,1,question,-1
9,409440,سالك صره,1827882971,2023,3,7,13,51,17,,0,question,-1


In [7]:
data.to_csv(path_or_buf='../data/processed/data.csv', index=False)