# Preprocessing

In [1]:
import pandas as pd
import ydata_profiling as ydp

## Load dataset

In [2]:
df = pd.read_csv('./data/orig_dataset.csv')
df.head()

Unnamed: 0,id,זמןסיוםמהמערכת,יישוב,סמל_יישוב,שעתהגעהלנקודה,נ.צכתובת,כתובתתיאורמיקוםנקודתהמדידה,סוגנקודתהמדידהתשובה,Index1,time,...,heged4,heged5,heged6,heged7,heged8,heged9,heged10,heged11,heged12,heged13
0,1,2021-07-07 10:22:27,רמלה,8500,09:20:00,"31.9224141,34.8685917",רחוב זכריה,רחוב מגורים,1,09:38:00,...,,,,,,,,,,
1,1,2021-07-07 10:22:27,רמלה,8500,09:20:00,"31.9224141,34.8685917",רחוב זכריה,רחוב מגורים,2,09:50:00,...,,,,,,,,,,
2,1,2021-07-07 10:22:27,רמלה,8500,09:20:00,"31.9224141,34.8685917",רחוב זכריה,רחוב מגורים,3,09:51:00,...,,,,,,,,,,
3,1,2021-07-07 10:22:27,רמלה,8500,09:20:00,"31.9224141,34.8685917",רחוב זכריה,רחוב מגורים,4,09:52:00,...,,,,,,,,,,
4,1,2021-07-07 10:22:27,רמלה,8500,09:20:00,"31.9224141,34.8685917",רחוב זכריה,רחוב מגורים,5,09:55:00,...,,,,,,,,,,


## Rename the headers

In [3]:
df_cols_renamed = df.rename(columns={'זמןסיוםמהמערכת': 'sys_end_time',
                        'יישוב' : 'city',
                        'סמל_יישוב' : 'city_code',
                        'שעתהגעהלנקודה' : 'time_of_arrival',
                        'נ.צכתובת' : 'geo_location',
                        'כתובתתיאורמיקוםנקודתהמדידה' : 'location_address',
                        'סוגנקודתהמדידהתשובה' : 'location_type',
    })

In [4]:
df_cols_renamed[~df.heged1.isnull()]
df_cols_renamed.isnull().sum() / df_cols_renamed.shape[0] * 100

id                   0.000000
sys_end_time         0.000000
city                 0.000000
city_code            0.000000
time_of_arrival      0.487393
geo_location        38.532196
location_address     0.000000
location_type        0.000000
Index1               0.000000
time                 6.420471
parit                3.046209
teorshlilihiyuvi     2.296373
teortext             3.496110
gender               0.000000
age                  0.018746
point_type           0.000000
heged1              38.532196
heged2              87.449620
heged3              95.632205
heged4              98.453463
heged5              99.550098
heged6              99.821914
heged7              99.896898
heged8              99.953135
heged9              99.990627
heged10             99.990627
heged11             99.990627
heged12             99.990627
heged13             99.990627
dtype: float64

In [5]:
prof = ydp.ProfileReport(df_cols_renamed)
prof.to_notebook_iframe()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

## Remove heged2 - heged13 due to high null counts

In [6]:
df_dropped = df_cols_renamed.drop(columns=[f'heged{i}' for i in range(2,14)])
df_dropped.head()

Unnamed: 0,id,sys_end_time,city,city_code,time_of_arrival,geo_location,location_address,location_type,Index1,time,parit,teorshlilihiyuvi,teortext,gender,age,point_type,heged1
0,1,2021-07-07 10:22:27,רמלה,8500,09:20:00,"31.9224141,34.8685917",רחוב זכריה,רחוב מגורים,1,09:38:00,בשעות בהם בוצעה הסקירה לא נכחו אנשים,חיובית,אין,נקבה,50-69,רחוב מגורים,
1,1,2021-07-07 10:22:27,רמלה,8500,09:20:00,"31.9224141,34.8685917",רחוב זכריה,רחוב מגורים,2,09:50:00,אין,חיובית,אדם שהלך עם צידנית,זכר,50-69,רחוב מגורים,
2,1,2021-07-07 10:22:27,רמלה,8500,09:20:00,"31.9224141,34.8685917",רחוב זכריה,רחוב מגורים,3,09:51:00,,חיובית,לא נזרק,נקבה,30-49,רחוב מגורים,
3,1,2021-07-07 10:22:27,רמלה,8500,09:20:00,"31.9224141,34.8685917",רחוב זכריה,רחוב מגורים,4,09:52:00,,חיובית,לא לכלכה,נקבה,10-19,רחוב מגורים,
4,1,2021-07-07 10:22:27,רמלה,8500,09:20:00,"31.9224141,34.8685917",רחוב זכריה,רחוב מגורים,5,09:55:00,,חיובית,לא נזרק לכלוך,נקבה,20-29,רחוב מגורים,


## No clear usage for `Index1`, `id`, and `time_of_arrival` - better drop
`point_type` and `location_type` are duplicates of each other, dropping one of them

In [7]:
df_dropped = df_dropped.drop(['time_of_arrival', 'id', 'Index1', 'point_type'], axis=1)
df_dropped.head()

Unnamed: 0,sys_end_time,city,city_code,geo_location,location_address,location_type,time,parit,teorshlilihiyuvi,teortext,gender,age,heged1
0,2021-07-07 10:22:27,רמלה,8500,"31.9224141,34.8685917",רחוב זכריה,רחוב מגורים,09:38:00,בשעות בהם בוצעה הסקירה לא נכחו אנשים,חיובית,אין,נקבה,50-69,
1,2021-07-07 10:22:27,רמלה,8500,"31.9224141,34.8685917",רחוב זכריה,רחוב מגורים,09:50:00,אין,חיובית,אדם שהלך עם צידנית,זכר,50-69,
2,2021-07-07 10:22:27,רמלה,8500,"31.9224141,34.8685917",רחוב זכריה,רחוב מגורים,09:51:00,,חיובית,לא נזרק,נקבה,30-49,
3,2021-07-07 10:22:27,רמלה,8500,"31.9224141,34.8685917",רחוב זכריה,רחוב מגורים,09:52:00,,חיובית,לא לכלכה,נקבה,10-19,
4,2021-07-07 10:22:27,רמלה,8500,"31.9224141,34.8685917",רחוב זכריה,רחוב מגורים,09:55:00,,חיובית,לא נזרק לכלוך,נקבה,20-29,


## Neither `sys_end_time` nor `time` columns are usefull by themselfs
but combined together can provide more info - let's combine them

In [8]:
df_dropped = df_dropped.dropna(subset=['time'])
df_dropped['sys_end_time'] = df_dropped.sys_end_time.apply(lambda x: x.split(' ')[0])
df_dropped['incident_time'] = df_dropped.apply(lambda x: str(x['sys_end_time']) + ' ' + str(x['time']), axis=1)
df_dropped['incident_time'] = pd.to_datetime(df_dropped.incident_time)

In [9]:
df_dropped = df_dropped.drop(['sys_end_time', 'time'], axis=1)
df_dropped.head()

Unnamed: 0,city,city_code,geo_location,location_address,location_type,parit,teorshlilihiyuvi,teortext,gender,age,heged1,incident_time
0,רמלה,8500,"31.9224141,34.8685917",רחוב זכריה,רחוב מגורים,בשעות בהם בוצעה הסקירה לא נכחו אנשים,חיובית,אין,נקבה,50-69,,2021-07-07 09:38:00
1,רמלה,8500,"31.9224141,34.8685917",רחוב זכריה,רחוב מגורים,אין,חיובית,אדם שהלך עם צידנית,זכר,50-69,,2021-07-07 09:50:00
2,רמלה,8500,"31.9224141,34.8685917",רחוב זכריה,רחוב מגורים,,חיובית,לא נזרק,נקבה,30-49,,2021-07-07 09:51:00
3,רמלה,8500,"31.9224141,34.8685917",רחוב זכריה,רחוב מגורים,,חיובית,לא לכלכה,נקבה,10-19,,2021-07-07 09:52:00
4,רמלה,8500,"31.9224141,34.8685917",רחוב זכריה,רחוב מגורים,,חיובית,לא נזרק לכלוך,נקבה,20-29,,2021-07-07 09:55:00


In [10]:
df_dropped[
    df_dropped.geo_location.isnull() & 
    df_dropped.location_address.str.contains('\n') &
    df_dropped.location_address.str.contains(',')
]

Unnamed: 0,city,city_code,geo_location,location_address,location_type,parit,teorshlilihiyuvi,teortext,gender,age,heged1,incident_time
10117,נצרת,7300,,"הר הקפיצה\n32.683056, 35.299389",פנאי ונופש,צלחת חד פעמית,שלילית,השארת הצלחת על השולחן,זכר,20-29,אנשים שישבו בשטח נקודת המדידה והשאירו אחריהם פ...,2021-10-13 17:01:00
10118,נצרת,7300,,"הר הקפיצה\n32.683056, 35.299389",פנאי ונופש,כוס פלסטיק חד פעמית,שלילית,השלכת הכוס מסביב לשולחן,זכר,20-29,נראה היה שפריט הלכלוך הושלך בכוונה.,2021-10-13 17:35:00
10119,נצרת,7300,,"הר הקפיצה\n32.683056, 35.299389",פנאי ונופש,צלחת חד פעמית,חיובית,העביר לאשפתון,זכר,10-19,,2021-10-13 17:55:00
10120,נצרת,7300,,"הר הקפיצה\n32.683056, 35.299389",פנאי ונופש,בדל סיגריות,שלילית,השליך את הבדל ליד השולחן,זכר,30-49,ההשלכה מתרחשת במקומות בהם יש כבר הרבה לכלוך,2021-10-13 18:10:00
10121,נצרת,7300,,"הר הקפיצה\n32.683056, 35.299389",פנאי ונופש,בקבוק שתיה,שלילית,השאיר על השולחן,זכר,30-49,אנשים שישבו בשטח נקודת המדידה והשאירו אחריהם פ...,2021-10-13 18:23:00
...,...,...,...,...,...,...,...,...,...,...,...,...
10664,עארבה,531,,"שוק עירוני \nכביש 804\n32.860423, 35.336471",מרכז מסחרי,בדלי סיגריות,שלילית,,זכר,20-29,נראה היה שפריט הלכלוך הושלך בכוונה.,2021-10-12 10:43:00
10665,עארבה,531,,"מול הדואר – דאר אל ביאן\n32.852238, 35.333659",רחוב מגורים,בדלי סיגריות,שלילית,,זכר,30-49,נראה היה שפריט הלכלוך הושלך בכוונה.,2021-10-12 08:14:00
10666,עארבה,531,,"מול הדואר – דאר אל ביאן\n32.852238, 35.333659",רחוב מגורים,בדלי סיגריות,שלילית,,זכר,30-49,נראה היה שפריט הלכלוך הושלך בכוונה.,2021-10-12 09:25:00
10667,עארבה,531,,"מול הדואר – דאר אל ביאן\n32.852238, 35.333659",רחוב מגורים,מיכל משקה,שלילית,,נקבה,20-29,נראה היה שפריט הלכלוך הושלך בכוונה.,2021-10-12 09:57:00


In [11]:
df_locations = df_dropped[['city_code','geo_location', 'location_address', 'location_type']].drop_duplicates().reset_index(drop=True)
# df_locations.isnull().sum() / df_locations.shape[0] * 100
df_locations[
    df_locations.geo_location.isnull() & 
    df_locations.location_address.str.contains('\n') &
    df_locations.location_address.str.contains(',')
    ]

Unnamed: 0,city_code,geo_location,location_address,location_type
1400,7300,,"הר הקפיצה\n32.683056, 35.299389",פנאי ונופש
1401,7300,,"רחוב 2004 3 (אולמות אבו מאהר)\n32.689018, 35.2...",אזור תעשייה
1402,7300,,אל פאח'ורה – שכונת מגורים דרך מוביל לבית ספר\n...,מבנה ציבור
1404,7300,,"אל פאח'ורה – משחקייה\n1040 2-18, נצרת\n32.6852...",פנאי ונופש
1405,7300,,"כביש מסחרי מול כיכר ביג\n3001, נצרת\n32.693584...",רחוב מסחרי
1468,975,,"אזור תעשיה המקביל לכביש 7626\n32.732292, 35.21...",אזור תעשייה
1470,975,,"אזור תעשיה 2\n32.736401, 35.219963",אזור תעשייה
1476,975,,"רח' מוביל לבית ספר זרזיר יסודי \n32.729393, 35...",מבנה ציבור
1477,975,,"מזאריב- בית ספר ערב אלמזאריב\n32.715458, 35.22...",רחוב מגורים
1478,975,,"אלגריפאת- רח' אלרשיד\n32.724983, 35.213535",רחוב מגורים


## No point in keeping records with no geolocation - let's drop them

In [12]:
df_dropped = df_dropped.dropna(subset=['geo_location'])
df_dropped = df_dropped.reset_index(drop=True)
df_dropped

Unnamed: 0,city,city_code,geo_location,location_address,location_type,parit,teorshlilihiyuvi,teortext,gender,age,heged1,incident_time
0,רמלה,8500,"31.9224141,34.8685917",רחוב זכריה,רחוב מגורים,בשעות בהם בוצעה הסקירה לא נכחו אנשים,חיובית,אין,נקבה,50-69,,2021-07-07 09:38:00
1,רמלה,8500,"31.9224141,34.8685917",רחוב זכריה,רחוב מגורים,אין,חיובית,אדם שהלך עם צידנית,זכר,50-69,,2021-07-07 09:50:00
2,רמלה,8500,"31.9224141,34.8685917",רחוב זכריה,רחוב מגורים,,חיובית,לא נזרק,נקבה,30-49,,2021-07-07 09:51:00
3,רמלה,8500,"31.9224141,34.8685917",רחוב זכריה,רחוב מגורים,,חיובית,לא לכלכה,נקבה,10-19,,2021-07-07 09:52:00
4,רמלה,8500,"31.9224141,34.8685917",רחוב זכריה,רחוב מגורים,,חיובית,לא נזרק לכלוך,נקבה,20-29,,2021-07-07 09:55:00
...,...,...,...,...,...,...,...,...,...,...,...,...
6057,אום אל-פחם,2710,"32.8137707,35.2709865",לעיון אום אלפחם,רחוב מסחרי,בדל סיגריה,שלילית,גבר זרק בדל סיגריה מהרכב בזמן נהיגה,זכר,30-49,נראה היה שפריט הלכלוך הושלך בכוונה.,2021-11-25 12:47:00
6058,אום אל-פחם,2710,"32.8137707,35.2709865",לעיון אום אלפחם,רחוב מסחרי,שקית אשפה,חיובית,בחור צעיר שיצא ממבנה זרק שקית אשפה לפח,זכר,10-19,,2021-11-25 13:07:00
6059,אום אל-פחם,2710,"32.8137707,35.2709865",לעיון אום אלפחם,רחוב מסחרי,מיכל משקה,שלילית,ילדה קטנה עוברת רגל השליכה מיכל משקה לריצפה,נקבה,10-19,נראה היה שפריט הלכלוך הושלך בכוונה.,2021-11-25 13:31:00
6060,אום אל-פחם,2710,"32.8137707,35.2709865",לעיון אום אלפחם,רחוב מסחרי,בדל סיגריה,שלילית,בחור צעיר שעמד בצד ועישן סיגריה \nכשסיים זרק א...,זכר,20-29,נראה היה שפריט הלכלוך הושלך בכוונה.,2021-11-25 13:55:00


## Now, let's pull out the cities names to a different csv file

In [13]:
df_cities = df_dropped[['city_code', 'city']].drop_duplicates()
df_cities = df_cities.sort_values(by='city_code').reset_index(drop=True)
df_cities.head()

Unnamed: 0,city_code,city
0,2,מרום הגליל
1,8,הגלבוע
2,31,אופקים
3,37,שער הנגב
4,46,יבנאל


now we can dispose of `city` column

In [14]:
df_dropped = df_dropped.drop(['city'], axis=1)
df_dropped.head()

Unnamed: 0,city_code,geo_location,location_address,location_type,parit,teorshlilihiyuvi,teortext,gender,age,heged1,incident_time
0,8500,"31.9224141,34.8685917",רחוב זכריה,רחוב מגורים,בשעות בהם בוצעה הסקירה לא נכחו אנשים,חיובית,אין,נקבה,50-69,,2021-07-07 09:38:00
1,8500,"31.9224141,34.8685917",רחוב זכריה,רחוב מגורים,אין,חיובית,אדם שהלך עם צידנית,זכר,50-69,,2021-07-07 09:50:00
2,8500,"31.9224141,34.8685917",רחוב זכריה,רחוב מגורים,,חיובית,לא נזרק,נקבה,30-49,,2021-07-07 09:51:00
3,8500,"31.9224141,34.8685917",רחוב זכריה,רחוב מגורים,,חיובית,לא לכלכה,נקבה,10-19,,2021-07-07 09:52:00
4,8500,"31.9224141,34.8685917",רחוב זכריה,רחוב מגורים,,חיובית,לא נזרק לכלוך,נקבה,20-29,,2021-07-07 09:55:00


In [15]:
df_dropped.isnull().sum()

city_code              0
geo_location           0
location_address       0
location_type          0
parit                207
teorshlilihiyuvi     171
teortext              58
gender                 0
age                    1
heged1              2055
incident_time          0
dtype: int64

## Let's take a look at the remaining nulls

In [16]:
df_dropped[
    ~((df_dropped.parit.isnull()) |
    (df_dropped.teorshlilihiyuvi.isnull()) |
    (df_dropped.teortext.isnull()) |
    (df_dropped.age.isnull()))
    # & (df_dropped.teorshlilihiyuvi == 'שלילית')
].shape[0] / df_dropped.shape[0] * 100

92.87363906301552

We see that it's ok to remove the nulls in this case

In [17]:
df_dropped = df_dropped.dropna(subset=['parit', 'teorshlilihiyuvi', 'teortext', 'age'])
df_dropped = df_dropped.reset_index(drop=True)
df_dropped

Unnamed: 0,city_code,geo_location,location_address,location_type,parit,teorshlilihiyuvi,teortext,gender,age,heged1,incident_time
0,8500,"31.9224141,34.8685917",רחוב זכריה,רחוב מגורים,בשעות בהם בוצעה הסקירה לא נכחו אנשים,חיובית,אין,נקבה,50-69,,2021-07-07 09:38:00
1,8500,"31.9224141,34.8685917",רחוב זכריה,רחוב מגורים,אין,חיובית,אדם שהלך עם צידנית,זכר,50-69,,2021-07-07 09:50:00
2,874,"32.6753736,35.2392182",מגדל העמק רחוב הזית,רחוב מסחרי,סיגריה,שלילית,השלכה,זכר,30-49,אדם עמד להיכנס למבנה וזרק את פריט הלכלוך לפני ...,2021-07-08 11:20:00
3,874,"32.6753736,35.2392182",מגדל העמק רחוב הזית,רחוב מסחרי,שקית נילון,שלילית,השלכה,זכר,50-69,,2021-07-08 11:25:00
4,874,"32.6753736,35.2392182",מגדל העמק רחוב הזית,רחוב מסחרי,שקיות,חיובית,השלכה ברכב,נקבה,30-49,,2021-07-08 11:55:00
...,...,...,...,...,...,...,...,...,...,...,...
5625,2710,"32.8137707,35.2709865",לעיון אום אלפחם,רחוב מסחרי,בדל סיגריה,שלילית,גבר זרק בדל סיגריה מהרכב בזמן נהיגה,זכר,30-49,נראה היה שפריט הלכלוך הושלך בכוונה.,2021-11-25 12:47:00
5626,2710,"32.8137707,35.2709865",לעיון אום אלפחם,רחוב מסחרי,שקית אשפה,חיובית,בחור צעיר שיצא ממבנה זרק שקית אשפה לפח,זכר,10-19,,2021-11-25 13:07:00
5627,2710,"32.8137707,35.2709865",לעיון אום אלפחם,רחוב מסחרי,מיכל משקה,שלילית,ילדה קטנה עוברת רגל השליכה מיכל משקה לריצפה,נקבה,10-19,נראה היה שפריט הלכלוך הושלך בכוונה.,2021-11-25 13:31:00
5628,2710,"32.8137707,35.2709865",לעיון אום אלפחם,רחוב מסחרי,בדל סיגריה,שלילית,בחור צעיר שעמד בצד ועישן סיגריה \nכשסיים זרק א...,זכר,20-29,נראה היה שפריט הלכלוך הושלך בכוונה.,2021-11-25 13:55:00


In [18]:
prof = ydp.ProfileReport(df_dropped)
prof.to_notebook_iframe()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

In [19]:
df_dropped[df_dropped.teorshlilihiyuvi == 'שלילית']

Unnamed: 0,city_code,geo_location,location_address,location_type,parit,teorshlilihiyuvi,teortext,gender,age,heged1,incident_time
2,874,"32.6753736,35.2392182",מגדל העמק רחוב הזית,רחוב מסחרי,סיגריה,שלילית,השלכה,זכר,30-49,אדם עמד להיכנס למבנה וזרק את פריט הלכלוך לפני ...,2021-07-08 11:20:00
3,874,"32.6753736,35.2392182",מגדל העמק רחוב הזית,רחוב מסחרי,שקית נילון,שלילית,השלכה,זכר,50-69,,2021-07-08 11:25:00
5,874,"32.6753736,35.2392182",מגדל העמק רחוב הזית,רחוב מסחרי,סיגריה,שלילית,השלכה,נקבה,20-29,,2021-07-08 12:05:00
6,874,"32.6753736,35.2392182",מגדל העמק רחוב הזית,רחוב מסחרי,אריזות מזון,שלילית,השלכה ליד הרכב,זכר,50-69,,2021-07-08 12:50:00
7,874,"32.6753736,35.2392182",מגדל העמק רחוב הזית,רחוב מסחרי,שקית נייר,שלילית,השלכה ליד הרכב,זכר,30-49,,2021-07-08 13:10:00
...,...,...,...,...,...,...,...,...,...,...,...
5624,2710,"32.8137707,35.2709865",לעיון אום אלפחם,רחוב מסחרי,כוס קרטון חם,שלילית,בחור צעיר שעמד בכנסת מבנה זרק כוס חם לריצפה א...,זכר,20-29,נראה היה שפריט הלכלוך הושלך בכוונה.,2021-11-25 12:03:00
5625,2710,"32.8137707,35.2709865",לעיון אום אלפחם,רחוב מסחרי,בדל סיגריה,שלילית,גבר זרק בדל סיגריה מהרכב בזמן נהיגה,זכר,30-49,נראה היה שפריט הלכלוך הושלך בכוונה.,2021-11-25 12:47:00
5627,2710,"32.8137707,35.2709865",לעיון אום אלפחם,רחוב מסחרי,מיכל משקה,שלילית,ילדה קטנה עוברת רגל השליכה מיכל משקה לריצפה,נקבה,10-19,נראה היה שפריט הלכלוך הושלך בכוונה.,2021-11-25 13:31:00
5628,2710,"32.8137707,35.2709865",לעיון אום אלפחם,רחוב מסחרי,בדל סיגריה,שלילית,בחור צעיר שעמד בצד ועישן סיגריה \nכשסיים זרק א...,זכר,20-29,נראה היה שפריט הלכלוך הושלך בכוונה.,2021-11-25 13:55:00


In [20]:
# df[df.geo_location.isnull() & df.location_address.str.contains('\n')]