In [180]:
#%pip install scikit-learn

In [181]:
# imports
import pandas as pd
import os
import numpy as np
from sklearn.preprocessing import LabelEncoder

In [182]:
# Use raw string (r"") or double backslashes to avoid path issues
file_path = r"C:\Users\yaniv\OneDrive\Desktop\Datathon\Hackaton0404\ED_full_data.csv"

# Read the CSV file
df = pd.read_csv(file_path)

In [183]:
processed = df.copy()
processed['timestamp'] = pd.to_datetime(df['timestamp'], utc=True, format='mixed')
processed['clean_timestamp'] = processed['timestamp'].dt.strftime('%Y-%m-%d %H:%M:%S') #Without utc and microseconds

In [184]:
processed = df.copy()
processed['timestamp'] = pd.to_datetime(df['timestamp'], utc=True, format='mixed')
processed['clean_timestamp'] = processed['timestamp'].dt.strftime('%Y-%m-%d %H:%M:%S') #Without utc and microseconds

In [185]:
print(processed['clean_timestamp'].head())
print(processed['clean_timestamp'].tail())

0    2023-11-08 08:12:03
1    2023-11-08 08:12:03
2    2024-03-18 10:08:57
3    2024-03-18 10:08:58
4    2024-03-18 13:54:53
Name: clean_timestamp, dtype: object
463892    2025-01-23 10:07:21
463893    2025-01-23 10:10:50
463894    2025-01-23 10:14:00
463895    2025-01-23 10:14:00
463896    2025-01-23 10:14:01
Name: clean_timestamp, dtype: object


In [186]:
# Create date and time columns
processed['clean_timestamp'] = pd.to_datetime(processed['clean_timestamp'])
processed['date'] = processed['clean_timestamp'].dt.date
processed['time'] = processed['clean_timestamp'].dt.time
print(processed['time'].head())
print(processed['date'].head())

0    08:12:03
1    08:12:03
2    10:08:57
3    10:08:58
4    13:54:53
Name: time, dtype: object
0    2023-11-08
1    2023-11-08
2    2024-03-18
3    2024-03-18
4    2024-03-18
Name: date, dtype: object


In [187]:
# Remove old columns
processed = processed.drop(columns=['clean_timestamp', 'timestamp'], axis=1)

In [188]:
processed

Unnamed: 0,department,room,requirement,status,date,time
0,מיון כירורגיה - מ.הלכים,חדר הלם,רמת דחיפות,4,2023-11-08,08:12:03
1,מיון פנימי,מיון קורונה ב`,רמת דחיפות,3,2023-11-08,08:12:03
2,A,A104,ניקיון تنظيف,satisfied,2024-03-18,10:08:57
3,A,A104,ניקיון تنظيف,required,2024-03-18,10:08:58
4,טראומה חדש,T5,כח עזר - אוכל,satisfied,2024-03-18,13:54:53
...,...,...,...,...,...,...
463892,A,A114,בדיקת רופא,satisfied,2025-01-23,10:07:21
463893,C,C316,בדיקת רופא,satisfied,2025-01-23,10:10:50
463894,A,A104,בדיקת דם,required,2025-01-23,10:14:00
463895,A,A104,תפוס,required,2025-01-23,10:14:00


In [189]:
# Convert to datetime
processed['date'] = pd.to_datetime(processed['date'])

In [190]:
processed 

Unnamed: 0,department,room,requirement,status,date,time
0,מיון כירורגיה - מ.הלכים,חדר הלם,רמת דחיפות,4,2023-11-08,08:12:03
1,מיון פנימי,מיון קורונה ב`,רמת דחיפות,3,2023-11-08,08:12:03
2,A,A104,ניקיון تنظيف,satisfied,2024-03-18,10:08:57
3,A,A104,ניקיון تنظيف,required,2024-03-18,10:08:58
4,טראומה חדש,T5,כח עזר - אוכל,satisfied,2024-03-18,13:54:53
...,...,...,...,...,...,...
463892,A,A114,בדיקת רופא,satisfied,2025-01-23,10:07:21
463893,C,C316,בדיקת רופא,satisfied,2025-01-23,10:10:50
463894,A,A104,בדיקת דם,required,2025-01-23,10:14:00
463895,A,A104,תפוס,required,2025-01-23,10:14:00


In [191]:
# Extract year, month, day
processed['day'] = processed['date'].dt.day
processed['month'] = processed['date'].dt.month
processed['year'] = processed['date'].dt.year

In [192]:
processed

Unnamed: 0,department,room,requirement,status,date,time,day,month,year
0,מיון כירורגיה - מ.הלכים,חדר הלם,רמת דחיפות,4,2023-11-08,08:12:03,8,11,2023
1,מיון פנימי,מיון קורונה ב`,רמת דחיפות,3,2023-11-08,08:12:03,8,11,2023
2,A,A104,ניקיון تنظيف,satisfied,2024-03-18,10:08:57,18,3,2024
3,A,A104,ניקיון تنظيف,required,2024-03-18,10:08:58,18,3,2024
4,טראומה חדש,T5,כח עזר - אוכל,satisfied,2024-03-18,13:54:53,18,3,2024
...,...,...,...,...,...,...,...,...,...
463892,A,A114,בדיקת רופא,satisfied,2025-01-23,10:07:21,23,1,2025
463893,C,C316,בדיקת רופא,satisfied,2025-01-23,10:10:50,23,1,2025
463894,A,A104,בדיקת דם,required,2025-01-23,10:14:00,23,1,2025
463895,A,A104,תפוס,required,2025-01-23,10:14:00,23,1,2025


In [193]:
# Extract hour, minute and seconds
processed['time'] = pd.to_datetime(processed['time'], format='%H:%M:%S').dt.time
processed['hours'] =  processed['time'].apply(lambda x: x.hour)
processed['minutes'] = processed['time'].apply(lambda x: x.minute)
processed['seconds'] = processed['time'].apply(lambda x: x.second)

In [194]:
processed

Unnamed: 0,department,room,requirement,status,date,time,day,month,year,hours,minutes,seconds
0,מיון כירורגיה - מ.הלכים,חדר הלם,רמת דחיפות,4,2023-11-08,08:12:03,8,11,2023,8,12,3
1,מיון פנימי,מיון קורונה ב`,רמת דחיפות,3,2023-11-08,08:12:03,8,11,2023,8,12,3
2,A,A104,ניקיון تنظيف,satisfied,2024-03-18,10:08:57,18,3,2024,10,8,57
3,A,A104,ניקיון تنظيف,required,2024-03-18,10:08:58,18,3,2024,10,8,58
4,טראומה חדש,T5,כח עזר - אוכל,satisfied,2024-03-18,13:54:53,18,3,2024,13,54,53
...,...,...,...,...,...,...,...,...,...,...,...,...
463892,A,A114,בדיקת רופא,satisfied,2025-01-23,10:07:21,23,1,2025,10,7,21
463893,C,C316,בדיקת רופא,satisfied,2025-01-23,10:10:50,23,1,2025,10,10,50
463894,A,A104,בדיקת דם,required,2025-01-23,10:14:00,23,1,2025,10,14,0
463895,A,A104,תפוס,required,2025-01-23,10:14:00,23,1,2025,10,14,0


In [195]:
processed['requirement'].unique()

array(['רמת דחיפות', 'ניקיון تنظيف', 'כח עזר - אוכל', 'כח עזר - שונות',
       'צר"פ', 'כביסה', 'כח עזר - סיוע למטופל', 'תפוס', 'בדיקת דם',
       'בדיקת אק"ג', 'יעוץ', 'נקיון - החלפת פרגוד', 'נקיון - בידוד',
       'בדיקת רופא'], dtype=object)

In [196]:
# Label Encoding
encoder = LabelEncoder()
processed['requirements_category'] = encoder.fit_transform(processed['requirement'])

In [197]:
# Label mapping
category_mapping = dict(zip(encoder.classes_, encoder.transform(encoder.classes_)))
print("\nCategory to Label Mapping:")
print(category_mapping)


Category to Label Mapping:
{'בדיקת אק"ג': np.int64(0), 'בדיקת דם': np.int64(1), 'בדיקת רופא': np.int64(2), 'יעוץ': np.int64(3), 'כביסה': np.int64(4), 'כח עזר - אוכל': np.int64(5), 'כח עזר - סיוע למטופל': np.int64(6), 'כח עזר - שונות': np.int64(7), 'ניקיון تنظيف': np.int64(8), 'נקיון - בידוד': np.int64(9), 'נקיון - החלפת פרגוד': np.int64(10), 'צר"פ': np.int64(11), 'רמת דחיפות': np.int64(12), 'תפוס': np.int64(13)}


In [198]:
# Move new column next to requirements column
cols = list(processed.columns)
cols.remove('requirements_category')  # Remove column 'C'
cols.insert(3, 'requirements_category')  # Insert column 'C' after 'A'
processed = processed[cols]
processed

Unnamed: 0,department,room,requirement,requirements_category,status,date,time,day,month,year,hours,minutes,seconds
0,מיון כירורגיה - מ.הלכים,חדר הלם,רמת דחיפות,12,4,2023-11-08,08:12:03,8,11,2023,8,12,3
1,מיון פנימי,מיון קורונה ב`,רמת דחיפות,12,3,2023-11-08,08:12:03,8,11,2023,8,12,3
2,A,A104,ניקיון تنظيف,8,satisfied,2024-03-18,10:08:57,18,3,2024,10,8,57
3,A,A104,ניקיון تنظيف,8,required,2024-03-18,10:08:58,18,3,2024,10,8,58
4,טראומה חדש,T5,כח עזר - אוכל,5,satisfied,2024-03-18,13:54:53,18,3,2024,13,54,53
...,...,...,...,...,...,...,...,...,...,...,...,...,...
463892,A,A114,בדיקת רופא,2,satisfied,2025-01-23,10:07:21,23,1,2025,10,7,21
463893,C,C316,בדיקת רופא,2,satisfied,2025-01-23,10:10:50,23,1,2025,10,10,50
463894,A,A104,בדיקת דם,1,required,2025-01-23,10:14:00,23,1,2025,10,14,0
463895,A,A104,תפוס,13,required,2025-01-23,10:14:00,23,1,2025,10,14,0


## Remove empty rows

In [199]:
# Remove all rows with any empty (NaN) cells
processed = processed.dropna()

processed

df = processed

## Change room values

In [200]:
unique_values = df['room'].unique()

print(unique_values)

['חדר הלם' 'מיון קורונה ב`' 'A104' 'T5' 'T6' 'T2' 'T3' 'T4' 'A113' 'A111'
 'חדר גבס 5' 'A117' 'A109' 'A108' 'A107' 'A106' 'A112' 'A114' 'A115'
 'A116' 'A101' 'A102' 'A103' 'A105' 'A110' 'C309' 'C310' 'C303' 'C306'
 'C307' 'C301' 'C315' 'C304' 'C316' 'B204' 'B210' 'B206' 'B203' 'B202'
 'B214' 'C302' 'B201' 'C320' '431' 'טריאז 3' 'טריאז 2' 'דמים' 'T1' 'B217'
 'B209' 'טריאז 1' '404-405' '403' 'B205' 'B216' 'C312' 'המתנה כללי'
 '404/405' '418' 'חדר ספטי 9' 'המתנה פנימי' 'חדר בידוד 1' 'חדר טיפולים 7'
 '117' 'ממתין להחלטה' 'עיניים' '9' '21' '18' '39' 'ממתין למכתב שחרור'
 'ממתין ליעוץ' '50' '2' '23' '30' '7' '28' '16' '12' 'ממתין לבדיקות מעבדה'
 '15' '3' '17' 'חדר בידוד' '8' '19' '6' '29' '4' '13' '14' 'צילום' ' '
 'CT' 'B213' '215' '24' 'B215' 'אורולוג' '201' 'ממתין לאשפוז' 'C318' '415'
 'C321' '1' '27' '25' 'רופא מהלכים 4' '10' '26' '22' 'ממתין לתשובת הדמיה'
 '11' 'א.א.ג.' 'חדר גבס' 'נשים' '101' 'רופא מהלכים 3' '63' 'US'
 'רופא מהלכים 1' '61' '20' '62' '5' '55' '109' '203' '208' '214' 'B208

In [201]:
#non_numeric_values = df['room'][df['room'].apply(lambda x: not isinstance(x, (int, float)))].unique()

non_numeric_values = df['room'].unique()

print(non_numeric_values)

# Create a dictionary mapping non-numeric values to unique integers
room_mapping = {value: i for i, value in enumerate(non_numeric_values, 1)}

# Opt into the future behavior
pd.set_option('future.no_silent_downcasting', True)

df.loc[:, 'room'] = df['room'].replace(room_mapping)

['חדר הלם' 'מיון קורונה ב`' 'A104' 'T5' 'T6' 'T2' 'T3' 'T4' 'A113' 'A111'
 'חדר גבס 5' 'A117' 'A109' 'A108' 'A107' 'A106' 'A112' 'A114' 'A115'
 'A116' 'A101' 'A102' 'A103' 'A105' 'A110' 'C309' 'C310' 'C303' 'C306'
 'C307' 'C301' 'C315' 'C304' 'C316' 'B204' 'B210' 'B206' 'B203' 'B202'
 'B214' 'C302' 'B201' 'C320' '431' 'טריאז 3' 'טריאז 2' 'דמים' 'T1' 'B217'
 'B209' 'טריאז 1' '404-405' '403' 'B205' 'B216' 'C312' 'המתנה כללי'
 '404/405' '418' 'חדר ספטי 9' 'המתנה פנימי' 'חדר בידוד 1' 'חדר טיפולים 7'
 '117' 'ממתין להחלטה' 'עיניים' '9' '21' '18' '39' 'ממתין למכתב שחרור'
 'ממתין ליעוץ' '50' '2' '23' '30' '7' '28' '16' '12' 'ממתין לבדיקות מעבדה'
 '15' '3' '17' 'חדר בידוד' '8' '19' '6' '29' '4' '13' '14' 'צילום' ' '
 'CT' 'B213' '215' '24' 'B215' 'אורולוג' '201' 'ממתין לאשפוז' 'C318' '415'
 'C321' '1' '27' '25' 'רופא מהלכים 4' '10' '26' '22' 'ממתין לתשובת הדמיה'
 '11' 'א.א.ג.' 'חדר גבס' 'נשים' '101' 'רופא מהלכים 3' '63' 'US'
 'רופא מהלכים 1' '61' '20' '62' '5' '55' '109' '203' '208' '214' 'B208

In [202]:
df

Unnamed: 0,department,room,requirement,requirements_category,status,date,time,day,month,year,hours,minutes,seconds
0,מיון כירורגיה - מ.הלכים,1,רמת דחיפות,12,4,2023-11-08,08:12:03,8,11,2023,8,12,3
1,מיון פנימי,2,רמת דחיפות,12,3,2023-11-08,08:12:03,8,11,2023,8,12,3
2,A,3,ניקיון تنظيف,8,satisfied,2024-03-18,10:08:57,18,3,2024,10,8,57
3,A,3,ניקיון تنظيف,8,required,2024-03-18,10:08:58,18,3,2024,10,8,58
4,טראומה חדש,4,כח עזר - אוכל,5,satisfied,2024-03-18,13:54:53,18,3,2024,13,54,53
...,...,...,...,...,...,...,...,...,...,...,...,...,...
463892,A,18,בדיקת רופא,2,satisfied,2025-01-23,10:07:21,23,1,2025,10,7,21
463893,C,34,בדיקת רופא,2,satisfied,2025-01-23,10:10:50,23,1,2025,10,10,50
463894,A,3,בדיקת דם,1,required,2025-01-23,10:14:00,23,1,2025,10,14,0
463895,A,3,תפוס,13,required,2025-01-23,10:14:00,23,1,2025,10,14,0


In [204]:
len(non_numeric_values)

259

In [203]:
room_mapping

{'חדר הלם': 1,
 'מיון קורונה ב`': 2,
 'A104': 3,
 'T5': 4,
 'T6': 5,
 'T2': 6,
 'T3': 7,
 'T4': 8,
 'A113': 9,
 'A111': 10,
 'חדר גבס 5': 11,
 'A117': 12,
 'A109': 13,
 'A108': 14,
 'A107': 15,
 'A106': 16,
 'A112': 17,
 'A114': 18,
 'A115': 19,
 'A116': 20,
 'A101': 21,
 'A102': 22,
 'A103': 23,
 'A105': 24,
 'A110': 25,
 'C309': 26,
 'C310': 27,
 'C303': 28,
 'C306': 29,
 'C307': 30,
 'C301': 31,
 'C315': 32,
 'C304': 33,
 'C316': 34,
 'B204': 35,
 'B210': 36,
 'B206': 37,
 'B203': 38,
 'B202': 39,
 'B214': 40,
 'C302': 41,
 'B201': 42,
 'C320': 43,
 '431': 44,
 'טריאז 3': 45,
 'טריאז 2': 46,
 'דמים': 47,
 'T1': 48,
 'B217': 49,
 'B209': 50,
 'טריאז 1': 51,
 '404-405': 52,
 '403': 53,
 'B205': 54,
 'B216': 55,
 'C312': 56,
 'המתנה כללי': 57,
 '404/405': 58,
 '418': 59,
 'חדר ספטי 9': 60,
 'המתנה פנימי': 61,
 'חדר בידוד 1': 62,
 'חדר טיפולים 7': 63,
 '117': 64,
 'ממתין להחלטה': 65,
 'עיניים': 66,
 '9': 67,
 '21': 68,
 '18': 69,
 '39': 70,
 'ממתין למכתב שחרור': 71,
 'ממתין ליעוץ': 72,
