In [45]:
# imports
import pandas as pd
import os
import seaborn as sns

In [46]:
# Original data
DATA_DIR = r"data"
DATA_FILEPATH = os.path.join(DATA_DIR, "data.csv")
df = pd.read_csv(DATA_FILEPATH)
print(df.head())

                       timestamp               department            room  \
0     2023-11-08 08:12:03.787+00  מיון כירורגיה - מ.הלכים         חדר הלם   
1     2023-11-08 08:12:03.787+00               מיון פנימי  מיון קורונה ב`   
2  2024-03-18 10:08:57.218644+00                        A            A104   
3  2024-03-18 10:08:58.083959+00                        A            A104   
4  2024-03-18 13:54:53.606752+00               טראומה חדש              T5   

     requirement     status  
0     רמת דחיפות          4  
1     רמת דחיפות          3  
2   ניקיון تنظيف  satisfied  
3   ניקיון تنظيف   required  
4  כח עזר - אוכל  satisfied  


In [47]:
processed = df.copy()
processed['timestamp'] = pd.to_datetime(df['timestamp'], utc=True, format='mixed')
processed['clean_timestamp'] = processed['timestamp'].dt.strftime('%Y-%m-%d %H:%M:%S') #Without utc and microseconds

In [48]:
print(processed['clean_timestamp'].head())
print(processed['clean_timestamp'].tail())

0    2023-11-08 08:12:03
1    2023-11-08 08:12:03
2    2024-03-18 10:08:57
3    2024-03-18 10:08:58
4    2024-03-18 13:54:53
Name: clean_timestamp, dtype: object
463892    2025-01-23 10:07:21
463893    2025-01-23 10:10:50
463894    2025-01-23 10:14:00
463895    2025-01-23 10:14:00
463896    2025-01-23 10:14:01
Name: clean_timestamp, dtype: object


In [49]:
# Create date and time columns
processed['clean_timestamp'] = pd.to_datetime(processed['clean_timestamp'])
processed['date'] = processed['clean_timestamp'].dt.date
processed['time'] = processed['clean_timestamp'].dt.time
print(processed['time'].head())
print(processed['date'].head())

0    08:12:03
1    08:12:03
2    10:08:57
3    10:08:58
4    13:54:53
Name: time, dtype: object
0    2023-11-08
1    2023-11-08
2    2024-03-18
3    2024-03-18
4    2024-03-18
Name: date, dtype: object


In [50]:
# Remove old columns
processed = processed.drop(columns=['clean_timestamp', 'timestamp'], axis=1)

In [51]:
processed

Unnamed: 0,department,room,requirement,status,date,time
0,מיון כירורגיה - מ.הלכים,חדר הלם,רמת דחיפות,4,2023-11-08,08:12:03
1,מיון פנימי,מיון קורונה ב`,רמת דחיפות,3,2023-11-08,08:12:03
2,A,A104,ניקיון تنظيف,satisfied,2024-03-18,10:08:57
3,A,A104,ניקיון تنظيف,required,2024-03-18,10:08:58
4,טראומה חדש,T5,כח עזר - אוכל,satisfied,2024-03-18,13:54:53
...,...,...,...,...,...,...
463892,A,A114,בדיקת רופא,satisfied,2025-01-23,10:07:21
463893,C,C316,בדיקת רופא,satisfied,2025-01-23,10:10:50
463894,A,A104,בדיקת דם,required,2025-01-23,10:14:00
463895,A,A104,תפוס,required,2025-01-23,10:14:00


In [52]:
# Convert to datetime
processed['date'] = pd.to_datetime(processed['date'])

In [53]:
processed

Unnamed: 0,department,room,requirement,status,date,time
0,מיון כירורגיה - מ.הלכים,חדר הלם,רמת דחיפות,4,2023-11-08,08:12:03
1,מיון פנימי,מיון קורונה ב`,רמת דחיפות,3,2023-11-08,08:12:03
2,A,A104,ניקיון تنظيف,satisfied,2024-03-18,10:08:57
3,A,A104,ניקיון تنظيف,required,2024-03-18,10:08:58
4,טראומה חדש,T5,כח עזר - אוכל,satisfied,2024-03-18,13:54:53
...,...,...,...,...,...,...
463892,A,A114,בדיקת רופא,satisfied,2025-01-23,10:07:21
463893,C,C316,בדיקת רופא,satisfied,2025-01-23,10:10:50
463894,A,A104,בדיקת דם,required,2025-01-23,10:14:00
463895,A,A104,תפוס,required,2025-01-23,10:14:00


In [54]:
# Extract year, month, day
processed['day'] = processed['date'].dt.day
processed['month'] = processed['date'].dt.month
processed['year'] = processed['date'].dt.year

In [55]:
processed

Unnamed: 0,department,room,requirement,status,date,time,day,month,year
0,מיון כירורגיה - מ.הלכים,חדר הלם,רמת דחיפות,4,2023-11-08,08:12:03,8,11,2023
1,מיון פנימי,מיון קורונה ב`,רמת דחיפות,3,2023-11-08,08:12:03,8,11,2023
2,A,A104,ניקיון تنظيف,satisfied,2024-03-18,10:08:57,18,3,2024
3,A,A104,ניקיון تنظيف,required,2024-03-18,10:08:58,18,3,2024
4,טראומה חדש,T5,כח עזר - אוכל,satisfied,2024-03-18,13:54:53,18,3,2024
...,...,...,...,...,...,...,...,...,...
463892,A,A114,בדיקת רופא,satisfied,2025-01-23,10:07:21,23,1,2025
463893,C,C316,בדיקת רופא,satisfied,2025-01-23,10:10:50,23,1,2025
463894,A,A104,בדיקת דם,required,2025-01-23,10:14:00,23,1,2025
463895,A,A104,תפוס,required,2025-01-23,10:14:00,23,1,2025


In [59]:
# Extract hour, minute and seconds
processed['time'] = pd.to_datetime(processed['time'], format='%H:%M:%S').dt.time
processed['hours'] =  processed['time'].apply(lambda x: x.hour)
processed['minutes'] = processed['time'].apply(lambda x: x.minute)
processed['seconds'] = processed['time'].apply(lambda x: x.second)

In [60]:
processed

Unnamed: 0,department,room,requirement,status,date,time,day,month,year,hours,minutes,seconds
0,מיון כירורגיה - מ.הלכים,חדר הלם,רמת דחיפות,4,2023-11-08,08:12:03,8,11,2023,8,12,3
1,מיון פנימי,מיון קורונה ב`,רמת דחיפות,3,2023-11-08,08:12:03,8,11,2023,8,12,3
2,A,A104,ניקיון تنظيف,satisfied,2024-03-18,10:08:57,18,3,2024,10,8,57
3,A,A104,ניקיון تنظيف,required,2024-03-18,10:08:58,18,3,2024,10,8,58
4,טראומה חדש,T5,כח עזר - אוכל,satisfied,2024-03-18,13:54:53,18,3,2024,13,54,53
...,...,...,...,...,...,...,...,...,...,...,...,...
463892,A,A114,בדיקת רופא,satisfied,2025-01-23,10:07:21,23,1,2025,10,7,21
463893,C,C316,בדיקת רופא,satisfied,2025-01-23,10:10:50,23,1,2025,10,10,50
463894,A,A104,בדיקת דם,required,2025-01-23,10:14:00,23,1,2025,10,14,0
463895,A,A104,תפוס,required,2025-01-23,10:14:00,23,1,2025,10,14,0
