# Let's try to create targets in the form of as many date formats as possible

In [1]:
import locale
import pandas as pd
from ephesus.data import get_data_targets_json

## import target data

In [2]:
df = get_data_targets_json()
df.head()

Unnamed: 0,fichier,TreatmentDetected_1,NGAP_1,Cotation_1,Hour_1,AldRelated_1,CareBeginDate_1,CareDuration_1,CareDurationTypeEnum_1,CareOnPublicHoliday_1,CareLocation_1,CareBeginHpName_1,ZoneName_1,IK_1
0,2d035c4b-cdfa-4982-87dc-916fe07a0824_249f1d30-...,,PSG,,09:00:00,True,2019-12-04T09:00:00,1,Days,True,Cabinet,Gassert Margaux,,
1,2d035c4b-cdfa-4982-87dc-916fe07a0824_019a0add-...,,PC19,,09:40:00,False,2021-10-16T09:30:00,1,Days,True,Cabinet,,,
2,55d674cc-3389-4cf6-ab7c-1f1b9fa1b6ed_02a55241-...,,TAID19,,18:35:00,False,2022-04-05T18:35:00,1,Days,True,Domicile,Ceulemans Aline,,
3,9f980dcf-b431-4e67-876f-2b8e288b7900_1a26bbf2-...,,TAIC19,,08:00:00,False,2022-01-09T08:00:00,1,Days,True,Cabinet,Aubry Sandra,,"{'KilometersNumberPlain': None, 'KilometersNum..."
4,2d035c4b-cdfa-4982-87dc-916fe07a0824_545d42f0-...,,PSG,,08:00:00,True,2021-09-28T08:00:00,1,Days,True,Domicile,,,


In [3]:
df = df[["fichier", "CareBeginDate_1"]]
df.head()

Unnamed: 0,fichier,CareBeginDate_1
0,2d035c4b-cdfa-4982-87dc-916fe07a0824_249f1d30-...,2019-12-04T09:00:00
1,2d035c4b-cdfa-4982-87dc-916fe07a0824_019a0add-...,2021-10-16T09:30:00
2,55d674cc-3389-4cf6-ab7c-1f1b9fa1b6ed_02a55241-...,2022-04-05T18:35:00
3,9f980dcf-b431-4e67-876f-2b8e288b7900_1a26bbf2-...,2022-01-09T08:00:00
4,2d035c4b-cdfa-4982-87dc-916fe07a0824_545d42f0-...,2021-09-28T08:00:00


In [4]:
# we need to clean a few dates that were set to year 0001
df["CareBeginDate_1"][1060:1065]

1060    2021-04-15T08:00:00
1061    2021-07-21T11:15:00
1062    0001-01-01T00:00:00
1063    2020-10-23T12:00:00
1064    2020-02-10T09:30:00
Name: CareBeginDate_1, dtype: object

In [5]:
def change_year(s):
    if s[:4] == "0001":
        return "2000" + s[4:]
    else:
        return s

df["CareBeginDate_fix"] = df["CareBeginDate_1"].apply(change_year)
df.head()

Unnamed: 0,fichier,CareBeginDate_1,CareBeginDate_fix
0,2d035c4b-cdfa-4982-87dc-916fe07a0824_249f1d30-...,2019-12-04T09:00:00,2019-12-04T09:00:00
1,2d035c4b-cdfa-4982-87dc-916fe07a0824_019a0add-...,2021-10-16T09:30:00,2021-10-16T09:30:00
2,55d674cc-3389-4cf6-ab7c-1f1b9fa1b6ed_02a55241-...,2022-04-05T18:35:00,2022-04-05T18:35:00
3,9f980dcf-b431-4e67-876f-2b8e288b7900_1a26bbf2-...,2022-01-09T08:00:00,2022-01-09T08:00:00
4,2d035c4b-cdfa-4982-87dc-916fe07a0824_545d42f0-...,2021-09-28T08:00:00,2021-09-28T08:00:00


In [6]:
df["CareBeginDate_datetime"] = pd.to_datetime(df["CareBeginDate_fix"], infer_datetime_format=True)
df.head()

Unnamed: 0,fichier,CareBeginDate_1,CareBeginDate_fix,CareBeginDate_datetime
0,2d035c4b-cdfa-4982-87dc-916fe07a0824_249f1d30-...,2019-12-04T09:00:00,2019-12-04T09:00:00,2019-12-04 09:00:00
1,2d035c4b-cdfa-4982-87dc-916fe07a0824_019a0add-...,2021-10-16T09:30:00,2021-10-16T09:30:00,2021-10-16 09:30:00
2,55d674cc-3389-4cf6-ab7c-1f1b9fa1b6ed_02a55241-...,2022-04-05T18:35:00,2022-04-05T18:35:00,2022-04-05 18:35:00
3,9f980dcf-b431-4e67-876f-2b8e288b7900_1a26bbf2-...,2022-01-09T08:00:00,2022-01-09T08:00:00,2022-01-09 08:00:00
4,2d035c4b-cdfa-4982-87dc-916fe07a0824_545d42f0-...,2021-09-28T08:00:00,2021-09-28T08:00:00,2021-09-28 08:00:00


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4078 entries, 0 to 4077
Data columns (total 4 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   fichier                 4078 non-null   object        
 1   CareBeginDate_1         4078 non-null   object        
 2   CareBeginDate_fix       4078 non-null   object        
 3   CareBeginDate_datetime  4078 non-null   datetime64[ns]
dtypes: datetime64[ns](1), object(3)
memory usage: 127.6+ KB


In [8]:
df["CareBeginDate_datetime"].dt.strftime('%B %d, %Y, %r')

0        December 04, 2019, 09:00:00 AM
1         October 16, 2021, 09:30:00 AM
2           April 05, 2022, 06:35:00 PM
3         January 09, 2022, 08:00:00 AM
4       September 28, 2021, 08:00:00 AM
                     ...               
4073     December 04, 2021, 05:30:00 PM
4074      January 05, 2022, 02:00:00 PM
4075      January 08, 2021, 09:00:00 AM
4076     November 24, 2021, 08:00:00 AM
4077     February 09, 2021, 11:00:00 AM
Name: CareBeginDate_datetime, Length: 4078, dtype: object

## create dates in French

It seems that once we change the variable "locale", it's permanent (we'll use it to our advantage)

In [9]:
#locale.getlocale() #show available locale languages
df["CareBeginDate_datetime"].dt.month_name(locale = ('fr_FR', 'UTF-8'))

0        Décembre
1         Octobre
2           Avril
3         Janvier
4       Septembre
          ...    
4073     Décembre
4074      Janvier
4075      Janvier
4076     Novembre
4077      Février
Name: CareBeginDate_datetime, Length: 4078, dtype: object

In [10]:
df["CareBeginDate_datetime"].dt.strftime('%A %d %B %Y à %Hh%M')

0       mercredi 04 décembre 2019 à 09h00
1          samedi 16 octobre 2021 à 09h30
2             mardi 05 avril 2022 à 18h35
3        dimanche 09 janvier 2022 à 08h00
4         mardi 28 septembre 2021 à 08h00
                      ...                
4073      samedi 04 décembre 2021 à 17h30
4074     mercredi 05 janvier 2022 à 14h00
4075     vendredi 08 janvier 2021 à 09h00
4076    mercredi 24 novembre 2021 à 08h00
4077        mardi 09 février 2021 à 11h00
Name: CareBeginDate_datetime, Length: 4078, dtype: object

In [11]:
df["CareBeginDate_datetime"].dt.strftime('%d %B %Y à %Hh%M')

0        04 décembre 2019 à 09h00
1         16 octobre 2021 à 09h30
2           05 avril 2022 à 18h35
3         09 janvier 2022 à 08h00
4       28 septembre 2021 à 08h00
                  ...            
4073     04 décembre 2021 à 17h30
4074      05 janvier 2022 à 14h00
4075      08 janvier 2021 à 09h00
4076     24 novembre 2021 à 08h00
4077      09 février 2021 à 11h00
Name: CareBeginDate_datetime, Length: 4078, dtype: object

In [12]:
df["CareBeginDate_datetime"].dt.strftime('%d %B %Y à %Hh')

0        04 décembre 2019 à 09h
1         16 octobre 2021 à 09h
2           05 avril 2022 à 18h
3         09 janvier 2022 à 08h
4       28 septembre 2021 à 08h
                 ...           
4073     04 décembre 2021 à 17h
4074      05 janvier 2022 à 14h
4075      08 janvier 2021 à 09h
4076     24 novembre 2021 à 08h
4077      09 février 2021 à 11h
Name: CareBeginDate_datetime, Length: 4078, dtype: object

In [13]:
df["CareBeginDate_datetime"].dt.strftime('%d %B à %Hh')

0        04 décembre à 09h
1         16 octobre à 09h
2           05 avril à 18h
3         09 janvier à 08h
4       28 septembre à 08h
               ...        
4073     04 décembre à 17h
4074      05 janvier à 14h
4075      08 janvier à 09h
4076     24 novembre à 08h
4077      09 février à 11h
Name: CareBeginDate_datetime, Length: 4078, dtype: object

In [21]:
def trim_day(day):
    return day.lstrip("0")

trim_day("04")

'4'

# now that I implemented this into a function : test that function

In [24]:
from ephesus.date import get_dates_targets, get_data_targets_json

In [27]:
df = get_data_targets_json()
df = get_dates_targets(df)
df.head()

Unnamed: 0,fichier,TreatmentDetected_1,NGAP_1,Cotation_1,Hour_1,AldRelated_1,CareBeginDate_1,CareDuration_1,CareDurationTypeEnum_1,CareOnPublicHoliday_1,...,CareBeginDate_month_format02,CareBeginDate_month_format03,CareBeginDate_year_format01,CareBeginDate_year_format02,CareBeginDate_hour_format01,CareBeginDate_hour_format02,CareBeginDate_hour_format03,CareBeginDate_hour_format04,CareBeginDate_hour_format05,CareBeginDate_hour_format06
0,2d035c4b-cdfa-4982-87dc-916fe07a0824_249f1d30-...,,PSG,,09:00:00,True,2019-12-04T09:00:00,1,Days,True,...,12,12,19,2019,9h00,9h,9,9h00,9h,9
1,2d035c4b-cdfa-4982-87dc-916fe07a0824_019a0add-...,,PC19,,09:40:00,False,2021-10-16T09:30:00,1,Days,True,...,10,10,21,2021,9h30,9h,9,9h30,9h,9
2,55d674cc-3389-4cf6-ab7c-1f1b9fa1b6ed_02a55241-...,,TAID19,,18:35:00,False,2022-04-05T18:35:00,1,Days,True,...,4,4,22,2022,18h35,18h,18,6h35,6h,6
3,9f980dcf-b431-4e67-876f-2b8e288b7900_1a26bbf2-...,,TAIC19,,08:00:00,False,2022-01-09T08:00:00,1,Days,True,...,1,1,22,2022,8h00,8h,8,8h00,8h,8
4,2d035c4b-cdfa-4982-87dc-916fe07a0824_545d42f0-...,,PSG,,08:00:00,True,2021-09-28T08:00:00,1,Days,True,...,9,9,21,2021,8h00,8h,8,8h00,8h,8
