# Pandas DataFrames - Time Methods

Limbajul de programare Python are un modul denumit datetime care are rolul de a reține informații despre dată și timp. Precum Pandas are un mod de a aplea metode specifice pentru obiecte de tip string, la fel are și o variantă de a apela metode specifice pentru acest tip de obiect. Metoda prin care se apelează aceste metode este prin utilizarea 'dbt'. La ce ne ajută aceste date despre dată și oră?

Să zicem că avem anumite date care rețin informații despre anumite vânzări, printre care și ziua și ora când s-au făcut vânzările respective. Din aceste date dorim să facem o predicție pentru când anume o să facă un anumit utilizator o achiziție de produs. Pandas ne permite ca din datele de timestamp să extragem informații cu privire la ziua achiziției și la ora achiziției de produse recente.

În continuare o să începem să aruncăm o privire peste astfel de date și cum anume putem să realizăm anumite operații cu aceste date

In [2]:
# importing the libraries
import numpy as np
import pandas as pd

from datetime import datetime

In [3]:
year = 2021
month = 9
day = 7
hour = 22
minutes = 18
seconds = 15

Mai sus avem mai multe variabile care rețin date despre o dată, cum ar fi anul, luna, ziua, ora, minutul și secundele. Aceste variabile reprezintă ordinea de construcție a unui obiect de tipul datetime. Putem să creem un obiect de acest fel utilizând ceea ce am importat din modulul datetime

In [4]:
my_date = datetime(year, month, day)

In [5]:
my_date

datetime.datetime(2021, 9, 7, 0, 0)

După ce am creat acel obiect (utilizând momentan doar anul, luna și ziua) dacă îl afișăm observăm că acest obiect este de tip datetime și completează automat cu valorea 0 pentru ceea ce nu s-a oferit (oră, minute și secunde). Putem să oferim și aceste date în cadrul metodei de construcție a unui astfel de obiect

In [6]:
my_date = datetime(year, month, day, hour, minutes, seconds)

In [7]:
my_date

datetime.datetime(2021, 9, 7, 22, 18, 15)

Obiectul pe care l-am creat mai sus are o mulțime de atribute și metode pentru a extrage date din acest obiect de tip datetime. De exemplu, dacă dorim să extragem anul din acest obiect putem utiliza atributul 'year'. Acest atribut trebuie apelat pentru obiectul datetime

In [8]:
my_date.year

2021

Faptul că putem să extargem datele din acest obiect o să ne ajute în partea de Machine Learning deoarece multe dintre algoritmele respective nu recunosc acest obiect de tip datetime și trebuie procesat pentru a putea utiliza datele din cadrul acestui obiect corespunzător.

În continuare o să începem să utilizăm Pandas pentru a extrage aceste date. De reținut faptul că în momentul în care se citesc anumite date care au și informații de tipul datetime, aceste informații pot fi structurate în mai multe modalități. Un exemplu este stilul european unde datele sunt de forma YYYY/MM/DD (year/month/day), iar alt exemplu este stilul american unde datele sunt trecute sub forma MM/DD/YYYY (month/day/year)

In [9]:
my_series = pd.Series(['Nov 5, 1997', '2001-11-11', None])

In [10]:
my_series

0    Nov 5, 1997
1     2001-11-11
2           None
dtype: object

În Series-ul de mai sus avem trecute mai multe informații (3 la număr). Ceea ce Pandas nu știe în acest moment că prinele două informații dorim să le citească precum obiecte de tipul datetime. Momentan aceste obiecte sunt citite precum string-uri. Ceea ce trebuie specificat iar este faptul că există două tipuri de date (datetime) diferite în acest Series. Pandas ne pune la dispoziție o metodă denumită 'to_datetime()' prin care convertește anumite date în format datetime

In [11]:
pd.to_datetime(my_series)

0   1997-11-05
1   2001-11-11
2          NaT
dtype: datetime64[ns]

Deși în cadrul acelui Series aveam două tipuri de date care rețin informații referitoare la timp și dată, iar pe lângă asta mai exista și un obiect de tip None, Pandas a convertit toate aceste informații în obiecte de tipul datetime (pentru cel None a precizat că este un obiect NaT - not a time object). În acest moment, fiind un obiect de tipul datetime putem să accem atribute precum year

In [12]:
time_series = pd.to_datetime(my_series)

In [13]:
time_series[0].year

1997

Cum se specifica, există două stiluri de a reține date, stilul european și stilul american. Întrebarea e de unde știe Pandas să facă diferența între aceste două stiluri? Pentru a răspunde la întrebarea asta o să trecem prin câteva exemple

In [14]:
euro_date = '31-12-2020'

In [15]:
pd.to_datetime(euro_date)

  pd.to_datetime(euro_date)


Timestamp('2020-12-31 00:00:00')

În situația în care avem un format de dată european (cum e cel de sus) atunci Pandas doar face anumie asumpții. Știm că formatul de dată european este DD/MM/YYYY. Pentru situația de mai sus, este clar că data la care se referă este 31 decembrie, deoarece nu există luna 31 pentru a crede că 31 face referire la o lună.

In [16]:
euro_date2 = '10-12-2020'

Pentru cazul de mai sus avem tot o dată în format european, dar de data aceasta ziua este 10 (ceea ce poate fi considerat a fiind o lună)

In [17]:
pd.to_datetime(euro_date2)

Timestamp('2020-10-12 00:00:00')

Ceea ce se întîmplă acuma este faptul că acel 10 (deși noi știm că fiind un stil de dată european face referire la zi) este considerat ca și lună. Asta se întâmplă din cauză că Pandas a fost creat de către un american care a implementat ca stiul de date default să fie cel american. Din acest motiv, Pandas pentru metoda respectivă ne propune un argument denumit 'dayfirst' pentru care putem să îi atribum valori Booleane. Default este setat la False, dar dacă se modifică valorea la True, atunci prima valoare dintr-un astfel de format o să fie considerată ca fiind ziua, nu luna

In [18]:
pd.to_datetime(euro_date2, dayfirst=True)

Timestamp('2020-12-10 00:00:00')

În situația în care avem un set de date care are atât un stil de dată european cât și unul american, atunci problema este în cadrul setului de date, nu este ceva ce s-ar putea rezolva utilizând metoda pd.to_datetime()

În continuare o să ne uităm peste un set de date dintr-un csv care are o coloană ce reține informații de tip datetime.

In [19]:
df = pd.read_csv('../data/03-Pandas/RetailSales_BeerWineLiquor.csv')

In [20]:
df

Unnamed: 0,DATE,MRTSSM4453USN
0,1992-01-01,1509
1,1992-02-01,1541
2,1992-03-01,1597
3,1992-04-01,1675
4,1992-05-01,1822
...,...,...
335,2019-12-01,6630
336,2020-01-01,4388
337,2020-02-01,4533
338,2020-03-01,5562


In [21]:
df['DATE']

0      1992-01-01
1      1992-02-01
2      1992-03-01
3      1992-04-01
4      1992-05-01
          ...    
335    2019-12-01
336    2020-01-01
337    2020-02-01
338    2020-03-01
339    2020-04-01
Name: DATE, Length: 340, dtype: object

În momentul în care se citește un fișier csv și nu se specifică faptul că în cadrul acestui fișier sunt anumite date de tipul datetime, atunci aceste date o să fie citite precum string-uri (după cum se poate vedea în codul de mai sus). Există mai multe metode de a transforma aceste date în obiecte datetime. Prima metodă este să transformăm aceste date după ce acestea au fost citite

In [22]:
df['DATE'] = pd.to_datetime(df['DATE'])

In [24]:
df['DATE']

0     1992-01-01
1     1992-02-01
2     1992-03-01
3     1992-04-01
4     1992-05-01
         ...    
335   2019-12-01
336   2020-01-01
337   2020-02-01
338   2020-03-01
339   2020-04-01
Name: DATE, Length: 340, dtype: datetime64[ns]

O altă metodă este parsăm aceste date în momentul în care se citește acest fișier csv. Pentru asta, la metoda read_csv o dă îi mai adăugăm argumnetul parse_dates la care ca și valoare o să îi oferim o listă de index-uri. Aceste index-uri reprezintă locația (index-ul) unde se găsesc aceste coloane pe care trebuie să le parsăm în cadrul DataFrame-ului (în cazul de față o să parsăm coloana 'DATE' care se găsește pe index-ul 0)

In [25]:
df = pd.read_csv('../data/03-Pandas/RetailSales_BeerWineLiquor.csv', parse_dates=[0])

In [26]:
df['DATE']

0     1992-01-01
1     1992-02-01
2     1992-03-01
3     1992-04-01
4     1992-05-01
         ...    
335   2019-12-01
336   2020-01-01
337   2020-02-01
338   2020-03-01
339   2020-04-01
Name: DATE, Length: 340, dtype: datetime64[ns]

În acest fel, datele din coloana respectivă sunt citite precum date de tipul datetime. Se recomandă să se parseze datele în momentul în care se citesc fișierele. După cum spuneam, aceste obiecte de tipul datetime au anumite atribute specifice ce putem să le accesăm pentru a extrage date din cadrul acestor informații. Pentru asta o să utilizăm '.dt' (precum '.str' pentru string-uri) 

In [27]:
df['DATE'].dt.year

0      1992
1      1992
2      1992
3      1992
4      1992
       ... 
335    2019
336    2020
337    2020
338    2020
339    2020
Name: DATE, Length: 340, dtype: int64

În anumite situații o să avem nevoie să utilizăm această coloană de datetime ca și un index         

In [29]:
df.set_index('DATE', inplace=True)

In [30]:
df

Unnamed: 0_level_0,MRTSSM4453USN
DATE,Unnamed: 1_level_1
1992-01-01,1509
1992-02-01,1541
1992-03-01,1597
1992-04-01,1675
1992-05-01,1822
...,...
2019-12-01,6630
2020-01-01,4388
2020-02-01,4533
2020-03-01,5562


Din moment ce acest tip de date este unul diferit, există o metodă specială prin care se pot grupa datele din acest DataFrame în funcție de aceste date. Metoda respectivă poartă denumirea de resample(). Acestei metode trebuie să îi oferim o regulă, și anume după ce să grupeze aceste date (pe ani, pe luni, etc). Regulile acestea pot fi preluate din pagina de documentație pentru Datetime objects din Pandas. (https://pandas.pydata.org/docs/user_guide/timeseries.html). La link-ul respectiv, la partea de offset aliases există o serie de reguli pe care le putem aplica. De exemplu, dacă dorim să grupă datele pe ani, atunci ceea ce trebuie să îi oferim ca și regulă este doar string-ul 'A'

In [31]:
df.resample(rule='A')

<pandas.core.resample.DatetimeIndexResampler object at 0x7f9f85424250>

Ceea ce este returnat este la fel un lazy object, prin urmare Pandas așteaptă să se apeleze ceva metodă de agregare, statistică pentru aceste grupuri

In [32]:
df.resample(rule='A').mean()

Unnamed: 0_level_0,MRTSSM4453USN
DATE,Unnamed: 1_level_1
1992-12-31,1807.25
1993-12-31,1794.833333
1994-12-31,1841.75
1995-12-31,1833.916667
1996-12-31,1929.75
1997-12-31,2006.75
1998-12-31,2115.166667
1999-12-31,2206.333333
2000-12-31,2375.583333
2001-12-31,2468.416667


## Recapitulare

În cadrul acestui tutorial am învățat următoarele lucruri:

    1. Cum să parsăm un tip de date string într-un obiect de tipul datetime în Pandas

        pd.to_datetime(my_str_date)

    2. Faptul că există două stiluri de a reține date

        Stilul European = DD/MM/YYYY   12/10/2020  (12th October 2020)

        Stilul American = MM/DD/YYYY   12/10/2020  (10th December 2020)

    3. Cum putem specifica în ce tip de date să se transforme un anumit string

        pd.to_datetime(my_str_date, dayfirst=True)

    4.Cum să parsăm coloanele în datetime objects la citirea unui fișier 

        df = pd.read_csv('../data/03-Pandas/RetailSales_BeerWineLiquor.csv', parse_dates=[0])

            [0] = index-ul pe care se găsește coloana unde sunt informații despre date

    5. Cum să accesăm informații din obiectele de tipul datetime

        df['DATE'].dt.year

    6. Cum să 'grupăm' (resample) datele dintr-un DataFrame pe baza datelor

        df.resample(rule='A')