# Time Methods

## Python Datetime Review

Basic Python outside of Pandas contains a datetime library:

In [None]:
import pandas as pd
import numpy as np
from datetime import datetime

In [3]:
myyear = 2017
mymonth = 1
myday = 1
myhour = 2
mymin = 30
mysec = 15

In [4]:
# yıl, ay, gün girerek datetime object oluşturmak için. Zaman bilgileri girilmediğinde default olark 0 alır.

mydate = datetime(myyear, mymonth, myday) 
mydate

datetime.datetime(2017, 1, 1, 0, 0)

In [6]:
mydatetime = datetime(myyear, mymonth, myday, myhour, mymin, mysec)
mydatetime  # bir datetime objekti oluşturduk.

# datetime obj. yıl, ay, gün, saat, dakika, saniye ve hatta salise bilgilerini içerebilir.

datetime.datetime(2017, 1, 1, 2, 30, 15)

In [7]:
mydatetime.year  # datetime obj'in istediğiniz parçasını (ör. yıl) bu şekilde elde edebilirsiniz.

2017

In [13]:
mydatetime.month

1

In [14]:
mydatetime.day

1

In [15]:
mydatetime.hour

2

In [17]:
mydatetime.minute

30

In [18]:
mydatetime.second

15

In [20]:
mydatetime.time()  # zaman bilgilerinin tamamını görmek için

datetime.time(2, 30, 15)

In [21]:
mydatetime.date()  # tarih bilgilerini (yıl, ay, gün) görmek için

datetime.date(2017, 1, 1)

## Converting to datetime

Often when data sets are stored, the time component may be a string. Pandas easily converts strings to datetime objects.

In [8]:
myser = pd.Series(["Nov 3, 1990", "2000-01-01", None])
myser

0    Nov 3, 1990
1     2000-01-01
2           None
dtype: object

In [10]:
myser[0]  # 0. elemanına baktığımızda str olduğunu görürüz.

'Nov 3, 1990'

In [11]:
myser[0].year  # year attribute ile yılını sorguladığımda str object old. için hata verir. 

AttributeError: 'str' object has no attribute 'year'

In [23]:
# myser 'deki verileri datetime türüne çevirmek için pd.to_datetime() metodu kullanılır.

timeser = pd.to_datetime(myser)
timeser

0   1990-11-03
1   2000-01-01
2          NaT
dtype: datetime64[ns]

In [24]:
timeser[0].year  # datetime türüne değiştirdiğimiz için timeser elemanlarının istediğimiz parçasına(yıl, gün, ay) bu şekilde ulaşabilririz.

1990

In [25]:
obvi_euro_date = "31-12-2000"

In [26]:
pd.to_datetime(obvi_euro_date)  # burada gün 31 old. için gün-ay-yıl sıralaması olduğu açıktır.

Timestamp('2000-12-31 00:00:00')

In [27]:
# 10th of Dec OR 12th of October?
# We may need to tell pandas

euro_date = "10-12-2000"  # Ancak burada str değişkenimi datetime türüne değiştirince

In [28]:
pd.to_datetime(euro_date)  # gün ile ay bilgisinin yer değiştirdiğini görebiliriz.

Timestamp('2000-10-12 00:00:00')

In [29]:
pd.to_datetime(euro_date, dayfirst=True)  # yukarıdaki değişikliği engellemek için dayfirst parametresini True olarak kullanmalıyız.

Timestamp('2000-12-10 00:00:00')

## Cutom Time String Formatting

Sometimes dates can have a non standard format, luckily you can always specify to pandas the format. You should also note this could speed up the conversion, so it may be worth doing even if pandas can parse on its own.

A full table of codes can be found here: https://docs.python.org/3/library/datetime.html#strftime-and-strptime-format-codes

In [30]:
style_date = "12--Dec--2000"

In [31]:
pd.to_datetime(style_date, format="%d--%b--%Y")

Timestamp('2000-12-12 00:00:00')

In [32]:
strange_date = "12th of Dec 2000"

In [33]:
pd.to_datetime(strange_date) 

# format belirtilmediği durumlarda da pandas stringden datetime obj. dönüştürme işini doğru bir şekilde otomatik olarak yapabilmektedir.
# Ancak bu her durumda geçerli değildir. Ör. style date için bu yöntem çalışmamakta ve format istemektedir.

Timestamp('2000-12-12 00:00:00')

In [35]:
another_date = " 12 12 2000"
pd.to_datetime(another_date) 

Timestamp('2000-12-12 00:00:00')

## Data

In [41]:
sales = pd.read_csv("RetailSales_BeerWineLiquor.csv")
sales

Unnamed: 0,DATE,MRTSSM4453USN
0,1992-01-01,1509
1,1992-02-01,1541
2,1992-03-01,1597
3,1992-04-01,1675
4,1992-05-01,1822
...,...,...
335,2019-12-01,6630
336,2020-01-01,4388
337,2020-02-01,4533
338,2020-03-01,5562


In [42]:
sales["DATE"]  # DATE kolonu object/string tür veri içermektedir.

0      1992-01-01
1      1992-02-01
2      1992-03-01
3      1992-04-01
4      1992-05-01
          ...    
335    2019-12-01
336    2020-01-01
337    2020-02-01
338    2020-03-01
339    2020-04-01
Name: DATE, Length: 340, dtype: object

In [43]:
# DATE sütunundaki verileri datetime object'e dönüştürmek için

sales["DATE"] = pd.to_datetime(sales["DATE"])

In [46]:
sales["DATE"]  # şimdi DATE sütunu verilerinin datetime' a dönüştüğünü görebiliriz.

0     1992-01-01
1     1992-02-01
2     1992-03-01
3     1992-04-01
4     1992-05-01
         ...    
335   2019-12-01
336   2020-01-01
337   2020-02-01
338   2020-03-01
339   2020-04-01
Name: DATE, Length: 340, dtype: datetime64[ns]

In [47]:
sales["DATE"][0].year  # datetime object'e dönüştürdükten sonra istediğimiz elemanın yıl, gün, ay bilgilerini rahatlıkla ayırabiliriz.

# Özellikle apply fonksiyonunu kullanarak bu ayırma işlemlerini yapabilirsiniz.

1992

## Attempt to Parse Dates Automatically

**parse_dates** - bool or list of int or names or list of lists or dict, default False
The behavior is as follows:

    boolean. If True -> try parsing the index.

    list of int or names. e.g. If [1, 2, 3] -> try parsing columns 1, 2, 3 each as a separate date column.

    list of lists. e.g. If [[1, 3]] -> combine columns 1 and 3 and parse as a single date column.

    dict, e.g. {‘foo’ : [1, 3]} -> parse columns 1, 3 as date and call result ‘foo’

    If a column or index cannot be represented as an array of datetimes, say because of an unparseable value or a mixture of timezones, the column or index will be returned unaltered as an object data type. For non-standard datetime parsing, use pd.to_datetime after pd.read_csv. To parse an index or column with a mixture of timezones, specify date_parser to be a partially-applied pandas.to_datetime() with utc=True. See Parsing a CSV with mixed timezones for more.

In [55]:
# Parse Column at Index 0 as Datetime

# Dosya okuma aşamasında parse_dates parametresi kullanılarak
# datetime'a dönüştürülecek kolon indexleri liste içerisinde parse_dates'e eşitlenerek de
# istenen kolonlardaki tarih bilgileri datetime türüne dönüştürülebilir.

sales = pd.read_csv("RetailSales_BeerWineLiquor.csv", parse_dates=[0])  # burada date sütunu 0. indexte old. için [0] yazdık.
sales

Unnamed: 0,DATE,MRTSSM4453USN
0,1992-01-01,1509
1,1992-02-01,1541
2,1992-03-01,1597
3,1992-04-01,1675
4,1992-05-01,1822
...,...,...
335,2019-12-01,6630
336,2020-01-01,4388
337,2020-02-01,4533
338,2020-03-01,5562


In [58]:
type(sales["DATE"][0])

pandas._libs.tslibs.timestamps.Timestamp

## Resample

A common operation with time series data is resampling based on the time series index. Let's see how to use the resample() method. [reference]

In [59]:
sales.index  # şu andaki index değerleri

RangeIndex(start=0, stop=340, step=1)

In [65]:
# DATE sütununu index yapmak için

sales = sales.set_index("DATE")

In [66]:
sales

Unnamed: 0_level_0,MRTSSM4453USN
DATE,Unnamed: 1_level_1
1992-01-01,1509
1992-02-01,1541
1992-03-01,1597
1992-04-01,1675
1992-05-01,1822
...,...
2019-12-01,6630
2020-01-01,4388
2020-02-01,4533
2020-03-01,5562


When calling .resample() you first need to pass in a rule parameter, then you need to call some sort of aggregation function.

The rule parameter describes the frequency with which to apply the aggregation function (daily, monthly, yearly, etc.)
It is passed in using an "offset alias" - refer to the table below. [reference]

The aggregation function is needed because, due to resampling, we need some sort of mathematical rule to join the rows (mean, sum, count, etc.)

<table style="display: inline-block">
    <caption style="text-align: center"><strong>TIME SERIES OFFSET ALIASES</strong></caption>
<tr><th>ALIAS</th><th>DESCRIPTION</th></tr>
<tr><td>B</td><td>business day frequency</td></tr>
<tr><td>C</td><td>custom business day frequency (experimental)</td></tr>
<tr><td>D</td><td>calendar day frequency</td></tr>
<tr><td>W</td><td>weekly frequency</td></tr>
<tr><td>M</td><td>month end frequency</td></tr>
<tr><td>SM</td><td>semi-month end frequency (15th and end of month)</td></tr>
<tr><td>BM</td><td>business month end frequency</td></tr>
<tr><td>CBM</td><td>custom business month end frequency</td></tr>
<tr><td>MS</td><td>month start frequency</td></tr>
<tr><td>SMS</td><td>semi-month start frequency (1st and 15th)</td></tr>
<tr><td>BMS</td><td>business month start frequency</td></tr>
<tr><td>CBMS</td><td>custom business month start frequency</td></tr>
<tr><td>Q</td><td>quarter end frequency</td></tr>
<tr><td></td><td><font color=white>intentionally left blank</font></td></tr></table>

<table style="display: inline-block; margin-left: 40px">
<caption style="text-align: center"></caption>
<tr><th>ALIAS</th><th>DESCRIPTION</th></tr>
<tr><td>BQ</td><td>business quarter endfrequency</td></tr>
<tr><td>QS</td><td>quarter start frequency</td></tr>
<tr><td>BQS</td><td>business quarter start frequency</td></tr>
<tr><td>A</td><td>year end frequency</td></tr>
<tr><td>BA</td><td>business year end frequency</td></tr>
<tr><td>AS</td><td>year start frequency</td></tr>
<tr><td>BAS</td><td>business year start frequency</td></tr>
<tr><td>BH</td><td>business hour frequency</td></tr>
<tr><td>H</td><td>hourly frequency</td></tr>
<tr><td>T, min</td><td>minutely frequency</td></tr>
<tr><td>S</td><td>secondly frequency</td></tr>
<tr><td>L, ms</td><td>milliseconds</td></tr>
<tr><td>U, us</td><td>microseconds</td></tr>
<tr><td>N</td><td>nanoseconds</td></tr></table>

In [67]:
# sales df'teki yıllık ortalamaları bulmak için

sales.resample(rule="A")  # A: year end frequency dikkate alınarak sales df gruplandırılıp bir groupby object oluşturuldu.

<pandas.core.resample.DatetimeIndexResampler object at 0x0000014182BEF250>

In [68]:
# Bu groupby object ile bir agg fonksiyon kullanmalıyız.

sales.resample(rule="A").mean() # ortalama alarak yıl bazında ortamaları bulmuş olduk. 

Unnamed: 0_level_0,MRTSSM4453USN
DATE,Unnamed: 1_level_1
1992-12-31,1807.25
1993-12-31,1794.833333
1994-12-31,1841.75
1995-12-31,1833.916667
1996-12-31,1929.75
1997-12-31,2006.75
1998-12-31,2115.166667
1999-12-31,2206.333333
2000-12-31,2375.583333
2001-12-31,2468.416667
