# Zaman Metodları

## Python Tarih Saat İncelemesi

Temel Python, bir tarih saat kütüphanesi içerir:

Temel Python'da tarih veya saat nesnesinin yanı sıra bir tarih-saat(datetime) nesnesi de vardır. Aslında sadece tarih ve saat bilgilerini içeren özelleşmiş bir nesnedir. Bu, zaman nesnesinden saatin kaç olduğu veya hangi yılda olunduğu gibi şeyleri çıkarabileceğiniz anlamına gelir ve Pandas, .str yöntemlerinin bir listesine sahip olduğu gibi, dbt yöntemleri olarak adlandırılan bir listeye, bir datetime nesnesinden kolayca bilgi çıkarmamızı sağlayan tarih-saat yöntemlerine sahiptir.

Bu özellik mühendisliği (feature engineering) ve makine öğrenmesi söz konusu olduğunda gerçekten yararlıdır.

Örneğin, zaman damgalı (timestamp) satış verilerine sahip olalım ve bir müşterinin geçmiş eğilimlerine dayanarak bir malı satın alıp almayacağını tahmin etmeye çalışalım. Bunların pandas'ın yapmamıza izin vereceği şey, aslında haftanın günü gibi zaman damgasından bilgi çıkarmaktır. Hafta sonu muydu, hafta içi mi? AM'miydi PM'mi ?

Daha sonra birçok makine öğrenmesi yönteminin tam bir datetime nesnesini anlayamadığını göreceğiz. Ancak, haftanın bir günü, hafta sonuna karşı hafta içi veya AM'ye karşı PM gibi daha kategorik olan şeyleri kolayca anlayabilirler.

Akılda tutulması gereken bir şey de, aslında makine öğrenmesinden daha ayrı olan özel zaman serisi tahmin algoritmaları olduğudur. 

Bir datetime nesnesi olan bir sütundan bilgi çıkarmamıza olanak tanıyan pandas yöntemlerine odaklanalım.

In [2]:
import numpy as np
import pandas as pd

from datetime import datetime

In [3]:
# Datetime nesnesindeki argümanların oluşturulma sırasını gösterelim
my_year = 2017
my_month = 1
my_day = 2
my_hour = 13
my_minute = 30
my_second = 15

In [4]:
# January 2nd, 2017
my_date = datetime(my_year,my_month,my_day)

In [5]:
# zaman default olarak 0:00
my_date 
# şimdi bir datetime nesnesine sahibiz.

datetime.datetime(2017, 1, 2, 0, 0)

In [6]:
# January 2nd, 2017 at 13:30:15
my_date_time = datetime(my_year,my_month,my_day,my_hour,my_minute,my_second)

In [7]:
my_date_time

datetime.datetime(2017, 1, 2, 13, 30, 15)

In [8]:
my_date_time.year

2017

In [9]:
my_date_time.day

2

In [10]:
my_date_time.hour

13

# Pandas Zaman Serisi

In [11]:
myser = pd.Series(['Nov 3, 2000', '2000-01-01', None])

In [12]:
myser

0    Nov 3, 2000
1     2000-01-01
2           None
dtype: object

In [13]:
myser[0]

'Nov 3, 2000'

In [14]:
myser[0].year 
# pandas sadece string'den datetime nesnesinin ne olduğunu anlamaz!

AttributeError: 'str' object has no attribute 'year'

## Tarih saatine (datetime) dönüştürme

Genellikle veri kümeleri depolandığında, zaman bileşeni bir string olabilir. Pandas, stringleri kolayca tarih saat nesnesine dönüştürür. 

### pd.to_datetime()

In [15]:
timeser = pd.to_datetime(myser) # Series'mızı datetime nesnesine dönüştürür

In [16]:
timeser

0   2000-11-03
1   2000-01-01
2          NaT
dtype: datetime64[ns]

In [17]:
timeser[0].year

2000

In [18]:
# Bir timestamp'in Avrupa tarihi mi yoksa Amerika mı olduğunu nasıl anlıyor.
euro_date = '31-12-2000'

In [19]:
pd.to_datetime(euro_date, infer_datetime_format=True) 

Timestamp('2000-12-31 00:00:00')

In [20]:
# 10 Aralık veya Ekim 12?
# Pandas'a söylememiz gerekebilir
euro_date = '10-12-2000'

Bunun 10 Aralık 2000 olması gerektiğini biliyorum, ancak bir Amerikalı bunu okursa, bunun aslında 12 Ekim olduğunu düşünebilir.

Peki böyle bir şeyi pandas'a aktardığımızda ne olur?

pandas.to_datetime(euro_date) dersek, pandas'ın buradaki 10 sayısının ay olacağını varsayacaktır.

Amerikan hisse senedi verileriyle ilgilenen Amerikalı bir geliştirici tarafından geliştirildiği için, 10 aymış gibi okur. Ancak bu bir Avrupa tarihiyse ve günün önce gelmesini istiyorsak, yani bunun 12 Ekim yerine 10 Aralık olduğunu söylemek istiyorsak, yapmamız gereken sadece dayFirst adında bir parametreyi True değerine eşitlemektir. Bunu çalıştırdığınızda, gün 10 diyecektir.

Eğer ay ilk ise, o zaman bunun aslında 10 Aralık olduğunu biliyorum. Dolayısıyla, Avrupa formatına sahipseniz ve gün önce geliyorsa, önce günleri belirtirsiniz.

In [21]:
pd.to_datetime(euro_date) 

Timestamp('2000-10-12 00:00:00')

In [22]:
pd.to_datetime(euro_date,dayfirst=True) 

Timestamp('2000-12-10 00:00:00')

## Özel Zaman Stringi Biçimlendirme 

Bazen tarihlerin standart olmayan bir biçimi olabilir, neyse ki her zaman biçimi pandas'a belirtebilirsiniz. Bunun dönüşümü hızlandırabileceğini de unutmamalısınız, bu nedenle pandas kendi başlarına ayrıştırabilse bile yapmaya değer olabilir.

In [23]:
style_date = '12--Dec--2000'

In [24]:
# pandas'a tarihin formatını belirtme
pd.to_datetime(style_date, format='%d--%b--%Y')

Timestamp('2000-12-12 00:00:00')

In [25]:
strange_date = '12th of Dec 2000'

In [26]:
pd.to_datetime(strange_date)

Timestamp('2000-12-12 00:00:00')

## Data

Perakende satışlar: Beer, Wine ve Liquor Stores

Birimler: Milyonlarca Dolar, Mevsimsellikten Arındırılmamış

Frekans:  Aylık


In [28]:
sales = pd.read_csv('RetailSales_BeerWineLiquor.csv')

In [29]:
sales

Unnamed: 0,DATE,MRTSSM4453USN
0,1992-01-01,1509
1,1992-02-01,1541
2,1992-03-01,1597
3,1992-04-01,1675
4,1992-05-01,1822
...,...,...
335,2019-12-01,6630
336,2020-01-01,4388
337,2020-02-01,4533
338,2020-03-01,5562


In [30]:
sales['DATE']

0      1992-01-01
1      1992-02-01
2      1992-03-01
3      1992-04-01
4      1992-05-01
          ...    
335    2019-12-01
336    2020-01-01
337    2020-02-01
338    2020-03-01
339    2020-04-01
Name: DATE, Length: 340, dtype: object

In [31]:
sales['DATE'].iloc[0]

'1992-01-01'

In [32]:
type(sales['DATE'].iloc[0])

str

In [33]:
# DATE sütunundaki tarih bilgisini datetime nesnesine dönüştürme
sales['DATE'] = pd.to_datetime(sales['DATE'])

In [34]:
sales

Unnamed: 0,DATE,MRTSSM4453USN
0,1992-01-01,1509
1,1992-02-01,1541
2,1992-03-01,1597
3,1992-04-01,1675
4,1992-05-01,1822
...,...,...
335,2019-12-01,6630
336,2020-01-01,4388
337,2020-02-01,4533
338,2020-03-01,5562


In [35]:
sales.iloc[0]['DATE']

Timestamp('1992-01-01 00:00:00')

In [36]:
type(sales.iloc[0]['DATE'])

pandas._libs.tslibs.timestamps.Timestamp

In [37]:
sales['DATE'][0].year

1992

## Tarihleri Otomatik Olarak Ayrıştırmak

**parse_dates** - bool or list of int or names or list of lists or dict, default False
The behavior is as follows:

    boolean. If True -> try parsing the index.

    list of int or names. e.g. If [1, 2, 3] -> try parsing columns 1, 2, 3 each as a separate date column.

    list of lists. e.g. If [[1, 3]] -> combine columns 1 and 3 and parse as a single date column.

    dict, e.g. {‘foo’ : [1, 3]} -> parse columns 1, 3 as date and call result ‘foo’

    If a column or index cannot be represented as an array of datetimes, say because of an unparseable value or a mixture of timezones, the column or index will be returned unaltered as an object data type. For non-standard datetime parsing, use pd.to_datetime after pd.read_csv. To parse an index or column with a mixture of timezones, specify date_parser to be a partially-applied pandas.to_datetime() with utc=True. See Parsing a CSV with mixed timezones for more.

In [38]:
sales.head()

Unnamed: 0,DATE,MRTSSM4453USN
0,1992-01-01,1509
1,1992-02-01,1541
2,1992-03-01,1597
3,1992-04-01,1675
4,1992-05-01,1822


In [39]:
# 0 indeksli Sütunu Datetime Olarak Ayrıştırma
sales = pd.read_csv('RetailSales_BeerWineLiquor.csv',parse_dates=[0])

In [40]:
sales['DATE']

0     1992-01-01
1     1992-02-01
2     1992-03-01
3     1992-04-01
4     1992-05-01
         ...    
335   2019-12-01
336   2020-01-01
337   2020-02-01
338   2020-03-01
339   2020-04-01
Name: DATE, Length: 340, dtype: datetime64[ns]

In [41]:
type(sales.iloc[0]['DATE'])

pandas._libs.tslibs.timestamps.Timestamp

In [42]:
sales['DATE'][0].year

1992

## Yeniden örnekleme
Zaman serisi verileriyle ortak bir işlem, zaman serisi endeksine dayalı olarak yeniden örneklemedir.

In [43]:
# Our index
sales.index

RangeIndex(start=0, stop=340, step=1)

In [44]:
# indeksi DATE sütununa ayalama
#sales = sales.set_index("DATE")

In [48]:
sales

Unnamed: 0,DATE,MRTSSM4453USN
0,1992-01-01,1509
1,1992-02-01,1541
2,1992-03-01,1597
3,1992-04-01,1675
4,1992-05-01,1822
...,...,...
335,2019-12-01,6630
336,2020-01-01,4388
337,2020-02-01,4533
338,2020-03-01,5562


`.resample()` çağırırken önce bir **rule** parametresini girmeniz, ardından bir tür toplama fonksiyonunu çağırmanız gerekir.

Toplama fonksiyonu gereklidir, çünkü yeniden örnekleme nedeniyle, satırları birleştirmek için bir tür matematiksel kurala ihtiyacımız var (mean, sum, count, vb.)

<table style="display: inline-block">
    <caption style="text-align: center"><strong>ZAMAN SERİLERİNE KARŞI GELEN TAKMA İSİMLER</strong></caption>
<tr><th>TAKMA İSİMLER</th><th>AÇIKLAMA</th></tr>
<tr><td>B</td><td>business day frequency</td></tr>
<tr><td>C</td><td>custom business day frequency (experimental)</td></tr>
<tr><td>D</td><td>calendar day frequency</td></tr>
<tr><td>W</td><td>weekly frequency</td></tr>
<tr><td>M</td><td>month end frequency</td></tr>
<tr><td>SM</td><td>semi-month end frequency (15th and end of month)</td></tr>
<tr><td>BM</td><td>business month end frequency</td></tr>
<tr><td>CBM</td><td>custom business month end frequency</td></tr>
<tr><td>MS</td><td>month start frequency</td></tr>
<tr><td>SMS</td><td>semi-month start frequency (1st and 15th)</td></tr>
<tr><td>BMS</td><td>business month start frequency</td></tr>
<tr><td>CBMS</td><td>custom business month start frequency</td></tr>
<tr><td>Q</td><td>quarter end frequency</td></tr>
<tr><td></td><td><font color=white>BİLEREK BOŞ BIRAKILDI</font></td></tr></table>

<table style="display: inline-block; margin-left: 40px">
<caption style="text-align: center"></caption>
<tr><th>TAKMA İSİMLER</th><th>AÇIKLAMA</th></tr>
<tr><td>BQ</td><td>business quarter endfrequency</td></tr>
<tr><td>QS</td><td>quarter start frequency</td></tr>
<tr><td>BQS</td><td>business quarter start frequency</td></tr>
<tr><td>A</td><td>year end frequency</td></tr>
<tr><td>BA</td><td>business year end frequency</td></tr>
<tr><td>AS</td><td>year start frequency</td></tr>
<tr><td>BAS</td><td>business year start frequency</td></tr>
<tr><td>BH</td><td>business hour frequency</td></tr>
<tr><td>H</td><td>hourly frequency</td></tr>
<tr><td>T, min</td><td>minutely frequency</td></tr>
<tr><td>S</td><td>secondly frequency</td></tr>
<tr><td>L, ms</td><td>milliseconds</td></tr>
<tr><td>U, us</td><td>microseconds</td></tr>
<tr><td>N</td><td>nanoseconds</td></tr></table>

In [49]:
# Yıllık ortalamalar
# sales.resample(rule='A').mean()

TypeError: Only valid with DatetimeIndex, TimedeltaIndex or PeriodIndex, but got an instance of 'RangeIndex'

Yeniden örnekleme kuralı 'A' belirli bir yıldaki tüm veri noktalarını alır, toplama işlevini uygular (bu durumda ortalama hesaplama) ve sonucu o yılın son günü olarak bildirir. 

# .dt Metodunu Çağırma

In [50]:
sales = pd.read_csv('RetailSales_BeerWineLiquor.csv',parse_dates=[0])

In [51]:
sales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 340 entries, 0 to 339
Data columns (total 2 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   DATE           340 non-null    datetime64[ns]
 1   MRTSSM4453USN  340 non-null    int64         
dtypes: datetime64[ns](1), int64(1)
memory usage: 5.4 KB


In [52]:
sales

Unnamed: 0,DATE,MRTSSM4453USN
0,1992-01-01,1509
1,1992-02-01,1541
2,1992-03-01,1597
3,1992-04-01,1675
4,1992-05-01,1822
...,...,...
335,2019-12-01,6630
336,2020-01-01,4388
337,2020-02-01,4533
338,2020-03-01,5562


In [54]:
#help(sales['DATE'].dt)

In [55]:
sales['DATE'].dt.month

0       1
1       2
2       3
3       4
4       5
       ..
335    12
336     1
337     2
338     3
339     4
Name: DATE, Length: 340, dtype: int64

In [56]:
sales['DATE'].dt.is_leap_year

0       True
1       True
2       True
3       True
4       True
       ...  
335    False
336     True
337     True
338     True
339     True
Name: DATE, Length: 340, dtype: bool

In [57]:
sales['DATE'].dt.is_leap_year

0       True
1       True
2       True
3       True
4       True
       ...  
335    False
336     True
337     True
338     True
339     True
Name: DATE, Length: 340, dtype: bool

# SON!