# 시간 자료형 다루기
Python에서 시간 정보를 다룰 때는 상당한 주의가 필요합니다. 시간 정보를 담는 자료형과 패키지가 여러 가지이기 때문입니다.

* numpy 패키지에서는 `datetime64` 자료형이 있으며,
* pandas 패키지에서는 `timestamp` 자료형을 사용하고,
* datetime 패키지에서는 `datetime`, `date`, `time` 자료형이 있습니다.

이 모든 것들을 다 다루기에는 너무 방대하고, 개인적으로 생각했을 때 가장 사용이 편하고 널리 볼 수 있는 datetime, 자료형을 다루는 기본 연산을 알아보겠습니다.

In [1]:
import numpy as np
import pandas as pd
import datetime as dt

## 지난 학기 복습
### Timestamp
지난 학기에 삼성전자 데이터셋을 통해 다룬 시간 자료형은 Pandas 패키지에 내장된 timestamp에 해당합니다.

pandas로 데이터프레임을 읽어올 때 parse_dates옵션을 지정하면, 인덱스를 timestamp자료형으로 변환 가능한 경우 변환해 줍니다.

In [2]:
coins=pd.read_csv("/Users/yihoon-j/Documents/fr/2학기 교안 작업/Coin.csv", thousands=",", index_col=0, parse_dates=True)
coins

Unnamed: 0_level_0,Bitcoin,Ethereum,Litecoin
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2023-07-27,29190.0,1859.03,90.47
2023-07-26,29352.2,1872.00,90.66
2023-07-25,29228.6,1857.67,89.45
2023-07-24,29178.1,1850.04,89.14
2023-07-23,30085.9,1888.85,93.15
...,...,...,...
2022-07-31,23303.4,1680.00,59.77
2022-07-30,23634.2,1695.97,60.40
2022-07-29,23774.3,1720.77,60.62
2022-07-28,23850.0,1726.01,63.47


In [3]:
coins.index[0] #index가 timestamp로 인식되는 것을 볼 수 있습니다. parse_dates옵션이 없을 때 (False일 때)와 출력을 비교해보세요.

Timestamp('2023-07-27 00:00:00')

## Datetime / Date 자료형 만들기
시간 정보를 담는 또 다른 자료형은 Datetime, Date입니다. 날짜/시간 데이터 패키지인 datetime패키지가 필요한 자료형입니다.

두 자료형의 차이는 시간 정보의 유무입니다.

In [4]:
a=dt.datetime(2023,8, 5, 15, 12) #연, 월, 일, 시, 분. 시 분은 입력하지 않으면 0이 기본으로 입력되며, 뒤에 초 (0~59), 백만분의 일초 (0~999,999) 인자를 추가할 수도 있다.
a

datetime.datetime(2023, 8, 5, 15, 12)

year, month, day, hour, minute, day 인자로 각 시간 요소를 추출할 수 있다

In [5]:
a.year

2023

In [6]:
#아래에서 다룰 strptime, strftime 인자나 다른 시간 자료형들이 전부 시, 분, 초 단위를 포함하고 있기 때문에, datetime 인자를 쓸 일이 압도적으로 많긴 합니다.
dt.date(2023, 8,5)

datetime.date(2023, 8, 5)

## strptime
이렇게 직접 시간 자료형을 만드는 경우도 있지만 (학기 후반부에서 다룰 ELS코드는 이 방법을 사용), 데이터프레임을 만질 때는 문자 자료형을 날짜 자료형으로 바꾸는 경우가 흔히 발생합니다.

날짜 자료형으로 인식해야만 적절한 처리 (날짜 덧셈 및 뺄셈, 다른 형식으로 표시되도록 변경)이 가능하기 때문입니다.

텍스트 자료형에서 날짜를 읽어 오는 함수로는 datetime 패키지 내 datetime 모듈의 strptime이 가장 널리 사용되며, datetime 외 datetime64, timestamp 등의 자료형에도 사용이 가능합니다.

In [7]:
coins=pd.read_csv("/Users/yihoon-j/Documents/fr/2학기 교안 작업/Coin.csv", thousands=",")
coins['Date'][0]

'Jul 27, 2023'

In [8]:
coins['Date']=coins['Date'].apply(lambda x: dt.datetime.strptime(x,'%b %d, %Y'))
coins['Date'][0]

Timestamp('2023-07-27 00:00:00')

## Timedelta / Relativedelta
두 시점 간의 **시간 차이**를 담고 있는 자료형입니다.
timedelta 자료형은 일(日) 이하의 짧은 시간을 다루며, datetime 패키지 안에 내장되어 있습니다.

In [9]:
dt.timedelta(days=8) #"8일의 기간"의 의미에 해당하는 자료형입니다.

datetime.timedelta(days=8)

In [10]:
#원래 날짜에 8일을 더해 주는 방법
coins['Date'][0]+dt.timedelta(days=8)

Timestamp('2023-08-04 00:00:00')

In [11]:
#23일 차이 나는 두 날짜 간 뺄셈을 수행하면 23일에 해당하는 timedelta가 반환됩니다.
coins['Date'][0] - coins['Date'][23]

Timedelta('23 days 00:00:00')

timedelta에서는 days외에도 weeks, hours, minutes 등의 변수를 통해 날짜 변화량 계산이 가능합니다.

하지만 month, year 인자는 존재하지 않기 때문에, 월/연 단위 이동이 필요하다면 별도의 relativedelta 패키지를 이용해야 합니다.

엄밀히 말하면 두 패키지에서 다루는 자료형은 완전히 다릅니다. 하지만 연산이 서로 호환이 되기 때문에 크게 신경쓰지는 않아도 됩니다.

In [12]:
from dateutil.relativedelta import relativedelta
coins['Date'][0]+relativedelta(months=1)

Timestamp('2023-08-27 00:00:00')

### 응용: 매월 1일의 값을 매월 말일 값으로 바꾸기
월초 가격을 월말 가격과 대응해야 하는 경우가 존재합니다. 이 경우 조인을 위해 이런 기법을 종종 사용하는 경우가 있습니다.


In [14]:
day1s=coins[coins['Date'].apply(lambda x: x.day)==1]
day1s


Unnamed: 0,Date,Bitcoin,Ethereum,Litecoin
26,2023-07-01,30586.8,1924.53,107.34
56,2023-06-01,26819.0,1861.77,94.18
87,2023-05-01,28077.6,1830.75,86.76
117,2023-04-01,28456.1,1820.78,92.56
148,2023-03-01,23642.2,1666.09,97.85
176,2023-02-01,23725.6,1642.1,100.33
207,2023-01-01,16618.4,1200.52,70.91
238,2022-12-01,16972.0,1276.05,77.56
268,2022-11-01,20483.5,1579.64,55.12
299,2022-10-01,19311.9,1311.8,52.92


In [19]:
#어떻게 해야 할까요? 고민해봅시다
day1s['Date_last']=day1s['Date'].apply(lambda x: ???)
day1s

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  day1s['Date_last']=day1s['Date'].apply(lambda x: x+relativedelta(months=1)-dt.timedelta(days=1))


Unnamed: 0,Date,Bitcoin,Ethereum,Litecoin,Date_last
26,2023-07-01,30586.8,1924.53,107.34,2023-07-31
56,2023-06-01,26819.0,1861.77,94.18,2023-06-30
87,2023-05-01,28077.6,1830.75,86.76,2023-05-31
117,2023-04-01,28456.1,1820.78,92.56,2023-04-30
148,2023-03-01,23642.2,1666.09,97.85,2023-03-31
176,2023-02-01,23725.6,1642.1,100.33,2023-02-28
207,2023-01-01,16618.4,1200.52,70.91,2023-01-31
238,2022-12-01,16972.0,1276.05,77.56,2022-12-31
268,2022-11-01,20483.5,1579.64,55.12,2022-11-30
299,2022-10-01,19311.9,1311.8,52.92,2022-10-31


## strftime

텍스트를 날짜로 바꾸는 함수가 strptime이라면,

거꾸로 날짜 자료형을 텍스트로 바꿔 주는 함수는 strftime입니다.

- 텍스트형으로 되어 있는 다른 데이터와 날짜를 맞출 때

- 불필요한 시/분/초 부분이 보기 싫을 때

이런 경우 종종 사용하는 함수입니다.

In [21]:
coins['Date'][0]

Timestamp('2023-07-27 00:00:00')

In [22]:
coins['Date'][0].strftime('%y/%m/%d')

'23/07/27'

strptime, strftime을 결합하여, 텍스트 형태로 되어 있는 날짜 데이터를 다른 형식으로 변환할 수 있습니다.
예를 들어, coins 데이터의 현재 날짜 인덱스는

In [23]:
coins=pd.read_csv("/Users/yihoon-j/Documents/fr/2학기 교안 작업/Coin.csv", thousands=",")
coins.head()

Unnamed: 0,Date,Bitcoin,Ethereum,Litecoin
0,"Jul 27, 2023",29190.0,1859.03,90.47
1,"Jul 26, 2023",29352.2,1872.0,90.66
2,"Jul 25, 2023",29228.6,1857.67,89.45
3,"Jul 24, 2023",29178.1,1850.04,89.14
4,"Jul 23, 2023",30085.9,1888.85,93.15


이런 형태입니다. 그리고 이걸 timestamp 형식으로 바꾸면

In [24]:
coins['Date']=coins['Date'].apply(lambda x: dt.datetime.strptime(x,'%b %d, %Y'))
coins.head()

Unnamed: 0,Date,Bitcoin,Ethereum,Litecoin
0,2023-07-27,29190.0,1859.03,90.47
1,2023-07-26,29352.2,1872.0,90.66
2,2023-07-25,29228.6,1857.67,89.45
3,2023-07-24,29178.1,1850.04,89.14
4,2023-07-23,30085.9,1888.85,93.15


이런 모양이 되죠.

그렇다면 이 인덱스를 "27 Jul 2023, Sun."과 같은 형태로 바꾸고 싶다면 어떻게 해야 할까요?

In [29]:
coins=pd.read_csv("/Users/yihoon-j/Documents/fr/2학기 교안 작업/Coin.csv", thousands=",")
coins['Date']=coins['Date'].apply(lambda x: dt.datetime.strptime(x,'%b %d, %Y').strftime('%d %b %Y, %a.'))
coins.head()

Unnamed: 0,Date,Bitcoin,Ethereum,Litecoin
0,"27 Jul 2023, Thu.",29190.0,1859.03,90.47
1,"26 Jul 2023, Wed.",29352.2,1872.0,90.66
2,"25 Jul 2023, Tue.",29228.6,1857.67,89.45
3,"24 Jul 2023, Mon.",29178.1,1850.04,89.14
4,"23 Jul 2023, Sun.",30085.9,1888.85,93.15


그럼 마지막으로, pandas 교안으로 돌아가서, 아까 본 주 번호 생성 코드를 확인해 보겠습니다.