### 3.5.1 날짜 데이터 다루기
날짜와 시간을 다루기 위해서는 datetime 모듈을 이용한다
- 시간과 날짜를 표현하는 모듈
    - datetime.today() : 현재 날짜와 시간 산출
    - datetime.today().year/month/day/hour : 현재 연도/월/일/시각 산출
    - datetime.strptime('날짜 문자열', '포맷') : 문자열 데이터를 날짜 형식으로 변환
    - datetime객체.strftime('포맷') : 날짜 데이터를 원하는 형식으로 변환

- strftime() 메서드에 사용되는 서식
    - %d : 0을 채운 10진수 표기로 날짜를 표시
    - %m : 0을 채운 10진수 표기로 월을 표시
    - %y : 0을 채운 10진수 표기로 2자리 년도
    - %Y : 0을 채운 10진수 표기로 4자리 년도
    - %H : 0을 채운 10진수 표기로 시간(24시간 표기)
    - %I : 0을 채운 10진수 표기로 시간(12시간 표기)
    - %M 0을 채운 10진수 표기로 분
    - %S 0을 채운 10진수 표기로 초
    - %f 0을 채운 10진수 표기로 마이크로 초(6자리)
    - %A locale 요일
    - %a locale 요일(단축 표기)
    - %B locale 월
    - %j 0을 채운 10진수 표기로 년 중에 몇 번째 일인지 표시
    - %U 0을 채운 10진수 표기로 년 중에 몇 번째 주인지 표시(일요일 시작 기준)
    - %W 0을 채운 10진수 표기로 년 중에 몇 번째 주인지 표시(월요일 시작 기준)

[예제] 현재 날짜와 시간 데이터를 생성하고, 각각 다른 변수에 저장하여 데이터 형식을 확인하라

In [1]:
from datetime import datetime
from datetime import timedelta

today = datetime.today().strftime("%Y-  dwd  %m  -dwd %d")
print('today:', today)
print('today 변수 type:',type(today),'\n')

todaytime = datetime.today().strftime('%Y-%m-%d %H:%M:%S')
print('todaytime:', todaytime)
print('todaytime 변수 type:', type(todaytime))

today: 2022-  dwd  01  -dwd 20
today 변수 type: <class 'str'> 

todaytime: 2022-01-20 23:22:44
todaytime 변수 type: <class 'str'>


In [2]:
datetime.today()

datetime.datetime(2022, 1, 20, 23, 23, 7, 813245)

In [3]:
todaytime = todaytime.split(" ")[0]

In [4]:
todaytime

'2022-01-20'

[예제] 문자열 데이터를 다시 날짜 형식으로 변환하자

In [5]:
datetime.strptime(todaytime, '%Y-%m-%d')

datetime.datetime(2022, 1, 20, 0, 0)

[예제] 
- 현재 시간을 구하고 이를 time 변수에 저장하라
- 현재 시간의 연/월/일/시간/요일을 구하라

In [7]:
time = datetime.today()

print('연도 :', time.strftime('%Y'), '&', time.year)
print('월 :', time.strftime('%m'), '&', time.month)
print('일 :', time.strftime('%d'), '&', time.day)
print('시간 :', time.strftime('%H'), '&', time.hour)
print('요일 :', time.strftime('%A'), '&', time.weekday())

연도 : 2022 & 2022
월 : 01 & 1
일 : 20 & 20
시간 : 23 & 23
요일 : Thursday & 3


### 3.5.2 날짜 데이터의 연산
- datetime.timedelta(days=0, seconds=0, microseconds=0, milliseconds=0, minutes=0, hours=0, weeks=0)
- 두 날짜와 시간 사이의 차이를 계산할 때 사용함

[예제] 현재 날짜로부터 100일 후의 날짜를 구하라

In [8]:
timedelta(days=100)

datetime.timedelta(days=100)

In [12]:
from datetime import timedelta

time = datetime.today()
print(time + timedelta(days=100)) # 날짜형
print((time - timedelta(days=100)).strftime('%Y-%m-%d %H:%M:%S')) # 문자열

2022-04-30 23:32:41.365121
2021-10-12 23:32:41


In [14]:
time+100 # int 값을 더할 수 없다

TypeError: unsupported operand type(s) for +: 'datetime.datetime' and 'int'

### 3.5.3 데이터프레임 날짜 데이터 핸들링

#### 3.5.3.1 문자열 => 날짜데이터로 변환
    - pd.to_datetime(df['컬럼명'], format = '%Y%m%d')

In [15]:
import pandas as pd
df = pd.read_csv('data/구매내역.csv')

In [16]:
df_pur = df
df_pur

Unnamed: 0,datetime,purchase
0,20140627,30000
1,20140711,15000
2,20140707,20000
3,20140711,25000
4,20150120,30000
5,20140707,60000
6,20140708,150000
7,20160623,20000
8,20170515,265000
9,20140710,26800


In [17]:
df_pur.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14 entries, 0 to 13
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype
---  ------    --------------  -----
 0   datetime  14 non-null     int64
 1   purchase  14 non-null     int64
dtypes: int64(2)
memory usage: 352.0 bytes


In [18]:
# 먼저 int => str 형식으로 변환
df_pur['datetime'] = df_pur['datetime'].astype(str)

In [19]:
df_pur.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14 entries, 0 to 13
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   datetime  14 non-null     object
 1   purchase  14 non-null     int64 
dtypes: int64(1), object(1)
memory usage: 352.0+ bytes


In [21]:
df_pur

Unnamed: 0,datetime,purchase
0,2014-06-27,30000
1,2014-07-11,15000
2,2014-07-07,20000
3,2014-07-11,25000
4,2015-01-20,30000
5,2014-07-07,60000
6,2014-07-08,150000
7,2016-06-23,20000
8,2017-05-15,265000
9,2014-07-10,26800


In [20]:
# datetime 형식으로 변환
df_pur['datetime'] = pd.to_datetime(df_pur['datetime'], format = '%Y%m%d')
df_pur

Unnamed: 0,datetime,purchase
0,2014-06-27,30000
1,2014-07-11,15000
2,2014-07-07,20000
3,2014-07-11,25000
4,2015-01-20,30000
5,2014-07-07,60000
6,2014-07-08,150000
7,2016-06-23,20000
8,2017-05-15,265000
9,2014-07-10,26800


In [22]:
df_pur.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14 entries, 0 to 13
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   datetime  14 non-null     datetime64[ns]
 1   purchase  14 non-null     int64         
dtypes: datetime64[ns](1), int64(1)
memory usage: 352.0 bytes


In [24]:
# dt라는 것이 str과 비슷한 역할
df_pur.datetime.dt.month

0     6
1     7
2     7
3     7
4     1
5     7
6     7
7     6
8     5
9     7
10    7
11    7
12    7
13    7
Name: datetime, dtype: int64

In [23]:
df_pur[df_pur.datetime.dt.month.isin([6,7,8])]

Unnamed: 0,datetime,purchase
0,2014-06-27,30000
1,2014-07-11,15000
2,2014-07-07,20000
3,2014-07-11,25000
5,2014-07-07,60000
6,2014-07-08,150000
7,2016-06-23,20000
9,2014-07-10,26800
10,2014-07-04,1800
11,2014-07-08,18600


#### 3.5.3.2 날짜데이터 => 문자열로 변환
- timeSeries.dt.strftime('%Y-%m-%d')

In [25]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14 entries, 0 to 13
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   datetime  14 non-null     datetime64[ns]
 1   purchase  14 non-null     int64         
dtypes: datetime64[ns](1), int64(1)
memory usage: 352.0 bytes


In [26]:
df['datetime'].dt.strftime('%Y-%m-%d')

0     2014-06-27
1     2014-07-11
2     2014-07-07
3     2014-07-11
4     2015-01-20
5     2014-07-07
6     2014-07-08
7     2016-06-23
8     2017-05-15
9     2014-07-10
10    2014-07-04
11    2014-07-08
12    2014-07-09
13    2014-07-10
Name: datetime, dtype: object

In [27]:
df['datetime'].dt.strftime('%m')

0     06
1     07
2     07
3     07
4     01
5     07
6     07
7     06
8     05
9     07
10    07
11    07
12    07
13    07
Name: datetime, dtype: object

#### 3.5.3.3 Map(lambda) 사용

In [28]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14 entries, 0 to 13
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   datetime  14 non-null     datetime64[ns]
 1   purchase  14 non-null     int64         
dtypes: datetime64[ns](1), int64(1)
memory usage: 352.0 bytes


In [29]:
df['datetime'] = df['datetime'].map(lambda x:x.strftime('%Y-%m-%d'))
df['datetime']

0     2014-06-27
1     2014-07-11
2     2014-07-07
3     2014-07-11
4     2015-01-20
5     2014-07-07
6     2014-07-08
7     2016-06-23
8     2017-05-15
9     2014-07-10
10    2014-07-04
11    2014-07-08
12    2014-07-09
13    2014-07-10
Name: datetime, dtype: object

In [30]:
df['datetime'] = df['datetime'].map(lambda x:datetime.strptime(x, '%Y-%m-%d'))

In [31]:
df['datetime']

0    2014-06-27
1    2014-07-11
2    2014-07-07
3    2014-07-11
4    2015-01-20
5    2014-07-07
6    2014-07-08
7    2016-06-23
8    2017-05-15
9    2014-07-10
10   2014-07-04
11   2014-07-08
12   2014-07-09
13   2014-07-10
Name: datetime, dtype: datetime64[ns]