## Contents
- 날짜 변환 : to_datetime, to_timestamp, to_period
- 날짜 생성 : date_range, period_range
- 날짜 인덱싱, 필터링, 집계, 속성 접근, 정렬

python, numpy, pandas 날짜 타입 비교 및 정리

- datetime은 python 설치 시 기본적으로 내장된 라이브러리로, 날짜를 쓸 것인지, 시간을 쓸 것인지, 날짜시간을 합쳐쓸 것인지에 따라 클래스가 분화되어 있는 것이 특징. 예를들어 '2021-3-16'을 표시하고 싶으면 date 클래스를 사용하고, '2021-3-16 12:34:21'를 표시하고 싶으면 'datetime' 클래스를 사용합니다.
- 반면 datetime64나 Timestamp는 각각 numpy, pandas 라이브러리에서 새로 정의한 날짜시간 클래스입니다. 이 둘은 numpy, pandas를 설치해야만 이용할 수 있고, 한 클래스로 날짜, 시간, 날짜시간을 모두 정의할 수 있는 것이 특징
- 날짜, 시간 타입은 일반적인 정수, 실수끼리 연산할 때와 달리 단위를 가지고 있는 점 때문에 시간의 차이를 저장하는 별도의 클래스가 있다는 특징. 이를 timedelta(타임델타)라고 하는데, 날짜, 시간은 특정 시점의 시각을 표시하는 용도이고(2021년 3월 16일), 타임델타는 기간 또는 시간 차이를 표시하는 용도(5일)

파이썬 datetime 모듈
- 기본 개념: datetime 모듈은 날짜 및 시간을 다루는 기본적인 클래스들(date, time, datetime, timedelta, tzinfo)을 제공
- 날짜 생성 및 조작: 특정 날짜를 생성하거나 날짜 간의 차이를 계산하는 등의 기능을 수행
- 포맷팅: strftime()을 사용하여 날짜를 문자열로, strptime()을 사용하여 문자열을 날짜로 변환
- 시간대 처리: 시간대를 처리하는 기능을 포함하고 있지만, 별도의 라이브러리(pytz 등)의 도움이 필요

판다스
- 시계열 데이터 처리에 최적화: 판다스는 시계열 데이터 처리에 특화되어 있으며, 대량의 날짜 데이터를 빠르고 효율적으로 처리할 수 있다.
- DateTimeIndex: 판다스는 DateTimeIndex를 제공하여 시계열 데이터의 인덱싱과 슬라이싱을 간편하게 한다.
- 시간대 처리: 판다스는 내장된 시간대 처리 기능을 제공하며, 시간대 변환을 손쉽게 할 수 있다.
- 날짜 데이터 변환 및 조작: to_datetime() 함수로 다양한 형식의 날짜 문자열을 datetime 객체로 변환할 수 있다. 또한, resample, asfreq 등의 메서드로 시계열 데이터의 빈도를 변경하는 등 다양한 날짜 관련 조작을 지원.
- 통합된 데이터 처리: 판다스는 DataFrame이나 Series 내의 날짜 데이터를 다룰 때, 다른 데이터 유형과의 통합된 처리가 가능.

포인트
- 파이썬 datetime: 날짜 및 시간의 기본적인 처리에 적합하며, 작고 단순한 날짜 관련 작업에 이상적이다.
- 판다스: 대규모 데이터셋에서 복잡하고 고급 시계열 데이터 처리에 적합하며, 데이터 분석과 관련된 다양한 기능을 제공한다.
- 사용 사례에 따라 적절한 도구를 선택하는 것이 중요. 작은 규모의 기본적인 날짜 연산에는 datetime을, 복잡한 데이터셋과 시계열 분석에는 판다스를 사용하는 것이 일반적.

Python의 datetime 모듈을 사용한 날짜 처리 예시. 이 예제들은 datetime 모듈을 사용하여 날짜 및 시간 데이터를 다루는 기본적인 방법을 보여준다.

- 현재 날짜 및 시간 얻기: datetime.now()를 사용.
- 특정 날짜 및 시간 생성: datetime 객체를 직접 생성.
- 날짜 간 차이 계산: timedelta를 사용.
- 날짜 포맷팅: 날짜를 문자열로 변환하거나 문자열로부터 날짜를 파싱.
- 날짜와 시간 요소 접근: 날짜의 연도, 월, 일 등을 접근.

판다스를 사용한 날짜 처리의 예. 이 예제들은 판다스가 시계열 데이터를 어떻게 다룰 수 있는지 보여준다.

- 날짜 범위 생성: pd.date_range()를 사용하여 날짜 범위를 생성.
- 날짜 변환: 문자열을 pd.to_datetime()을 사용하여 날짜 객체로 변환.
- 시계열 데이터 생성: 날짜를 인덱스로 사용하는 시계열 데이터를 생성.
- 날짜 기반 필터링: 특정 날짜 조건을 만족하는 데이터를 필터링.
- 시계열 데이터 리샘플링: 월별 평균 등으로 데이터를 리샘플링.
- 이 코드를 실행하면, 판다스를 사용하여 날짜 데이터를 다양하게 처리하는 방법을 확인할 수 있다. 날짜 범위 생성, 날짜 변환, 시계열 데이터 처리 등은 데이터 분석에서 매우 유용하게 활용.

In [1]:
import pandas as pd
import numpy as np

In [6]:
# 문자열 형식의 날짜를 datetime 형식(판다스의 데이트타임:timestamp)으로 변환하여 처리

date_str = '2022-01-01'
date_dt = pd.to_datetime(date_str)

# 2022-01-01 00:00:00 <class 'pandas._libs.tslibs.timestamps.Timestamp'>
print(date_dt, type(date_dt))

# 2022-01-01 <class 'datetime.date'>
print(date_dt.date(), type(date_dt.date()))
print(date_dt.time())

2022-01-01 00:00:00 <class 'pandas._libs.tslibs.timestamps.Timestamp'>
2022-01-01 <class 'datetime.date'>
00:00:00


In [16]:
# 날짜 변환
dates = ['2020-01-01', '2020-01-05', '2020-01-10']

date_objects = pd.to_datetime(dates)
print("날짜객체: ", date_objects)

# date_objects 각각의 객체
date_only_list = [date.date() for date in date_objects]
print(date_only_list, '\n')

# datetime -> string출력
# YYYY-mm-dd 형식은 통하지 않는다.
# datetimeIndex에는 strftime()이 없으니 각각의 개별 객체에서 strftime에 접근
date_str_list = [date.strftime('%Y-%m-%d') for date in date_only_list]
date_str_list

날짜객체:  DatetimeIndex(['2020-01-01', '2020-01-05', '2020-01-10'], dtype='datetime64[ns]', freq=None)
[datetime.date(2020, 1, 1), datetime.date(2020, 1, 5), datetime.date(2020, 1, 10)] 



['2020-01-01', '2020-01-05', '2020-01-10']

In [19]:
# pd.date_range 함수는 일정한 간격으로 날짜 범위를 생성하는 데 사용
# pd.date_range 함수는 pandas에서 제공하지만 내부적으로 numpy의 날짜/시간 타입인 datetime64를 사용
date_range = pd.date_range(start='2022-01-01', end='2022-01-10')
print(date_range)

DatetimeIndex(['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04',
               '2022-01-05', '2022-01-06', '2022-01-07', '2022-01-08',
               '2022-01-09', '2022-01-10'],
              dtype='datetime64[ns]', freq='D')


In [27]:
# 날짜를 인덱스로 설정하여 데이터프레임을 구성하면 날짜를 기준으로 데이터 조작이 용이

data = {'date': ['2022-01-01', '2022-01-02', '2022-01-03'], 'value':[1,2,3]}
df = pd.DataFrame(data)
print(df.info()) # object
df['date'] = pd.to_datetime(df['date'])
df.info() # datetime64
df.set_index('date', inplace=True)
df.index.name = None
df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   date    3 non-null      object
 1   value   3 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 176.0+ bytes
None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   date    3 non-null      datetime64[ns]
 1   value   3 non-null      int64         
dtypes: datetime64[ns](1), int64(1)
memory usage: 176.0 bytes


Unnamed: 0,value
2022-01-01,1
2022-01-02,2
2022-01-03,3


In [30]:
# 날짜를 인덱스로 설정한 데이터프레임에서는 특정 기간의 데이터를 쉽게 인덱싱하고 슬라이싱

# 특정 날짜의 데이터 선택
print(df.loc['2022-01-02'])

# 날짜 범위 슬라이싱
print(df['2022-01-01':'2022-01-02'])

value    2
Name: 2022-01-02 00:00:00, dtype: int64
            value
2022-01-01      1
2022-01-02      2


In [32]:
# 불리언 조건식을 사용하여 날짜 범위를 필터링

date_range = pd.date_range(start='2020-01-01', end='2020-01-10') # datetimeIndex
date_series = pd.Series(date_range)
fd = date_series[(date_series >= '2020-01-01') & (date_series <= '2020-01-03')]
fd

0   2020-01-01
1   2020-01-02
2   2020-01-03
dtype: datetime64[ns]

In [34]:
# pandas는 주어진 주기(일,월,분기 등)에 따라 데이터를 리샘플링할 수 있는 기능을 제공
# resalple 메소드를 사용하여 다양한 방법으로 데이터를 집계

date_range = pd.date_range(start='2020-01-01', periods=10, freq='D')
data = {'value':range(10)}
df = pd.DataFrame(data, index=date_range)
print(df, '\n')

# 월별 데이터 합계 계산
monthly_sum = df.resample('M').sum()
monthly_sum

            value
2020-01-01      0
2020-01-02      1
2020-01-03      2
2020-01-04      3
2020-01-05      4
2020-01-06      5
2020-01-07      6
2020-01-08      7
2020-01-09      8
2020-01-10      9 



Unnamed: 0,value
2020-01-31,45


In [39]:
# Q. 365일간 일당을 성과에 따라서 50 ~ 100 달러를 받는다. 월별 합계를 구하세요.

date_range = pd.date_range(start='2020-01-01', periods=365, freq='D')

data = {'value':np.random.randint(50, 100, 365)}
df = pd.DataFrame(data, index=date_range)

m_sum = df.resample('M').sum()
m_sum

Unnamed: 0,value
2020-01-31,2192
2020-02-29,2122
2020-03-31,2311
2020-04-30,2316
2020-05-31,2212
2020-06-30,2354
2020-07-31,2406
2020-08-31,2283
2020-09-30,2023
2020-10-31,2327


In [41]:
data = {'date': ['2022-01-01', '2022-01-02', '2022-01-03'], 'value':[1,2,3]}
df = pd.DataFrame(data)
df['date'] = pd.to_datetime(df['date'])
df.set_index('date', inplace=True)
df

Unnamed: 0_level_0,value
date,Unnamed: 1_level_1
2022-01-01,1
2022-01-02,2
2022-01-03,3


In [43]:
# pandas의 datetime 형식 데이터는 다양한 속성에 접근할 수 있다. 예를 들어 연도, 월, 일, 요일 등을 쉽게 추출
df['year'] = df.index.year
df['month'] = df.index.month
df['day'] = df.index.day
df['day_of_week'] = df.index.day_name()

df

Unnamed: 0_level_0,value,year,month,day,day_of_week
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2022-01-01,1,2022,1,1,Saturday
2022-01-02,2,2022,1,2,Sunday
2022-01-03,3,2022,1,3,Monday


In [46]:
df = pd.read_csv('drive/MyDrive/KDT_2404/m3_분석 라이브러리/dataset/stock-data.csv')
df.head()
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Date    20 non-null     object
 1   Close   20 non-null     int64 
 2   Start   20 non-null     int64 
 3   High    20 non-null     int64 
 4   Low     20 non-null     int64 
 5   Volume  20 non-null     int64 
dtypes: int64(5), object(1)
memory usage: 1.1+ KB


In [None]:
# 새로운 날짜 열에서 연도, 월, 일 정볼르 추출하여 새로운 열을 추가하는 작업 수행

df['NewDate'] = pd.to_datetime(df['Date'])

# index로 접근하는 방법
df.set_index('NewDate', inplace=True)
df['year'] = df.index.year
df['month'] = df.index.month
df['day'] = df.index.day

df.reset_index(inplace=True)
df

# index로 접근하지않는 방법
df1 = df.copy()

# dt : 접근자
df1.drop('Date', axis=1, inplace=True)
df1['year'] = df1.NewDate.dt.year
df1['month'] = df1.NewDate.dt.month
df1['day'] = df1.NewDate.dt.day

df1

Unnamed: 0,NewDate,Close,Start,High,Low,Volume,year,month,day
0,2018-07-02,10100,10850,10900,10000,137977,2018,7,2
1,2018-06-29,10700,10550,10900,9990,170253,2018,6,29
2,2018-06-28,10400,10900,10950,10150,155769,2018,6,28
3,2018-06-27,10900,10800,11050,10500,133548,2018,6,27
4,2018-06-26,10800,10900,11000,10700,63039,2018,6,26
5,2018-06-25,11150,11400,11450,11000,55519,2018,6,25
6,2018-06-22,11300,11250,11450,10750,134805,2018,6,22
7,2018-06-21,11200,11350,11750,11200,133002,2018,6,21
8,2018-06-20,11550,11200,11600,10900,308596,2018,6,20
9,2018-06-19,11300,11850,11950,11300,180656,2018,6,19
