python, numpy, pandas 날짜 타입 비교 및 정리

- datetime은 python 설치 시 기본적으로 내장된 라이브러리로, 날짜를 쓸 것인지, 시간을 쓸 것인지, 날짜시간을 합쳐쓸 것인지에 따라 클래스가 분화되어 있는 것이 특징. 예를들어 '2021-3-16'을 표시하고 싶으면 date 클래스를 사용하고, '2021-3-16 12:34:21'를 표시하고 싶으면 'datetime' 클래스를 사용합니다.
- 반면 datetime64나 Timestamp는 각각 numpy, pandas 라이브러리에서 새로 정의한 날짜시간 클래스입니다. 이 둘은 numpy, pandas를 설치해야만 이용할 수 있고, 한 클래스로 날짜, 시간, 날짜시간을 모두 정의할 수 있는 것이 특징
- 날짜, 시간 타입은 일반적인 정수, 실수끼리 연산할 때와 달리 단위를 가지고 있는 점 때문에 시간의 차이를 저장하는 별도의 클래스가 있다는 특징. 이를 timedelta(타임델타)라고 하는데, 날짜, 시간은 특정 시점의 시각을 표시하는 용도이고(2021년 3월 16일), 타임델타는 기간 또는 시간 차이를 표시하는 용도(5일)

- https://ellun.tistory.com/320


파이썬 datetime 모듈
- 기본 개념: datetime 모듈은 날짜 및 시간을 다루는 기본적인 클래스들(date, time, datetime, timedelta, tzinfo)을 제공
- 날짜 생성 및 조작: 특정 날짜를 생성하거나 날짜 간의 차이를 계산하는 등의 기능을 수행
- 포맷팅: strftime()을 사용하여 날짜를 문자열로, strptime()을 사용하여 문자열을 날짜로 변환
- 시간대 처리: 시간대를 처리하는 기능을 포함하고 있지만, 별도의 라이브러리(pytz 등)의 도움이 필요

판다스
- 시계열 데이터 처리에 최적화: 판다스는 시계열 데이터 처리에 특화되어 있으며, 대량의 날짜 데이터를 빠르고 효율적으로 처리할 수 있다.
- DateTimeIndex: 판다스는 DateTimeIndex를 제공하여 시계열 데이터의 인덱싱과 슬라이싱을 간편하게 한다.
- 시간대 처리: 판다스는 내장된 시간대 처리 기능을 제공하며, 시간대 변환을 손쉽게 할 수 있다.
- 날짜 데이터 변환 및 조작: to_datetime() 함수로 다양한 형식의 날짜 문자열을 datetime 객체로 변환할 수 있다. 또한, resample, asfreq 등의 메서드로 시계열 데이터의 빈도를 변경하는 등 다양한 날짜 관련 조작을 지원.
- 통합된 데이터 처리: 판다스는 DataFrame이나 Series 내의 날짜 데이터를 다룰 때, 다른 데이터 유형과의 통합된 처리가 가능.

포인트
- 파이썬 datetime: 날짜 및 시간의 기본적인 처리에 적합하며, 작고 단순한 날짜 관련 작업에 이상적이다.
- 판다스: 대규모 데이터셋에서 복잡하고 고급 시계열 데이터 처리에 적합하며, 데이터 분석과 관련된 다양한 기능을 제공한다.
- 사용 사례에 따라 적절한 도구를 선택하는 것이 중요. 작은 규모의 기본적인 날짜 연산에는 datetime을, 복잡한 데이터셋과 시계열 분석에는 판다스를 사용하는 것이 일반적.

Python의 datetime 모듈을 사용한 날짜 처리 예시. 이 예제들은 datetime 모듈을 사용하여 날짜 및 시간 데이터를 다루는 기본적인 방법을 보여준다.

- 현재 날짜 및 시간 얻기: datetime.now()를 사용.
- 특정 날짜 및 시간 생성: datetime 객체를 직접 생성.
- 날짜 간 차이 계산: timedelta를 사용.
- 날짜 포맷팅: 날짜를 문자열로 변환하거나 문자열로부터 날짜를 파싱.
- 날짜와 시간 요소 접근: 날짜의 연도, 월, 일 등을 접근.

판다스를 사용한 날짜 처리의 예. 이 예제들은 판다스가 시계열 데이터를 어떻게 다룰 수 있는지 보여준다.

- 날짜 범위 생성: pd.date_range()를 사용하여 날짜 범위를 생성.
- 날짜 변환: 문자열을 pd.to_datetime()을 사용하여 날짜 객체로 변환.
- 시계열 데이터 생성: 날짜를 인덱스로 사용하는 시계열 데이터를 생성.
- 날짜 기반 필터링: 특정 날짜 조건을 만족하는 데이터를 필터링.
- 시계열 데이터 리샘플링: 월별 평균 등으로 데이터를 리샘플링.
- 이 코드를 실행하면, 판다스를 사용하여 날짜 데이터를 다양하게 처리하는 방법을 확인할 수 있다. 날짜 범위 생성, 날짜 변환, 시계열 데이터 처리 등은 데이터 분석에서 매우 유용하게 활용.

In [64]:
# 문자열 형식의 날짜를 datetime 형식으로 변환하여 처리
import pandas as pd

date_str = '2022-01-01'
date_dt = pd.to_datetime(date_str)
print(date_dt)  # 출력: 2022-01-01 00:00:00


2022-01-01 00:00:00


In [None]:
# 날짜 변환
dates = ['2020-01-01', '2020-01-05', '2020-01-10']
date_objects = pd.to_datetime(dates)
print("날짜 객체:", date_objects)

날짜 객체: DatetimeIndex(['2020-01-01', '2020-01-05', '2020-01-10'], dtype='datetime64[ns]', freq=None)


In [65]:
# pd.date_range 함수는 일정한 간격으로 날짜 범위를 생성하는 데 사용
date_range = pd.date_range(start='2022-01-01', end='2022-01-10')
print(date_range)

DatetimeIndex(['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04',
               '2022-01-05', '2022-01-06', '2022-01-07', '2022-01-08',
               '2022-01-09', '2022-01-10'],
              dtype='datetime64[ns]', freq='D')


In [66]:
# 날짜를 인덱스로 설정하여 데이터프레임을 구성하면 날짜를 기준으로 데이터 조작이 용이
data = {'date': ['2022-01-01', '2022-01-02', '2022-01-03'], 'value': [1, 2, 3]}
df = pd.DataFrame(data)
df['date'] = pd.to_datetime(df['date'])
df.set_index('date', inplace=True)
print(df)

            value
date             
2022-01-01      1
2022-01-02      2
2022-01-03      3


In [67]:
# 날짜를 인덱스로 설정한 데이터프레임에서는 특정 기간의 데이터를 쉽게 인덱싱하고 슬라이싱
# 특정 날짜의 데이터 선택
print(df.loc['2022-01-02'])

# 날짜 범위 슬라이싱
print(df['2022-01-01':'2022-01-02'])

value    2
Name: 2022-01-02 00:00:00, dtype: int64
            value
date             
2022-01-01      1
2022-01-02      2


In [16]:
# 문자열 슬라이싱을 사용하여 날짜 범위를 필터링

data = pd.Series([1, 2, 3], index=pd.to_datetime(['2020-01-01', '2020-01-02', '2020-01-03']))
print(data)
filtered_data = data['2020-01-01':'2020-01-02']
print(filtered_data)

2020-01-01    1
2020-01-02    2
2020-01-03    3
dtype: int64


In [84]:
# 불리언 조건식을 사용하여 날짜 범위를 필터링

date_range = pd.date_range(start='2020-01-01', end='2020-01-10')
date_series = pd.Series(date_range)
fd = date_series[(date_series >= '2020-01-01') & (date_series <= '2020-01-03')]
print(fd)

0   2020-01-01
1   2020-01-02
2   2020-01-03
dtype: datetime64[ns]


In [94]:
# Pandas는 주어진 주기(일, 월, 분기 등)에 따라 데이터를 리샘플링할 수 있는 기능을 제공. resample 메소드를 사용하면 다양한 방법으로 데이터를 집계
date_range = pd.date_range(start='2022-01-01', periods=10, freq='D')
data = {'value': range(10)}
df = pd.DataFrame(data, index=date_range)
print(df,'\n')
# 월별 데이터 합계 계산
monthly_sum = df.resample('M').sum()
print(monthly_sum)

            value
2022-01-01      0
2022-01-02      1
2022-01-03      2
2022-01-04      3
2022-01-05      4
2022-01-06      5
2022-01-07      6
2022-01-08      7
2022-01-09      8
2022-01-10      9 

            value
2022-01-31     45


In [74]:
df.head()

Unnamed: 0,value
2021-12-31 19:00:00-05:00,0
2022-01-01 19:00:00-05:00,1
2022-01-02 19:00:00-05:00,2
2022-01-03 19:00:00-05:00,3
2022-01-04 19:00:00-05:00,4


In [92]:
data = {'date': ['2022-01-01', '2022-01-02', '2022-01-03'], 'value': [1, 2, 3]}
df = pd.DataFrame(data)
df['date'] = pd.to_datetime(df['date'])
df.set_index('date', inplace=True)
print(df)

            value
date             
2022-01-01      1
2022-01-02      2
2022-01-03      3


In [93]:
# Pandas의 datetime 형식 데이터는 다양한 속성에 접근할 수 있다. 예를 들어, 연도, 월, 일, 요일 등을 쉽게 추출
df['year'] = df.index.year
df['month'] = df.index.month
df['day'] = df.index.day
df['day_of_week'] = df.index.dayofweek
print(df)

            value  year  month  day  day_of_week
date                                            
2022-01-01      1  2022      1    1            5
2022-01-02      2  2022      1    2            6
2022-01-03      3  2022      1    3            0


In [26]:
from google.colab import files
uploaded = files.upload()

Saving stock-data.csv to stock-data.csv


In [78]:
df = pd.read_csv('stock-data.csv')
df.head()

Unnamed: 0,Date,Close,Start,High,Low,Volume
0,2018-07-02,10100,10850,10900,10000,137977
1,2018-06-29,10700,10550,10900,9990,170253
2,2018-06-28,10400,10900,10950,10150,155769
3,2018-06-27,10900,10800,11050,10500,133548
4,2018-06-26,10800,10900,11000,10700,63039


In [79]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Date    20 non-null     object
 1   Close   20 non-null     int64 
 2   Start   20 non-null     int64 
 3   High    20 non-null     int64 
 4   Low     20 non-null     int64 
 5   Volume  20 non-null     int64 
dtypes: int64(5), object(1)
memory usage: 1.1+ KB


In [80]:
df['New_Date'] = pd.to_datetime(df['Date'])
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   Date      20 non-null     object        
 1   Close     20 non-null     int64         
 2   Start     20 non-null     int64         
 3   High      20 non-null     int64         
 4   Low       20 non-null     int64         
 5   Volume    20 non-null     int64         
 6   New_Date  20 non-null     datetime64[ns]
dtypes: datetime64[ns](1), int64(5), object(1)
memory usage: 1.2+ KB


In [81]:
df.head()

Unnamed: 0,Date,Close,Start,High,Low,Volume,New_Date
0,2018-07-02,10100,10850,10900,10000,137977,2018-07-02
1,2018-06-29,10700,10550,10900,9990,170253,2018-06-29
2,2018-06-28,10400,10900,10950,10150,155769,2018-06-28
3,2018-06-27,10900,10800,11050,10500,133548,2018-06-27
4,2018-06-26,10800,10900,11000,10700,63039,2018-06-26


In [83]:
# , 새로운 날짜 열에서 연도, 월, 일 정보를 추출하여 새로운 열을 추가하는 작업을 수행
df.drop('Date',axis=1,inplace=True)
df['year'] = df['New_Date'].dt.year
df['month'] = df['New_Date'].dt.month
df['day'] = df['New_Date'].dt.day
df.head()

Unnamed: 0,Close,Start,High,Low,Volume,New_Date,year,month,day
0,10100,10850,10900,10000,137977,2018-07-02,2018,7,2
1,10700,10550,10900,9990,170253,2018-06-29,2018,6,29
2,10400,10900,10950,10150,155769,2018-06-28,2018,6,28
3,10900,10800,11050,10500,133548,2018-06-27,2018,6,27
4,10800,10900,11000,10700,63039,2018-06-26,2018,6,26


In [31]:
df.set_index('New_Date',inplace=True)
df.head()

Unnamed: 0_level_0,Close,Start,High,Low,Volume,year,month,day
New_Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2018-07-02,10100,10850,10900,10000,137977,2018,7,2
2018-06-29,10700,10550,10900,9990,170253,2018,6,29
2018-06-28,10400,10900,10950,10150,155769,2018,6,28
2018-06-27,10900,10800,11050,10500,133548,2018,6,27
2018-06-26,10800,10900,11000,10700,63039,2018,6,26


In [32]:
df.index

DatetimeIndex(['2018-07-02', '2018-06-29', '2018-06-28', '2018-06-27',
               '2018-06-26', '2018-06-25', '2018-06-22', '2018-06-21',
               '2018-06-20', '2018-06-19', '2018-06-18', '2018-06-15',
               '2018-06-14', '2018-06-12', '2018-06-11', '2018-06-08',
               '2018-06-07', '2018-06-05', '2018-06-04', '2018-06-01'],
              dtype='datetime64[ns]', name='New_Date', freq=None)

In [35]:
df.sort_index(inplace=True)
df.head()

Unnamed: 0_level_0,Close,Start,High,Low,Volume,year,month,day
New_Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2018-06-01,11900,11800,12100,11750,32062,2018,6,1
2018-06-04,11900,11900,12200,11700,25171,2018,6,4
2018-06-05,12150,11800,12250,11800,42485,2018,6,5
2018-06-07,11950,12200,12300,11900,49088,2018,6,7
2018-06-08,11950,11950,12200,11800,59258,2018,6,8


In [36]:
df_ymd_range = df.loc['2018-06-26':'2018-06-29']
df_ymd_range

Unnamed: 0_level_0,Close,Start,High,Low,Volume,year,month,day
New_Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2018-06-26,10800,10900,11000,10700,63039,2018,6,26
2018-06-27,10900,10800,11050,10500,133548,2018,6,27
2018-06-28,10400,10900,10950,10150,155769,2018,6,28
2018-06-29,10700,10550,10900,9990,170253,2018,6,29


In [37]:
#  Pandas에서 DatetimeIndex를 가진 데이터프레임에 대해 [] 접근자를 사용할 때, 날짜를 기반으로 슬라이싱 가능. 슬라이스의 양 끝을 포함
df_ymd_range = df['2018-06-26':'2018-06-29']
df_ymd_range

Unnamed: 0_level_0,Close,Start,High,Low,Volume,year,month,day
New_Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2018-06-26,10800,10900,11000,10700,63039,2018,6,26
2018-06-27,10900,10800,11050,10500,133548,2018,6,27
2018-06-28,10400,10900,10950,10150,155769,2018,6,28
2018-06-29,10700,10550,10900,9990,170253,2018,6,29


In [39]:
df_ym = df.loc['2018-07','Start':'High']
df_ym.index.name = None
df_ym

Unnamed: 0,Start,High
2018-07-02,10850,10900


In [56]:
import numpy as np
import pandas as pd
# Time Series Basics
from datetime import datetime
dates = [datetime(2011,1,2),datetime(2011,1,5),
        datetime(2011,1,7),datetime(2011,1,8),
        datetime(2011,1,10),datetime(2011,1,12)]
ts = pd.Series(np.random.randn(6),index=dates)
ts

2011-01-02   -0.593288
2011-01-05   -0.906446
2011-01-07    0.530782
2011-01-08   -0.819455
2011-01-10    0.561244
2011-01-12    0.223209
dtype: float64

In [57]:
df = pd.DataFrame(ts, columns=['Value'])
df

Unnamed: 0,Value
2011-01-02,-0.593288
2011-01-05,-0.906446
2011-01-07,0.530782
2011-01-08,-0.819455
2011-01-10,0.561244
2011-01-12,0.223209


In [58]:
ts.index

DatetimeIndex(['2011-01-02', '2011-01-05', '2011-01-07', '2011-01-08',
               '2011-01-10', '2011-01-12'],
              dtype='datetime64[ns]', freq=None)

In [59]:
ts[::2]

2011-01-02   -0.593288
2011-01-07    0.530782
2011-01-10    0.561244
dtype: float64

In [60]:
ts + ts[::2]

2011-01-02   -1.186577
2011-01-05         NaN
2011-01-07    1.061564
2011-01-08         NaN
2011-01-10    1.122488
2011-01-12         NaN
dtype: float64

In [62]:
ts

2011-01-02   -0.593288
2011-01-05   -0.906446
2011-01-07    0.530782
2011-01-08   -0.819455
2011-01-10    0.561244
2011-01-12    0.223209
dtype: float64

In [61]:
ts.index[0]

Timestamp('2011-01-02 00:00:00')

In [None]:
# Indexing, Selection, Subsetting
stamp = ts.index[2]
ts[stamp]

-0.546465516485552

In [63]:
# 2011-01-10    1.089753
print(ts['1/10/2011'])
ts['20110110']

0.5612439760791903


0.5612439760791903

In [95]:
longer_ts = pd.Series(np.random.randn(365),
                     index=pd.date_range('11/30/2023',periods=365))
longer_ts

2023-11-30    0.632713
2023-12-01    0.688846
2023-12-02   -0.941307
2023-12-03    1.011586
2023-12-04    0.393812
                ...   
2024-11-24   -1.835220
2024-11-25   -0.239086
2024-11-26    1.226053
2024-11-27   -0.103089
2024-11-28    3.399567
Freq: D, Length: 365, dtype: float64

In [96]:
longer_ts = pd.Series(np.random.randn(1000),
                     index=pd.date_range('1/1/2000',periods=1000))
print(longer_ts,'\n')


2000-01-01   -0.792591
2000-01-02   -0.292714
2000-01-03    0.865593
2000-01-04   -2.116103
2000-01-05   -0.774705
                ...   
2002-09-22    0.885195
2002-09-23   -0.199628
2002-09-24    2.476990
2002-09-25   -1.210583
2002-09-26    1.274226
Freq: D, Length: 1000, dtype: float64 



In [97]:
longer_ts['2001-05'][:5]

2001-05-01    1.293019
2001-05-02   -0.244696
2001-05-03   -0.552542
2001-05-04   -1.457902
2001-05-05    0.128132
Freq: D, dtype: float64

In [99]:
ts

2011-01-02   -0.593288
2011-01-05   -0.906446
2011-01-07    0.530782
2011-01-08   -0.819455
2011-01-10    0.561244
2011-01-12    0.223209
dtype: float64

In [98]:
ts[datetime(2011,1,7):]

2011-01-07    0.530782
2011-01-08   -0.819455
2011-01-10    0.561244
2011-01-12    0.223209
dtype: float64

In [100]:
# truncate
print(ts.truncate(before='2011-01-05',after='2011-01-10'))

2011-01-05   -0.906446
2011-01-07    0.530782
2011-01-08   -0.819455
2011-01-10    0.561244
dtype: float64


In [101]:
print(ts.truncate(after='1/9/2011'))

2011-01-02   -0.593288
2011-01-05   -0.906446
2011-01-07    0.530782
2011-01-08   -0.819455
dtype: float64


In [102]:
pd.date_range('2020-10-7','2020-10-20')

DatetimeIndex(['2020-10-07', '2020-10-08', '2020-10-09', '2020-10-10',
               '2020-10-11', '2020-10-12', '2020-10-13', '2020-10-14',
               '2020-10-15', '2020-10-16', '2020-10-17', '2020-10-18',
               '2020-10-19', '2020-10-20'],
              dtype='datetime64[ns]', freq='D')

In [103]:
from datetime import datetime
from datetime import timedelta

now = datetime.now()
in_two_weeks=now+timedelta(weeks=2)
pd.date_range(datetime.now(),in_two_weeks)

DatetimeIndex(['2024-06-01 14:48:03.084234', '2024-06-02 14:48:03.084234',
               '2024-06-03 14:48:03.084234', '2024-06-04 14:48:03.084234',
               '2024-06-05 14:48:03.084234', '2024-06-06 14:48:03.084234',
               '2024-06-07 14:48:03.084234', '2024-06-08 14:48:03.084234',
               '2024-06-09 14:48:03.084234', '2024-06-10 14:48:03.084234',
               '2024-06-11 14:48:03.084234', '2024-06-12 14:48:03.084234',
               '2024-06-13 14:48:03.084234', '2024-06-14 14:48:03.084234'],
              dtype='datetime64[ns]', freq='D')

In [104]:
# periods 매개변수는 date_range 함수에 전달된 시작날짜와 종료날짜를
# periods 매개변수에 전달된 기준의 수만큼 동일하게 나누어 출력
ts = pd.date_range(start='2023-11-01',end='2023-11-30',periods=30)
ts

DatetimeIndex(['2023-11-01', '2023-11-02', '2023-11-03', '2023-11-04',
               '2023-11-05', '2023-11-06', '2023-11-07', '2023-11-08',
               '2023-11-09', '2023-11-10', '2023-11-11', '2023-11-12',
               '2023-11-13', '2023-11-14', '2023-11-15', '2023-11-16',
               '2023-11-17', '2023-11-18', '2023-11-19', '2023-11-20',
               '2023-11-21', '2023-11-22', '2023-11-23', '2023-11-24',
               '2023-11-25', '2023-11-26', '2023-11-27', '2023-11-28',
               '2023-11-29', '2023-11-30'],
              dtype='datetime64[ns]', freq=None)

In [105]:
df = pd.DataFrame(np.arange(30), index=ts, columns=['value'])
df

Unnamed: 0,value
2023-11-01,0
2023-11-02,1
2023-11-03,2
2023-11-04,3
2023-11-05,4
2023-11-06,5
2023-11-07,6
2023-11-08,7
2023-11-09,8
2023-11-10,9


In [106]:
pd.date_range('2012-05-02 12:56:31', periods=5, normalize=True)

DatetimeIndex(['2012-05-02', '2012-05-03', '2012-05-04', '2012-05-05',
               '2012-05-06'],
              dtype='datetime64[ns]', freq='D')

freq 매개변수에 사용되는 Frequncy strings
- A calendar year end frequency
- B	business day frequency
- C	custom business day frequency
- D	calendar day frequency
- W	weekly frequency
- M	month end frequency
- SM	semi-month end frequency (15th and end of month)
- BM	business month end frequency
- CBM	custom business month end frequency
- MS	month start frequency
- SMS	semi-month start frequency (1st and 15th)
- BMS	business month start frequency
- CBMS	custom business month start frequency
- Q	quarter end frequency

In [107]:
import numpy as np
dates = pd.date_range('11/30/2023', periods=10, freq='W-WED')
print(dates)

DatetimeIndex(['2023-12-06', '2023-12-13', '2023-12-20', '2023-12-27',
               '2024-01-03', '2024-01-10', '2024-01-17', '2024-01-24',
               '2024-01-31', '2024-02-07'],
              dtype='datetime64[ns]', freq='W-WED')


In [108]:
np.random.randint(3, size=10)

array([0, 1, 1, 1, 1, 2, 1, 1, 0, 1])

In [109]:
df = pd.DataFrame(np.random.randint(3, size=10), index=dates, columns=['운동시간'])
df

Unnamed: 0,운동시간
2023-12-06,0
2023-12-13,1
2023-12-20,1
2023-12-27,2
2024-01-03,2
2024-01-10,1
2024-01-17,2
2024-01-24,1
2024-01-31,0
2024-02-07,0


In [114]:
np.random.seed(0)
long_df = pd.DataFrame(np.random.randn(10,4),
                      index=dates,
                      columns = ['Colorado','Texas','New York','Ohio'])
print(long_df,'\n')
long_df.loc['2024-01']

            Colorado     Texas  New York      Ohio
2023-12-06  1.764052  0.400157  0.978738  2.240893
2023-12-13  1.867558 -0.977278  0.950088 -0.151357
2023-12-20 -0.103219  0.410599  0.144044  1.454274
2023-12-27  0.761038  0.121675  0.443863  0.333674
2024-01-03  1.494079 -0.205158  0.313068 -0.854096
2024-01-10 -2.552990  0.653619  0.864436 -0.742165
2024-01-17  2.269755 -1.454366  0.045759 -0.187184
2024-01-24  1.532779  1.469359  0.154947  0.378163
2024-01-31 -0.887786 -1.980796 -0.347912  0.156349
2024-02-07  1.230291  1.202380 -0.387327 -0.302303 



Unnamed: 0,Colorado,Texas,New York,Ohio
2024-01-03,1.494079,-0.205158,0.313068,-0.854096
2024-01-10,-2.55299,0.653619,0.864436,-0.742165
2024-01-17,2.269755,-1.454366,0.045759,-0.187184
2024-01-24,1.532779,1.469359,0.154947,0.378163
2024-01-31,-0.887786,-1.980796,-0.347912,0.156349


In [115]:
dates = pd.DatetimeIndex(['1/1/2000','1/2/2000','1/2/2000','1/2/2000',
                         '1/3/2000'])
dup_ts = pd.Series(np.arange(5),index=dates)
dup_ts

2000-01-01    0
2000-01-02    1
2000-01-02    2
2000-01-02    3
2000-01-03    4
dtype: int64

In [116]:
dup_ts.index.is_unique

False

In [117]:
dup_ts['1/3/2000'] # not duplicated의 경우 스칼라 값

4

In [118]:
dup_ts['1/2/2000'] # duplicated의 경우 슬라이스 출력

2000-01-02    1
2000-01-02    2
2000-01-02    3
dtype: int64

In [119]:
grouped = dup_ts.groupby(level=0)
print(grouped.mean())
grouped.count()

2000-01-01    0.0
2000-01-02    2.0
2000-01-03    4.0
dtype: float64


2000-01-01    1
2000-01-02    3
2000-01-03    1
dtype: int64

In [120]:
pd.date_range('2000-01-01','2000-01-03 23:59',freq='4h')

DatetimeIndex(['2000-01-01 00:00:00', '2000-01-01 04:00:00',
               '2000-01-01 08:00:00', '2000-01-01 12:00:00',
               '2000-01-01 16:00:00', '2000-01-01 20:00:00',
               '2000-01-02 00:00:00', '2000-01-02 04:00:00',
               '2000-01-02 08:00:00', '2000-01-02 12:00:00',
               '2000-01-02 16:00:00', '2000-01-02 20:00:00',
               '2000-01-03 00:00:00', '2000-01-03 04:00:00',
               '2000-01-03 08:00:00', '2000-01-03 12:00:00',
               '2000-01-03 16:00:00', '2000-01-03 20:00:00'],
              dtype='datetime64[ns]', freq='4H')

In [121]:
from pandas.tseries.offsets import Hour, Minute
Hour(2) + Minute(30)

<150 * Minutes>

In [122]:
pd.date_range('2000-01-01', periods=10, freq='1h30min')

DatetimeIndex(['2000-01-01 00:00:00', '2000-01-01 01:30:00',
               '2000-01-01 03:00:00', '2000-01-01 04:30:00',
               '2000-01-01 06:00:00', '2000-01-01 07:30:00',
               '2000-01-01 09:00:00', '2000-01-01 10:30:00',
               '2000-01-01 12:00:00', '2000-01-01 13:30:00'],
              dtype='datetime64[ns]', freq='90T')

In [123]:
# 매월 세 번째 금요일에 해당하는 날짜를 생성
rng = pd.date_range('2000-01-01','2012-09-01',freq='WOM-3FRI')
print(rng)

DatetimeIndex(['2000-01-21', '2000-02-18', '2000-03-17', '2000-04-21',
               '2000-05-19', '2000-06-16', '2000-07-21', '2000-08-18',
               '2000-09-15', '2000-10-20',
               ...
               '2011-11-18', '2011-12-16', '2012-01-20', '2012-02-17',
               '2012-03-16', '2012-04-20', '2012-05-18', '2012-06-15',
               '2012-07-20', '2012-08-17'],
              dtype='datetime64[ns]', length=152, freq='WOM-3FRI')


In [124]:
from pandas.tseries.offsets import Day, MonthEnd
now = datetime(2011, 11, 17)
now + 3 * Day()

Timestamp('2011-11-20 00:00:00')

In [125]:
# # 현재 날짜를 기준으로 가장 가까운 월말 날짜로 이동
offset = MonthEnd()
print(offset.rollforward(now))
# 현재 날짜를 기준으로 가장 가까운 이전 월말 날짜로 이동
offset.rollback(now)

2011-11-30 00:00:00


Timestamp('2011-10-31 00:00:00')

In [126]:
ts = pd.Series(np.random.randn(20),
               index=pd.date_range('1/15/2000', periods=20, freq='4d'))
print(ts)

2000-01-15   -1.048553
2000-01-19   -1.420018
2000-01-23   -1.706270
2000-01-27    1.950775
2000-01-31   -0.509652
2000-02-04   -0.438074
2000-02-08   -1.252795
2000-02-12    0.777490
2000-02-16   -1.613898
2000-02-20   -0.212740
2000-02-24   -0.895467
2000-02-28    0.386902
2000-03-03   -0.510805
2000-03-07   -1.180632
2000-03-11   -0.028182
2000-03-15    0.428332
2000-03-19    0.066517
2000-03-23    0.302472
2000-03-27   -0.634322
2000-03-31   -0.362741
Freq: 4D, dtype: float64


In [127]:
# 기간을 타임스탬프로 변환
import numpy as np
rng = pd.period_range('2000-01-01',periods=3, freq='M')
ts = pd.Series(np.random.randn(3),index=rng)
print(ts,'\n')
ts.to_timestamp(how='end')

2000-01   -0.672460
2000-02   -0.359553
2000-03   -0.813146
Freq: M, dtype: float64 



2000-01-31 23:59:59.999999999   -0.672460
2000-02-29 23:59:59.999999999   -0.359553
2000-03-31 23:59:59.999999999   -0.813146
dtype: float64

In [128]:
# 주기를 1분 단위로 설정
rng = pd.date_range('2001-01-01',periods=12,freq='T')
ts = pd.Series(np.arange(12),index=rng)
ts

2001-01-01 00:00:00     0
2001-01-01 00:01:00     1
2001-01-01 00:02:00     2
2001-01-01 00:03:00     3
2001-01-01 00:04:00     4
2001-01-01 00:05:00     5
2001-01-01 00:06:00     6
2001-01-01 00:07:00     7
2001-01-01 00:08:00     8
2001-01-01 00:09:00     9
2001-01-01 00:10:00    10
2001-01-01 00:11:00    11
Freq: T, dtype: int64

Task. 주어진 df 에서 특정 날짜 이후의 데이터를 필터링하세요.

In [132]:
import pandas as pd

# 데이터프레임 생성
df = pd.DataFrame({
    'date': ['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04', '2022-01-05'],
    'value': [1, 2, 3, 4, 5]
})
df['date'] = pd.to_datetime(df['date'])
df

Unnamed: 0,date,value
0,2022-01-01,1
1,2022-01-02,2
2,2022-01-03,3
3,2022-01-04,4
4,2022-01-05,5


In [133]:
# 특정 날짜 이후의 데이터 필터링
filtered_df = df[df['date'] > '2022-01-02']
print(filtered_df)

        date  value
2 2022-01-03      3
3 2022-01-04      4
4 2022-01-05      5


Task. 주어진 df에서 월별로 데이터의 합계를 계산하세요.

In [134]:
import pandas as pd

# 데이터프레임 생성
df = pd.DataFrame({
    'date': ['2022-01-01', '2022-01-15', '2022-02-01', '2022-02-15', '2022-03-01'],
    'value': [1, 2, 3, 4, 5]
})
df['date'] = pd.to_datetime(df['date'])
df

Unnamed: 0,date,value
0,2022-01-01,1
1,2022-01-15,2
2,2022-02-01,3
3,2022-02-15,4
4,2022-03-01,5


In [135]:
# 월별 데이터 집계
df['month'] = df['date'].dt.to_period('M')
monthly_sum = df.groupby('month')['value'].sum().reset_index()
print(monthly_sum)

     month  value
0  2022-01      3
1  2022-02      7
2  2022-03      5


Task. 주어진 데이터프레임에서 주말(토요일과 일요일) 데이터를 필터링하세요.

In [136]:
import pandas as pd

# 데이터프레임 생성
df = pd.DataFrame({
    'date': ['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-08', '2022-01-09'],
    'value': [1, 2, 3, 4, 5]
})
df['date'] = pd.to_datetime(df['date'])
df

Unnamed: 0,date,value
0,2022-01-01,1
1,2022-01-02,2
2,2022-01-03,3
3,2022-01-08,4
4,2022-01-09,5


In [137]:
# 주말 데이터 필터링
df['day_of_week'] = df['date'].dt.dayofweek
weekend_df = df[df['day_of_week'] >= 5]
print(weekend_df)

        date  value  day_of_week
0 2022-01-01      1            5
1 2022-01-02      2            6
3 2022-01-08      4            5
4 2022-01-09      5            6


Task. 주어진 df에서 분기별 데이터의 평균을 계산하세요.

In [138]:
import pandas as pd

# 데이터프레임 생성
df = pd.DataFrame({
    'date': ['2022-01-01', '2022-02-01', '2022-03-01', '2022-04-01', '2022-05-01'],
    'value': [1, 2, 3, 4, 5]
})
df['date'] = pd.to_datetime(df['date'])

df

Unnamed: 0,date,value
0,2022-01-01,1
1,2022-02-01,2
2,2022-03-01,3
3,2022-04-01,4
4,2022-05-01,5


In [139]:
# 분기별 데이터 평균 계산
df['quarter'] = df['date'].dt.to_period('Q')
quarterly_mean = df.groupby('quarter')['value'].mean().reset_index()
print(quarterly_mean)

  quarter  value
0  2022Q1    2.0
1  2022Q2    4.5


Task. 주어진 df에서 작업 일자(월요일부터 금요일)만 남기고 필터링하세요.

In [140]:
import pandas as pd

# 데이터프레임 생성
df = pd.DataFrame({
    'date': ['2022-01-01', '2022-01-03', '2022-01-04', '2022-01-05', '2022-01-08', '2022-01-09'],
    'value': [1, 2, 3, 4, 5, 6]
})
df['date'] = pd.to_datetime(df['date'])
df

Unnamed: 0,date,value
0,2022-01-01,1
1,2022-01-03,2
2,2022-01-04,3
3,2022-01-05,4
4,2022-01-08,5
5,2022-01-09,6


In [141]:
# 작업 일자(월요일부터 금요일) 필터링
df['day_of_week'] = df['date'].dt.dayofweek
workdays_df = df[df['day_of_week'] < 5]
print(workdays_df)

        date  value  day_of_week
1 2022-01-03      2            0
2 2022-01-04      3            1
3 2022-01-05      4            2
