# Pandas 시계열 데이터 처리

파이썬의 날짜 및 시간 관련 객체
| 클래스 | 내용|
|--|--|
|datetime.date | 그레고리력으로 날짜를 다룹니다. (year, month, day) |
|datetime.time | 특정일과 관련없이 모든 날(day)을 24x60x60초로 다루는 시간입니다. (hour, minute, second, microsecond, tzinfo)|
|datetime.datetime | 날짜와 시간의 조합입니다. (year, month, day, hour, minute, second, microsecond, tzinfo) |
|datetime.timedelta | date인스턴스간, time인스턴스간, 또는 datetime 인스턴스간의 차이를 microsecond 로 나타내는 기간입니다.|
|datetime.tzinfo | 시간대 정보 객체에 대한 추상 기본 클래스로서 사용자 정의로 시간을 조정하기 위해 사용됩니다.|
|datetime.timezone| UTC (Universal Time Coordinated) 의 고정 오프셋으로 tzinfo를 실행하는 클래스입니다.|

In [None]:
from datetime import datetime, date, time, timedelta

# 현재 날짜와 시간 가져오기
current_datetime = datetime.now()
print("현재 날짜와 시간:", current_datetime)



In [None]:

# 날짜와 시간 구성하기
custom_datetime = datetime(2023, 8, 7, 15, 30, 0)
print("사용자 정의 날짜와 시간:", custom_datetime)

# 날짜 추출하기
print("년:", custom_datetime.year)
print("월:", custom_datetime.month)
print("일:", custom_datetime.day)

# 시간 추출하기
print("시:", custom_datetime.hour)
print("분:", custom_datetime.minute)
print("초:", custom_datetime.second)



In [None]:
# 날짜와 시간의 차이 계산하기
time_difference = current_datetime - custom_datetime
print("시간 차이:", time_difference)


In [None]:

# 특정 시간 간격 더하기
future_datetime = current_datetime + timedelta(days=5, hours=3)
print("5일 3시간 후:", future_datetime)



## strftime, strptime 

strftime과 strptime은 파이썬의 datetime 모듈에서 날짜와 시간을 문자열로 변환하고 파싱하는 데 사용되는 함수들입니다.

### strftime (String Format Time)

strftime 함수는 datetime 객체를 원하는 형식의 문자열로 변환하는 데 사용됩니다.
포맷 문자열을 사용하여 날짜와 시간을 원하는 형식으로 표현할 수 있습니다.
주요 포맷 코드 예시:
- `%Y`: 년 (4자리)
- `%m`: 월 (2자리)
- `%d`: 일 (2자리)
- `%H`: 시간 (24시간 형식, 2자리)
- `%M`: 분 (2자리)
- `%S`: 초 (2자리)

In [7]:
from datetime import datetime

current_datetime = datetime.now()
formatted_date = current_datetime.strftime("%Y-%m-%d %H:%M:%S")
print("형식화된 날짜:", formatted_date)


형식화된 날짜: 2023-08-07 10:39:55


### strptime (String Parse Time)

strptime 함수는 문자열을 datetime 객체로 파싱(변환)하는 데 사용됩니다.
입력된 문자열과 형식 문자열을 비교하여 datetime 객체를 생성합니다.
strftime의 포맷 코드와 반대로, 문자열에서 날짜와 시간 정보를 추출합니다.

In [8]:
from datetime import datetime

date_string = "2023-08-07 12:30:00"
parsed_date = datetime.strptime(date_string, "%Y-%m-%d %H:%M:%S")
print("파싱된 날짜:", parsed_date)


파싱된 날짜: 2023-08-07 12:30:00


## timestamp

datetime 타임스탬프는 특정 날짜와 시간을 고유한 숫자 값으로 나타낸 것을 말합니다.  
이 숫자 값은 일반적으로 1970년 1월 1일부터의 경과 시간을 초단위로 표현한 것으로, 이를 "UNIX 시간" 또는 "에포크 시간"이라고도 합니다.

파이썬의 datetime 모듈을 사용하여 날짜와 시간을 다루다보면,  
datetime 객체를 특정 시간으로부터의 경과 시간을 나타내는 타임스탬프로 변환하거나,  
반대로 타임스탬프를 datetime 객체로 변환하는 작업을 할 수 있습니다.

In [9]:
from datetime import datetime

# 현재 시간을 datetime 객체로 가져오기
current_datetime = datetime.now()

# datetime 객체를 타임스탬프로 변환
timestamp = current_datetime.timestamp()
print("타임스탬프:", timestamp)


타임스탬프: 1691471952.160549


In [10]:
from datetime import datetime

# 타임스탬프를 datetime 객체로 변환
timestamp = 1674567890.123456  # 예시 타임스탬프
converted_datetime = datetime.fromtimestamp(timestamp)
print("변환된 datetime 객체:", converted_datetime)


변환된 datetime 객체: 2023-01-24 22:44:50.123456


In [None]:
from datetime import datetime

# 타임스탬프를 datetime 객체로 변환
timestamp = 1674567890.123456  # 예시 타임스탬프
converted_datetime = datetime.fromtimestamp(timestamp)
print("변환된 datetime 객체:", converted_datetime)


## Naive vs tz-awre 시간대
"나이브(Naive)"란 용어는 시간대(timezone) 정보를 갖지 않는 시간 관련 데이터를 가리킵니다. 파이썬의 `datetime` 라이브러리에서는 시간대 정보 없이 날짜와 시간만을 다루는 객체를 "나이브"하다고 표현합니다. 즉, "나이브"한 `datetime` 객체는 특정한 지역이나 표준 시간대를 고려하지 않습니다.

예를 들어, 2023년 8월 15일 10시를 `datetime` 객체로 나타내면 아래와 같습니다:

```python
import datetime

naive_datetime = datetime.datetime(2023, 8, 15, 10, 0)
print(naive_datetime)
```

위의 `naive_datetime` 객체는 시간대 정보를 갖지 않습니다. 이 객체는 로컬 시스템의 기본 시간대를 따르게 됩니다. 이것은 시간대 변경이나 다양한 시간대의 변환을 고려하지 않고 단순히 날짜와 시간 정보를 저장하는 객체입니다.

나이브한 `datetime` 객체를 사용할 때 주의해야 할 점은 다음과 같습니다:

1. **시간대 변환 문제**: 나이브한 객체를 다른 시간대로 변환하면 부정확한 결과를 얻을 수 있습니다.
2. **시간대 정보 손실**: 나이브한 객체는 시간대 정보가 없으므로 다른 시간대에서 언제 발생한 사건인지 파악하기 어려울 수 있습니다.

이러한 이유로 시간대를 다루는 경우에는 `datetime` 객체를 "안전하게(tz-aware)" 만드는 것이 중요합니다. "안전한" `datetime` 객체는 시간대 정보를 포함하며, 시간대 변환 등의 작업을 정확하게 수행할 수 있습니다. 이를 위해서는 `dateutil.tz` 모듈이나 `pytz` 라이브러리 등을 사용하여 `datetime` 객체를 시간대 정보와 함께 생성하고 다루는 것이 좋습니다.

## tzinfo

`tzinfo`는 파이썬의 `datetime` 모듈에서 시간대(Time Zone) 정보를 나타내는 추상 기본 클래스(Abstract Base Class)입니다. 이 클래스를 사용하여 `datetime` 객체에 시간대 정보를 추가할 수 있습니다.


## pytz 

`pytz`는 파이썬에서 시간대(Time Zone) 정보를 처리하고 다루는 라이브러리입니다. 파이썬의 내장 `datetime` 모듈은 기본적으로 시간대 정보를 다루는 기능이 제한적이기 때문에, `pytz` 라이브러리는 이를 보완하여 다양한 시간대의 변환과 처리를 지원합니다. `pytz`는 파이썬의 `datetime` 모듈과 함께 사용하여 시간대 정보를 적용한 날짜와 시간을 다루는 작업을 돕는 도구로 사용됩니다.

`pytz` 라이브러리의 주요 기능과 특징은 다음과 같습니다:

1. 다양한 시간대 지원: `pytz`는 전 세계의 다양한 시간대를 지원합니다. 오래된 시간대부터 최신 시간대까지 포함하고 있어, 다양한 국가와 지역의 시간을 정확하게 다룰 수 있습니다.

2. 오프셋과 시간대 이름: `pytz`는 시간대의 오프셋(offset)과 시간대의 이름을 다루는 클래스와 함수를 제공합니다. 이를 통해 시간대 변환 및 연산이 용이해집니다.

3. `datetime` 객체와 함께 사용: `pytz`는 `datetime` 모듈과 밀접하게 연동되어 시간대 정보를 가진 `datetime` 객체를 생성하고, 시간대 변환, 비교 등을 할 수 있도록 합니다.

4. 데이터베이스 기반 시간대 정보: `pytz`는 Olson 데이터베이스를 기반으로 시간대 정보를 제공합니다. 이 데이터베이스는 전 세계의 시간대 정보를 관리하며, `pytz`는 이 정보를 활용하여 정확한 시간대 처리를 가능케 합니다.  https://en.wikipedia.org/wiki/List_of_tz_database_time_zones

5. 유연한 인터페이스: `pytz`는 다양한 시간대 정보를 다루는 데 필요한 유연한 인터페이스를 제공합니다. 시간대 이름, 오프셋, DST(Daylight Saving Time) 등을 조작하고 변환할 수 있습니다.


In [83]:
import pytz
from datetime import datetime

current_datetime = datetime(2023, 8, 7, 15, 30, 0)
print("Default: ", current_datetime, current_datetime.timestamp())


# 서울 시간대 생성
seoul_timezone = pytz.timezone('Asia/Seoul')

# 현재 서울 시간 가져오기
seoul_datetime = current_datetime.astimezone(seoul_timezone)
print("Seoul:   ", seoul_datetime, seoul_datetime.timestamp())

# UTC로 변환
utc_datetime = current_datetime.astimezone(pytz.UTC)
print("UTC:     ", utc_datetime, utc_datetime.timestamp())

# 뉴욕 시간으로 변환
new_york_timezone = pytz.timezone('America/New_York')
ny_datetime = current_datetime.astimezone(new_york_timezone)
print("New York:", ny_datetime, ny_datetime.timestamp())


Default:  2023-08-07 15:30:00 1691389800.0
Seoul:    2023-08-07 15:30:00+09:00 1691389800.0
UTC:      2023-08-07 06:30:00+00:00 1691389800.0
New York: 2023-08-07 02:30:00-04:00 1691389800.0


In [81]:
# 사용 가능한 모든 시간대 출력
all_timezones = pytz.all_timezones
print("사용 가능한 모든 시간대:", len(all_timezones), all_timezones[:10])

# 일반적으로 사용되는 시간대 출력
common_timezones = pytz.common_timezones
print("일반적으로 사용되는 시간대:", len(common_timezones), common_timezones[:10])

사용 가능한 모든 시간대: 596 ['Africa/Abidjan', 'Africa/Accra', 'Africa/Addis_Ababa', 'Africa/Algiers', 'Africa/Asmara', 'Africa/Asmera', 'Africa/Bamako', 'Africa/Bangui', 'Africa/Banjul', 'Africa/Bissau']
일반적으로 사용되는 시간대: 433 ['Africa/Abidjan', 'Africa/Accra', 'Africa/Addis_Ababa', 'Africa/Algiers', 'Africa/Asmara', 'Africa/Bamako', 'Africa/Bangui', 'Africa/Banjul', 'Africa/Bissau', 'Africa/Blantyre']


## timedelta

`timedelta`는 파이썬의 내장 모듈인 `datetime`에서 제공하는 클래스로, 두 날짜 또는 시간 사이의 시간 간격을 나타내는 데 사용됩니다.  
`timedelta` 객체는 일(day), 초(second), 마이크로초(microsecond) 등의 시간 단위로 간격을 표현할 수 있습니다.  
주로 날짜와 시간 연산에서 일정 기간을 더하거나 빼는 등의 작업에 활용됩니다.

`timedelta` 객체의 생성자는 다음과 같이 사용됩니다:

```python
from datetime import timedelta

# 일(day), 초(second), 마이크로초(microsecond) 단위로 간격 생성
time_gap = timedelta(days=5, seconds=3600, microseconds=5000)
```

`timedelta` 객체의 주요 속성과 메서드는 다음과 같습니다:

1. `days`: 일(day) 단위의 간격을 나타내는 속성입니다.
2. `seconds`: 초(second) 단위의 간격을 나타내는 속성입니다.
3. `microseconds`: 마이크로초(microsecond) 단위의 간격을 나타내는 속성입니다.
4. `total_seconds()`: `timedelta` 객체의 총 초(second) 수를 반환하는 메서드입니다.

`timedelta` 객체는 `datetime` 객체와 함께 사용하여 시간 연산을 수행할 때 유용합니다.

In [1]:
from datetime import datetime, timedelta

# 현재 날짜와 시간 가져오기
current_datetime = datetime.now()






2일 후: 2023-08-09 16:48:33.623544
3시간 30분 후: 2023-08-07 20:18:33.623544
두 날짜 사이의 일수: 9


In [None]:

# 2일 후의 날짜 계산
two_days_later = current_datetime + timedelta(days=2)
print("2일 후:", two_days_later)

In [None]:
# 3시간 30분 후의 시간 계산
time_gap = timedelta(hours=3, minutes=30)
future_time = current_datetime + time_gap
print("3시간 30분 후:", future_time)

In [None]:

# 두 날짜 사이의 일수 계산
date1 = datetime(2023, 8, 1)
date2 = datetime(2023, 8, 10)
days_between = (date2 - date1).days
print("두 날짜 사이의 일수:", days_between)

# pandas 의 시계열 데이터 처리

## to_datetime()
`pandas`의 `to_datetime` 함수는 문자열이나 숫자 등의 다양한 형식의 입력을 받아  
`DatetimeIndex` 또는 `Timestamp` 객체로 변환하는 기능을 제공하는 함수입니다.  
이 함수를 사용하면 날짜와 시간 데이터를 처리하고 `pandas`에서 다양한 시간 관련 작업을 수행할 수 있습니다.

`to_datetime` 함수의 주요 기능과 사용법은 다음과 같습니다:

1. **문자열을 날짜로 변환**: `to_datetime` 함수는 문자열을 날짜 또는 시간 형식으로 변환할 수 있습니다. 이 때, 문자열의 형식을 지정할 수 있습니다.

2. **숫자나 문자열을 타임스탬프로 변환**: `to_datetime` 함수는 숫자나 문자열을 `Timestamp` 객체로 변환할 수 있습니다.

3. **시계열 데이터 변환**: `to_datetime` 함수는 데이터프레임의 열이나 시리즈를 변환할 수 있습니다. 이 때, 컬럼의 이름이나 인덱스를 지정하여 변환할 수 있습니다.

4. **옵션 설정**: `to_datetime` 함수는 다양한 옵션을 설정하여 날짜 형식을 조정하거나 누락된 데이터 처리를 할 수 있습니다.


In [5]:

import pandas as pd

# 문자열을 날짜로 변환
date_str = '2023-08-07'
date_obj = pd.to_datetime(date_str)
print("날짜 객체:", date_obj)



날짜 객체: 2023-08-07 00:00:00


In [6]:
# 숫자를 타임스탬프로 변환
timestamp = pd.to_datetime(1678873600, unit='s')  # 유닉스 타임스탬프
print("타임스탬프:", timestamp)



타임스탬프: 2023-03-15 09:46:40


In [66]:
import pandas as pd

# 유닉스 에포크 시간 배열 생성
unix_epoch_times = [1628299200, 1628385600, 1628472000, 1628558400]

# 유닉스 에포크 시간 배열을 DatetimeIndex로 변환
datetime_index = pd.to_datetime(unix_epoch_times, unit='s')
df = pd.DataFrame(
    dict(
        Datetime=datetime_index, 
        value=np.random.randint(10,20,len(datetime_index))
    )
)
print(df)


             Datetime  value
0 2021-08-07 01:20:00     11
1 2021-08-08 01:20:00     13
2 2021-08-09 01:20:00     19
3 2021-08-10 01:20:00     16


In [67]:
# 시리즈 변환
data = ['2023-08-01', '2023-08-02', '2023-08-03']
date_series = pd.Series(data)
converted_series = pd.to_datetime(date_series)
print("변환된 시리즈:\n", converted_series)


변환된 시리즈:
 0   2023-08-01
1   2023-08-02
2   2023-08-03
dtype: datetime64[ns]


In [68]:

# 데이터프레임 변환
data = {'Date': ['2023-08-01', '2023-08-02', '2023-08-03'],
        'Value': [10, 20, 30]}
df = pd.DataFrame(data)
df['Date'] = pd.to_datetime(df['Date'])
print("변환된 데이터프레임:\n", df)

변환된 데이터프레임:
         Date  Value
0 2023-08-01     10
1 2023-08-02     20
2 2023-08-03     30


## pandas에서 datetime 활용

`pandas`에서 `datetime` 객체는 시계열 데이터와 날짜, 시간 정보를 표현하고 다루는 데 사용되는 중요한 데이터 유형입니다.  
`datetime` 객체는 `pandas` 라이브러리에서 시간 관련 연산과 분석을 수행하는 데 필수적인 도구로 사용됩니다.  
객체는 시계열 데이터를 생성하고 다루는 데 중요한 역할을 합니다.

`pandas`에서 활용하는 `datetime` 객체의 주요 특징과 기능은 다음과 같습니다:

1. **DatetimeIndex**: `pandas`에서 시계열 데이터를 다룰 때, `datetime` 객체는 `DatetimeIndex`의 요소로 사용됩니다. `DatetimeIndex`는 날짜와 시간을 색인으로 사용하는 데 특화된 데이터 구조입니다.

2. **날짜와 시간 표현**: `datetime` 객체는 날짜와 시간 정보를 모두 포함하며, 연도, 월, 일, 시, 분, 초, 마이크로초 등을 표현할 수 있습니다.

3. **시간 연산 및 변환**: `datetime` 객체는 시간 간격을 계산하거나 다른 시간 단위로 변환하는 기능을 제공합니다. 또한 시간대 변환과 관련된 작업도 처리할 수 있습니다.

4. **표준 연산 및 함수 지원**: `datetime` 객체는 일반적인 연산자와 함수를 사용하여 시간 관련 작업을 수행할 수 있습니다. 예를 들어, 두 날짜의 차이를 계산하거나 특정 날짜와 시간을 생성하는 등의 작업이 가능합니다.

5. **누락된 데이터 처리**: `pandas`의 `datetime` 객체는 누락된 날짜나 시간 데이터를 처리하고 채울 수 있는 기능을 제공합니다.

6. **시각화 및 시계열 분석**: `datetime` 객체를 사용하여 시계열 데이터를 시각화하고 분석하는데 활용할 수 있습니다. `pandas`와 `matplotlib`을 연동하여 시계열 데이터를 그래프로 표현할 수 있습니다.


## date_range()

`pd.date_range()`는 `pandas` 라이브러리에서 사용되는 함수로, 날짜 범위를 생성하는데 사용됩니다.  
이 함수를 사용하면 특정 기간 동안 일정한 간격으로 날짜를 생성하여 `DatetimeIndex`를 생성할 수 있습니다.  
이는 시계열 데이터를 다루거나 분석할 때 유용하게 활용됩니다.

`pd.date_range()` 함수의 주요 인자와 사용법은 다음과 같습니다:

1. `start`: 날짜 범위의 시작 날짜를 지정합니다. 날짜 형식으로 입력할 수 있습니다.
2. `end`: 날짜 범위의 종료 날짜를 지정합니다. 날짜 형식으로 입력할 수 있습니다.
3. `periods`: 생성할 날짜의 수를 지정합니다. `start`가 있을 경우 `end` 대신에 이 인자를 사용할 수 있습니다.
4. `freq`: 생성할 날짜의 간격을 지정합니다. 예를 들어, 'D'는 일간격, 'H'는 시간 간격을 나타냅니다.
5. `normalize`: 기본값은 False이며, True로 설정하면 시간을 00:00:00으로 정규화합니다.



In [69]:

import pandas as pd

# 날짜 범위 생성: 2023년 1월 1일부터 2023년 1월 10일까지
date_rng = pd.date_range(start='2023-01-01 09:00', end='2023-01-02 02:00', freq='H')
print("시간 범위:\n", date_rng)


시간 범위:
 DatetimeIndex(['2023-01-01 09:00:00', '2023-01-01 10:00:00',
               '2023-01-01 11:00:00', '2023-01-01 12:00:00',
               '2023-01-01 13:00:00', '2023-01-01 14:00:00',
               '2023-01-01 15:00:00', '2023-01-01 16:00:00',
               '2023-01-01 17:00:00', '2023-01-01 18:00:00',
               '2023-01-01 19:00:00', '2023-01-01 20:00:00',
               '2023-01-01 21:00:00', '2023-01-01 22:00:00',
               '2023-01-01 23:00:00', '2023-01-02 00:00:00',
               '2023-01-02 01:00:00', '2023-01-02 02:00:00'],
              dtype='datetime64[ns]', freq='H')


In [70]:

# 날짜 범위 생성: 2023년 1월 1일부터 2023년 1월 10일까지, 일간격
daily_rng = pd.date_range(start='2023-01-01', end='2023-01-10', freq='D')
print("일간격 날짜 범위:\n", daily_rng)



일간격 날짜 범위:
 DatetimeIndex(['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04',
               '2023-01-05', '2023-01-06', '2023-01-07', '2023-01-08',
               '2023-01-09', '2023-01-10'],
              dtype='datetime64[ns]', freq='D')


In [71]:

# 날짜 범위 생성: 2023년 1월 1일부터 2023년 1월 10일까지, 일간격
daily_rng = pd.date_range(start='2023-01-01', periods=10, freq='D')
print("일간격 날짜 범위:\n", daily_rng)



일간격 날짜 범위:
 DatetimeIndex(['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04',
               '2023-01-05', '2023-01-06', '2023-01-07', '2023-01-08',
               '2023-01-09', '2023-01-10'],
              dtype='datetime64[ns]', freq='D')


In [72]:
# 날짜 범위 생성: 2023년 1월 1일부터 2023년 12월 31일까지, 월간격
monthly_rng = pd.date_range(start='2023-01-01', end='2023-12-31', freq='M')
print("월간격 날짜 범위:\n", monthly_rng)

월간격 날짜 범위:
 DatetimeIndex(['2023-01-31', '2023-02-28', '2023-03-31', '2023-04-30',
               '2023-05-31', '2023-06-30', '2023-07-31', '2023-08-31',
               '2023-09-30', '2023-10-31', '2023-11-30', '2023-12-31'],
              dtype='datetime64[ns]', freq='M')


## DatetimeIndex

`DatetimeIndex`는 `pandas` 라이브러리에서 시계열 데이터를 다루는 데 사용되는 중요한 데이터 구조 중 하나입니다.  
이는 날짜와 시간 정보를 포함하는 인덱스(Index)로서, 데이터프레임이나 시리즈의 행을 식별하는 데 활용됩니다.  
`DatetimeIndex`는 시계열 데이터를 쉽게 조작하고 분석하는데 매우 유용합니다.

`DatetimeIndex`의 주요 특징과 기능은 다음과 같습니다:

1. **시계열 데이터와 연동**: `DatetimeIndex`는 시계열 데이터를 다루는 데 최적화된 구조입니다. 시계열 데이터를 데이터프레임이나 시리즈와 함께 사용할 때, 인덱스로 `DatetimeIndex`를 사용하면 데이터를 날짜와 시간에 기반하여 쉽게 필터링하거나 조작할 수 있습니다.

2. **데이터 선택 및 슬라이싱**: `DatetimeIndex`를 사용하면 날짜 범위를 기반으로 데이터를 선택하거나 슬라이싱하는 작업을 쉽게 수행할 수 있습니다. 원하는 날짜 범위 내의 데이터를 추출하거나 필터링하는데 용이합니다.

3. **데이터 리샘플링**: `DatetimeIndex`는 시계열 데이터의 리샘플링 작업을 지원합니다. 데이터를 주기적으로 묶어서 집계하거나 변환하는 작업을 할 때 유용합니다.

4. **시간 간격 연산**: `DatetimeIndex`를 사용하여 시간 간격을 계산하거나 다른 시간 단위로 변환하는 작업을 수행할 수 있습니다.

5. **데이터 정렬**: `DatetimeIndex`는 날짜와 시간에 기반하여 데이터를 정렬하는 데 사용됩니다. 데이터를 시간순으로 정렬할 수 있습니다.



In [73]:
import pandas as pd
import numpy as np

data = np.random.randint(0,12,24)

# 날짜 범위 생성
date_rng = pd.date_range(start='2023-01-31 18:00', periods=len(data), freq="H")

# 시계열 데이터 생성
time_series = pd.Series(data, index=date_rng)

# 데이터프레임 생성
df = pd.DataFrame({'Value': time_series})


In [74]:

# 특정 날짜 범위 선택
selected_range = df['2023-01-31 23:00':'2023-02-01 02:00']
print("선택된 범위:\n", selected_range)


선택된 범위:
                      Value
2023-01-31 23:00:00     10
2023-02-01 00:00:00     10
2023-02-01 01:00:00      2
2023-02-01 02:00:00     10


In [75]:

# 특정 날짜 범위 선택
selected_date = df[datetime(2023,1,31,23):datetime(2023,2,1,2)]
print("선택된 날짜의 데이터:\n", selected_date)


선택된 날짜의 데이터:
                      Value
2023-01-31 23:00:00     10
2023-02-01 00:00:00     10
2023-02-01 01:00:00      2
2023-02-01 02:00:00     10


In [76]:
# 특정 날짜 선택
selected_date = df.loc['2023-01-31']
print("선택된 날짜의 데이터:\n", selected_date)


선택된 날짜의 데이터:
                      Value
2023-01-31 18:00:00      4
2023-01-31 19:00:00      1
2023-01-31 20:00:00      9
2023-01-31 21:00:00      7
2023-01-31 22:00:00      5
2023-01-31 23:00:00     10


In [77]:
# 특정 월 선택
selected_date = df.loc['2023-02']
print("선택된 날짜의 데이터:\n", selected_date)


선택된 날짜의 데이터:
                      Value
2023-02-01 00:00:00     10
2023-02-01 01:00:00      2
2023-02-01 02:00:00     10
2023-02-01 03:00:00      4
2023-02-01 04:00:00      1
2023-02-01 05:00:00      1
2023-02-01 06:00:00      8
2023-02-01 07:00:00      2
2023-02-01 08:00:00      4
2023-02-01 09:00:00      7
2023-02-01 10:00:00      5
2023-02-01 11:00:00      3
2023-02-01 12:00:00      1
2023-02-01 13:00:00      9
2023-02-01 14:00:00      1
2023-02-01 15:00:00     10
2023-02-01 16:00:00     10
2023-02-01 17:00:00      6


## resampling()

`pandas`의 리샘플링(resampling)은 시계열 데이터의 주기를 변경하는 작업을 말합니다. 이는 원본 시계열 데이터의 간격을 더 큰 주기로 변환하거나 더 작은 주기로 세분화하는 작업을 의미합니다. 리샘플링은 시계열 데이터를 분석하거나 시각화할 때 유용하며, 데이터의 집계나 변환 작업을 수행하는데 활용됩니다.

`pandas`에서 리샘플링은 `resample()` 메서드를 사용하여 수행할 수 있습니다. 이 메서드는 원하는 리샘플링 주기를 지정하고, 해당 주기로 데이터를 집계하거나 변환하는 작업을 수행합니다.

`resample()` 메서드의 주요 인자와 사용법은 다음과 같습니다:

1. `rule`: 리샘플링할 주기를 지정합니다. 예를 들어, 'D'는 일간격, 'M'은 월간격을 의미합니다.
2. `how`: 집계 방법을 지정합니다. 'mean', 'sum', 'count' 등이 가능합니다.
3. `closed`: 리샘플된 구간의 어느 쪽을 포함할지 지정합니다. 'right', 'left', 'both', 'neither' 중 선택할 수 있습니다.
4. `label`: 리샘플된 구간의 레이블을 지정합니다. 'right', 'left' 중 선택할 수 있습니다.




In [78]:
import pandas as pd
import numpy as np

# 날짜 범위 생성
date_rng = pd.date_range(start='2023-01-01', end='2023-01-31', freq='D')

# 시계열 데이터 생성
df = pd.DataFrame(np.random.randn(len(date_rng)), index=date_rng)




In [79]:
# 월간 평균 리샘플링
monthly_mean = df.resample('M').mean()
print("월간 평균 리샘플링:\n", monthly_mean)



월간 평균 리샘플링:
                    0
2023-01-31 -0.187333


In [80]:
# 주간 합 리샘플링
weekly_sum = df.resample('W').sum()
print("주간 합 리샘플링:\n", weekly_sum)

주간 합 리샘플링:
                    0
2023-01-01 -0.648023
2023-01-08 -0.824695
2023-01-15 -2.647201
2023-01-22 -1.216872
2023-01-29 -3.513120
2023-02-05  3.042595


# DateOffset 객체

판다스에서 날짜 오프셋(Date Offset)은 시계열 데이터를 다룰 때 날짜와 시간을 조작하고 오프셋을 적용하는데 사용되는 도구입니다.  
날짜 오프셋은 특정 주기나 간격에 따라 날짜와 시간을 조정하는 기능을 제공하여  
데이터 분석과 시계열 데이터 처리를 보다 효과적으로 수행할 수 있도록 도와줍니다.  
주요 날짜 오프셋은 다음과 같습니다:

1. **Day, BusinessDay**: 날짜를 일(day) 단위로 이동시키는 오프셋입니다. `pd.DateOffset(days=n)`와 같이 사용합니다. `BusinessDay`는 주말과 공휴일을 제외하고 이동합니다.

2. **Week**: 주(week) 단위로 날짜를 이동시키는 오프셋입니다. `pd.DateOffset(weeks=n)`와 같이 사용합니다.

3. **Month, Year**: 월(month)과 년(year) 단위로 날짜를 이동시키는 오프셋입니다. `pd.DateOffset(months=n)`와 `pd.DateOffset(years=n)`와 같이 사용합니다.

4. **Hour, Minute, Second**: 시(hour), 분(minute), 초(second) 단위로 날짜와 시간을 이동시키는 오프셋입니다.

5. **Custom Offset**: 사용자 정의 오프셋을 만들어 사용할 수도 있습니다. 이는 특정한 주기에 따라 날짜와 시간을 조정하기 위해 유용합니다.

날짜 오프셋은 주로 `pd.Timestamp`나 `pd.DatetimeIndex` 객체와 함께 사용됩니다. 


In [1]:

import pandas as pd

date = pd.Timestamp('2023-08-08')
one_week_later = date + pd.DateOffset(weeks=1)
print(one_week_later)  # 2023-08-15

one_month_earlier = date - pd.DateOffset(months=1)
print(one_month_earlier)  # 2023-07-08

2023-08-15 00:00:00
2023-07-08 00:00:00


In [2]:
import pandas as pd

# 샘플 데이터프레임 생성
data = {'date': pd.date_range(start='2023-08-01', periods=10),
        'value': [10, 15, 20, 25, 30, 35, 40, 45, 50, 55]}
df = pd.DataFrame(data)

print("Original DataFrame:")
print(df)


Original DataFrame:
        date  value
0 2023-08-01     10
1 2023-08-02     15
2 2023-08-03     20
3 2023-08-04     25
4 2023-08-05     30
5 2023-08-06     35
6 2023-08-07     40
7 2023-08-08     45
8 2023-08-09     50
9 2023-08-10     55


In [3]:

# 날짜 오프셋을 사용하여 날짜 열을 3일씩 미래로 이동시키기
offset = pd.DateOffset(days=3)
df['shifted_date'] = df['date'] + offset

print("\nDataFrame with Shifted Dates:")
print(df)


DataFrame with Shifted Dates:
        date  value shifted_date
0 2023-08-01     10   2023-08-04
1 2023-08-02     15   2023-08-05
2 2023-08-03     20   2023-08-06
3 2023-08-04     25   2023-08-07
4 2023-08-05     30   2023-08-08
5 2023-08-06     35   2023-08-09
6 2023-08-07     40   2023-08-10
7 2023-08-08     45   2023-08-11
8 2023-08-09     50   2023-08-12
9 2023-08-10     55   2023-08-13


In [29]:
import pandas as pd

date = pd.Timestamp('2023-08-15')
month_end = pd.DateOffset(months=1) - pd.DateOffset(days=1)
new_date = date + month_end
print(new_date)  # 2023-08-31 (주어진 날짜의 월의 마지막 날짜로 조정)


2023-08-15 00:00:00


## MonthEnd, MonthBegin, WeekEnd 

판다스(Pandas)에서 `MonthEnd`, `MonthBegin`, 그리고 `WeekEnd` 클래스는 날짜 오프셋을 표현하는데 사용되는 클래스들입니다. 이들 클래스는 주로 시계열 데이터의 날짜와 시간을 효과적으로 조작하고 계산하는 데 활용됩니다.


In [15]:
"""
1. **`MonthEnd`** 클래스 (pd.Timestamp)
`MonthEnd` 클래스는 월(month)의 마지막 날짜로 이동하는 날짜 오프셋입니다.
"""

import pandas as pd

date = pd.Timestamp('2023-08-15')
month_end = pd.offsets.MonthEnd()
new_date = month_end.rollforward(date)
print(new_date)  # 2023-08-31 (주어진 날짜에서 가장 가까운 월의 마지막 날짜로 이동)


2023-08-31 00:00:00


In [16]:
"""
1. **`MonthEnd`** 클래스 (datetime.datetime)
`MonthEnd` 클래스는 월(month)의 마지막 날짜로 이동하는 날짜 오프셋입니다.
"""

from datetime import datetime

date = datetime(2023, 8, 15)
month_end = pd.offsets.MonthEnd()
new_date = month_end.rollforward(date)
print(new_date)  # 2023-08-31 (주어진 날짜에서 가장 가까운 월의 마지막 날짜로 이동)


2023-08-31 00:00:00


In [6]:
"""
2. **`MonthBegin` 클래스**:
`MonthBegin` 클래스는 월(month)의 첫 번째 날짜로 이동하는 날짜 오프셋입니다.
"""

import pandas as pd

date = pd.Timestamp('2023-08-15')
month_begin = pd.offsets.MonthBegin()
new_date = month_begin.rollforward(date)
print(new_date)  # 2023-08-01 (주어진 날짜에서 가장 가까운 월의 첫 번째 날짜로 이동)


2023-09-01 00:00:00


In [7]:
"""
3. **`WeekEnd` 클래스**:
`WeekEnd` 클래스는 주(week)의 마지막 날짜(토요일)로 이동하는 날짜 오프셋입니다.
"""
import pandas as pd

date = pd.Timestamp('2023-08-15')
week_end = pd.offsets.Week(weekday=5)
new_date = week_end.rollforward(date)
print(new_date)  # 2023-08-19 (주어진 날짜에서 가장 가까운 주의 마지막 날짜로 이동)


2023-08-19 00:00:00


# 시계열 관련 인스턴스 메소드

판다스는 시계열 데이터를 처리하기 위한 다양한 인스턴스 메서드를 제공합니다.  
이 메서드들은 시계열 데이터의 특성을 활용하여 데이터 조작, 변환, 집계 등을 수행하는데 유용합니다. 

|이름|기능|
|--|--|
|resample()|시계열 데이터를 다시 샘플링하는 메서드로, 다른 주기로 데이터를 집계하거나 변환할 때 사용됩니다. 예를 들어, 원본 데이터를 주간에서 월간으로 변환하거나, 일별 데이터를 연도별로 집계하는 등의 작업을 수행할 수 있습니다.|
|shift()|시계열 데이터를 이동시키는 메서드로, 데이터의 이동 차원을 조절할 수 있습니다. 데이터를 앞으로(shift forward) 또는 뒤로(shift backward) 이동시킬 수 있습니다.|
|diff()|시계열 데이터 간의 차이를 계산하는 메서드로, 데이터의 차분을 계산하여 시계열 데이터의 추세나 변화를 분석할 때 사용됩니다.
|rolling()|이동 창(window)을 기반으로 이동 평균, 합 등의 이동 통계량을 계산하는 메서드입니다. 시계열 데이터의 부드러운 추세나 패턴을 파악하는 데 사용됩니다.|


In [34]:
"""
1. **`resample()`**:
시계열 데이터를 다시 샘플링하는 메서드로, 다른 주기로 데이터를 집계하거나 변환할 때 사용됩니다. 예를 들어, 원본 데이터를 주간에서 월간으로 변환하거나, 일별 데이터를 연도별로 집계하는 등의 작업을 수행할 수 있습니다.
"""
import pandas as pd

# 예제 시계열 데이터 생성
date_rng = pd.date_range(start='2023-01-01', periods=100, freq='D')
ts = pd.Series(range(len(date_rng)), index=date_rng)

# 월별 합계 계산
monthly_sum = ts.resample('M').sum()

In [35]:
monthly_sum

2023-01-31     465
2023-02-28    1246
2023-03-31    2294
2023-04-30     945
Freq: M, dtype: int64

In [45]:
"""
2. **`shift()`**:
시계열 데이터를 이동시키는 메서드로, 데이터의 이동 차원을 조절할 수 있습니다. 
데이터를 앞으로(shift forward) 또는 뒤로(shift backward) 이동시킬 수 있습니다.
"""

import pandas as pd

# 예제 시계열 데이터 생성
date_rng = pd.date_range(start='2023-01-01', periods=7, freq='D')
ts = pd.DataFrame(range(len(date_rng)), index=date_rng, columns=["data"])
print(ts)

            data
2023-01-01     0
2023-01-02     1
2023-01-03     2
2023-01-04     3
2023-01-05     4
2023-01-06     5
2023-01-07     6


In [46]:
# 데이터를 두 일 후로 이동
shifted = ts.shift(2)
print(shifted)


            data
2023-01-01   NaN
2023-01-02   NaN
2023-01-03   0.0
2023-01-04   1.0
2023-01-05   2.0
2023-01-06   3.0
2023-01-07   4.0


In [47]:

# 데이터를 두 일 전으로 이동
shifted = ts.shift(-2)
print(shifted)

            data
2023-01-01   2.0
2023-01-02   3.0
2023-01-03   4.0
2023-01-04   5.0
2023-01-05   6.0
2023-01-06   NaN
2023-01-07   NaN


In [49]:
"""
3. **`diff()`**:
시계열 데이터 간의 차이를 계산하는 메서드로, 
데이터의 차분을 계산하여 시계열 데이터의 추세나 변화를 분석할 때 사용됩니다.
"""

import pandas as pd

# 예제 시계열 데이터 생성
date_rng = pd.date_range(start='2023-01-01', periods=7, freq='D')
ts = pd.Series(range(len(date_rng)), index=date_rng)
print(ts)


2023-01-01    0
2023-01-02    1
2023-01-03    2
2023-01-04    3
2023-01-05    4
2023-01-06    5
2023-01-07    6
Freq: D, dtype: int64


In [50]:

# 데이터 간의 차이 계산
diff = ts.diff()
print(diff)


2023-01-01    NaN
2023-01-02    1.0
2023-01-03    1.0
2023-01-04    1.0
2023-01-05    1.0
2023-01-06    1.0
2023-01-07    1.0
Freq: D, dtype: float64


In [54]:
"""
4. **`rolling()`**:
이동 창(window)을 기반으로 이동 평균, 합 등의 이동 통계량을 계산하는 메서드입니다. 
시계열 데이터의 부드러운 추세나 패턴을 파악하는 데 사용됩니다.
"""
import pandas as pd

# 예제 시계열 데이터 생성
date_rng = pd.date_range(start='2023-01-01', periods=7, freq='D')
ts = pd.DataFrame(range(len(date_rng)), index=date_rng, columns=["Distance"])
print(ts)

            Data
2023-01-01     0
2023-01-02     1
2023-01-03     2
2023-01-04     3
2023-01-05     4
2023-01-06     5
2023-01-07     6


In [57]:
# 직전 3일간 이동거리 합 계산
rolling_mean = ts.rolling(window=3).sum()
print(rolling_mean)


            Data
2023-01-01   NaN
2023-01-02   NaN
2023-01-03   3.0
2023-01-04   6.0
2023-01-05   9.0
2023-01-06  12.0
2023-01-07  15.0


# dateutil

`dateutil`은 파이썬의 날짜와 시간 처리를 위한 외부 라이브러리로서, 날짜, 시간, 시간대(timezone) 등 다양한 시간 관련 작업을 수행할 수 있도록 도와주는 유용한 도구입니다. `dateutil`은 파이썬 표준 라이브러리인 `datetime` 모듈의 기능을 보완하고 확장하여 날짜와 시간 처리를 더 편리하게 할 수 있도록 설계되었습니다.

주요 기능과 클래스들을 살펴보겠습니다:

1. **`parser` 모듈**: `dateutil.parser` 모듈은 문자열을 파싱하여 `datetime` 객체로 변환하는 기능을 제공합니다. 자동으로 다양한 형식의 날짜와 시간을 해석하고 변환할 수 있습니다.

```python
from dateutil import parser

date_string = '2023-08-15 10:30:00'
parsed_date = parser.parse(date_string)
print(parsed_date)  # 2023-08-15 10:30:00
```

2. **`relativedelta` 클래스**: `dateutil.relativedelta` 클래스는 날짜 간의 상대적인 차이를 계산하는 데 사용됩니다. 년, 월, 일, 시간 등의 차이를 계산할 수 있습니다.

```python
from dateutil.relativedelta import relativedelta
import datetime

today = datetime.datetime.today()
one_year_later = today + relativedelta(years=1)
print(one_year_later)
```

3. **`tz` 모듈**: `dateutil.tz` 모듈은 시간대(timezone) 관련 작업을 수행하는 데 사용됩니다. 시간대 변환, 시간대 정보 획득 등이 가능합니다.

```python
from dateutil import tz

# UTC 시간대로 변환
utc_time = parsed_date.astimezone(tz.tzutc())
print(utc_time)
```

4. **`rrule` 모듈**: `dateutil.rrule` 모듈은 반복 규칙을 생성하고 다루는 데 사용됩니다. 특정 규칙에 따라 반복되는 날짜나 시간을 생성할 수 있습니다.

```python
from dateutil import rrule
import datetime

start_date = datetime.datetime(2023, 8, 1)
end_date = datetime.datetime(2023, 8, 31)
rule = rrule.rrule(rrule.DAILY, dtstart=start_date, until=end_date)
dates = list(rule)
print(dates)
```

`dateutil`은 날짜와 시간 관련 작업을 더 편리하게 처리할 수 있도록 도와주는 라이브러리입니다. 간단한 날짜 변환부터 복잡한 시간대 처리까지 다양한 작업에 유용하게 사용될 수 있습니다.

In [59]:
"""
1. **`parser` 모듈**: 
`dateutil.parser` 모듈은 문자열을 파싱하여 `datetime` 객체로 변환하는 기능을 제공합니다.
자동으로 다양한 형식의 날짜와 시간을 해석하고 변환할 수 있습니다.
"""

from dateutil import parser

date_string = '2023-08-15 10:30:00'
parsed_date = parser.parse(date_string)
print(parsed_date)  # 2023-08-15 10:30:00


2023-08-15 10:30:00


In [60]:
type(parsed_date)

datetime.datetime

In [70]:
"""
dateutil.parser 모듈은 많은 날짜와 시간 형식을 자동으로 처리할 수 있어, 
형식 지정자를 직접 지정하지 않아도 날짜와 시간을 파싱할 수 있습니다. 
"""

from dateutil import parser

# 문자열을 datetime 객체로 변환
date_string = '2023-08-15 10:30:00'
parsed_date = parser.parse(date_string)
print(parsed_date)  # 2023-08-15 10:30:00

# 다양한 형식의 문자열 해석
date_str_list = [
    '2023-08-15', 
    '08/15/2023', 
    '15 Aug, 2023'
]

for date_str in date_str_list:
    print(parser.parse(date_str), '<', date_str)


2023-08-15 10:30:00
2023-08-15 00:00:00 < 2023-08-15
2023-08-15 00:00:00 < 08/15/2023
2023-08-15 00:00:00 < 15 Aug, 2023


In [61]:
"""
2. **`relativedelta` 클래스**: 
`dateutil.relativedelta` 클래스는 날짜 간의 상대적인 차이를 계산하는 데 사용됩니다. 
년, 월, 일, 시간 등의 차이를 계산할 수 있습니다.
"""

from dateutil.relativedelta import relativedelta
import datetime

today = datetime.datetime.today()
one_year_later = today + relativedelta(years=1)
print(one_year_later)

2024-08-08 16:08:36.979763


In [71]:
from dateutil.relativedelta import relativedelta
import datetime

# 현재 날짜와 시간
today = datetime.datetime.today()

# 1년 후 계산
one_year_later = today + relativedelta(years=1)
print(one_year_later)

# 6개월 전 계산
six_months_ago = today - relativedelta(months=6)
print(six_months_ago)

# 2주 후 계산
two_weeks_later = today + relativedelta(weeks=2)
print(two_weeks_later)

# 3일 전 계산
three_days_ago = today - relativedelta(days=3)
print(three_days_ago)

# 2시간 후 계산
two_hours_later = today + relativedelta(hours=2)
print(two_hours_later)

2024-08-08 16:16:03.501983
2023-02-08 16:16:03.501983
2023-08-22 16:16:03.501983
2023-08-05 16:16:03.501983
2023-08-08 18:16:03.501983


In [114]:
import pandas as pd
from dateutil.relativedelta import relativedelta

# 예제 데이터프레임 생성
data = {
    'start_date': ['2023-08-01', '2023-07-15', '2023-06-30'],
    'end_date': ['2023-08-31', '2023-07-30', '2023-07-15']
}
df = pd.DataFrame(data)
df['start_date'] = pd.to_datetime(df['start_date'])  # 문자열을 날짜로 변환
df['end_date'] = pd.to_datetime(df['end_date'])      # 문자열을 날짜로 변환

# 상대적인 차이 계산하여 추가 컬럼 생성
df['date_diff'] = df.apply(lambda row: relativedelta(row['end_date'], row['start_date']), axis=1)

print(df)


  start_date   end_date                date_diff
0 2023-08-01 2023-08-31  relativedelta(days=+30)
1 2023-07-15 2023-07-30  relativedelta(days=+15)
2 2023-06-30 2023-07-15  relativedelta(days=+15)


In [117]:
from dateutil.relativedelta import relativedelta
df["two_week_later"] = df.start_date.map(lambda x: x + relativedelta(weeks=2))
print(df)

  start_date   end_date                date_diff two_week_later
0 2023-08-01 2023-08-31  relativedelta(days=+30)     2023-08-15
1 2023-07-15 2023-07-30  relativedelta(days=+15)     2023-07-29
2 2023-06-30 2023-07-15  relativedelta(days=+15)     2023-07-14


In [63]:
"""
3. **`tz` 모듈**: 
`dateutil.tz` 모듈은 시간대(timezone) 관련 작업을 수행하는 데 사용됩니다. 
시간대 변환, 시간대 정보 획득 등이 가능합니다.
"""

from dateutil import tz
import datetime

# UTC 시간대 정보 생성
utc = tz.tzutc()

# 현재 시간을 UTC 시간대로 변환
current_time = datetime.datetime.now()
utc_time = current_time.astimezone(utc)
print(utc_time)

# 시간대 변환
new_york_tz = tz.gettz('America/New_York')
ny_time = current_time.astimezone(new_york_tz)
print(ny_time)

# 시간대 정보 획득
print(new_york_tz)



2023-08-15 01:30:00+00:00


In [64]:
"""
4. **`rrule` 모듈**: 
`dateutil.rrule` 모듈은 반복 규칙을 생성하고 다루는 데 사용됩니다. 
특정 규칙에 따라 반복되는 날짜나 시간을 생성할 수 있습니다.
"""

from dateutil import rrule
import datetime

start_date = datetime.datetime(2023, 8, 1)
end_date = datetime.datetime(2023, 8, 31)
rule = rrule.rrule(rrule.DAILY, dtstart=start_date, until=end_date)
dates = list(rule)
print(dates)

[datetime.datetime(2023, 8, 1, 0, 0), datetime.datetime(2023, 8, 2, 0, 0), datetime.datetime(2023, 8, 3, 0, 0), datetime.datetime(2023, 8, 4, 0, 0), datetime.datetime(2023, 8, 5, 0, 0), datetime.datetime(2023, 8, 6, 0, 0), datetime.datetime(2023, 8, 7, 0, 0), datetime.datetime(2023, 8, 8, 0, 0), datetime.datetime(2023, 8, 9, 0, 0), datetime.datetime(2023, 8, 10, 0, 0), datetime.datetime(2023, 8, 11, 0, 0), datetime.datetime(2023, 8, 12, 0, 0), datetime.datetime(2023, 8, 13, 0, 0), datetime.datetime(2023, 8, 14, 0, 0), datetime.datetime(2023, 8, 15, 0, 0), datetime.datetime(2023, 8, 16, 0, 0), datetime.datetime(2023, 8, 17, 0, 0), datetime.datetime(2023, 8, 18, 0, 0), datetime.datetime(2023, 8, 19, 0, 0), datetime.datetime(2023, 8, 20, 0, 0), datetime.datetime(2023, 8, 21, 0, 0), datetime.datetime(2023, 8, 22, 0, 0), datetime.datetime(2023, 8, 23, 0, 0), datetime.datetime(2023, 8, 24, 0, 0), datetime.datetime(2023, 8, 25, 0, 0), datetime.datetime(2023, 8, 26, 0, 0), datetime.datetime(20

## .dt 접근자

판다스에서 `.dt` 접근자는 시리즈(Series)나 데이터프레임(DataFrame) 객체의 날짜와 시간 관련 작업을 수행하는 데 사용되는 접근자(accessor)입니다. 이 접근자를 사용하여 시계열 데이터의 날짜, 시간, 요일 등의 세부 정보를 추출하거나 조작할 수 있습니다.


In [74]:

import pandas as pd

# 시리즈 생성
data = {
    'date': ['2023-08-01', '2023-08-15', '2023-08-30'],
}
df = pd.DataFrame(data)
df['date'] = pd.to_datetime(df['date'])  # 문자열을 날짜로 변환

# .dt 접근자를 사용하여 날짜 정보 추출
df['year'] = df['date'].dt.year
df['month'] = df['date'].dt.month
df['day'] = df['date'].dt.day
df['day_name'] = df['date'].dt.day_name()

print(df)

        date  year  month  day   day_name
0 2023-08-01  2023      8    1    Tuesday
1 2023-08-15  2023      8   15    Tuesday
2 2023-08-30  2023      8   30  Wednesday


## dataframe 에서 timezone 변경

In [109]:
import pandas as pd

# 예제 데이터프레임 생성
data = {
    'timestamp': ['2023-08-01 10:00:00', '2023-08-15 12:30:00', '2023-08-30 15:45:00'],
    'value': [10, 20, 30]
}
df = pd.DataFrame(data)
df['timestamp'] = pd.to_datetime(df['timestamp'])  # 문자열을 날짜로 변환

print("Original DataFrame:")
print(df.timestamp)



Original DataFrame:
0   2023-08-01 10:00:00
1   2023-08-15 12:30:00
2   2023-08-30 15:45:00
Name: timestamp, dtype: datetime64[ns]


In [110]:
df.timestamp = df.timestamp.dt.tz_localize('Asia/Seoul')  # UTC 시간대로 설정
df.timestamp

0   2023-08-01 10:00:00+09:00
1   2023-08-15 12:30:00+09:00
2   2023-08-30 15:45:00+09:00
Name: timestamp, dtype: datetime64[ns, Asia/Seoul]

In [111]:
# 시간대 변경
new_timezone = 'America/New_York'
df['timestamp'] = df['timestamp'].dt.tz_convert(new_timezone)  # 뉴욕 시간대로 변환
print(df.timestamp)

0   2023-07-31 21:00:00-04:00
1   2023-08-14 23:30:00-04:00
2   2023-08-30 02:45:00-04:00
Name: timestamp, dtype: datetime64[ns, America/New_York]


## dataframe에 dateutil 활용

In [None]:

```



```

`dateutil`은 날짜와 시간 관련 작업을 더 편리하게 처리할 수 있도록 도와주는 라이브러리입니다. 간단한 날짜 변환부터 복잡한 시간대 처리까지 다양한 작업에 유용하게 사용될 수 있습니다.