# to_datetime
pandas.to_datetime 함수는 문자열, 숫자, 리스트, 시리즈 등 다양한 형태의 날짜/시간 정보를 판다스의 datetime 객체(주로 Timestamp 또는 DatetimeIndex)로 변환해 주는 매우 유용한 도구입니다. 이를 통해 날짜와 관련된 연산, 비교, 인덱싱 등을 쉽게 할 수 있습니다.

In [1]:
import pandas as pd

# 날짜 문자열 데이터
date_str = ['2025-02-13', '2025-03-01', '2025-04-15']
dates = pd.to_datetime(date_str)
print(dates)

DatetimeIndex(['2025-02-13', '2025-03-01', '2025-04-15'], dtype='datetime64[ns]', freq=None)


## 날짜 형식 지정 및 에러 처리

* 연도 관련
    * %Y: 4자리 연도 (예: 2025)
    * %y: 2자리 연도 (예: 25)

* 월, 일 관련
    * %m: 2자리 월 (예: 02 – 01부터 12까지)
    * %d: 2자리 일 (예: 13 – 01부터 31까지)

* 시간 관련
    * %H: 24시간제 시간 (예: 14 – 00부터 23까지)
    * %I: 12시간제 시간 (예: 02 – 01부터 12까지)
    * %M: 분 (예: 30 – 00부터 59까지)
    * %S: 초 (예: 45 – 00부터 59까지)
    * %f: 마이크로초 (예: 000000 – 000000부터 999999까지)

* 기타
    * %p: 오전/오후 표시 (예: AM 또는 PM)
    * %a: 요일의 축약형 (예: Mon)
    * %A: 요일의 전체 이름 (예: Monday)
    * %b: 월의 축약형 (예: Feb)
    * %B: 월의 전체 이름 (예: February)

In [2]:
# 다양한 형식의 날짜 문자열
date_str = ['13-02-2025', '01-03-2025', '15-04-2025']

# dayfirst 옵션을 True로 설정하여 '일-월-연도' 형식으로 파싱
dates = pd.to_datetime(date_str, format='%d-%m-%Y', dayfirst=True)
print(dates)

DatetimeIndex(['2025-02-13', '2025-03-01', '2025-04-15'], dtype='datetime64[ns]', freq=None)


In [5]:
date_str = ['2025-02-13 14:30:00', '2025-03-01 09:15:00']
# 날짜와 시간이 포함된 문자열의 형식 지정
dates = pd.to_datetime(date_str, format='%Y-%m-%d %H:%M:%S')
print(dates)

DatetimeIndex(['2025-02-13 14:30:00', '2025-03-01 09:15:00'], dtype='datetime64[ns]', freq=None)


* 숫자 데이터를 datetime으로 변환

In [3]:
# Unix 타임스탬프(초 단위) 데이터
timestamps = [1730928000, 1731014400, 1731100800]
dates = pd.to_datetime(timestamps, unit='s')
print(dates)

DatetimeIndex(['2024-11-06 21:20:00', '2024-11-07 21:20:00',
               '2024-11-08 21:20:00'],
              dtype='datetime64[ns]', freq=None)


* 잘못된 날짜 처리

In [4]:
date_str = ['2025-02-13', 'invalid date', '2025-04-15']

# errors='coerce' 옵션 사용하여 잘못된 날짜는 NaT로 처리
dates = pd.to_datetime(date_str, errors='coerce')
print(dates)

DatetimeIndex(['2025-02-13', 'NaT', '2025-04-15'], dtype='datetime64[ns]', freq=None)


## .dt 접근자
Pandas의 .dt 접근자는 datetime 형식의 데이터를 담고 있는 Series 또는 Index에서 날짜와 시간 관련 속성이나 메소드를 벡터화하여 쉽게 사용할 수 있도록 제공하는 도구입니다. 즉, 각각의 datetime 값에 대해 개별적으로 반복문을 사용하지 않고 한 번에 날짜, 시간, 요일 등의 정보를 추출하거나 조작할 수 있습니다.

* 연도, 월, 일 추출

In [14]:
dates = pd.Series(pd.to_datetime(['2025-02-13 14:30:00', '2025-03-01 09:15:00']))
print(dates.dt.year)

0    2025
1    2025
dtype: int32


In [15]:
print(dates.dt.month)

0    2
1    3
dtype: int32


In [21]:
print(dates.dt.day)

0    13
1     1
dtype: int32


* 시간 정보 추출 (시간, 분, 초 등)

In [18]:
print(dates.dt.hour)

0    14
1     9
dtype: int32


In [19]:
print(dates.dt.minute)

0    30
1    15
dtype: int32


In [20]:
print(dates.dt.second)

0    0
1    0
dtype: int32


* 숫자로 요일 반환 (월요일=0, 일요일=6)

In [22]:
print(dates.dt.dayofweek)

0    3
1    5
dtype: int32


* 요일 이름 반환

In [23]:
print(dates.dt.day_name())

0    Thursday
1    Saturday
dtype: object


* is_month_end / is_month_start:
해당 날짜가 월말 또는 월초인지 여부를 Boolean 값으로 반환합니다.

In [25]:
print(dates.dt.is_month_end)

0    False
1    False
dtype: bool


In [26]:
print(dates.dt.is_month_start)

0    False
1     True
dtype: bool


* quarter:
정보를 추출할 수 있습니다.

In [29]:
print(dates.dt.quarter)

0    1
1    1
dtype: int32


* to_period() 메소드:
datetime 데이터를 특정 기간(period)으로 변환합니다.

In [30]:
dates.dt.to_period('M')

0    2025-02
1    2025-03
dtype: period[M]

## 연습문제
1. 다음 리스트에 포함된 날짜 문자열을 pd.to_datetime를 이용해 datetime 객체로 변환해보세요.

In [3]:
import pandas as pd
date_list = ['2025-02-13', '2025-03-01', '2025-04-15']
pd.to_datetime(date_list)

DatetimeIndex(['2025-02-13', '2025-03-01', '2025-04-15'], dtype='datetime64[ns]', freq=None)

2. 날짜 문자열이 'DD/MM/YYYY' 형식으로 주어졌습니다. 이를 datetime으로 변환할 때 올바른 format을 지정해서 변환해보세요.

In [6]:
date_list = ['13/02/2025', '01/03/2025', '15/04/2025']
pd.to_datetime(date_list, format = "%d/%m/%Y")

DatetimeIndex(['2025-02-13', '2025-03-01', '2025-04-15'], dtype='datetime64[ns]', freq=None)

3. 다음 리스트에는 잘못된 형식의 날짜 문자열이 포함되어 있습니다. errors='coerce' 옵션을 사용해 파싱할 수 없는 값은 NaT로 처리하도록 변환해보세요.

In [7]:
date_list = ['2025-02-13', 'invalid date', '2025-04-15']
pd.to_datetime(date_list, errors="coerce")

DatetimeIndex(['2025-02-13', 'NaT', '2025-04-15'], dtype='datetime64[ns]', freq=None)

4. 다음 리스트의 각 문자열에는 날짜와 시간이 함께 포함되어 있습니다. 이를 datetime 객체로 변환해보세요.

In [9]:
date_list = ['2025-02-13 14:30:00', '2025-03-01 09:15:00', '2025-04-15 20:45:00']
pd.to_datetime(date_list)

DatetimeIndex(['2025-02-13 14:30:00', '2025-03-01 09:15:00',
               '2025-04-15 20:45:00'],
              dtype='datetime64[ns]', freq=None)

5. 다음 리스트는 Unix 타임스탬프(초 단위)를 나타냅니다. unit 파라미터를 활용하여 이를 datetime으로 변환해보세요.

In [10]:
timestamps = [1730928000, 1731014400, 1731100800]
pd.to_datetime(timestamps, unit = "s")

DatetimeIndex(['2024-11-06 21:20:00', '2024-11-07 21:20:00',
               '2024-11-08 21:20:00'],
              dtype='datetime64[ns]', freq=None)

6. 다음 리스트는 밀리초 단위의 타임스탬프입니다. unit='ms' 옵션을 사용하여 datetime 객체로 변환하세요.

In [11]:
timestamps_ms = [1730928000000, 1731014400000, 1731100800000]
pd.to_datetime(timestamps, unit = "ms")

DatetimeIndex([       '1970-01-21 00:48:48', '1970-01-21 00:50:14.400000',
               '1970-01-21 00:51:40.800000'],
              dtype='datetime64[ns]', freq=None)

7. 아래 DataFrame에는 각 사용자의 가입일과 생년월일이 문자열로 저장되어 있습니다.
이 정보를 이용해 가입일 기준 나이를 계산하는 새로운 열 나이를 추가하세요.

In [16]:
data = {
    '가입일': ['2025-02-13', '2025-06-10', '2025-01-01'],
    '생년월일': ['1990-05-20', '1985-12-30', '2000-07-10']
}

df = pd.DataFrame(data)
df

df["나이"] = pd.to_datetime(df["가입일"]).dt.year - pd.to_datetime(df["생년월일"]).dt.year
df

Unnamed: 0,가입일,생년월일,나이
0,2025-02-13,1990-05-20,35
1,2025-06-10,1985-12-30,40
2,2025-01-01,2000-07-10,25
