- 날짜/시간(datetime)은 날짜와 시간을 저장하는 데이터 유형
  - 시간 경과에 따른 경향을 확인할 수 있으므로 가치가 있음
  - 데이터셋의 시간 정보는 보통 데이터의 경향이 나타나는 이유를 뒷받침
- 파이썬에 내장된 날짜/시간 객체
- 판다스의 Timestamp, Timedelta 객체
- 라이브러리를 사용하여 문자열을 날짜로 변환, 시간차를 연산, 기간 계산 가능

# Timestamp 객체
- 모듈: 파이썬 코드가 담긴 파일. 표준 라이브러리는 DB연결, 수학, 테스트 등의 일반적 문제를 해결하는 솔루션을 제공
- 파이썬에는 250개의 모듈이 존재

## 파이썬의 날짜/시간
- 메모리 사용량 관리를 위해 표준 라이브러리 모듈을 자동으로 불러오지 않음 -> 개발자가 원하는 모듈을 프로젝트에 명시적으로 가져와야함
- import 키워드(모듈)와 as 키워드(별칭)

In [1]:
#date 모듈: 하나의 날짜를 모델링, 시간은 저장X
import datetime as dt
import pandas as pd

birthday = dt.date(1991, 4, 12)
#birthday = dt.date(year = 1991, month = 4, day = 12)
birthday

datetime.date(1991, 4, 12)

In [2]:
birthday.year

1991

In [3]:
birthday.month

4

In [4]:
birthday.day

12

- date객체는 불변 객체 -> 생성한 후에 내부 상태 변경 불가
  - date 속성을 덮어쓰려고 하면 AttributeError 예외 발생

In [5]:
birthday.month = 10

AttributeError: attribute 'month' of 'datetime.date' objects is not writable

- date와 대응하는 time 클래스는 특정 시간을 모델링(날짜는 중요x)
  - hour(시), minute(분), second(초)
  - 불변 객체

In [6]:
alarm_clock = dt.time(6, 43, 25)
#alarm_clock = dt.time(hour = 6, minute = 43, second = 25)
alarm_clock

datetime.time(6, 43, 25)

In [7]:
#time 메서드의 기본 인수는 모두 0 -> 자정
dt.time()

datetime.time(0, 0)

In [8]:
dt.time(hour=9, second=42)

datetime.time(9, 0, 42)

In [9]:
#time 메서드의 생성자는 24시간제를 사용
dt.time(19, 43, 22)

datetime.time(19, 43, 22)

In [10]:
#time 객체는 생성자의 인수를 객체의 속성으로 저장
alarm_clock.hour

6

In [11]:
alarm_clock.minute

43

In [12]:
alarm_clock.second

25

In [13]:
#날짜와 시간을 모두 포함하는 datetime 객체: year, month, day, hour, minute, second
moon_landing = dt.datetime(1969, 7, 20, 22, 56, 20)
moon_landing = dt.datetime(
    year = 1969,
    month = 7,
    day = 20,
    hour = 22,
    minute = 56,
    second = 20
)
moon_landing

datetime.datetime(1969, 7, 20, 22, 56, 20)

In [14]:
dt.datetime(2020, 1, 1)

datetime.datetime(2020, 1, 1, 0, 0)

In [15]:
#timedelta 메서드: 시간차를 모델링
# 생성자의 매개변수: weeks, days, hours(선택사항, 기본값=0)
dt.timedelta(
    weeks = 8,
    days = 6,
    hours = 3,
    minutes = 58,
    seconds = 12
)

datetime.timedelta(days=62, seconds=14292)

## 판다스의 날짜/시간
- datetime 모듈의 아쉬운 점
  - 날짜/시간을 다루려면 많은 수의 모듈을 알아야 함.(달력, 시간변환, 유틸리티 등의 추가 모듈)
  - 기억해야 하는 클래스가 많음
  - 시간대 로직을 위한 객체API를 알아야함.
- 판다스의 Timestamp 객체 (파이썬의 리스트와 판다스의 Series의 관계)
- Timestamp 생성자는 판다스의 최상위 수준에서 사용 가능.(datetime 생성자와 매개변수가 동일)

In [16]:
pd.Timestamp(1991, 4, 12)
#pd.Timestamp(year = 1991, month = 4, day = 12)

Timestamp('1991-04-12 00:00:00')

In [17]:
#판다스는 두 객체가 동일한 정보를 저장하는 경우 Timestamp를 datetime과 같다고 간주
(pd.Timestamp(year = 1991, month = 4, day = 12) 
 == dt.date(year = 1991, month = 4, day =12))

  (pd.Timestamp(year = 1991, month = 4, day = 12)


True

In [18]:
(pd.Timestamp(year = 1991, month = 4, day = 12, minute = 2)
 == dt.datetime(year = 1991, month = 4, day = 12, minute = 2))

True

In [19]:
(pd.Timestamp(year = 1991, month = 4, day = 12, minute = 2)
 == dt.datetime(year = 1991, month = 4, day = 12, minute = 1))

False

In [20]:
#Timestamp 생성자는 유연->다양한 입력을 허용(문자열-형식 무관)
pd.Timestamp("2015-03-31")

Timestamp('2015-03-31 00:00:00')

In [21]:
pd.Timestamp("2015/03/31")

Timestamp('2015-03-31 00:00:00')

In [22]:
pd.Timestamp("03/31/2015")

Timestamp('2015-03-31 00:00:00')

In [23]:
pd.Timestamp("2021-03-08 08:35:15")

Timestamp('2021-03-08 08:35:15')

In [24]:
pd.Timestamp("2021-03-08 6:13:29 PM")

Timestamp('2021-03-08 18:13:29')

In [25]:
#Timestamp 생성자는 파이썬의 기본 date, time, datetime 객체 입력도 허용
pd.Timestamp(dt.datetime(2000, 2, 3, 21, 35, 22))

Timestamp('2000-02-03 21:35:22')

In [26]:
my_time = pd.Timestamp(dt.datetime(2000, 2, 3, 21, 35, 22))
print(my_time.year)
print(my_time.month)
print(my_time.day)
print(my_time.hour)
print(my_time.minute)
print(my_time.second)

2000
2
3
21
35
22


# 다중 Timestamp를 저장하는 DatetimeIndex
- 인덱스: 판다스 자료구조에 붙여지는 식별자 레이블 컬렉션

In [27]:
# RangeIndex 객체: 오름차순 또는 내림차순으로 정렬된 숫자 값의 시퀀스
# index 속성을 사용하여 (Series/DataFrame의) 인덱스에 접근 가능
pd.Series([1, 2, 3]).index

RangeIndex(start=0, stop=3, step=1)

In [28]:
# Series의 내용에 따라 판다스가 붙이는 인덱스 객체가 달라짐
# Index 객체: 문자열 레이블 컬렉션 저장
pd.Series([1, 2, 3], index = ["A", "B", "C"]).index

Index(['A', 'B', 'C'], dtype='object')

In [29]:
#DatetimeIndex는 Timestamp 객체를 저장하는 인덱스
timestamps = [
    pd.Timestamp("2020-01-01"),
    pd.Timestamp("2020-02-01"),
    pd.Timestamp("2020-03-01"),
]
pd.Series([1, 2, 3], index = timestamps).index

DatetimeIndex(['2020-01-01', '2020-02-01', '2020-03-01'], dtype='datetime64[ns]', freq=None)

In [30]:
#DatetimeIndex는 datetime 객체도 저장하는 인덱스
datetimes = [
    dt.datetime(2020, 1, 1),
    dt.datetime(2020, 2, 1),
    dt.datetime(2020, 3, 1),
]
pd.Series([1, 2, 3], index = datetimes).index

DatetimeIndex(['2020-01-01', '2020-02-01', '2020-03-01'], dtype='datetime64[ns]', freq=None)

In [31]:
#판다스의 최상위 수준에서 DatetimeIndex 생성자를 사용 가능
#생성자의 data 매개변수: 모든 반복 가능한 날짜 컬렉션(문자열, 날짜/시간, Timestamp, 혼합 데이터 유형)을 인수로 허용
string_dates = ["2018/01/02", "2016/04/12", "2009/09/07"]
pd.DatetimeIndex(string_dates)

DatetimeIndex(['2018-01-02', '2016-04-12', '2009-09-07'], dtype='datetime64[ns]', freq=None)

In [32]:
mixed_dates = [
    dt.date(2018, 1, 2),
    "2016/04/12",
    pd.Timestamp(2009, 9, 7)
]
dt_index = pd.DatetimeIndex(mixed_dates)
dt_index

DatetimeIndex(['2018-01-02', '2016-04-12', '2009-09-07'], dtype='datetime64[ns]', freq=None)

In [33]:
s = pd.Series(data = [100, 200, 300], index = dt_index)
s

2018-01-02    100
2016-04-12    200
2009-09-07    300
dtype: int64

- 판다스에서는 날짜/사간 값을 문자열이 아닌 Timestamp로 저장해야만 날짜 및 시간과 관련된 연산을 적용 가능
  - 문자열에서 요일 등의 정보를 추론 불가

In [34]:
#sort_index 메서드를 사용하여 DatetimeIndex를 오름차순 또는 내림차순으로 정렬 가능
s.sort_index()

2009-09-07    300
2016-04-12    200
2018-01-02    100
dtype: int64

In [35]:
#날짜/시간 정렬 시 모두 고려
#다양한 정렬과 비교연산을 Timestamp에 바로 적용 가능
morning = pd.Timestamp("2020-01-01 11:23:22 AM")
evening = pd.Timestamp("2020-01-01 11:23:22 PM")

morning < evening

True

# 열 또는 인덱스 값을 날짜/시간으로 변환


In [36]:
disney = pd.read_csv("disney.csv")
disney.head()

Unnamed: 0,Date,High,Low,Open,Close
0,1962-01-02,0.096026,0.092908,0.092908,0.092908
1,1962-01-03,0.094467,0.092908,0.092908,0.094155
2,1962-01-04,0.094467,0.093532,0.094155,0.094155
3,1962-01-05,0.094779,0.093844,0.094155,0.094467
4,1962-01-08,0.095714,0.092285,0.094467,0.094155


In [37]:
#read_csv는 "숫자가 아닌 열"의 모든 값을 문자열로 가져옴-object
disney.dtypes

Date      object
High     float64
Low      float64
Open     float64
Close    float64
dtype: object

In [38]:
#datetime 객체로 변환하는 방법-1
disney = pd.read_csv("disney.csv", parse_dates = ["Date"])

In [39]:
#datetime 객체로 변환하는 방법-2
#to_datetime 변환함수를 사용하여 반복 가능한 객체를 받아 
#해당 값을 datetime으로 변환, DatetimeIndex에 값을 담아 반환
string_dates = ["2015-01-01", "2016-02-02", "2017-03-03"]
dt_index = pd.to_datetime(string_dates)
dt_index

DatetimeIndex(['2015-01-01', '2016-02-02', '2017-03-03'], dtype='datetime64[ns]', freq=None)

In [40]:
#disney DataFrame의 Data Series를 to_datetime 함수로 전달
pd.to_datetime(disney["Date"]).head()

0   1962-01-02
1   1962-01-03
2   1962-01-04
3   1962-01-05
4   1962-01-08
Name: Date, dtype: datetime64[ns]

In [41]:
disney["Date"] = pd.to_datetime(disney["Date"])

In [42]:
disney.dtypes

Date     datetime64[ns]
High            float64
Low             float64
Open            float64
Close           float64
dtype: object

# DatetimeProperties 객체
- 날짜/시간 Series의 dt 속성: DatetimeProperties 객체에 접근 가능

In [43]:
disney["Date"].dt

<pandas.core.indexes.accessors.DatetimeProperties object at 0x0000022CFC274EB0>

- 날짜/시간의 dt속성 ~= 문자열의 str 속성과 같은 역할(특정 유형의 데이터를 조작하는데 특화)
  - DatetimeProperties 객체의 속성에 접근하고 메서드를 호출하여 열의 datetime에서 정보를 추출 가능

In [44]:
#day 속성: 각 날짜에서 일을 가져옴
disney["Date"].dt.day.head(3)

0    2
1    3
2    4
Name: Date, dtype: int64

In [45]:
disney["Date"].head(3)

0   1962-01-02
1   1962-01-03
2   1962-01-04
Name: Date, dtype: datetime64[ns]

In [46]:
#month 속성: 월 숫자를 담은 Series를 반환 (1부터 할당)
disney["Date"].dt.month.head(3)

0    1
1    1
2    1
Name: Date, dtype: int64

In [47]:
#year 속성: 연도를 담은 새로운 Series를 반환
disney["Date"].dt.year.head(3)

0    1962
1    1962
2    1962
Name: Date, dtype: int64

In [48]:
#dayofweek 속성: 날짜의 요일에 대한 숫자를 담은 Series를 반환
disney["Date"].dt.dayofweek.head()

0    1
1    2
2    3
3    4
4    0
Name: Date, dtype: int64

In [49]:
#day_name **메서드**: 날짜의 요일의 이름을 담은 Series 반환
disney["Date"].dt.day_name().head()

0      Tuesday
1    Wednesday
2     Thursday
3       Friday
4       Monday
Name: Date, dtype: object

In [50]:
#디즈니 주식의 요일별 평균 수익율을 계산
disney["Day of Week"] = disney["Date"].dt.day_name()
group = disney.groupby("Day of Week") #GroupBy객체가 group변수에 저장됨
group.mean(numeric_only = True) #GroupBy 객체의 mean 메서드를 호출하여 각 그룹에 대한 값의 평균 계산

Unnamed: 0_level_0,High,Low,Open,Close
Day of Week,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Friday,23.767304,23.318898,23.552872,23.554498
Monday,23.377271,22.930606,23.161392,23.162543
Thursday,23.770234,23.288687,23.534561,23.540359
Tuesday,23.791234,23.335267,23.571755,23.562907
Wednesday,23.842743,23.355419,23.605618,23.609873


In [51]:
#month_name 메서드: 날자의 월 이름이 포함된 Series를 반환
disney["Date"].dt.month_name().head()

0    January
1    January
2    January
3    January
4    January
Name: Date, dtype: object

In [52]:
#is_quarter_start 속성: 행의 날짜가 분기의 시작 날짜와 같은지 여부를 불리언으로
disney["Date"].dt.is_quarter_start.tail()

14722    False
14723    False
14724    False
14725     True
14726    False
Name: Date, dtype: bool

In [53]:
#불리언 Series 반환 결과를 대괄호 구문에 적용하여 행 추출
disney[disney["Date"].dt.is_quarter_start].head()

Unnamed: 0,Date,High,Low,Open,Close,Day of Week
189,1962-10-01,0.064849,0.062355,0.063913,0.062355,Monday
314,1963-04-01,0.087989,0.086704,0.087025,0.086704,Monday
377,1963-07-01,0.096338,0.095053,0.096338,0.095696,Monday
441,1963-10-01,0.110467,0.107898,0.107898,0.110467,Tuesday
565,1964-04-01,0.116248,0.112394,0.112394,0.116248,Wednesday


In [54]:
#is_quarter_end 속성: 행의 날짜가 분기의 마지막 날짜와 같은지 여부->불리언
#반환 값을 이용하여 행 추출
disney[disney["Date"].dt.is_quarter_end].head()

Unnamed: 0,Date,High,Low,Open,Close,Day of Week
251,1962-12-31,0.074501,0.07129,0.074501,0.072253,Monday
440,1963-09-30,0.109825,0.105972,0.108541,0.107577,Monday
502,1963-12-31,0.101476,0.09698,0.097622,0.101476,Tuesday
564,1964-03-31,0.115605,0.112394,0.114963,0.112394,Tuesday
628,1964-06-30,0.101476,0.100191,0.101476,0.100834,Tuesday


In [55]:
#is_month_start, is_month_end 속성: 날짜의 월의 시작/끝인지 확인
disney[disney["Date"].dt.is_month_start].head()

Unnamed: 0,Date,High,Low,Open,Close,Day of Week
22,1962-02-01,0.096338,0.093532,0.093532,0.094779,Thursday
41,1962-03-01,0.095714,0.093532,0.093532,0.095714,Thursday
83,1962-05-01,0.087296,0.085426,0.085738,0.086673,Tuesday
105,1962-06-01,0.079814,0.077943,0.079814,0.079814,Friday
147,1962-08-01,0.06859,0.068278,0.06859,0.06859,Wednesday


In [56]:
disney[disney["Date"].dt.is_month_end].head()

Unnamed: 0,Date,High,Low,Open,Close,Day of Week
21,1962-01-31,0.093844,0.092908,0.093532,0.093532,Wednesday
40,1962-02-28,0.094779,0.09322,0.094155,0.09322,Wednesday
82,1962-04-30,0.087608,0.085738,0.087608,0.085738,Monday
104,1962-05-31,0.082308,0.079814,0.079814,0.079814,Thursday
146,1962-07-31,0.069214,0.068278,0.068278,0.06859,Tuesday


In [57]:
#is_year_start 속성: 날짜가 연도의 첫날인지 확인
disney[disney["Date"].dt.is_year_end].head()

Unnamed: 0,Date,High,Low,Open,Close,Day of Week
251,1962-12-31,0.074501,0.07129,0.074501,0.072253,Monday
502,1963-12-31,0.101476,0.09698,0.097622,0.101476,Tuesday
755,1964-12-31,0.117853,0.11689,0.11689,0.11689,Thursday
1007,1965-12-31,0.154141,0.150929,0.153498,0.152214,Friday
1736,1968-12-31,0.439301,0.431594,0.434163,0.436732,Tuesday


In [58]:
#is_year_end 속성: 날짜가 연도의 마지막 날인지 확인
disney[disney["Date"].dt.is_year_end].head()

Unnamed: 0,Date,High,Low,Open,Close,Day of Week
251,1962-12-31,0.074501,0.07129,0.074501,0.072253,Monday
502,1963-12-31,0.101476,0.09698,0.097622,0.101476,Tuesday
755,1964-12-31,0.117853,0.11689,0.11689,0.11689,Thursday
1007,1965-12-31,0.154141,0.150929,0.153498,0.152214,Friday
1736,1968-12-31,0.439301,0.431594,0.434163,0.436732,Tuesday


# 일정 시간의 덧셈과 뺄셈

In [59]:
#DateOffset 객체를 사용하여 일관된 시간을 더하거나 뺄 수 있음
#판다스의 최상위 수준에서 사용, 매개변수 허용
pd.DateOffset(years = 3, months = 4, days = 5)

<DateOffset: days=5, months=4, years=3>

In [60]:
disney["Date"].head()

0   1962-01-02
1   1962-01-03
2   1962-01-04
3   1962-01-05
4   1962-01-08
Name: Date, dtype: datetime64[ns]

In [61]:
#날짜/시간 Series의 각 날짜에 일관된 시간을 추가 (앞으로 이동)
(disney["Date"] + pd.DateOffset(days = 5)).head()

0   1962-01-07
1   1962-01-08
2   1962-01-09
3   1962-01-10
4   1962-01-13
Name: Date, dtype: datetime64[ns]

In [62]:
#날짜/시간 Series의 각 날짜에 일관된 시간을 빼기 (미래로 이동)
(disney["Date"] - pd.DateOffset(days = 3)).head()

0   1961-12-30
1   1961-12-31
2   1962-01-01
3   1962-01-02
4   1962-01-05
Name: Date, dtype: datetime64[ns]

In [63]:
#Timestamp 객체는 내부적으로 시간도 저장(기본값=자정)
(disney["Date"] + pd.DateOffset(days = 10, hours = 6)).head()

0   1962-01-12 06:00:00
1   1962-01-13 06:00:00
2   1962-01-14 06:00:00
3   1962-01-15 06:00:00
4   1962-01-18 06:00:00
Name: Date, dtype: datetime64[ns]

In [64]:
(
    disney["Date"]
    - pd.DateOffset(
        years = 1, months = 3, days = 10, hours = 6, minutes = 3
    )
).head()

0   1960-09-21 17:57:00
1   1960-09-22 17:57:00
2   1960-09-23 17:57:00
3   1960-09-24 17:57:00
4   1960-09-27 17:57:00
Name: Date, dtype: datetime64[ns]

# 날짜 오프셋
- DateOffset 객체는 각 날짜에 일정한 시간을 더하거나 뺄 때 유용
- 실제 데이터 분석 시 정해진 값으로 계산하는 일보다 동적으로 값을 계산하는 경우가 더 많음 -> 시간 기반의 계산을 동적으로 하기 위해 제공하는 여러 오프셋 객체
  - offset.py 모듈에 정의, pd.offsets를 접두사로 붙이기

In [65]:
#MonthEnd 오프셋을 사용하여 날짜를 말일로 옮기기
#더하기 기호 = 시간을 앞으로 이동
#모든 날짜는 의도한 방향으로 최소한 하루 이상씩은 움직여야함
(disney["Date"] + pd.offsets.MonthEnd()).tail()

14722   2020-06-30
14723   2020-06-30
14724   2020-07-31
14725   2020-07-31
14726   2020-07-31
Name: Date, dtype: datetime64[ns]

In [66]:
#빼기 기호 = 각 날짜를 시간상 뒤로 이동
(disney["Date"] - pd.offsets.MonthEnd()).tail()

14722   2020-05-31
14723   2020-05-31
14724   2020-05-31
14725   2020-06-30
14726   2020-06-30
Name: Date, dtype: datetime64[ns]

In [67]:
#MonthBegin 오프셋: 월의 첫번째 날짜로 옮기기
(disney["Date"] + pd.offsets.MonthBegin()).tail()

14722   2020-07-01
14723   2020-07-01
14724   2020-07-01
14725   2020-08-01
14726   2020-08-01
Name: Date, dtype: datetime64[ns]

In [68]:
(disney["Date"] - pd.offsets.MonthBegin()).tail()

14722   2020-06-01
14723   2020-06-01
14724   2020-06-01
14725   2020-06-01
14726   2020-07-01
Name: Date, dtype: datetime64[ns]

In [69]:
#비즈니스와 관련된 시간을 계산할 때 사용하는 특별한 오프셋 그룹 -B로 시작
may_dates = ["2020-05-28", "2020-05-29", "2020-05-30"]
end_of_may = pd.Series(pd.to_datetime(may_dates))
end_of_may

0   2020-05-28
1   2020-05-29
2   2020-05-30
dtype: datetime64[ns]

In [70]:
end_of_may + pd.offsets.MonthEnd()

0   2020-05-31
1   2020-05-31
2   2020-05-31
dtype: datetime64[ns]

In [71]:
#BMonthEnd 오프셋: 마지막 영업일로 옮기기
end_of_may + pd.offsets.BMonthEnd()

0   2020-05-29
1   2020-06-30
2   2020-06-30
dtype: datetime64[ns]

- pd.offsets 모듈은 분기, 사업분기, 연도, 사업 연도 등의 시작과 끝으로 날짜를 올리거나 내리는 다양한 오프셋을 제공

# Timedelta 객체
- 파이썬의 기본 timedelta 객체는 시간차를 모델링.
- 판다스는 자체 Timedelta 객체를 사용하여 시간차를 모델링
- Timedelta 생성자는 판다스의 최상위 수준에서 사용가능
  - days, hours, minutes, seconds와 같은 시간 단위에 대한 키워드 매개변수를 허용

In [72]:
duration = pd.Timedelta(
    days = 8,
    hours = 7,
    minutes = 6,
    seconds = 5
)
duration

Timedelta('8 days 07:06:05')

In [73]:
#to_timedelta 함수: 인수를 Timedelta 객체로 변환
#판다스의 최상위 수준에 있음
pd.to_timedelta("3 hours, 5 minutes, 12 seconds")

Timedelta('0 days 03:05:12')

In [74]:
#unit 매개변수: 숫자가 나타내는 시간 단위를 정의(정수를 전달)
pd.to_timedelta(5, unit = "hour")

Timedelta('0 days 05:00:00')

In [75]:
#반복 가능한 객체를 전달하여 해당 값을 Timedelta로 변환 가능
pd.to_timedelta([5, 10, 15], unit = "day")

TimedeltaIndex(['5 days', '10 days', '15 days'], dtype='timedelta64[ns]', freq=None)

In [76]:
#Timedelta 객체는 처음부터 생성되는 경우보다 파생되는 경우가 많음
#Timestamp에서 다른 Timestamp를 빼면 자동으로 Timedelta 반환
pd.Timestamp("1990-02-05") - pd.Timestamp("1998-05-24")

Timedelta('-3030 days +00:00:00')

In [77]:
deliveries = pd.read_csv("deliveries.csv")
deliveries.head()

Unnamed: 0,order_date,delivery_date
0,5/24/98,2/5/99
1,4/22/92,3/6/98
2,2/10/91,8/26/92
3,7/21/92,11/20/97
4,9/2/93,6/10/98


In [78]:
#두 열의 값을 날짜/시간으로 변환하는 또 다른 방법
deliveries["order_date"] = pd.to_datetime(
    deliveries["order_date"]
)
deliveries["delivery_date"] = pd.to_datetime(
    deliveries["delivery_date"]
)

In [79]:
#위의 방법을 for문을 사용한 순회로 확장
for column in ["order_date", "delivery_date"]:
    deliveries[column] = pd.to_datetime(deliveries[column])

In [80]:
deliveries.head()

Unnamed: 0,order_date,delivery_date
0,1998-05-24,1999-02-05
1,1992-04-22,1998-03-06
2,1991-02-10,1992-08-26
3,1992-07-21,1997-11-20
4,1993-09-02,1998-06-10


In [81]:
#Timestamp끼리 뺌 -> 판다스는 timedelta Series를 반환
(deliveries["delivery_date"] - deliveries["order_date"]).head()

0    257 days
1   2144 days
2    563 days
3   1948 days
4   1742 days
dtype: timedelta64[ns]

In [82]:
deliveries["duration"] = (
    deliveries["delivery_date"] - deliveries["order_date"]
)
deliveries.head()

Unnamed: 0,order_date,delivery_date,duration
0,1998-05-24,1999-02-05,257 days
1,1992-04-22,1998-03-06,2144 days
2,1991-02-10,1992-08-26,563 days
3,1992-07-21,1997-11-20,1948 days
4,1993-09-02,1998-06-10,1742 days


In [83]:
deliveries.dtypes

order_date        datetime64[ns]
delivery_date     datetime64[ns]
duration         timedelta64[ns]
dtype: object

In [84]:
#Timestamp 객체에서 Timedelta를 더하거나 빼기 가능
(deliveries["delivery_date"] - deliveries["duration"]).head()

0   1998-05-24
1   1992-04-22
2   1991-02-10
3   1992-07-21
4   1993-09-02
dtype: datetime64[ns]

In [85]:
(deliveries["delivery_date"] + deliveries["duration"]).head()

0   1999-10-20
1   2004-01-18
2   1994-03-12
3   2003-03-22
4   2003-03-18
dtype: datetime64[ns]

In [86]:
#sort_values 메서드는 Timedelta Series에서 작동
deliveries.sort_values("duration")

Unnamed: 0,order_date,delivery_date,duration
454,1990-05-24,1990-06-01,8 days
294,1994-08-11,1994-08-20,9 days
10,1998-05-10,1998-05-19,9 days
499,1993-06-03,1993-06-13,10 days
143,1997-09-20,1997-10-06,16 days
...,...,...,...
152,1990-09-18,1999-12-19,3379 days
62,1990-04-02,1999-08-16,3423 days
458,1990-02-13,1999-11-15,3562 days
145,1990-03-07,1999-12-25,3580 days


In [87]:
#Timedelta Series에서 수학 메서드를 사용
deliveries["duration"].max()

Timedelta('3583 days 00:00:00')

In [88]:
deliveries["duration"].min()

Timedelta('8 days 00:00:00')

In [89]:
deliveries["duration"].mean()

Timedelta('1217 days 22:53:53.532934128')

In [90]:
#DataFrame 필터링: Timedelta/문자열을 사용하여 비교 연산 가능
(deliveries["duration"] > pd.Timedelta(days = 365)).head()
#(deliveries["duration"] > "365 days").head()

0    False
1     True
2     True
3     True
4     True
Name: duration, dtype: bool

In [91]:
deliveries[deliveries["duration"] > "365 days"].head()

Unnamed: 0,order_date,delivery_date,duration
1,1992-04-22,1998-03-06,2144 days
2,1991-02-10,1992-08-26,563 days
3,1992-07-21,1997-11-20,1948 days
4,1993-09-02,1998-06-10,1742 days
6,1990-01-25,1994-10-02,1711 days


In [92]:
#비교하는 시간을 필요한 만큼 세분화 -> 쉼표로 시간 단위 구분
long_time = (
    deliveries["duration"] > "2000 days, 8 hours, 4 minutes"
)
deliveries[long_time].head()

Unnamed: 0,order_date,delivery_date,duration
1,1992-04-22,1998-03-06,2144 days
7,1992-02-23,1998-12-30,2502 days
11,1992-10-17,1998-10-06,2180 days
12,1992-05-30,1999-08-15,2633 days
15,1990-01-20,1998-07-24,3107 days


# 코딩 챌린지

In [93]:
citi_bike = pd.read_csv("citibike.csv")
citi_bike.head()

Unnamed: 0,start_time,stop_time
0,2020-06-01 00:00:03.3720,2020-06-01 00:17:46.2080
1,2020-06-01 00:00:03.5530,2020-06-01 01:03:33.9360
2,2020-06-01 00:00:09.6140,2020-06-01 00:17:06.8330
3,2020-06-01 00:00:12.1780,2020-06-01 00:03:58.8640
4,2020-06-01 00:00:21.2550,2020-06-01 00:24:18.9650


In [94]:
#info 메서드: DataFrame의 길이, 열의 데이터 유형 및 메모리 사용량을 포함하는 요약 정보 확인
citi_bike.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1882273 entries, 0 to 1882272
Data columns (total 2 columns):
 #   Column      Dtype 
---  ------      ----- 
 0   start_time  object
 1   stop_time   object
dtypes: object(2)
memory usage: 28.7+ MB


In [95]:
#1. start_time과 stop_time 열을 문자열 대신 날짜/시간 값을 저장하도록 변환
for column in ["start_time", "stop_time"]:
    citi_bike[column] = pd.to_datetime(citi_bike[column])

In [96]:
citi_bike.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1882273 entries, 0 to 1882272
Data columns (total 2 columns):
 #   Column      Dtype         
---  ------      -----         
 0   start_time  datetime64[ns]
 1   stop_time   datetime64[ns]
dtypes: datetime64[ns](2)
memory usage: 28.7 MB


In [98]:
#2. 각 요일에 승차한 건 수를 계산
#사람들이 자전거를 가장 많이 타는 요일->start_time열을 기준으로 계산
citi_bike["start_time"].dt.day_name().value_counts()

Tuesday      305833
Sunday       301482
Monday       292690
Saturday     285966
Friday       258479
Wednesday    222647
Thursday     215176
Name: start_time, dtype: int64

In [101]:
#3. 해당 월의 각 주당 승차건을 구하기
#(start_time 열의 각 날짜를 이전/현재 월요일로 변환)
days_away_from_monday = citi_bike["start_time"].dt.dayofweek
dates_rounded_to_monday = citi_bike["start_time"] - pd.to_timedelta(
    days_away_from_monday, unit = "day"
) #각 날짜를 이전/현재 월요일로 변환
dates_rounded_to_monday.dt.date.value_counts()

2020-06-15    481211
2020-06-08    471384
2020-06-22    465412
2020-06-01    337590
2020-06-29    126676
Name: start_time, dtype: int64

In [102]:
#4. 각 승차 시간을 계산, 결과를 새로운 duration 열에 저장
citi_bike["duration"] = (
    citi_bike["stop_time"] - citi_bike["start_time"]
)
citi_bike["duration"].head()

0   0 days 00:17:42.836000
1   0 days 01:03:30.383000
2   0 days 00:16:57.219000
3   0 days 00:03:46.686000
4   0 days 00:23:57.710000
Name: duration, dtype: timedelta64[ns]

In [103]:
#5. 자전거를 타는 평균 시간 구하기
citi_bike["duration"].mean()

Timedelta('0 days 00:27:19.590506853')

In [104]:
#6. 데이터셋에서 가장 긴 승차 시간을 5건 추출
citi_bike["duration"].sort_values(ascending = False).head()

50593    32 days 15:01:54.940000
98339    31 days 01:47:20.632000
52306    30 days 19:32:20.696000
15171    30 days 04:26:48.424000
149761   28 days 09:24:50.696000
Name: duration, dtype: timedelta64[ns]