# 날짜시간관련 패키지 다루기(판다스)

- 관련 자료형 : timestamp, datetime64, period

- 관련 메서드 : to_datetime(), date_range(), to_period(), period_range()

In [53]:
# 판다스에서 쓰는~
# 206~, 207

In [54]:
# range처럼 날짜도 date_range를 쓰는 것임
# => Timestamp

In [55]:
# Timestamp : 특정 시점 기록하는 데이터 자료형
# Peroid : 두 시점 사이 일정한 기간을 나타내는 자료형

# PANDAS DATE-TIME 다루기

In [56]:
# pandas.to_datetime( 1개 데이터 ) -> Timestamp
# pandas.to_datetime( 여러 개 데이터 ) -> datetime64

# Timestamp, datetime64  =>  pandas.to_period()  =>  Period

In [57]:
# Timestamp 배열  :  pandas.date_range( ~ )
# Period 배열  :  pandas.period_range( ~ )

In [58]:
# 모듈 로딩
import pandas as pd

# DF 객체 생성
df = pd.DataFrame({'year':[2021,2022],
                   'month':[11,12],
                   'day':[1,24]})
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   year    2 non-null      int64
 1   month   2 non-null      int64
 2   day     2 non-null      int64
dtypes: int64(3)
memory usage: 176.0 bytes


In [59]:
# DF 안에 있는 컬럼(객체)들의 타입 정보
df.dtypes

year     int64
month    int64
day      int64
dtype: object

In [60]:
# DateTime으로 변환하기 => pandas.to_datetime()
result = pd.to_datetime(df)

print(type(result), result, sep='\n')
# datetime64 유형

<class 'pandas.core.series.Series'>
0   2021-11-01
1   2022-12-24
dtype: datetime64[ns]


In [61]:
one = result[0]
print(type(one), one, sep='\n')
# Timestamp 유형 -> 1개를 뽑아서 'Timestamp'로 나오는 것임

<class 'pandas._libs.tslibs.timestamps.Timestamp'>
2021-11-01 00:00:00


In [62]:
one.day, one.month, one.month_name, one.hour
# one 객체의 day, month, hour
# 수 많은 객체들의 '월'만 뺀다거나 하는 식으로 사용하겠지

(1, 11, <function Timestamp.month_name>, 0)

# 타입 및 다른 포맷 변환 메서드들. to_변환타입()

In [63]:
# 타입 및 다른 포맷 변환 메서드들. to_변환타입()

# => SR와 DF에 모두 있음
result.to_list()

[Timestamp('2021-11-01 00:00:00'), Timestamp('2022-12-24 00:00:00')]

In [64]:
result.to_frame()
# 굳이 다시금 pd.DataFrame 으로 담을 필요없이 형변환만 해주면 편하겠지

Unnamed: 0,0
0,2021-11-01
1,2022-12-24


In [65]:
result.to_string()

'0   2021-11-01\n1   2022-12-24'

In [66]:
result.to_csv('result.csv')
# 인덱스까지도 다 들어가지요
# => 안쓰고 싶으면 괄호 안에서 shift+tab으로 확인해서 파라미터 확인
# index=False, 파라미터 설명 부분을 확인후, 적용해주면 => 인덱스 사라짐

In [67]:
result.to_csv('result.csv', index=False)

In [68]:
# is~ True or False로 나옴

# csv 파일 활용 실습

- 날짜 데이터가 있는 CSV 파일 처리하기

In [69]:
# 파일 관련
# survey_visited.csv
DIR_PATH = '../Data/'
FILE_NAME = DIR_PATH+'survey_visited.csv'

In [70]:
# CSV FILE => DataFrame으로 가져오기
survey_visited = pd.read_csv(FILE_NAME)
survey_visited.info()
# 결측치 값이 하나 있넹?

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   ident   8 non-null      int64 
 1   site    8 non-null      object
 2   dated   7 non-null      object
dtypes: int64(1), object(2)
memory usage: 320.0+ bytes


In [71]:
survey_visited.isnull().sum()
# 널값이 하나 있넹

ident    0
site     0
dated    1
dtype: int64

In [72]:
survey_visited = survey_visited.fillna(method = 'bfill')
survey_visited
# 지금은 run all 돌려서 바뀐 상태기 때문에. 그전에는 NaN 있었음

Unnamed: 0,ident,site,dated
0,619,DR-1,1927-02-08
1,622,DR-1,1927-02-10
2,734,DR-3,1939-01-07
3,735,DR-3,1930-01-12
4,751,DR-3,1930-02-26
5,752,DR-3,1932-01-14
6,837,MSK-4,1932-01-14
7,844,DR-1,1932-03-22


In [73]:
# 해당 'dated' 컬럼을 시리즈로 뽑아서 datatime으로 
survey_visited['dated'] = pd.to_datetime(survey_visited['dated'])

# 컬럼만 뽑았으면 그 컬럼에 재선언해야지, 컬럼하나인 SR이므로, DF로 해당 컬럼을 다시 확인해봤자 안됨

In [74]:
survey_visited.info()
# 'dated' 컬럼의 Dtype이 object -> datetime64[ns] 으로 바뀜

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   ident   8 non-null      int64         
 1   site    8 non-null      object        
 2   dated   8 non-null      datetime64[ns]
dtypes: datetime64[ns](1), int64(1), object(1)
memory usage: 320.0+ bytes


In [75]:
# 이렇게 뽑으면 timestamp
survey_visited['dated'][0], survey_visited['dated'][0].year, survey_visited['dated'][0].day

(Timestamp('1927-02-08 00:00:00'), 1927, 8)

In [76]:
type(survey_visited['dated']), survey_visited['dated'].dtype

(pandas.core.series.Series, dtype('<M8[ns]'))

In [77]:
# survey_visited['dated'].year
# survey_visited['dated'] 시리즈 자체에는 year, month, day가 없으니 에러
# datetime에 있는 속성이지
# =>해결책은?! 'dt'를 써라!!
# => 선언한 것이 아니라, 클래스? 메서드? 같은 것임!
survey_visited['dated'].dt.year

0    1927
1    1927
2    1939
3    1930
4    1930
5    1932
6    1932
7    1932
Name: dated, dtype: int64

In [78]:
survey_visited['dated'].dt.month

0    2
1    2
2    1
3    1
4    2
5    1
6    1
7    3
Name: dated, dtype: int64

In [79]:
survey_visited['dated'].dt.day

0     8
1    10
2     7
3    12
4    26
5    14
6    14
7    22
Name: dated, dtype: int64

In [80]:
# SR 객체 안에 든 것을 빼는 메서드로 dt를 쓰는 것

# pandas.Series.dt()
# pandas.Series.str()

# dt - datetime에 관련된 것
# str - string에 관련된 것
# => 요고 두개는 엄청쓰게 될 것이다.

# pandas.Series.dt/str 등 이런식으로 쓰지
# DF 객체 안에도 쓰는 것들이 있다.

In [89]:
dateSR

0   1927-02-08
1   1927-02-10
2   1939-01-07
3   1930-01-12
4   1930-02-26
5   1932-01-14
6   1932-01-14
7   1932-03-22
Name: dated, dtype: datetime64[ns]

In [82]:
dateSR = survey_visited['dated']
dateSR.dt.year >= 1930

0    False
1    False
2     True
3     True
4     True
5     True
6     True
7     True
Name: dated, dtype: bool

In [86]:
dateSR[dateSR.dt.year >= 1930]
# 해당 DF에서 True인 것만 뽑아내겠지?
# 조건에는 시리즈(컬럼 하나)에 조건을 걸어서

2   1939-01-07
3   1930-01-12
4   1930-02-26
5   1932-01-14
6   1932-01-14
7   1932-03-22
Name: dated, dtype: datetime64[ns]

In [84]:
dateSR[dateSR.dt.month >= 2]
# 2월달인 것만 뽑아내겠지?
# 조건에는 시리즈(컬럼 하나)에 조건을 걸어서

0   1927-02-08
1   1927-02-10
4   1930-02-26
7   1932-03-22
Name: dated, dtype: datetime64[ns]