## [ 날짜 시간 관련 PANDAS ]

- 관련 자료형: timmstamp, datetime64, period

- 관련 메서드 : to_datetime(), date_range(), to_period(), period_range()

In [117]:
# [ 모듈 로딩 ]
import pandas as pd

# [ DF 객체 생성 ]
df = pd.DataFrame({ 'year' : [2021,2022],
                   'month' : [11,12],
                     'day' : [1,24] })

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   year    2 non-null      int64
 1   month   2 non-null      int64
 2   day     2 non-null      int64
dtypes: int64(3)
memory usage: 176.0 bytes


In [118]:
df

Unnamed: 0,year,month,day
0,2021,11,1
1,2022,12,24


In [119]:
# [ DF 객체 타임 정보]
df.dtypes

year     int64
month    int64
day      int64
dtype: object

In [120]:
# DateTime으로 변환 => pandas.to_datetime()


.''

result = pd.to_datetime(df)

print(type(result), result, sep='\n') 

<class 'pandas.core.series.Series'>
0   2021-11-01
1   2022-12-24
dtype: datetime64[ns]


In [121]:
# 한 줄만 뺴올 경우 : type -> timestamps
print(type(result[0]), result[0], sep='\n')

<class 'pandas._libs.tslibs.timestamps.Timestamp'>
2021-11-01 00:00:00


In [122]:
one=result[0]
one.day, one.month, one.year

(1, 11, 2021)

# [ 타입 및 다른 포맷 변환 메서드.... ' .to_변환타입()' ]

In [123]:
# 타입 및 다른 포맷 변환 메서드.... ' .to_변환타입()'
result.to_csv()

',0\r\n0,2021-11-01\r\n1,2022-12-24\r\n'

In [124]:
result.to_frame()

Unnamed: 0,0
0,2021-11-01
1,2022-12-24


In [125]:
result.to_list()

[Timestamp('2021-11-01 00:00:00'), Timestamp('2022-12-24 00:00:00')]

In [126]:
result.to_string()

'0   2021-11-01\n1   2022-12-24'

In [127]:
result.to_csv('result.csv', index=False) # 파일 이름 주면 현재 폴더에 저장됨,

In [128]:
result.to_json('result.json')

# [ CSV 파일 활용 실습 ]

- 날짜 데이터가 있는 CSV파일 처리하기.
- 날짜가 들어가 있는 컬럼 타입 변경하기.

In [129]:
# (1) CSV FILE => DataFrame으로 가져오기
data = pd.read_csv('../DATA/survey_visited.csv')
data

Unnamed: 0,ident,site,dated
0,619,DR-1,1927-02-08
1,622,DR-1,1927-02-10
2,734,DR-3,1939-01-07
3,735,DR-3,1930-01-12
4,751,DR-3,1930-02-26
5,752,DR-3,
6,837,MSK-4,1932-01-14
7,844,DR-1,1932-03-22


In [139]:
# (2) 날짜 관련 데이터 => 자료형 변환하기

# 결측치를 이전 날짜로 치환. 
data['dated'].fillna(method='ffill',inplace=True)
data

Unnamed: 0,ident,site,dated
0,619,DR-1,1927-02-08
1,622,DR-1,1927-02-10
2,734,DR-3,1939-01-07
3,735,DR-3,1930-01-12
4,751,DR-3,1930-02-26
5,752,DR-3,1930-02-26
6,837,MSK-4,1932-01-14
7,844,DR-1,1932-03-22


In [140]:
# 자료형 변환하기. pd.to_datetime()
data['dated'] = pd.to_datetime(data['dated'])

In [141]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   ident   8 non-null      int64         
 1   site    8 non-null      object        
 2   dated   8 non-null      datetime64[ns]
dtypes: datetime64[ns](1), int64(1), object(1)
memory usage: 320.0+ bytes


In [145]:
data['dated'][0], data['dated'][0].year, data['dated'][0].day

(Timestamp('1927-02-08 00:00:00'), 1927, 8)

In [147]:
type(data['dated']), data['dated'].dtype

(pandas.core.series.Series, dtype('<M8[ns]'))

# [ 시리즈에서 바로 datetime 추출해서 사용하기 ]
 
- 시리즈명.dt.~ 

In [150]:
# data['dated'].year <- 시리즈에서 year 못찾음

data['dated'].dt.year  # <- pandas.dt.~  : 시리즈 안에서 datetime 찾을 때 사용.

0    1927
1    1927
2    1939
3    1930
4    1930
5    1930
6    1932
7    1932
Name: dated, dtype: int64

In [152]:
dataSR=data['dated']
dataSR

0   1927-02-08
1   1927-02-10
2   1939-01-07
3   1930-01-12
4   1930-02-26
5   1930-02-26
6   1932-01-14
7   1932-03-22
Name: dated, dtype: datetime64[ns]

In [153]:
dataSR[dataSR.dt.year>=1930]

2   1939-01-07
3   1930-01-12
4   1930-02-26
5   1930-02-26
6   1932-01-14
7   1932-03-22
Name: dated, dtype: datetime64[ns]

In [154]:
dataSR[dataSR.dt.month>=2]

0   1927-02-08
1   1927-02-10
4   1930-02-26
5   1930-02-26
7   1932-03-22
Name: dated, dtype: datetime64[ns]