## 시계열 기초문법
- datetime
    - 날짜와 시간 데이터 다루는 클래스
        - year,month, hour...
        - strftime : 날짜와 시간을 지정된 문자열 변환 문법
        - strptime : 문자열 형식을 형식에 따라 datetime
- timedelta
    - 두 날짜에 대한 시간의 차이를 계산할 때
    - 일,시간 등등 계산
- pandas 문법
    - pd.to_datetime : 문자열을 -> 시계열 객체로 변환
    - pd.date_range : 시계열 날짜를 만들 수도 있음
    - 판다스에서 제공하는 시계열 문법
        - resample, shift, rolling 등등
-----
- 시계열 분석을 하기 전 이해해야 하는 몇 가지 내용

- 시간대 -UTC, KST
    - UTC (Coordinated Universal Time)
        - 기준 점 - 국제간 데이터 전송 등 기준이 되는 시간
    
    - KST (Korea Standard Time)
        - UTC + 9 기준
- timestamp
    - 몇시 몇분 몇초 -> 1231231 숫자로 표현할 수 있다.
    - evnet_timestamp - 123135743153 <-> YYYY mm dd HH : MM : SS
    

In [2]:
#시계열 기초 문법

import datetime
datetime.datetime.now() #오늘 날짜

datetime.datetime(2025, 1, 12, 20, 8, 4, 466586)

In [6]:
#시계열 데이터를 만들 수 있다.
new_time=datetime.datetime(2026,1,12,20,8,4,12312)
print(new_time)

2026-01-12 20:08:04.012312


In [7]:
# 월,일,당일 이런 데이터를 추출 할 수 있다.
datetime.date.today()

datetime.date(2025, 1, 12)

In [12]:
#datetime 형태면 원하는 데이터를 쉽게 추출할 수 있다.
print(new_time.year)
print(new_time.month)

2026
1


In [16]:
##strftime
## 20250112/2025-01-12/ 2025112/ 2025/01/12 다양한 데이트 형식
## %Y 2025년 %m %d %H %M %S
## %y 25년
new_time.strftime('%Y-%m')

'2026-01'

In [17]:
new_time.strftime('%Y-%m-%d')

'2026-01-12'

In [18]:
new_time.strftime('%y-%m-%d')

'26-01-12'

In [20]:
cv_date=datetime.datetime.strptime('2026-01-30 21:05:12', '%Y-%m-%d %H:%M:%S')

In [22]:
print(cv_date)

2026-01-30 21:05:12


- timedelta 
- 시계열 차이 계산

In [25]:
td=datetime.timedelta(days=10, hours=3)

In [27]:
#timedelta 값을 계산 
cv_date + td

datetime.datetime(2026, 2, 10, 0, 5, 12)

In [28]:
cv_date - td

datetime.datetime(2026, 1, 20, 18, 5, 12)

In [29]:
## 만약 요일이 필요하다.
## 6일요일 5토요일....0월요일
cv_date.weekday()

4

In [30]:
# 다음날의 평일 같은 경우를 계산하는 경우
cv_date + datetime.timedelta(days = (7-cv_date.weekday())%7)

datetime.datetime(2026, 2, 2, 21, 5, 12)

In [36]:
##relativedelta 쉽게 큰기간의 값을 빼거나 더하는 게 가능하다.
## 3개월 전, 1년 전, 1개월 전 
from dateutil.relativedelta import relativedelta

cv_date + relativedelta(month= 2)

datetime.datetime(2026, 2, 28, 21, 5, 12)

In [38]:
# 1월 30일 기준 + 3개월 후 -> 4월 30일
cv_date + relativedelta(month= 4)


datetime.datetime(2026, 4, 30, 21, 5, 12)

In [39]:
cv_date + relativedelta(years= 1)

datetime.datetime(2027, 1, 30, 21, 5, 12)

In [40]:
cv_date + relativedelta(years= 2)

datetime.datetime(2028, 1, 30, 21, 5, 12)

In [41]:
cv_date + relativedelta(days= 1)

datetime.datetime(2026, 1, 31, 21, 5, 12)

### 데이터프레임에서 시계열 데이터를 분석할 때

In [46]:
import pandas as pd
date_str = ['2025-01-29', '2025-01-30']
df_dates=pd.DataFrame(date_str)

In [47]:
df_dates

Unnamed: 0,0
0,2025-01-29
1,2025-01-30


In [48]:
#문자열 
df_dates.info()

#문자열은 시계열이 아니다.
#시계열문법을 사용할 수 없다.
#pd.to_datetime() #시계열 데이터로 만들기 위해

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       2 non-null      object
dtypes: object(1)
memory usage: 144.0+ bytes


In [51]:
df_dates[0]

0    2025-01-29
1    2025-01-30
Name: 0, dtype: object

In [52]:
pd.to_datetime(df_dates[0]) #시계열 데이터로 만들기 위해
# datetime64[ns] -> 시계열 데이터로 변환

0   2025-01-29
1   2025-01-30
Name: 0, dtype: datetime64[ns]

In [53]:
#시계열 데이터의 구간을 나눠서 만들 수 있다.
pd.date_range(start='2025-01-01', end='2025-01-30')

DatetimeIndex(['2025-01-01', '2025-01-02', '2025-01-03', '2025-01-04',
               '2025-01-05', '2025-01-06', '2025-01-07', '2025-01-08',
               '2025-01-09', '2025-01-10', '2025-01-11', '2025-01-12',
               '2025-01-13', '2025-01-14', '2025-01-15', '2025-01-16',
               '2025-01-17', '2025-01-18', '2025-01-19', '2025-01-20',
               '2025-01-21', '2025-01-22', '2025-01-23', '2025-01-24',
               '2025-01-25', '2025-01-26', '2025-01-27', '2025-01-28',
               '2025-01-29', '2025-01-30'],
              dtype='datetime64[ns]', freq='D')

In [56]:
pd.date_range(start='2025-01-01',periods = 5, freq='D')

DatetimeIndex(['2025-01-01', '2025-01-02', '2025-01-03', '2025-01-04',
               '2025-01-05'],
              dtype='datetime64[ns]', freq='D')

In [57]:
pd.date_range(start='2025-01-01',periods = 5, freq='W')

DatetimeIndex(['2025-01-05', '2025-01-12', '2025-01-19', '2025-01-26',
               '2025-02-02'],
              dtype='datetime64[ns]', freq='W-SUN')

In [61]:
pd.date_range(start='2025-01-01',periods = 10, freq='M')

DatetimeIndex(['2025-01-31', '2025-02-28', '2025-03-31', '2025-04-30',
               '2025-05-31', '2025-06-30', '2025-07-31', '2025-08-31',
               '2025-09-30', '2025-10-31'],
              dtype='datetime64[ns]', freq='M')

- shift
- 판다스에서 행이나 열을 일정한 방향으로 이동시키는 개념
    - 이전값, 이후 값 참조할 때 전월비, 전년비, 전일비 계산할 때 
    - 변동량 계산 등등
    - 간격 조정 생각
- DataFrame.shift(periods = '', freq= '', axis=1,0)

In [62]:
## 판다스 문법에서 shift
data = {'유저수':[10,20,30,40,50]}
df=pd.DataFrame(data, index = pd.date_range('2025-01-01', periods=5))


In [66]:
df

Unnamed: 0,유저수
2025-01-01,10
2025-01-02,20
2025-01-03,30
2025-01-04,40
2025-01-05,50


In [65]:
#shift 1일
df.shift(periods=1)

Unnamed: 0,유저수
2025-01-01,
2025-01-02,10.0
2025-01-03,20.0
2025-01-04,30.0
2025-01-05,40.0


In [67]:
df.shift(periods=-1)

Unnamed: 0,유저수
2025-01-01,20.0
2025-01-02,30.0
2025-01-03,40.0
2025-01-04,50.0
2025-01-05,


In [68]:
#차이에 대한 계산, 변동량 등 
df['유저수']- df['유저수'].shift(1)

2025-01-01     NaN
2025-01-02    10.0
2025-01-03    10.0
2025-01-04    10.0
2025-01-05    10.0
Freq: D, Name: 유저수, dtype: float64

## UTC, KST

- tz_localize - 시간대 정보가 없는 데이터에 특정 시간대를 추가하는 형태
    - 2025-01-01 01:00 -> 2025-01-01 01:00 + 09:00 (KST)
    - 지역 :(Asia/Seoul)

- tz_convert
    - 시간대정보가 있는 데이터를 다른 시간대로 변환할 수 있다.
    2025-01-01 01:00 + 09:00 (KST) -> 2025-01-01 01:00 (UTC)


In [74]:
#UTC변환
display(df.tz_localize('UTC'))
display(df.tz_localize('Asia/Seoul'))

Unnamed: 0,유저수
2025-01-01 00:00:00+00:00,10
2025-01-02 00:00:00+00:00,20
2025-01-03 00:00:00+00:00,30
2025-01-04 00:00:00+00:00,40
2025-01-05 00:00:00+00:00,50


Unnamed: 0,유저수
2025-01-01 00:00:00+09:00,10
2025-01-02 00:00:00+09:00,20
2025-01-03 00:00:00+09:00,30
2025-01-04 00:00:00+09:00,40
2025-01-05 00:00:00+09:00,50


In [75]:
df_utc=df.tz_localize('UTC')

In [77]:
df_utc.tz_convert('Asia/Seoul')

Unnamed: 0,유저수
2025-01-01 09:00:00+09:00,10
2025-01-02 09:00:00+09:00,20
2025-01-03 09:00:00+09:00,30
2025-01-04 09:00:00+09:00,40
2025-01-05 09:00:00+09:00,50


In [79]:
df_utc

Unnamed: 0,유저수
2025-01-01 00:00:00+00:00,10
2025-01-02 00:00:00+00:00,20
2025-01-03 00:00:00+00:00,30
2025-01-04 00:00:00+00:00,40
2025-01-05 00:00:00+00:00,50


In [78]:
df_utc.tz_convert('Asia/Seoul')

Unnamed: 0,유저수
2025-01-01 09:00:00+09:00,10
2025-01-02 09:00:00+09:00,20
2025-01-03 09:00:00+09:00,30
2025-01-04 09:00:00+09:00,40
2025-01-05 09:00:00+09:00,50


In [92]:
import pytz
## 버전 이슈로 수기로 만들기
utc_time =datetime.datetime(2025,1,1,12,tzinfo=pytz.UTC)
kst_time =utc_time.astimezone(pytz.timezone('Asia/Seoul'))

In [94]:
utc_time

datetime.datetime(2025, 1, 1, 12, 0, tzinfo=<UTC>)

In [93]:
kst_time

datetime.datetime(2025, 1, 1, 21, 0, tzinfo=<DstTzInfo 'Asia/Seoul' KST+9:00:00 STD>)

## 데이터를 불러와서 분석해 보자!

In [96]:
df=pd.read_csv('crime.csv')

In [98]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 460911 entries, 0 to 460910
Data columns (total 9 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   Unnamed: 0           460911 non-null  int64  
 1   OFFENSE_TYPE_ID      460911 non-null  object 
 2   OFFENSE_CATEGORY_ID  460911 non-null  object 
 3   REPORTED_DATE        460911 non-null  object 
 4   GEO_LON              457296 non-null  float64
 5   GEO_LAT              457296 non-null  float64
 6   NEIGHBORHOOD_ID      460911 non-null  object 
 7   IS_CRIME             460911 non-null  int64  
 8   IS_TRAFFIC           460911 non-null  int64  
dtypes: float64(2), int64(3), object(4)
memory usage: 31.6+ MB


In [100]:
#시계열 데이터로 변환
df_1 = df.copy()

df_1['REPORTED_DATE'] =pd.to_datetime(df_1['REPORTED_DATE'])

In [101]:
df_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 460911 entries, 0 to 460910
Data columns (total 9 columns):
 #   Column               Non-Null Count   Dtype         
---  ------               --------------   -----         
 0   Unnamed: 0           460911 non-null  int64         
 1   OFFENSE_TYPE_ID      460911 non-null  object        
 2   OFFENSE_CATEGORY_ID  460911 non-null  object        
 3   REPORTED_DATE        460911 non-null  datetime64[ns]
 4   GEO_LON              457296 non-null  float64       
 5   GEO_LAT              457296 non-null  float64       
 6   NEIGHBORHOOD_ID      460911 non-null  object        
 7   IS_CRIME             460911 non-null  int64         
 8   IS_TRAFFIC           460911 non-null  int64         
dtypes: datetime64[ns](1), float64(2), int64(3), object(3)
memory usage: 31.6+ MB


In [102]:
df_1

Unnamed: 0.1,Unnamed: 0,OFFENSE_TYPE_ID,OFFENSE_CATEGORY_ID,REPORTED_DATE,GEO_LON,GEO_LAT,NEIGHBORHOOD_ID,IS_CRIME,IS_TRAFFIC
0,0,traffic-accident-dui-duid,traffic-accident,2014-06-29 02:01:00,-105.000149,39.745753,cbd,0,1
1,1,vehicular-eluding-no-chase,all-other-crimes,2014-06-29 01:54:00,-104.884660,39.738702,east-colfax,1,0
2,2,disturbing-the-peace,public-disorder,2014-06-29 02:00:00,-105.020719,39.706674,athmar-park,1,0
3,3,curfew,public-disorder,2014-06-29 02:18:00,-105.001552,39.769505,sunnyside,1,0
4,4,aggravated-assault,aggravated-assault,2014-06-29 04:17:00,-105.018557,39.679229,college-view-south-platte,1,0
...,...,...,...,...,...,...,...,...,...
460906,460906,burglary-business-by-force,burglary,2017-09-13 05:48:00,-105.033840,39.762365,west-highland,1,0
460907,460907,weapon-unlawful-discharge-of,all-other-crimes,2017-09-12 20:37:00,-105.040313,39.721264,barnum-west,1,0
460908,460908,traf-habitual-offender,all-other-crimes,2017-09-12 16:32:00,-104.847024,39.779596,montbello,1,0
460909,460909,criminal-mischief-other,public-disorder,2017-09-12 13:04:00,-104.949183,39.756353,skyland,1,0
