In [1]:
import pandas as pd
import numpy as np

# 날짜와 시간을 나타내는 문자열 벡터를 시계열 데이터로 변환하기

In [2]:
date_strings = np.array(['04-03-05 1:35 PM',
                 '23-05-10 12:01 AM',
                 '04-09-09 09:09 PM'])

#### pd.to_datetime (날짜 , format =         )  for 날짜 in 데이터

In [3]:
[pd.to_datetime(date, format='%d-%m-%y %I:%M %p') for date in date_strings]

[Timestamp('2005-03-04 13:35:00'),
 Timestamp('2010-05-23 00:01:00'),
 Timestamp('2009-09-04 21:09:00')]

#### pd.to_datetime(데이터 , format=   )

In [54]:
pd.to_datetime(date_strings, format='%d-%m-%y %I:%M %p')

DatetimeIndex(['2005-03-04 13:35:00', '2010-05-23 00:01:00',
               '2009-09-04 21:09:00'],
              dtype='datetime64[ns]', freq=None)

In [57]:
# pandas 자체에서 월-일-년 순으로 인식하고있음. format 형식을 써서 맞춰주기
pd.to_datetime(date_strings)

DatetimeIndex(['2005-04-03 13:35:00', '2010-05-23 00:01:00',
               '2009-04-09 21:09:00'],
              dtype='datetime64[ns]', freq=None)

## error
###### raise, coerce, ignore
###### default 값은 raise

In [39]:
date_error= np.array(['0-03-2005 1:35 PM',
                 '23-05-2010 12:01 AM',
                 '04-09-2009 09:09 PM'])

In [40]:
pd.to_datetime(date_error, format='%d-%m-%Y %I:%M %p', errors='raise')

ValueError: time data '0-03-2005 1:35 PM' does not match format '%d-%m-%Y %I:%M %p' (match)

In [41]:
pd.to_datetime(date_error, format='%d-%m-%Y %I:%M %p', errors='coerce')

DatetimeIndex(['NaT', '2010-05-23 00:01:00', '2009-09-04 21:09:00'], dtype='datetime64[ns]', freq=None)

In [42]:
pd.to_datetime(date_error, format='%d-%m-%Y %I:%M %p', errors='ignore')

Index(['0-03-2005 1:35 PM', '23-05-2010 12:01 AM', '04-09-2009 09:09 PM'], dtype='object')

## 많이 사용하는 날짜와 시간 format code

### %Y ----전체연도----2001
### %m ---- 0으로 시작하는 월----04
### %d ----0으로 시작하는 일---- 09
### %I ---- 0으로시작하는시간(12시간제)----02
### %p---- AM 또는 PM ----AM
### %M----0으로 시작하는 분----05
### %S ---- 0으로 시작하는 초 ---- 09

### 구글에 python strftime reference 검색해서 사용하면된다

# 시계열 데이터에서 시간대 정보를 추가하거나 바꾸기

In [60]:
import pandas as pd

### 지정하지않으면 판다스에는 시간대가 없음. tz 매개변수를 이용하여 시간대 추가하기

In [62]:
pd.Timestamp('2017-05-01 06:00:00', tz='Europe/London')

Timestamp('2017-05-01 06:00:00+0100', tz='Europe/London')

### tz_localize를 이용하여 이전 datetime에 시간대를 추가하기

In [63]:
date = pd.Timestamp('2017-05-01 06:00:00')

In [64]:
date_in_london = date.tz_localize('Europe/London')

In [65]:
date_in_london

Timestamp('2017-05-01 06:00:00+0100', tz='Europe/London')

### tz_convert를 이용하여 다른 시간대로 변환하기

In [66]:
date_in_london.tz_convert('Africa/Abidjan')

Timestamp('2017-05-01 05:00:00+0000', tz='Africa/Abidjan')

### pd.date_range(
    start = 시작날짜
    end = 끝나는날짜
    period = 만들 날짜의 갯수
    freq = 어떤걸 주기로 만들건지 ('D'하루, 'M'한달, '3M'3달 등등)
    closed = left 면 end 날짜 미포함
    closed = right 이면 start 날짜 미포함
    tz = 시간대 

### tz_localize나 tz_convert 는 Series 의 모든 원소에 적용됨

In [68]:
dates = pd.Series(pd.date_range('2/2/2020',periods=3, freq='M'))

In [71]:
dates.dt.tz_localize('Africa/Abidjan')

0   2020-02-29 00:00:00+00:00
1   2020-03-31 00:00:00+00:00
2   2020-04-30 00:00:00+00:00
dtype: datetime64[ns, Africa/Abidjan]

### 전체 시간대 문자열 보기

In [5]:
from pytz import all_timezones 

In [6]:
all_timezones[:]

['Africa/Abidjan',
 'Africa/Accra',
 'Africa/Addis_Ababa',
 'Africa/Algiers',
 'Africa/Asmara',
 'Africa/Asmera',
 'Africa/Bamako',
 'Africa/Bangui',
 'Africa/Banjul',
 'Africa/Bissau',
 'Africa/Blantyre',
 'Africa/Brazzaville',
 'Africa/Bujumbura',
 'Africa/Cairo',
 'Africa/Casablanca',
 'Africa/Ceuta',
 'Africa/Conakry',
 'Africa/Dakar',
 'Africa/Dar_es_Salaam',
 'Africa/Djibouti',
 'Africa/Douala',
 'Africa/El_Aaiun',
 'Africa/Freetown',
 'Africa/Gaborone',
 'Africa/Harare',
 'Africa/Johannesburg',
 'Africa/Juba',
 'Africa/Kampala',
 'Africa/Khartoum',
 'Africa/Kigali',
 'Africa/Kinshasa',
 'Africa/Lagos',
 'Africa/Libreville',
 'Africa/Lome',
 'Africa/Luanda',
 'Africa/Lubumbashi',
 'Africa/Lusaka',
 'Africa/Malabo',
 'Africa/Maputo',
 'Africa/Maseru',
 'Africa/Mbabane',
 'Africa/Mogadishu',
 'Africa/Monrovia',
 'Africa/Nairobi',
 'Africa/Ndjamena',
 'Africa/Niamey',
 'Africa/Nouakchott',
 'Africa/Ouagadougou',
 'Africa/Porto-Novo',
 'Africa/Sao_Tome',
 'Africa/Timbuktu',
 'Africa/

# 날짜 벡터에서 하나 이상의 원소 선택하기 

In [76]:
dataframe=pd.DataFrame()

In [77]:
dataframe['date']=pd.date_range('1/1/2001',periods=100000,freq='H')

### 불리언 조건 걸어서 빼오기

In [78]:
dataframe[(dataframe['date']>'2002-1-1 01:00:00')& (dataframe['date']<='2002-1-1 04:00:00')]

Unnamed: 0,date
8762,2002-01-01 02:00:00
8763,2002-01-01 03:00:00
8764,2002-01-01 04:00:00


### 인덱스로 빼내서 loc 사용해 슬라이싱하기

In [80]:
dataframe = dataframe.set_index(dataframe['date'])

In [82]:
dataframe.loc['2002-1-1 01:00:00':'2002-1-2 04:00:00']

Unnamed: 0_level_0,date
date,Unnamed: 1_level_1
2002-01-01 01:00:00,2002-01-01 01:00:00
2002-01-01 02:00:00,2002-01-01 02:00:00
2002-01-01 03:00:00,2002-01-01 03:00:00
2002-01-01 04:00:00,2002-01-01 04:00:00
2002-01-01 05:00:00,2002-01-01 05:00:00
2002-01-01 06:00:00,2002-01-01 06:00:00
2002-01-01 07:00:00,2002-01-01 07:00:00
2002-01-01 08:00:00,2002-01-01 08:00:00
2002-01-01 09:00:00,2002-01-01 09:00:00
2002-01-01 10:00:00,2002-01-01 10:00:00


#### 복잡한 시계열 데이터 다루어야하면 날짜 열을 데이터프레임의 인덱스로 지정하기
#### 간단한 데이터 랭글링이라면 불리언 조건 이용

# 날짜와 시간의 열을 가지고 년,월,일,시,분에 해당하는 특성을 만들기

In [85]:
df=pd.DataFrame()

In [86]:
df['date'] = pd.date_range('1/1/2001', periods=150, freq='W')

#### Series.dt 시간 속성 이용

In [94]:
df['year']=df['date'].dt.year

In [95]:
df['month']=df['date'].dt.month

In [96]:
df['day']=df['date'].dt.day

In [97]:
df['hour']=df['date'].dt.hour

In [98]:
df['minute']=df['date'].dt.minute

In [99]:
df.head()

Unnamed: 0,date,year,minute,month,day,hour
0,2001-01-07,2001,0,1,7,0
1,2001-01-14,2001,0,1,14,0
2,2001-01-21,2001,0,1,21,0
3,2001-01-28,2001,0,1,28,0
4,2001-02-04,2001,0,2,4,0


In [101]:
df=df[['date','year','month','day','hour','minute']]

In [103]:
df.head()

Unnamed: 0,date,year,month,day,hour,minute
0,2001-01-07,2001,1,7,0,0
1,2001-01-14,2001,1,14,0,0
2,2001-01-21,2001,1,21,0,0
3,2001-01-28,2001,1,28,0,0
4,2001-02-04,2001,2,4,0,0


# 두개의 datetime 특성이 있을때 이 특성 사이의 시간 계산하기

In [107]:
df2 = pd.DataFrame()

In [111]:
df2['Arrived']=[pd.Timestamp('01-01-2017'), pd.Timestamp('01-04-2017')]

In [112]:
df2['Left']=[pd.Timestamp('01-01-2017'), pd.Timestamp('01-06-2017')]

In [113]:
df2['Left'] - df2['Arrived']

0   0 days
1   2 days
dtype: timedelta64[ns]

### days는 삭제하고 수치값만 남기고 싶을때 : Timedelta 이용

In [114]:
pd.Series(delta.days for delta in (df2['Left'] - df2['Arrived']) )

0    0
1    2
dtype: int64

# 날짜 벡터에서 각 날짜의 요일 알기

In [116]:
date2 = pd.Series(pd.date_range('2/2/2002',periods=3,freq='M'))

In [139]:
date2

0   2002-02-28
1   2002-03-31
2   2002-04-30
dtype: datetime64[ns]

In [135]:
# 요일  알기
date2.dt.weekday_name

AttributeError: 'DatetimeProperties' object has no attribute 'weekday_name'

In [133]:
date2.dt.day_name()

0    Thursday
1      Sunday
2     Tuesday
dtype: object

In [143]:
# 요일 숫자
#월요일이 0
date2.dt.weekday

0    3
1    6
2    1
dtype: int64

In [132]:
# 연기준 몇 주째(숫자)
date2.dt.weekofyear

0     9
1    13
2    18
dtype: int64

In [137]:
#연 기준 몇 일째(숫자)
date2.dt.dayofyear

0     59
1     90
2    120
dtype: int64

In [141]:
# 월 일수(숫자)
date2.dt.days_in_month

0    28
1    31
2    30
dtype: int64

In [142]:
# 분기(숫자)
date2.dt.quarter

0    1
1    1
2    2
dtype: int64

# n 기간 만큼 차이가 나는 시차 특성 만들기

### pandas 의 shift(숫자) 사용 
#### 데이터를 숫자만큼 다음 인덱스로 내리기

In [144]:
df3 = pd.DataFrame()

In [145]:
df3['dates']=pd.date_range('1/1/2001', periods=5, freq='D')

In [146]:
df3['stock_price'] = [1.1,2.2,3.3,4.4,5.5]

In [147]:
df3['previous_days_stock_price'] = df3['stock_price'].shift(1)

In [148]:
df3

Unnamed: 0,dates,stock_price,previous_days_stock_price
0,2001-01-01,1.1,
1,2001-01-02,2.2,1.1
2,2001-01-03,3.3,2.2
3,2001-01-04,4.4,3.3
4,2001-01-05,5.5,4.4


# 시계열 데이터에서 일정 시간 간격으로 통계 계산하기

In [157]:
time_index=pd.date_range('01/01/2010',periods=10,freq='M')

In [158]:
df4 = pd.DataFrame(index=time_index)

In [159]:
df4['Stock_Price']=[1,2,3,4,5,6,7,8,9,10]

In [160]:
df4

Unnamed: 0,Stock_Price
2010-01-31,1
2010-02-28,2
2010-03-31,3
2010-04-30,4
2010-05-31,5
2010-06-30,6
2010-07-31,7
2010-08-31,8
2010-09-30,9
2010-10-31,10


In [161]:
df4.rolling(window=4).mean()

Unnamed: 0,Stock_Price
2010-01-31,
2010-02-28,
2010-03-31,
2010-04-30,2.5
2010-05-31,3.5
2010-06-30,4.5
2010-07-31,5.5
2010-08-31,6.5
2010-09-30,7.5
2010-10-31,8.5


### window는 몇개씩 연산할지 를 뜻함.
#### 이전 4개의 데이터가 존재하는 2010-04-30 부터 값이 나오고 데이터가 4개 미만인 값들은 NaN으로 표기됌

In [162]:
df4.rolling(window=4, min_periods=1).mean()

Unnamed: 0,Stock_Price
2010-01-31,1.0
2010-02-28,1.5
2010-03-31,2.0
2010-04-30,2.5
2010-05-31,3.5
2010-06-30,4.5
2010-07-31,5.5
2010-08-31,6.5
2010-09-30,7.5
2010-10-31,8.5


#### 만약 null 값없이 나타내고 싶으면 min_periods=숫자 를 쓰면되는데
#### 숫자만큼 값을 가지고 있으면 mean 을 계산하게 할수있음
#### 여기선 min_periods=1 이라고했으니 하나의 데이터 값만 있어도 계산을 해라 이뜻

In [166]:
df4.rolling(window=4).std()

Unnamed: 0,Stock_Price
2010-01-31,
2010-02-28,
2010-03-31,
2010-04-30,1.290994
2010-05-31,1.290994
2010-06-30,1.290994
2010-07-31,1.290994
2010-08-31,1.290994
2010-09-30,1.290994
2010-10-31,1.290994


#### max(), mean() , count(), corr(), std() 등 통계 계산식 가능

# 시계열 데이터 null 값 다루기

In [167]:
import numpy as np

In [168]:
time_index2=pd.date_range('01/01/2010',periods=5,freq='M')

In [169]:
df5=pd.DataFrame(index=time_index2)

In [180]:
df5['Sales'] = [1.0,2.0,np.nan,np.nan,5.0]

In [181]:
df5

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,
2010-04-30,
2010-05-31,5.0


### 누락된 값을 보간하기  ----- interpolate()
#### 시간 간격이 일정하고 데이터가 변동이 심하지않고 누락 값으로 빈 간극이 작을 때 유용

In [171]:
df5.interpolate()

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,3.0
2010-04-30,4.0
2010-05-31,5.0


In [175]:
# method = linear 은 선형보정
df5.interpolate(method='linear')

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,3.0
2010-04-30,4.0
2010-05-31,5.0


In [176]:
# 두 포인트 사이의 직선이 비선형일 때, 부드러운 보정하기 위해 method = quadratic
df5.interpolate(method='quadratic')

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,3.059808
2010-04-30,4.038069
2010-05-31,5.0


In [178]:
# limit_direction의 default 값이 forward
df5.interpolate(limit=1)

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,3.0
2010-04-30,
2010-05-31,5.0


In [182]:
df5.interpolate(limit=1, limit_direction='forward')

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,3.0
2010-04-30,
2010-05-31,5.0


In [179]:
df5.interpolate(limit=1, limit_direction='backward')

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,
2010-04-30,4.0
2010-05-31,5.0


### 누락된 값을 이전에 등장한 마지막 값으로 채우기, 앞쪽으로 채우기(Forward-fill) ----- ffill()

In [172]:
df5.ffill()

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,2.0
2010-04-30,2.0
2010-05-31,5.0


### 누락된 값을 이후에 등장한 최초의 값으로 채우기, 뒤쪽으로 채우기(Back-fill) ----- bfill()

In [173]:
df5.bfill()

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,5.0
2010-04-30,5.0
2010-05-31,5.0
