In [23]:
from datetime import date, datetime, timedelta, time
import pandas as pd
pd.options.display.max_rows=10

## 데이터프레임에서 누락된 날짜(또는 데이터)를 확인하는 법
    - 필수로 있어야 하지만 빠져있는 데이터에 대한 확인

### 1. reindex를 활용하여 찾는 방법

In [24]:
start = '2018-11-10'
end = '2018-11-30'

#### 예제로 pd.date_range를 활용하여 평일만을 데이터프레임으로 생성하였다. 즉, 주말 데이터가 빠져있는 상태이다.

#### 주의할 점 : date 컬럼을 반드시 먼저 index로 설정해야 한다.

In [52]:
date_df = pd.DataFrame({'weekday': pd.date_range(start=start, end=end, freq='B')})
date_df['val'] = 1 # Nan 값을 찾기 위해 임의로 지정한다.
date_df.set_index('weekday', inplace=True)
date_df

Unnamed: 0_level_0,val
weekday,Unnamed: 1_level_1
2018-11-12,1
2018-11-13,1
2018-11-14,1
2018-11-15,1
2018-11-16,1
...,...
2018-11-26,1
2018-11-27,1
2018-11-28,1
2018-11-29,1


#### 새로운 index는 모든 날짜를 포함한 데이터로 만든다.

#### **reindex** 함수를 활용하여 새로 만든 index로 index 컬럼을 변경한다.

In [47]:
new_index = pd.date_range(start=start, end=end) # 모든 날짜를 포함한 index

date_df = date_df.reindex(new_index)
date_df # 주말은 NaN값으로 표시된다.

Unnamed: 0,val
2018-11-10,
2018-11-11,
2018-11-12,1.0
2018-11-13,1.0
2018-11-14,1.0
...,...
2018-11-26,1.0
2018-11-27,1.0
2018-11-28,1.0
2018-11-29,1.0


#### null 값이 존재하는 데이터를 확인하면 빠진 날짜를 확인할 수 있다.

In [13]:
date_df[ date_df.val.isnull()]

Unnamed: 0,val
2018-11-10,
2018-11-11,
2018-11-17,
2018-11-18,
2018-11-24,
2018-11-25,


### 2. Set 타입을 활용하여 찾는 방법

In [26]:
# set_b에서 set_a가 없는 결과
set_a = set(date_df.index)

new_index = pd.date_range(start=start, end=end) # 모든 날짜를 포함한 index
set_b = set(new_index)

In [31]:
set_b.difference(set_a)

{Timestamp('2018-11-10 00:00:00', freq='D'),
 Timestamp('2018-11-11 00:00:00', freq='D'),
 Timestamp('2018-11-17 00:00:00', freq='D'),
 Timestamp('2018-11-18 00:00:00', freq='D'),
 Timestamp('2018-11-24 00:00:00', freq='D'),
 Timestamp('2018-11-25 00:00:00', freq='D')}

### 3. concat을 활용하여 중복 제거로 찾는 방법

In [40]:
df1 = pd.DataFrame(pd.date_range(start=start, end=end, freq='B')) # 임의의 데이터
df2 = pd.DataFrame(new_index) # 필수 데이터

pd.concat([df1,df2]).drop_duplicates(keep=False)

Unnamed: 0,0
0,2018-11-10
1,2018-11-11
7,2018-11-17
8,2018-11-18
14,2018-11-24
15,2018-11-25
