## 06. 결측제어

## 참고자료
* [Python 완전정복 시리즈] 2편 : Pandas DataFrame 완전정복 : https://wikidocs.net/book/7188

In [2]:
import pandas as pd
import numpy as np

## 결측값 확인

In [3]:
col  = ['col1','col2','col3','col4']
row  = ['row1','row2','row3']
data = [[1,2,pd.NA,4],
        [np.nan,6,7,8],
        [9,10,11,None]]
df = pd.DataFrame(data,row,col)
df

Unnamed: 0,col1,col2,col3,col4
row1,1.0,2,,4.0
row2,,6,7.0,8.0
row3,9.0,10,11.0,


In [4]:
df.isna()

Unnamed: 0,col1,col2,col3,col4
row1,False,False,True,False
row2,True,False,False,False
row3,False,False,False,True


In [5]:
df.notna()

Unnamed: 0,col1,col2,col3,col4
row1,True,True,False,True
row2,False,True,True,True
row3,True,True,True,False


## 결측값 제거

In [6]:
col  = ['col1','col2','col3','col4','col5']
row  = ['row1','row2','row3','row4']
data = [[1,2,3,pd.NA,5],[6,pd.NA,8,pd.NA,10],[11,12,13,14,15],[pd.NA,pd.NA,pd.NA,pd.NA,pd.NA]]
df = pd.DataFrame(data,row,col)
df

Unnamed: 0,col1,col2,col3,col4,col5
row1,1.0,2.0,3.0,,5.0
row2,6.0,,8.0,,10.0
row3,11.0,12.0,13.0,14.0,15.0
row4,,,,,


In [7]:
# axis값에 따른 결측치 제거 수행
df.dropna(axis=0)

Unnamed: 0,col1,col2,col3,col4,col5
row3,11,12,13,14,15


In [8]:
df.dropna(axis=1) # 모든 열에 NA가 존재하므로 빈 값이 반환

row1
row2
row3
row4


In [9]:
df.dropna(how='any')

Unnamed: 0,col1,col2,col3,col4,col5
row3,11,12,13,14,15


In [10]:
df.dropna(how='all')

Unnamed: 0,col1,col2,col3,col4,col5
row1,1,2.0,3,,5
row2,6,,8,,10
row3,11,12.0,13,14.0,15


In [11]:
# thresh 이용하는 경우

df.dropna(thresh=3)

Unnamed: 0,col1,col2,col3,col4,col5
row1,1,2.0,3,,5
row2,6,,8,,10
row3,11,12.0,13,14.0,15


In [12]:
df.dropna(thresh=4)

Unnamed: 0,col1,col2,col3,col4,col5
row1,1,2,3,,5
row3,11,12,13,14.0,15


In [13]:
# subset 인수를 통한 레이블 지정
df.dropna(subset=['col1', 'col2'])

Unnamed: 0,col1,col2,col3,col4,col5
row1,1,2,3,,5
row3,11,12,13,14.0,15


In [14]:
df

Unnamed: 0,col1,col2,col3,col4,col5
row1,1.0,2.0,3.0,,5.0
row2,6.0,,8.0,,10.0
row3,11.0,12.0,13.0,14.0,15.0
row4,,,,,


In [15]:
df.dropna(inplace=True)

In [16]:
df

Unnamed: 0,col1,col2,col3,col4,col5
row3,11,12,13,14,15


## 결측값 없는 인덱스 확인

In [17]:
col  = ['col1','col2']
row  = ['row1','row2','row3','row4','row5']
data = [[np.nan,np.nan],[pd.NA,4],[pd.NA,pd.NaT],[5,6],[np.nan,pd.NA]]
df = pd.DataFrame(data,row,col)
df

Unnamed: 0,col1,col2
row1,,
row2,,4
row3,,NaT
row4,5.0,6
row5,,


In [18]:
df.first_valid_index()

'row2'

In [19]:
df.last_valid_index()

'row4'

## 결측값 변경

In [20]:
col  = ['col1','col2','col3','col4','col5']
row  = ['row1','row2','row3','row4','row5']
na = np.nan
data = [[na, 2,na, 4,na],
        [ 6, 7,na, 9,na],
        [11,na,na,14,15],
        [na,17,na,na,20],
        [na,22,na,na,25]]
df = pd.DataFrame(data,row,col)
df

Unnamed: 0,col1,col2,col3,col4,col5
row1,,2.0,,4.0,
row2,6.0,7.0,,9.0,
row3,11.0,,,14.0,15.0
row4,,17.0,,,20.0
row5,,22.0,,,25.0


In [21]:
df.fillna('A')

Unnamed: 0,col1,col2,col3,col4,col5
row1,A,2.0,A,4.0,A
row2,6.0,7.0,A,9.0,A
row3,11.0,A,A,14.0,15.0
row4,A,17.0,A,A,20.0
row5,A,22.0,A,A,25.0


In [22]:
dict = {'col1':'A','col2':'B','col3':'C','col4':'D','col5':'E'}
df.fillna(value=dict)

Unnamed: 0,col1,col2,col3,col4,col5
row1,A,2.0,C,4.0,E
row2,6.0,7.0,C,9.0,E
row3,11.0,B,C,14.0,15.0
row4,A,17.0,C,D,20.0
row5,A,22.0,C,D,25.0


In [23]:
# method 인수를 사용하는 경우

# method 인수에 bfill을 입력할 경우 결측값이 바로 아래값과 동일하게 설정

df.fillna(method='bfill')

Unnamed: 0,col1,col2,col3,col4,col5
row1,6.0,2.0,,4.0,15.0
row2,6.0,7.0,,9.0,15.0
row3,11.0,17.0,,14.0,15.0
row4,,17.0,,,20.0
row5,,22.0,,,25.0


In [24]:
df.fillna(method='ffill') # 결측값이 바로 위값과 동일하게 설정

Unnamed: 0,col1,col2,col3,col4,col5
row1,,2.0,,4.0,
row2,6.0,7.0,,9.0,
row3,11.0,7.0,,14.0,15.0
row4,11.0,17.0,,14.0,20.0
row5,11.0,22.0,,14.0,25.0


In [25]:
# limit 인수를 사용하는 경우, 각 레이블값에 대해서 결측기 변경을 수행할 횟수
df.fillna('A', limit=2)

Unnamed: 0,col1,col2,col3,col4,col5
row1,A,2.0,A,4.0,A
row2,6.0,7.0,A,9.0,A
row3,11.0,A,,14.0,15.0
row4,A,17.0,,A,20.0
row5,,22.0,,A,25.0


In [26]:
# downcast 인수를 사용하는 경우 : 메모리상의 차지하는 공간 줄임 ex.float : float64 -> float32, intfer : float64 -> int64
df.fillna(0, downcast='infer')

Unnamed: 0,col1,col2,col3,col4,col5
row1,0,2,0,4,0
row2,6,7,0,9,0
row3,11,0,0,14,15
row4,0,17,0,0,20
row5,0,22,0,0,25


In [27]:
# inplace를 사용하는 경우
df.fillna('A',inplace=True)
df

Unnamed: 0,col1,col2,col3,col4,col5
row1,A,2.0,A,4.0,A
row2,6.0,7.0,A,9.0,A
row3,11.0,A,A,14.0,15.0
row4,A,17.0,A,A,20.0
row5,A,22.0,A,A,25.0


## 결측값 없는 마지막 행 반환

In [28]:
n = np.NaN

row = [10,20,30,40,50,60]
data = {'A':[1,na,na,4,5,6],'B':[7,8,9,10,n,12]}
df = pd.DataFrame(data=data, index = row)
df

Unnamed: 0,A,B
10,1.0,7.0
20,,8.0
30,,9.0
40,4.0,10.0
50,5.0,
60,6.0,12.0


In [29]:
df.asof(where=45)

A     4.0
B    10.0
Name: 45, dtype: float64

In [30]:
# 입력값이 list인 경우

df.asof(where=[10,45,60])

Unnamed: 0,A,B
10,1.0,7.0
45,4.0,10.0
60,6.0,12.0


In [None]:
# su