### 결측 데이터
#### 결측치
* 누락되거나 문제가 있는 데이터를 의미한다
* 데이터 입력시 인코딩 또는 네트워크 문제, 공란 등의 이유로 무엇인지 판단하기 어려운 데이터
* 판다스에서 결측값은 NaN(Nout a Number)으로 표기하며 None, 공백도 결측치로 사용된다.
#### 결측치 처리방법
* 결측치 확인
* 결측치 대체/제거
* 결측치 반영 확인
#### 결측치(NaN)확인
* isnull() : 결측치 True, 유효 데이터 False
* notnull() : 유효데이터 True, 결측치 False


In [1]:
import pandas as pd
df = pd.read_csv('data/nan_test.csv')


Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,
5,15,16,17,,1.0


In [7]:
# df.head(2)
df.tail(2)

Unnamed: 0,n1,n2,n3,nan_1,nan_2
4,12,10,14,1.2,
5,15,16,17,,1.0


In [11]:
df.head()

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,


In [9]:
df.T #df.head().T

Unnamed: 0,0,1,2,3,4,5
n1,0.0,3.0,3.0,9.0,12.0,15.0
n2,1.0,4.0,4.0,10.0,10.0,16.0
n3,2.0,2.0,8.0,11.0,14.0,17.0
nan_1,1.7,,2.4,,1.2,
nan_2,,,,,,1.0


### 결측치 처리 방법
#### 결측치 확인
* isnull 또는 notnull

In [10]:
# 결측치 True, 유효값 False
df.isnull()

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,False,False,False,False,True
1,False,False,False,True,True
2,False,False,False,False,True
3,False,False,False,True,True
4,False,False,False,False,True
5,False,False,False,True,False


In [12]:
df.isnull().sum()

n1       0
n2       0
n3       0
nan_1    3
nan_2    5
dtype: int64

In [14]:
df.shape ##열은 5개 column, 행은 6개 index

(6, 5)

In [21]:
# 결측치 False, 유효데이터 True
print( df.shape )
df.notnull().sum()

(6, 5)


n1       6
n2       6
n3       6
nan_1    3
nan_2    1
dtype: int64

In [20]:
df.dtypes

n1         int64
n2         int64
n3         int64
nan_1    float64
nan_2    float64
dtype: object

#### 결측치 대체/제거
* 결측치가 많을 경우 모두 삭제하게 되면 예측력이 떨어질 수 있다.
##### 제거
* 전체 삭제 : dropna(), 기본 axis=0으로 설정되어 있다.
* 행(index) : axis = 0, 열(column) : axis = 1
* del함수 : 특정 열 삭제

In [23]:
df.dropna()#df.dropna( axis=0 , inplace=True)

Unnamed: 0,n1,n2,n3,nan_1,nan_2


In [24]:
df.dropna( axis=1 )

Unnamed: 0,n1,n2,n3
0,0,1,2
1,3,4,2
2,3,4,8
3,9,10,11
4,12,10,14
5,15,16,17


In [25]:
del df['nan_2']
df

Unnamed: 0,n1,n2,n3,nan_1
0,0,1,2,1.7
1,3,4,2,
2,3,4,8,2.4
3,9,10,11,
4,12,10,14,1.2
5,15,16,17,


In [26]:
df['nan_1'].notnull()

0     True
1    False
2     True
3    False
4     True
5    False
Name: nan_1, dtype: bool

In [27]:
df[df['nan_1'].notnull()]

Unnamed: 0,n1,n2,n3,nan_1
0,0,1,2,1.7
2,3,4,8,2.4
4,12,10,14,1.2


#### 결측치 대체(치환)
* 0으로 치환 : fillna( 0 )
* 평균 : fillna( df.mean() )
* 중위수(중앙값)으로 치환 : fillna ( df.dexcribe().loc['50%']) 또는 df.median()
    - 중앙값 : 숫자들 중 가운데 있는 값
    - 1,2,3,4,5 => 3, 1,2,3,4,5,6, = (3+4)/2
* 최빈값 : df.value_count() 또는 df.mode()
    - 1,1,1,2,2,3,4,4 => 1 최빈값
* 이전값 : 순차적으로 시작하여 현재값 다음 NaN값을 현재 값으로 변경 : fillna(method='pad')
* 다음값 : 역순으로 시작하여 현재값을 다음NaN으로 치환 : fillna(method='bfill')

In [32]:
df = pd.read_csv('data/nan_test.csv')

In [29]:
df.fillna(value=0)
df.fillna(1000)

Unnamed: 0,n1,n2,n3,nan_1
0,0,1,2,1.7
1,3,4,2,1000.0
2,3,4,8,2.4
3,9,10,11,1000.0
4,12,10,14,1.2
5,15,16,17,1000.0


In [30]:
df.mean()

n1       7.000000
n2       7.500000
n3       9.000000
nan_1    1.766667
dtype: float64

In [33]:
df.fillna( df.mean() )

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,1.0
1,3,4,2,1.766667,1.0
2,3,4,8,2.4,1.0
3,9,10,11,1.766667,1.0
4,12,10,14,1.2,1.0
5,15,16,17,1.766667,1.0


In [34]:
data={'v1':[12,12,17,1,3,6,6,7,10],
     'v2':[1,3,6,6,6,7,7,12,12] }
df_test = pd.DataFrame(data)


Unnamed: 0,v1,v2
0,12,1
1,12,3
2,17,6
3,1,6
4,3,6
5,6,7
6,6,7
7,7,12
8,10,12


In [35]:
df_test.median()

v1    7.0
v2    6.0
dtype: float64

In [36]:
df_test['v1'].sort_values()

3     1
4     3
5     6
6     6
7     7
8    10
0    12
1    12
2    17
Name: v1, dtype: int64

In [39]:
df_test.mode()
df_test["v1"].mode()[0]

6

In [40]:
df_test['v1'].value_counts()

12    2
6     2
17    1
1     1
3     1
7     1
10    1
Name: v1, dtype: int64

In [41]:
df_test['v2'].value_counts()

6     3
7     2
12    2
1     1
3     1
Name: v2, dtype: int64

In [43]:
df.median()

n1       6.0
n2       7.0
n3       9.5
nan_1    1.7
nan_2    1.0
dtype: float64

In [44]:
df.fillna( df.median() )

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,1.0
1,3,4,2,1.7,1.0
2,3,4,8,2.4,1.0
3,9,10,11,1.7,1.0
4,12,10,14,1.2,1.0
5,15,16,17,1.7,1.0


In [45]:
df.fillna( df.mode() )

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,1.0
1,3,4,2,1.7,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,
5,15,16,17,,1.0


In [46]:
df.mode()

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,3.0,4.0,2.0,1.2,1.0
1,,10.0,,1.7,
2,,,,2.4,


In [47]:
df.mode().loc[0]

n1       3.0
n2       4.0
n3       2.0
nan_1    1.2
nan_2    1.0
Name: 0, dtype: float64

In [48]:
df.fillna( df.mode().loc[0] )

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,1.0
1,3,4,2,1.2,1.0
2,3,4,8,2.4,1.0
3,9,10,11,1.2,1.0
4,12,10,14,1.2,1.0
5,15,16,17,1.2,1.0


In [49]:
df.fillna( method = "pad")

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,1.7,
2,3,4,8,2.4,
3,9,10,11,2.4,
4,12,10,14,1.2,
5,15,16,17,1.2,1.0


In [50]:
df.fillna( method = "bfill")

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,1.0
1,3,4,2,2.4,1.0
2,3,4,8,2.4,1.0
3,9,10,11,1.2,1.0
4,12,10,14,1.2,1.0
5,15,16,17,,1.0


### 유일한 데이터 확인
* unique : 유일한 값 확인
* DataFrame의 기능이 아니며 Series의 기능이다. Series의 형식으로 사용해야 한다
* df.unique() : error., df['컬럼']nuique() : 성공

In [53]:
df['nan_1'].unique()

array([1.7, nan, 2.4, 1.2])

In [58]:
df = pd.read_csv('data/bicycle.csv')

In [60]:
df.head()

Unnamed: 0,자전거번호,대여일시,대여소번호,대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리,나이
0,SPB-23220,2019-11-01 8:48,646,장한평역 1번출구 (국민은행앞),3.0,2019-11-01 9:01,3,중랑센터,7.0,12.0,1100.0,50
1,SPB-16216,2019-11-04 8:38,646,장한평역 1번출구 (국민은행앞),2.0,2019-11-04 8:56,3,중랑센터,2.0,7.0,1420.0,31
2,SPB-21097,2019-11-04 8:46,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-04 8:57,3,중랑센터,7.0,10.0,,32
3,SPB-22292,2019-11-05 8:34,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-05 8:45,3,중랑센터,,10.0,1380.0,21
4,SPB-07935,2019-11-05 12:29,512,뚝섬역 1번 출구 옆,11.0,2019-11-05 12:39,3,중랑센터,7.0,10.0,1650.0,120


In [73]:
df.isnull()

Unnamed: 0,자전거번호,대여일시,대여소번호,대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리,나이
0,False,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False
3,False,False,False,False,False,False,False,False,True,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...
418,False,False,False,False,False,False,False,False,False,False,False,False
419,False,False,False,False,False,False,False,False,False,False,False,False
420,False,False,False,False,False,False,False,False,False,False,False,False
421,False,False,False,False,False,False,False,False,False,False,False,False


In [74]:
df.isnull().sum()

자전거번호       0
대여일시        0
대여소번호       0
대여소명        0
대여거치대      23
반납일시        0
반납대여소번호     0
반납대여소명      0
반납거치대      11
이용시간       11
이용거리       11
나이          0
dtype: int64

In [75]:
df.notnull()

Unnamed: 0,자전거번호,대여일시,대여소번호,대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리,나이
0,True,True,True,True,True,True,True,True,True,True,True,True
1,True,True,True,True,True,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True,True,True,True,False,True
3,True,True,True,True,True,True,True,True,False,True,True,True
4,True,True,True,True,True,True,True,True,True,True,True,True
...,...,...,...,...,...,...,...,...,...,...,...,...
418,True,True,True,True,True,True,True,True,True,True,True,True
419,True,True,True,True,True,True,True,True,True,True,True,True
420,True,True,True,True,True,True,True,True,True,True,True,True
421,True,True,True,True,True,True,True,True,True,True,True,True


In [78]:
df.shape

(423, 12)

In [79]:
df.notnull().sum()

자전거번호      423
대여일시       423
대여소번호      423
대여소명       423
대여거치대      400
반납일시       423
반납대여소번호    423
반납대여소명     423
반납거치대      412
이용시간       412
이용거리       412
나이         423
dtype: int64

In [104]:
df.dropna( axis=0 , inplace=True)
print(df.head())

       자전거번호              대여일시  대여소번호               대여소명  대여거치대  \
0  SPB-23220   2019-11-01 8:48    646  장한평역 1번출구 (국민은행앞)    3.0   
1  SPB-16216   2019-11-04 8:38    646  장한평역 1번출구 (국민은행앞)    2.0   
4  SPB-07935  2019-11-05 12:29    512        뚝섬역 1번 출구 옆   11.0   
5  SPB-18401   2019-11-06 8:52    646  장한평역 1번출구 (국민은행앞)    1.0   
6  SPB-18350   2019-11-06 8:35    646  장한평역 1번출구 (국민은행앞)    1.0   

               반납일시  반납대여소번호 반납대여소명  반납거치대  이용시간    이용거리   나이  
0   2019-11-01 9:01        3   중랑센터    7.0  12.0  1100.0   50  
1   2019-11-04 8:56        3   중랑센터    2.0   7.0  1420.0   31  
4  2019-11-05 12:39        3   중랑센터    7.0  10.0  1650.0  120  
5   2019-11-06 9:09        3   중랑센터    7.0  11.0  1350.0   30  
6   2019-11-06 9:10        3   중랑센터    2.0   9.0  1390.0   26  


In [109]:
df.isnull().sum()

자전거번호      0
대여일시       0
대여소번호      0
대여소명       0
대여거치대      0
반납일시       0
반납대여소번호    0
반납대여소명     0
반납거치대      0
이용시간       0
이용거리       0
나이         0
dtype: int64

In [110]:
df = pd.read_csv('data/bicycle.csv')

In [111]:
df.shape

(423, 12)

In [118]:
df.columns

Index(['자전거번호', '대여일시', '대여소번호', '대여소명', '대여거치대', '반납일시', '반납대여소번호', '반납대여소명',
       '반납거치대', '이용시간', '이용거리', '나이'],
      dtype='object')

In [140]:
df.dropna( axis=1 ).columns
df

Unnamed: 0,자전거번호,대여일시,대여소번호,대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리,나이
0,SPB-23220,2019-11-01 8:48,646,장한평역 1번출구 (국민은행앞),3.0,2019-11-01 9:01,3,중랑센터,7.0,12.0,1100.0,50
1,SPB-16216,2019-11-04 8:38,646,장한평역 1번출구 (국민은행앞),2.0,2019-11-04 8:56,3,중랑센터,2.0,7.0,1420.0,31
2,SPB-21097,2019-11-04 8:46,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-04 8:57,3,중랑센터,7.0,10.0,,32
3,SPB-22292,2019-11-05 8:34,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-05 8:45,3,중랑센터,,10.0,1380.0,21
4,SPB-07935,2019-11-05 12:29,512,뚝섬역 1번 출구 옆,11.0,2019-11-05 12:39,3,중랑센터,7.0,10.0,1650.0,120
...,...,...,...,...,...,...,...,...,...,...,...,...
418,SPB-24467,2019-11-15 21:55,152,마포구민체육센터 앞,18.0,2019-11-15 22:05,101,(구)합정동 주민센터,1.0,10.0,1180.0,27
419,SPB-17570,2019-11-15 22:16,391,정동길입구,7.0,2019-11-15 23:04,101,(구)합정동 주민센터,5.0,48.0,8100.0,28
420,SPB-23012,2019-11-14 19:53,267,삼성화재 사옥 옆,2.0,2019-11-14 20:05,101,(구)합정동 주민센터,2.0,12.0,2350.0,41
421,SPB-13934,2019-11-13 18:00,106,합정역 7번출구 앞,4.0,2019-11-13 18:06,101,(구)합정동 주민센터,2.0,5.0,860.0,58


In [165]:
df = pd.read_csv('data/bicycle.csv')

In [168]:
df.isnull().sum()

자전거번호       0
대여일시        0
대여소번호       0
대여소명        0
대여거치대      23
반납일시        0
반납대여소번호     0
반납대여소명      0
반납거치대      11
이용시간       11
이용거리       11
나이          0
dtype: int64

In [169]:
df[df['이용거리'].notnull()]

Unnamed: 0,자전거번호,대여일시,대여소번호,대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리,나이
0,SPB-23220,2019-11-01 8:48,646,장한평역 1번출구 (국민은행앞),3.0,2019-11-01 9:01,3,중랑센터,7.0,12.0,1100.0,50
1,SPB-16216,2019-11-04 8:38,646,장한평역 1번출구 (국민은행앞),2.0,2019-11-04 8:56,3,중랑센터,2.0,7.0,1420.0,31
3,SPB-22292,2019-11-05 8:34,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-05 8:45,3,중랑센터,,10.0,1380.0,21
4,SPB-07935,2019-11-05 12:29,512,뚝섬역 1번 출구 옆,11.0,2019-11-05 12:39,3,중랑센터,7.0,10.0,1650.0,120
5,SPB-18401,2019-11-06 8:52,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-06 9:09,3,중랑센터,7.0,11.0,1350.0,30
...,...,...,...,...,...,...,...,...,...,...,...,...
418,SPB-24467,2019-11-15 21:55,152,마포구민체육센터 앞,18.0,2019-11-15 22:05,101,(구)합정동 주민센터,1.0,10.0,1180.0,27
419,SPB-17570,2019-11-15 22:16,391,정동길입구,7.0,2019-11-15 23:04,101,(구)합정동 주민센터,5.0,48.0,8100.0,28
420,SPB-23012,2019-11-14 19:53,267,삼성화재 사옥 옆,2.0,2019-11-14 20:05,101,(구)합정동 주민센터,2.0,12.0,2350.0,41
421,SPB-13934,2019-11-13 18:00,106,합정역 7번출구 앞,4.0,2019-11-13 18:06,101,(구)합정동 주민센터,2.0,5.0,860.0,58


In [170]:
df = pd.read_csv('data/bicycle.csv')

In [172]:
df.isnull().sum()

자전거번호       0
대여일시        0
대여소번호       0
대여소명        0
대여거치대      23
반납일시        0
반납대여소번호     0
반납대여소명      0
반납거치대      11
이용시간       11
이용거리       11
나이          0
dtype: int64

In [173]:
df.fillna(0)

Unnamed: 0,자전거번호,대여일시,대여소번호,대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리,나이
0,SPB-23220,2019-11-01 8:48,646,장한평역 1번출구 (국민은행앞),3.0,2019-11-01 9:01,3,중랑센터,7.0,12.0,1100.0,50
1,SPB-16216,2019-11-04 8:38,646,장한평역 1번출구 (국민은행앞),2.0,2019-11-04 8:56,3,중랑센터,2.0,7.0,1420.0,31
2,SPB-21097,2019-11-04 8:46,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-04 8:57,3,중랑센터,7.0,10.0,0.0,32
3,SPB-22292,2019-11-05 8:34,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-05 8:45,3,중랑센터,0.0,10.0,1380.0,21
4,SPB-07935,2019-11-05 12:29,512,뚝섬역 1번 출구 옆,11.0,2019-11-05 12:39,3,중랑센터,7.0,10.0,1650.0,120
...,...,...,...,...,...,...,...,...,...,...,...,...
418,SPB-24467,2019-11-15 21:55,152,마포구민체육센터 앞,18.0,2019-11-15 22:05,101,(구)합정동 주민센터,1.0,10.0,1180.0,27
419,SPB-17570,2019-11-15 22:16,391,정동길입구,7.0,2019-11-15 23:04,101,(구)합정동 주민센터,5.0,48.0,8100.0,28
420,SPB-23012,2019-11-14 19:53,267,삼성화재 사옥 옆,2.0,2019-11-14 20:05,101,(구)합정동 주민센터,2.0,12.0,2350.0,41
421,SPB-13934,2019-11-13 18:00,106,합정역 7번출구 앞,4.0,2019-11-13 18:06,101,(구)합정동 주민센터,2.0,5.0,860.0,58


In [175]:
df['이용거리'].fillna(df['이용거리'].mean(), inplace=True)
df.head()

Unnamed: 0,자전거번호,대여일시,대여소번호,대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리,나이
0,SPB-23220,2019-11-01 8:48,646,장한평역 1번출구 (국민은행앞),3.0,2019-11-01 9:01,3,중랑센터,7.0,12.0,1100.0,50
1,SPB-16216,2019-11-04 8:38,646,장한평역 1번출구 (국민은행앞),2.0,2019-11-04 8:56,3,중랑센터,2.0,7.0,1420.0,31
2,SPB-21097,2019-11-04 8:46,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-04 8:57,3,중랑센터,7.0,10.0,2668.070388,32
3,SPB-22292,2019-11-05 8:34,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-05 8:45,3,중랑센터,,10.0,1380.0,21
4,SPB-07935,2019-11-05 12:29,512,뚝섬역 1번 출구 옆,11.0,2019-11-05 12:39,3,중랑센터,7.0,10.0,1650.0,120


In [196]:
df.fillna(df.mean(), inplace=True)
df.head()

  df.fillna(df.mean(), inplace=True)


Unnamed: 0,자전거번호,대여일시,대여소번호,대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리,나이
0,SPB-23220,2019-11-01 8:48,646,장한평역 1번출구 (국민은행앞),3.0,2019-11-01 9:01,3,중랑센터,7.0,12.0,1100.0,50
1,SPB-16216,2019-11-04 8:38,646,장한평역 1번출구 (국민은행앞),2.0,2019-11-04 8:56,3,중랑센터,2.0,7.0,1420.0,31
2,SPB-21097,2019-11-04 8:46,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-04 8:57,3,중랑센터,7.0,10.0,2668.070388,32
3,SPB-22292,2019-11-05 8:34,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-05 8:45,3,중랑센터,2.834951,10.0,1380.0,21
4,SPB-07935,2019-11-05 12:29,512,뚝섬역 1번 출구 옆,11.0,2019-11-05 12:39,3,중랑센터,7.0,10.0,1650.0,120


In [218]:
df = pd.read_csv('data/bicycle.csv')

In [219]:
print('데이터 개수\n',df['이용거리'].value_counts())
print('-------------------------------')
print('최빈값 : ',df['이용거리'].mode())
df['이용거리'].fillna(df['이용거리'].mode()[0], inplace=True)

데이터 개수
 0.0       14
1070.0     8
1110.0     6
1060.0     6
1130.0     5
          ..
3350.0     1
2100.0     1
1590.0     1
2120.0     1
8100.0     1
Name: 이용거리, Length: 261, dtype: int64
-------------------------------
최빈값 :  0    0.0
Name: 이용거리, dtype: float64


In [220]:
df.isnull().sum()

자전거번호       0
대여일시        0
대여소번호       0
대여소명        0
대여거치대      23
반납일시        0
반납대여소번호     0
반납대여소명      0
반납거치대      11
이용시간       11
이용거리        0
나이          0
dtype: int64