### 결측 데이터

#### 결측치
* 누락되거나 문제가 있는 데이터를 의미한다
* 데이터 입력시 인코딩 또는 네트워크 문제, 공란 등의 이유로 무엇인지 판단하기 어려운 데이터
* 판다스에서는 결측값을 NaN(Not a Number)으로 표기하며 None, 공백도 결측치로 사용된다

#### 결측치 처리 방법
* 결측치 확인
* 결측치 대체 / 제거
* 결측치 반영 확인

#### 결측치 확인 함수
* isnull() : 결측치 True, 유효 데이터 False 반환
* notnull() : 결측치 False, 유효 데이터 True 반환

In [1]:
import pandas as pd

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


In [3]:
df = pd.read_csv('../data_set/2.데이터 클린징/nan.csv')
df

Unnamed: 0,data1,data2,data3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,
5,15,16,17,,1.0


In [6]:
df.isnull()

Unnamed: 0,data1,data2,data3,nan_1,nan_2
0,False,False,False,False,True
1,False,False,False,True,True
2,False,False,False,False,True
3,False,False,False,True,True
4,False,False,False,False,True
5,False,False,False,True,False


In [7]:
df.isnull().sum()

data1    0
data2    0
data3    0
nan_1    3
nan_2    5
dtype: int64

In [8]:
df.shape

(6, 5)

In [9]:
df.notnull()

Unnamed: 0,data1,data2,data3,nan_1,nan_2
0,True,True,True,True,False
1,True,True,True,False,False
2,True,True,True,True,False
3,True,True,True,False,False
4,True,True,True,True,False
5,True,True,True,False,True


In [10]:
df.notnull().sum()

data1    6
data2    6
data3    6
nan_1    3
nan_2    1
dtype: int64

---
#### 결측치 대체 / 제거
* 결측치가 많을 경우 모두 삭제하게 되면 예측력이 떨어질 수 있다

##### 제거
* 전체 삭제 : dropna(). 기본 axis=0으로 설정되어 있다.
* 행(index) : axis=0
* 열(column) : axis = 1
* del : 특정 열 삭제

In [11]:
df

Unnamed: 0,data1,data2,data3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,
5,15,16,17,,1.0


In [12]:
df.dropna() # default: axis=0 (행을 기준으로 삭제됨)

Unnamed: 0,data1,data2,data3,nan_1,nan_2


In [13]:
df.dropna(axis=1) # df 바로 적용할려면 inplace = True 옵션을 줘야함

Unnamed: 0,data1,data2,data3
0,0,1,2
1,3,4,2
2,3,4,8
3,9,10,11
4,12,10,14
5,15,16,17


In [14]:
df[df['nan_1'].isnull()]

Unnamed: 0,data1,data2,data3,nan_1,nan_2
1,3,4,2,,
3,9,10,11,,
5,15,16,17,,1.0


In [15]:
df[df['nan_1'].notnull()]

Unnamed: 0,data1,data2,data3,nan_1,nan_2
0,0,1,2,1.7,
2,3,4,8,2.4,
4,12,10,14,1.2,


In [16]:
del df['nan_1'] # inplace 옵션 없이 바로삭제
df 

Unnamed: 0,data1,data2,data3,nan_2
0,0,1,2,
1,3,4,2,
2,3,4,8,
3,9,10,11,
4,12,10,14,
5,15,16,17,1.0


---
#### 대체(치환)
- 0으로 치환 : fillna(0)
- 평균으로 치환 : fillna(df.mean())
- 중위수로 치환 : fillna(df.describe().loc['50%']) 또는 df.median()
    * 중위수 또는 중앙값 이라고 표현한다. 
    * 예) {1,3,6,6,7,10,12,12,17} 7이 중간에 있기 때문에 중위수는 7이 된다
    * 예) {1,3,6,6,12,17} : 중간값이 없으면 (6+6) / 2가 중간값(6)이 된다.
- 최빈값으로 치환 : df.value_counts() 또는 df.mode()
    * 주어진 데이터 중 가장 자주 나오는 데이터
    * 예) {1, 3, 6, 6, 6, 7, 7, 12, 12, 17} 최빈값은 6이된다
- 이전값 : 순차적으로 시작하여 현재값 다음 NaN값을 현재 값으로 변경 : fillna(method='pad')
- 다음값 : 역순으로 시작하여 현재 값을 다음 NaN값을 현재 값으로 변경 : fillna(method='bfill')

In [None]:
# null 컬럼의 평균 값으로 반영된는 것인가?

In [17]:
df = pd.read_csv('../data_set/2.데이터 클린징/nan.csv')
df

Unnamed: 0,data1,data2,data3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,
5,15,16,17,,1.0


In [18]:
df.fillna(value=0) # 결측값을 0으로 채우기 (value 는 생략 가능)

Unnamed: 0,data1,data2,data3,nan_1,nan_2
0,0,1,2,1.7,0.0
1,3,4,2,0.0,0.0
2,3,4,8,2.4,0.0
3,9,10,11,0.0,0.0
4,12,10,14,1.2,0.0
5,15,16,17,0.0,1.0


In [20]:
df.mean() #각 컬럼별 평균

data1    7.000000
data2    7.500000
data3    9.000000
nan_1    1.766667
nan_2    1.000000
dtype: float64

In [19]:
df.fillna(df.mean())

Unnamed: 0,data1,data2,data3,nan_1,nan_2
0,0,1,2,1.7,1.0
1,3,4,2,1.766667,1.0
2,3,4,8,2.4,1.0
3,9,10,11,1.766667,1.0
4,12,10,14,1.2,1.0
5,15,16,17,1.766667,1.0


In [21]:
# 중앙값, 최빈값 확인
data = {'v1':[12,12,17,1,3,6,6,7,10],
       'v2':[1,3,6,6,6,7,7,12,12] }
df_test = pd.DataFrame(data)
df_test

Unnamed: 0,v1,v2
0,12,1
1,12,3
2,17,6
3,1,6
4,3,6
5,6,7
6,6,7
7,7,12
8,10,12


In [22]:
df_test.median()

v1    7.0
v2    6.0
dtype: float64

In [23]:
df_test['v1'].sort_values() #정렬 기능

3     1
4     3
5     6
6     6
7     7
8    10
0    12
1    12
2    17
Name: v1, dtype: int64

In [24]:
df_test.mode()

Unnamed: 0,v1,v2
0,6,6.0
1,12,


In [26]:
df_test['v1'].value_counts() # 값의 개수 세기

v1
12    2
6     2
17    1
1     1
3     1
7     1
10    1
Name: count, dtype: int64

In [27]:
df

Unnamed: 0,data1,data2,data3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,
5,15,16,17,,1.0


In [28]:
df.median() #중앙값

data1    6.0
data2    7.0
data3    9.5
nan_1    1.7
nan_2    1.0
dtype: float64

In [29]:
df.fillna(df.median())

Unnamed: 0,data1,data2,data3,nan_1,nan_2
0,0,1,2,1.7,1.0
1,3,4,2,1.7,1.0
2,3,4,8,2.4,1.0
3,9,10,11,1.7,1.0
4,12,10,14,1.2,1.0
5,15,16,17,1.7,1.0


In [30]:
df.mode()

Unnamed: 0,data1,data2,data3,nan_1,nan_2
0,3.0,4.0,2.0,1.2,1.0
1,,10.0,,1.7,
2,,,,2.4,


In [31]:
df.fillna(df.mode()) # 적용 안됨

Unnamed: 0,data1,data2,data3,nan_1,nan_2
0,0,1,2,1.7,1.0
1,3,4,2,1.7,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,
5,15,16,17,,1.0


In [33]:
df.fillna(df.mode().loc[0])

Unnamed: 0,data1,data2,data3,nan_1,nan_2
0,0,1,2,1.7,1.0
1,3,4,2,1.2,1.0
2,3,4,8,2.4,1.0
3,9,10,11,1.2,1.0
4,12,10,14,1.2,1.0
5,15,16,17,1.2,1.0


In [34]:
df.fillna(method='pad') # nan 이전 값으로 치환

  df.fillna(method='pad') # nan 이전 값으로 치환


Unnamed: 0,data1,data2,data3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,1.7,
2,3,4,8,2.4,
3,9,10,11,2.4,
4,12,10,14,1.2,
5,15,16,17,1.2,1.0


In [35]:
df['nan_1'].unique()

array([1.7, nan, 2.4, 1.2])

### replace
* replace(to_replace=비교값, value=치환값)
* NaN값은 np.nan으로 비교 가능하다
---

In [36]:
df

Unnamed: 0,data1,data2,data3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,
5,15,16,17,,1.0


In [37]:
df.replace(to_replace=2, value=200)

Unnamed: 0,data1,data2,data3,nan_1,nan_2
0,0,1,200,1.7,
1,3,4,200,,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,
5,15,16,17,,1.0


In [41]:
import numpy as np
df.replace(to_replace=np.nan, value="변경")

Unnamed: 0,data1,data2,data3,nan_1,nan_2
0,0,1,2,1.7,변경
1,3,4,2,변경,변경
2,3,4,8,2.4,변경
3,9,10,11,변경,변경
4,12,10,14,1.2,변경
5,15,16,17,변경,1.0


In [43]:
# 교체할 컬럼을 지정할 수 있다
df.replace(to_replace={'nan_1':np.nan}, value="변경", inplace=True)

In [44]:
df

Unnamed: 0,data1,data2,data3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,변경,
2,3,4,8,2.4,
3,9,10,11,변경,
4,12,10,14,1.2,
5,15,16,17,변경,1.0


#### 예제

In [67]:
df = pd.read_csv('../data_set/2.데이터 클린징/bicycle.csv')
df.head()

Unnamed: 0,자전거번호,대여일시,대여소번호,대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리,나이
0,SPB-23220,2019-11-01 8:48,646,장한평역 1번출구 (국민은행앞),3.0,2019-11-01 9:01,3,중랑센터,7.0,12.0,1100.0,50
1,SPB-16216,2019-11-04 8:38,646,장한평역 1번출구 (국민은행앞),2.0,2019-11-04 8:56,3,중랑센터,2.0,7.0,1420.0,31
2,SPB-21097,2019-11-04 8:46,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-04 8:57,3,중랑센터,7.0,10.0,,32
3,SPB-22292,2019-11-05 8:34,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-05 8:45,3,중랑센터,,10.0,1380.0,21
4,SPB-07935,2019-11-05 12:29,512,뚝섬역 1번 출구 옆,11.0,2019-11-05 12:39,3,중랑센터,7.0,10.0,1650.0,120


In [46]:
df.shape

(423, 12)

In [47]:
df['대여소번호'] == 646

0       True
1       True
2       True
3       True
4      False
       ...  
418    False
419    False
420    False
421    False
422    False
Name: 대여소번호, Length: 423, dtype: bool

In [50]:
df[df['대여소번호'] == 646].head(3)

Unnamed: 0,자전거번호,대여일시,대여소번호,대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리,나이
0,SPB-23220,2019-11-01 8:48,646,장한평역 1번출구 (국민은행앞),3.0,2019-11-01 9:01,3,중랑센터,7.0,12.0,1100.0,50
1,SPB-16216,2019-11-04 8:38,646,장한평역 1번출구 (국민은행앞),2.0,2019-11-04 8:56,3,중랑센터,2.0,7.0,1420.0,31
2,SPB-21097,2019-11-04 8:46,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-04 8:57,3,중랑센터,7.0,10.0,,32


In [52]:
df.loc[df['대여소번호'] == 646, ].head(3)

Unnamed: 0,자전거번호,대여일시,대여소번호,대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리,나이
0,SPB-23220,2019-11-01 8:48,646,장한평역 1번출구 (국민은행앞),3.0,2019-11-01 9:01,3,중랑센터,7.0,12.0,1100.0,50
1,SPB-16216,2019-11-04 8:38,646,장한평역 1번출구 (국민은행앞),2.0,2019-11-04 8:56,3,중랑센터,2.0,7.0,1420.0,31
2,SPB-21097,2019-11-04 8:46,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-04 8:57,3,중랑센터,7.0,10.0,,32


In [53]:
df.loc[df['대여소번호'] == 646, ['대여거치대', '반납일시']].head(3)

Unnamed: 0,대여거치대,반납일시
0,3.0,2019-11-01 9:01
1,2.0,2019-11-04 8:56
2,1.0,2019-11-04 8:57


In [54]:
df.loc[df['대여소번호'] == 646,].isnull().sum()

자전거번호      0
대여일시       0
대여소번호      0
대여소명       0
대여거치대      2
반납일시       0
반납대여소번호    0
반납대여소명     0
반납거치대      1
이용시간       3
이용거리       2
나이         0
dtype: int64

In [58]:
# 2개의 코드는 동일함
df[df['대여소번호'] == 646]['이용거리'].fillna(789.789, inplace=True)
# df.loc[df['대여소번호'] == 646, ['이용거리']].fillna(789.789, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[df['대여소번호'] == 646]['이용거리'].fillna(789.789, inplace=True)


In [59]:
df[df['대여소번호'] == 646]['이용거리'] #inplace=True 옵션을 줬는데 nan 반영 안됨

0     1100.0
1     1420.0
2        NaN
3     1380.0
5     1350.0
6     1390.0
8     1160.0
9     1060.0
10    1300.0
11    1060.0
12       NaN
13    1140.0
14    1220.0
15    1370.0
16    1350.0
17    1350.0
18    1130.0
19    1330.0
21    1310.0
22    1380.0
24    1070.0
Name: 이용거리, dtype: float64

In [61]:
df[df['대여소번호'] == 646]['이용거리'] = df[df['대여소번호'] == 646]['이용거리'].fillna(789.789)
# df.loc[df['대여소번호'] == 646, ['이용거리']].fillna(789.789, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[df['대여소번호'] == 646]['이용거리'] = df[df['대여소번호'] == 646]['이용거리'].fillna(789.789)


In [62]:
# 반영 안됨
df[df['대여소번호'] == 646]['이용거리']

0     1100.0
1     1420.0
2        NaN
3     1380.0
5     1350.0
6     1390.0
8     1160.0
9     1060.0
10    1300.0
11    1060.0
12       NaN
13    1140.0
14    1220.0
15    1370.0
16    1350.0
17    1350.0
18    1130.0
19    1330.0
21    1310.0
22    1380.0
24    1070.0
Name: 이용거리, dtype: float64

In [69]:
# 이렇게 해야지 반영됨
df.loc[df['대여소번호'] == 646, '이용거리'] = df.loc[df['대여소번호'] == 646, '이용거리'].fillna(789.789)

In [70]:
df.loc[df['대여소번호'] == 646, ['이용거리']]

Unnamed: 0,이용거리
0,1100.0
1,1420.0
2,789.789
3,1380.0
5,1350.0
6,1390.0
8,1160.0
9,1060.0
10,1300.0
11,1060.0
