### 결측 데이터

#### 결측치
* 누락되거나 문제가 있는 데이터를 의미한다
* 데이터 입력시 인코딩 또는 네트워크 문제, 공란 등의 이유로 무엇인지 판단하기 어려운 데이터
* 판다스에서는 결측값을 NaN(Not a Number)으로 표기하며 None, 공백도 결측치로 사용된다

#### 결측치 처리 방법
* 결측치 확인
* 결측치 대체 / 제거
* 결측치 반영 확인

#### 결측치 확인 함수
* isnull() : 결측치 True, 유효 데이터 False 반환
* notnull() : 결측치 False, 유효 데이터 True 반환

In [1]:
import pandas as pd

In [3]:
# 데이터 셋 로드
df = pd.read_csv('data/nan_test.csv')
df

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,
5,15,16,17,,1.0


In [8]:
df.head(2)

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,,


In [7]:
df.tail(2)

Unnamed: 0,n1,n2,n3,nan_1,nan_2
4,12,10,14,1.2,
5,15,16,17,,1.0


In [10]:
df.isnull()  # 결측치는 True표현

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,False,False,False,False,True
1,False,False,False,True,True
2,False,False,False,False,True
3,False,False,False,True,True
4,False,False,False,False,True
5,False,False,False,True,False


In [12]:
df.isnull().sum()

n1       0
n2       0
n3       0
nan_1    3
nan_2    5
dtype: int64

In [14]:
df.shape

(6, 5)

In [15]:
df.notnull() # 결측치는 False

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,True,True,True,True,False
1,True,True,True,False,False
2,True,True,True,True,False
3,True,True,True,False,False
4,True,True,True,True,False
5,True,True,True,False,True


In [17]:
df.notnull().sum()

n1       6
n2       6
n3       6
nan_1    3
nan_2    1
dtype: int64

In [18]:
df.shape

(6, 5)

### 결측치 제거
* 전체 삭제 : dropna(), 기본 axis = 0 으로 설정되어 있다
* 행(index) : axis = 0
* 열(column) : axis = 1
* del : 특정 열(컬럼줄)삭제

In [23]:
df.dropna()

Unnamed: 0,n1,n2,n3,nan_1,nan_2


In [24]:
df.dropna(axis=1)

Unnamed: 0,n1,n2,n3
0,0,1,2
1,3,4,2
2,3,4,8
3,9,10,11
4,12,10,14
5,15,16,17


In [25]:
df['nan_1']

0    1.7
1    NaN
2    2.4
3    NaN
4    1.2
5    NaN
Name: nan_1, dtype: float64

In [30]:
df[df['nan_1'].isnull()] # 결츨치 True

Unnamed: 0,n1,n2,n3,nan_1,nan_2
1,3,4,2,,
3,9,10,11,,
5,15,16,17,,1.0


In [31]:
df[df['n1'] > 10]

Unnamed: 0,n1,n2,n3,nan_1,nan_2
4,12,10,14,1.2,
5,15,16,17,,1.0


In [33]:
df[df['nan_1'].notnull()]

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
2,3,4,8,2.4,
4,12,10,14,1.2,


In [34]:
df.loc[df['nan_1'].notnull()]

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
2,3,4,8,2.4,
4,12,10,14,1.2,


In [35]:
# NaN 값이 존재하는 열 삭제
del df['nan_1']
df

Unnamed: 0,n1,n2,n3,nan_2
0,0,1,2,
1,3,4,2,
2,3,4,8,
3,9,10,11,
4,12,10,14,
5,15,16,17,1.0


#### 대체(치환)
- 0으로 치환 : fillna(0)
- 평균으로 치환 : fillna(df.mean())
- 중위수로 치환 : fillna(df.describe().loc['50%']) 또는 df.median()
    * 중위수 또는 중앙값 이라고 표현한다. 
    * 예) {1,3,6,6,7,10,12,12,17} 7이 중간에 있기 때문에 중위수는 7이 된다
    * 예) {1,3,6,6,12,17} : 중간값이 없으면 (6+6) / 2가 중간값(6)이 된다.
- 최빈값으로 치환 : df.value_counts() 또는 df.mode()
    * 주어진 데이터 중 가장 자주 나오는 데이터
    * 예) {1, 3, 6, 6, 6, 7, 7, 12, 12, 17} 최빈값은 6이된다
- 이전값 : 순차적으로 시작하여 현재값 다음 NaN값을 현재 값으로 변경 : fillna(method='pad')
- 다음값 : 역순으로 시작하여 현재 값을 다음 NaN값을 현재 값으로 변경 : fillna(method='bfill')

In [36]:
df = pd.read_csv('data/nan_test.csv')
df

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,
5,15,16,17,,1.0


In [37]:
df.fillna(0)

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,0.0
1,3,4,2,0.0,0.0
2,3,4,8,2.4,0.0
3,9,10,11,0.0,0.0
4,12,10,14,1.2,0.0
5,15,16,17,0.0,1.0


In [39]:
df.mean()

n1       7.000000
n2       7.500000
n3       9.000000
nan_1    1.766667
nan_2    1.000000
dtype: float64

In [40]:
df.fillna(df.mean())

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,1.0
1,3,4,2,1.766667,1.0
2,3,4,8,2.4,1.0
3,9,10,11,1.766667,1.0
4,12,10,14,1.2,1.0
5,15,16,17,1.766667,1.0


In [42]:
data = { 'v1' : [ 12, 12, 17, 1, 3, 6, 6, 7, 10 ] ,
         'v2' : [1,3,6,6,6,7,7, 12, 12 ] }

data

{'v1': [12, 12, 17, 1, 3, 6, 6, 7, 10], 'v2': [1, 3, 6, 6, 6, 7, 7, 12, 12]}

In [45]:
df_test = pd.DataFrame(data)
df_test

Unnamed: 0,v1,v2
0,12,1
1,12,3
2,17,6
3,1,6
4,3,6
5,6,7
6,6,7
7,7,12
8,10,12


In [46]:
df_test.median()

v1    7.0
v2    6.0
dtype: float64

In [47]:
df_test.mode()

Unnamed: 0,v1,v2
0,6,6.0
1,12,


In [49]:
df_test['v1'].mode()

0     6
1    12
Name: v1, dtype: int64

In [50]:
type(df_test['v2'].mode())

pandas.core.series.Series

In [51]:
df_test['v2'].mode()[0]

6

In [52]:
df_test['v2'].value_counts()

6     3
7     2
12    2
1     1
3     1
Name: v2, dtype: int64

In [53]:
df_test['v2'].value_counts().max()

3

In [54]:
df

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,
5,15,16,17,,1.0


In [55]:
df.mode()

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,3.0,4.0,2.0,1.2,1.0
1,,10.0,,1.7,
2,,,,2.4,


In [58]:
df.fillna(df.mode().loc[0])

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,1.0
1,3,4,2,1.2,1.0
2,3,4,8,2.4,1.0
3,9,10,11,1.2,1.0
4,12,10,14,1.2,1.0
5,15,16,17,1.2,1.0


* fillna(method = 'pad') : nan을 기주으로 이전 값을 치환
* fillna(method='bfil') : nan을 기준으로 다음 값으로 치환

In [59]:
df.fillna(method='pad')

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,1.7,
2,3,4,8,2.4,
3,9,10,11,2.4,
4,12,10,14,1.2,
5,15,16,17,1.2,1.0


In [60]:
df.fillna(method='bfill')

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,1.0
1,3,4,2,2.4,1.0
2,3,4,8,2.4,1.0
3,9,10,11,1.2,1.0
4,12,10,14,1.2,1.0
5,15,16,17,,1.0


### 유일한 데이터 확인
* unique: 유일한 값 확인
* Series 기능이다

In [64]:
df['n1'].unique() #에러발생

array([ 0,  3,  9, 12, 15], dtype=int64)

In [63]:
df['n1']

0     0
1     3
2     3
3     9
4    12
5    15
Name: n1, dtype: int64

In [65]:
# 데이터 셋 로드
df = pd.read_csv('data/bicycle.csv')
df

Unnamed: 0,자전거번호,대여일시,대여소번호,대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리,나이
0,SPB-23220,2019-11-01 8:48,646,장한평역 1번출구 (국민은행앞),3.0,2019-11-01 9:01,3,중랑센터,7.0,12.0,1100.0,50
1,SPB-16216,2019-11-04 8:38,646,장한평역 1번출구 (국민은행앞),2.0,2019-11-04 8:56,3,중랑센터,2.0,7.0,1420.0,31
2,SPB-21097,2019-11-04 8:46,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-04 8:57,3,중랑센터,7.0,10.0,,32
3,SPB-22292,2019-11-05 8:34,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-05 8:45,3,중랑센터,,10.0,1380.0,21
4,SPB-07935,2019-11-05 12:29,512,뚝섬역 1번 출구 옆,11.0,2019-11-05 12:39,3,중랑센터,7.0,10.0,1650.0,120
...,...,...,...,...,...,...,...,...,...,...,...,...
418,SPB-24467,2019-11-15 21:55,152,마포구민체육센터 앞,18.0,2019-11-15 22:05,101,(구)합정동 주민센터,1.0,10.0,1180.0,27
419,SPB-17570,2019-11-15 22:16,391,정동길입구,7.0,2019-11-15 23:04,101,(구)합정동 주민센터,5.0,48.0,8100.0,28
420,SPB-23012,2019-11-14 19:53,267,삼성화재 사옥 옆,2.0,2019-11-14 20:05,101,(구)합정동 주민센터,2.0,12.0,2350.0,41
421,SPB-13934,2019-11-13 18:00,106,합정역 7번출구 앞,4.0,2019-11-13 18:06,101,(구)합정동 주민센터,2.0,5.0,860.0,58


In [66]:
df.isnull()

Unnamed: 0,자전거번호,대여일시,대여소번호,대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리,나이
0,False,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False
3,False,False,False,False,False,False,False,False,True,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...
418,False,False,False,False,False,False,False,False,False,False,False,False
419,False,False,False,False,False,False,False,False,False,False,False,False
420,False,False,False,False,False,False,False,False,False,False,False,False
421,False,False,False,False,False,False,False,False,False,False,False,False


In [69]:
df.isnull().sum()

자전거번호       0
대여일시        0
대여소번호       0
대여소명        0
대여거치대      23
반납일시        0
반납대여소번호     0
반납대여소명      0
반납거치대      11
이용시간       11
이용거리       11
나이          0
dtype: int64

In [70]:
df.notnull()

Unnamed: 0,자전거번호,대여일시,대여소번호,대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리,나이
0,True,True,True,True,True,True,True,True,True,True,True,True
1,True,True,True,True,True,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True,True,True,True,False,True
3,True,True,True,True,True,True,True,True,False,True,True,True
4,True,True,True,True,True,True,True,True,True,True,True,True
...,...,...,...,...,...,...,...,...,...,...,...,...
418,True,True,True,True,True,True,True,True,True,True,True,True
419,True,True,True,True,True,True,True,True,True,True,True,True
420,True,True,True,True,True,True,True,True,True,True,True,True
421,True,True,True,True,True,True,True,True,True,True,True,True


In [71]:
df.shape

(423, 12)

In [72]:
df.notnull().sum()

자전거번호      423
대여일시       423
대여소번호      423
대여소명       423
대여거치대      400
반납일시       423
반납대여소번호    423
반납대여소명     423
반납거치대      412
이용시간       412
이용거리       412
나이         423
dtype: int64

In [79]:
df.dropna(inplace=True)
df.head()

Unnamed: 0,자전거번호,대여일시,대여소번호,대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리,나이
0,SPB-23220,2019-11-01 8:48,646,장한평역 1번출구 (국민은행앞),3.0,2019-11-01 9:01,3,중랑센터,7.0,12.0,1100.0,50
1,SPB-16216,2019-11-04 8:38,646,장한평역 1번출구 (국민은행앞),2.0,2019-11-04 8:56,3,중랑센터,2.0,7.0,1420.0,31
4,SPB-07935,2019-11-05 12:29,512,뚝섬역 1번 출구 옆,11.0,2019-11-05 12:39,3,중랑센터,7.0,10.0,1650.0,120
5,SPB-18401,2019-11-06 8:52,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-06 9:09,3,중랑센터,7.0,11.0,1350.0,30
6,SPB-18350,2019-11-06 8:35,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-06 9:10,3,중랑센터,2.0,9.0,1390.0,26


In [80]:
df.isnull().sum()

자전거번호      0
대여일시       0
대여소번호      0
대여소명       0
대여거치대      0
반납일시       0
반납대여소번호    0
반납대여소명     0
반납거치대      0
이용시간       0
이용거리       0
나이         0
dtype: int64

In [82]:
df = pd.read_csv('data/bicycle.csv')
df.head()

Unnamed: 0,자전거번호,대여일시,대여소번호,대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리,나이
0,SPB-23220,2019-11-01 8:48,646,장한평역 1번출구 (국민은행앞),3.0,2019-11-01 9:01,3,중랑센터,7.0,12.0,1100.0,50
1,SPB-16216,2019-11-04 8:38,646,장한평역 1번출구 (국민은행앞),2.0,2019-11-04 8:56,3,중랑센터,2.0,7.0,1420.0,31
2,SPB-21097,2019-11-04 8:46,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-04 8:57,3,중랑센터,7.0,10.0,,32
3,SPB-22292,2019-11-05 8:34,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-05 8:45,3,중랑센터,,10.0,1380.0,21
4,SPB-07935,2019-11-05 12:29,512,뚝섬역 1번 출구 옆,11.0,2019-11-05 12:39,3,중랑센터,7.0,10.0,1650.0,120


In [83]:
df.shape

(423, 12)

In [84]:
df.columns

Index(['자전거번호', '대여일시', '대여소번호', '대여소명', '대여거치대', '반납일시', '반납대여소번호', '반납대여소명',
       '반납거치대', '이용시간', '이용거리', '나이'],
      dtype='object')

In [87]:
df.dropna(axis=1, inplace=True)
print(df.shape)
df.columns

(423, 8)


Index(['자전거번호', '대여일시', '대여소번호', '대여소명', '반납일시', '반납대여소번호', '반납대여소명', '나이'], dtype='object')

In [88]:
df = pd.read_csv('data/bicycle.csv')
df.head()

Unnamed: 0,자전거번호,대여일시,대여소번호,대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리,나이
0,SPB-23220,2019-11-01 8:48,646,장한평역 1번출구 (국민은행앞),3.0,2019-11-01 9:01,3,중랑센터,7.0,12.0,1100.0,50
1,SPB-16216,2019-11-04 8:38,646,장한평역 1번출구 (국민은행앞),2.0,2019-11-04 8:56,3,중랑센터,2.0,7.0,1420.0,31
2,SPB-21097,2019-11-04 8:46,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-04 8:57,3,중랑센터,7.0,10.0,,32
3,SPB-22292,2019-11-05 8:34,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-05 8:45,3,중랑센터,,10.0,1380.0,21
4,SPB-07935,2019-11-05 12:29,512,뚝섬역 1번 출구 옆,11.0,2019-11-05 12:39,3,중랑센터,7.0,10.0,1650.0,120


In [89]:
df.isnull().sum()

자전거번호       0
대여일시        0
대여소번호       0
대여소명        0
대여거치대      23
반납일시        0
반납대여소번호     0
반납대여소명      0
반납거치대      11
이용시간       11
이용거리       11
나이          0
dtype: int64

In [90]:
df.loc[df['이용거리'].notnull()]

Unnamed: 0,자전거번호,대여일시,대여소번호,대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리,나이
0,SPB-23220,2019-11-01 8:48,646,장한평역 1번출구 (국민은행앞),3.0,2019-11-01 9:01,3,중랑센터,7.0,12.0,1100.0,50
1,SPB-16216,2019-11-04 8:38,646,장한평역 1번출구 (국민은행앞),2.0,2019-11-04 8:56,3,중랑센터,2.0,7.0,1420.0,31
3,SPB-22292,2019-11-05 8:34,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-05 8:45,3,중랑센터,,10.0,1380.0,21
4,SPB-07935,2019-11-05 12:29,512,뚝섬역 1번 출구 옆,11.0,2019-11-05 12:39,3,중랑센터,7.0,10.0,1650.0,120
5,SPB-18401,2019-11-06 8:52,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-06 9:09,3,중랑센터,7.0,11.0,1350.0,30
...,...,...,...,...,...,...,...,...,...,...,...,...
418,SPB-24467,2019-11-15 21:55,152,마포구민체육센터 앞,18.0,2019-11-15 22:05,101,(구)합정동 주민센터,1.0,10.0,1180.0,27
419,SPB-17570,2019-11-15 22:16,391,정동길입구,7.0,2019-11-15 23:04,101,(구)합정동 주민센터,5.0,48.0,8100.0,28
420,SPB-23012,2019-11-14 19:53,267,삼성화재 사옥 옆,2.0,2019-11-14 20:05,101,(구)합정동 주민센터,2.0,12.0,2350.0,41
421,SPB-13934,2019-11-13 18:00,106,합정역 7번출구 앞,4.0,2019-11-13 18:06,101,(구)합정동 주민센터,2.0,5.0,860.0,58


In [103]:
df = pd.read_csv('data/bicycle.csv')
df.head()

Unnamed: 0,자전거번호,대여일시,대여소번호,대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리,나이
0,SPB-23220,2019-11-01 8:48,646,장한평역 1번출구 (국민은행앞),3.0,2019-11-01 9:01,3,중랑센터,7.0,12.0,1100.0,50
1,SPB-16216,2019-11-04 8:38,646,장한평역 1번출구 (국민은행앞),2.0,2019-11-04 8:56,3,중랑센터,2.0,7.0,1420.0,31
2,SPB-21097,2019-11-04 8:46,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-04 8:57,3,중랑센터,7.0,10.0,,32
3,SPB-22292,2019-11-05 8:34,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-05 8:45,3,중랑센터,,10.0,1380.0,21
4,SPB-07935,2019-11-05 12:29,512,뚝섬역 1번 출구 옆,11.0,2019-11-05 12:39,3,중랑센터,7.0,10.0,1650.0,120


In [92]:
df.isnull().sum()

자전거번호       0
대여일시        0
대여소번호       0
대여소명        0
대여거치대      23
반납일시        0
반납대여소번호     0
반납대여소명      0
반납거치대      11
이용시간       11
이용거리       11
나이          0
dtype: int64

In [93]:
df.fillna(0)

Unnamed: 0,자전거번호,대여일시,대여소번호,대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리,나이
0,SPB-23220,2019-11-01 8:48,646,장한평역 1번출구 (국민은행앞),3.0,2019-11-01 9:01,3,중랑센터,7.0,12.0,1100.0,50
1,SPB-16216,2019-11-04 8:38,646,장한평역 1번출구 (국민은행앞),2.0,2019-11-04 8:56,3,중랑센터,2.0,7.0,1420.0,31
2,SPB-21097,2019-11-04 8:46,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-04 8:57,3,중랑센터,7.0,10.0,0.0,32
3,SPB-22292,2019-11-05 8:34,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-05 8:45,3,중랑센터,0.0,10.0,1380.0,21
4,SPB-07935,2019-11-05 12:29,512,뚝섬역 1번 출구 옆,11.0,2019-11-05 12:39,3,중랑센터,7.0,10.0,1650.0,120
...,...,...,...,...,...,...,...,...,...,...,...,...
418,SPB-24467,2019-11-15 21:55,152,마포구민체육센터 앞,18.0,2019-11-15 22:05,101,(구)합정동 주민센터,1.0,10.0,1180.0,27
419,SPB-17570,2019-11-15 22:16,391,정동길입구,7.0,2019-11-15 23:04,101,(구)합정동 주민센터,5.0,48.0,8100.0,28
420,SPB-23012,2019-11-14 19:53,267,삼성화재 사옥 옆,2.0,2019-11-14 20:05,101,(구)합정동 주민센터,2.0,12.0,2350.0,41
421,SPB-13934,2019-11-13 18:00,106,합정역 7번출구 앞,4.0,2019-11-13 18:06,101,(구)합정동 주민센터,2.0,5.0,860.0,58


In [94]:
df.fillna(method='pad')

Unnamed: 0,자전거번호,대여일시,대여소번호,대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리,나이
0,SPB-23220,2019-11-01 8:48,646,장한평역 1번출구 (국민은행앞),3.0,2019-11-01 9:01,3,중랑센터,7.0,12.0,1100.0,50
1,SPB-16216,2019-11-04 8:38,646,장한평역 1번출구 (국민은행앞),2.0,2019-11-04 8:56,3,중랑센터,2.0,7.0,1420.0,31
2,SPB-21097,2019-11-04 8:46,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-04 8:57,3,중랑센터,7.0,10.0,1420.0,32
3,SPB-22292,2019-11-05 8:34,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-05 8:45,3,중랑센터,7.0,10.0,1380.0,21
4,SPB-07935,2019-11-05 12:29,512,뚝섬역 1번 출구 옆,11.0,2019-11-05 12:39,3,중랑센터,7.0,10.0,1650.0,120
...,...,...,...,...,...,...,...,...,...,...,...,...
418,SPB-24467,2019-11-15 21:55,152,마포구민체육센터 앞,18.0,2019-11-15 22:05,101,(구)합정동 주민센터,1.0,10.0,1180.0,27
419,SPB-17570,2019-11-15 22:16,391,정동길입구,7.0,2019-11-15 23:04,101,(구)합정동 주민센터,5.0,48.0,8100.0,28
420,SPB-23012,2019-11-14 19:53,267,삼성화재 사옥 옆,2.0,2019-11-14 20:05,101,(구)합정동 주민센터,2.0,12.0,2350.0,41
421,SPB-13934,2019-11-13 18:00,106,합정역 7번출구 앞,4.0,2019-11-13 18:06,101,(구)합정동 주민센터,2.0,5.0,860.0,58


In [96]:
df['이용거리'].fillna(df['이용거리'].mean(), inplace=True)
df.head()

Unnamed: 0,자전거번호,대여일시,대여소번호,대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리,나이
0,SPB-23220,2019-11-01 8:48,646,장한평역 1번출구 (국민은행앞),3.0,2019-11-01 9:01,3,중랑센터,7.0,12.0,1100.0,50
1,SPB-16216,2019-11-04 8:38,646,장한평역 1번출구 (국민은행앞),2.0,2019-11-04 8:56,3,중랑센터,2.0,7.0,1420.0,31
2,SPB-21097,2019-11-04 8:46,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-04 8:57,3,중랑센터,7.0,10.0,2668.070388,32
3,SPB-22292,2019-11-05 8:34,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-05 8:45,3,중랑센터,,10.0,1380.0,21
4,SPB-07935,2019-11-05 12:29,512,뚝섬역 1번 출구 옆,11.0,2019-11-05 12:39,3,중랑센터,7.0,10.0,1650.0,120


In [98]:
df.fillna(df.mean(), inplace=True)
df.head()

  df.fillna(df.mean(), inplace=True)


Unnamed: 0,자전거번호,대여일시,대여소번호,대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리,나이
0,SPB-23220,2019-11-01 8:48,646,장한평역 1번출구 (국민은행앞),3.0,2019-11-01 9:01,3,중랑센터,7.0,12.0,1100.0,50
1,SPB-16216,2019-11-04 8:38,646,장한평역 1번출구 (국민은행앞),2.0,2019-11-04 8:56,3,중랑센터,2.0,7.0,1420.0,31
2,SPB-21097,2019-11-04 8:46,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-04 8:57,3,중랑센터,7.0,10.0,2668.070388,32
3,SPB-22292,2019-11-05 8:34,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-05 8:45,3,중랑센터,2.834951,10.0,1380.0,21
4,SPB-07935,2019-11-05 12:29,512,뚝섬역 1번 출구 옆,11.0,2019-11-05 12:39,3,중랑센터,7.0,10.0,1650.0,120


In [102]:
df = pd.read_csv('data/bicycle.csv')
df.head()

Unnamed: 0,자전거번호,대여일시,대여소번호,대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리,나이
0,SPB-23220,2019-11-01 8:48,646,장한평역 1번출구 (국민은행앞),3.0,2019-11-01 9:01,3,중랑센터,7.0,12.0,1100.0,50
1,SPB-16216,2019-11-04 8:38,646,장한평역 1번출구 (국민은행앞),2.0,2019-11-04 8:56,3,중랑센터,2.0,7.0,1420.0,31
2,SPB-21097,2019-11-04 8:46,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-04 8:57,3,중랑센터,7.0,10.0,,32
3,SPB-22292,2019-11-05 8:34,646,장한평역 1번출구 (국민은행앞),1.0,2019-11-05 8:45,3,중랑센터,,10.0,1380.0,21
4,SPB-07935,2019-11-05 12:29,512,뚝섬역 1번 출구 옆,11.0,2019-11-05 12:39,3,중랑센터,7.0,10.0,1650.0,120


In [107]:
print("데이터 개수 \n",df['이용거리'].value_counts())
print("----------------------------------------------")
print('최빈값 : ', df['이용거리'].mode())
df['이용거리'].fillna(df['이용거리'].mode()[0], inplace=True)

데이터 개수 
 0.0       14
1070.0     8
1110.0     6
1060.0     6
1130.0     5
          ..
3350.0     1
2100.0     1
1590.0     1
2120.0     1
8100.0     1
Name: 이용거리, Length: 261, dtype: int64
----------------------------------------------
최빈값 :  0    0.0
Name: 이용거리, dtype: float64


In [109]:
print('데이터행, 열 : ' ,df.shape)
print("------------------------------")
df.isnull().sum()

데이터행, 열 :  (423, 12)
------------------------------


자전거번호       0
대여일시        0
대여소번호       0
대여소명        0
대여거치대      23
반납일시        0
반납대여소번호     0
반납대여소명      0
반납거치대      11
이용시간       11
이용거리        0
나이          0
dtype: int64