### 결측치 처리

In [1]:
import pandas as pd
data = pd.read_csv('./../../data/bigboongi/Ex_Missing.csv', encoding='utf-8')
data

Unnamed: 0,salary,sales,roe,industry
0,1095.0,27595.0,14.1,1
1,,9958.0,10.9,1
2,,6125.899902,23.5,1
3,578.0,16246.0,5.9,1
4,1368.0,,13.8,1
5,1145.0,,20.0,2
6,1078.0,2266.699951,16.4,2
7,1094.0,2966.800049,16.299999,2
8,1237.0,4570.200195,10.5,2
9,833.0,2830.0,,2


* isnull() - 결측이면 True, 결측이 아니면 False

In [2]:
pd.isnull(data)
data.isnull()

Unnamed: 0,salary,sales,roe,industry
0,False,False,False,False
1,True,False,False,False
2,True,False,False,False
3,False,False,False,False
4,False,True,False,False
5,False,True,False,False
6,False,False,False,False
7,False,False,False,False
8,False,False,False,False
9,False,False,True,False


* notnull() - 결측이면 False, 결측이 아니면 True

In [3]:
pd.notnull(data)
data.notnull()

Unnamed: 0,salary,sales,roe,industry
0,True,True,True,True
1,False,True,True,True
2,False,True,True,True
3,True,True,True,True
4,True,False,True,True
5,True,False,True,True
6,True,True,True,True
7,True,True,True,True
8,True,True,True,True
9,True,True,False,True


* 변수(컬럼)별로 결측값 개수 확인하기 위해서는 df.isnull().sum() 함수 이용

In [4]:
data.isnull().sum()

salary      2
sales       2
roe         1
industry    0
dtype: int64

* 특정 변수(컬럼)의 결측값 개수 확인 - df.isnull().sum()

In [6]:
data['salary'].isnull().sum()

2

* 변수(컬럼)별로 결측이 아닌 값의 개수 확인 - df.notnull().sum()

In [7]:
data.notnull().sum()

salary       8
sales        8
roe          9
industry    10
dtype: int64

* 특정 변수(컬럼)이 아닌 값의 개수 확인 - df.notnull().sum()

In [9]:
data['salary'].notnull().sum()

8

* 행별 결측 확인 및 저장 - df.isnull().sum(1)

In [10]:
data.isnull().sum(1)

0    0
1    1
2    1
3    0
4    1
5    1
6    0
7    0
8    0
9    1
dtype: int64

In [11]:
data['missing'] = data.isnull().sum(1)
data

Unnamed: 0,salary,sales,roe,industry,missing
0,1095.0,27595.0,14.1,1,0
1,,9958.0,10.9,1,1
2,,6125.899902,23.5,1,1
3,578.0,16246.0,5.9,1,0
4,1368.0,,13.8,1,1
5,1145.0,,20.0,2,1
6,1078.0,2266.699951,16.4,2,0
7,1094.0,2966.800049,16.299999,2,0
8,1237.0,4570.200195,10.5,2,0
9,833.0,2830.0,,2,1


* 행(row) 단위로 실측값 개수 구하기 - df.notnull().sum(1)

In [12]:
del data['missing']
data['valid'] = data.notnull().sum(1)

In [13]:
data

Unnamed: 0,salary,sales,roe,industry,valid
0,1095.0,27595.0,14.1,1,4
1,,9958.0,10.9,1,3
2,,6125.899902,23.5,1,3
3,578.0,16246.0,5.9,1,4
4,1368.0,,13.8,1,3
5,1145.0,,20.0,2,3
6,1078.0,2266.699951,16.4,2,4
7,1094.0,2966.800049,16.299999,2,4
8,1237.0,4570.200195,10.5,2,4
9,833.0,2830.0,,2,3


### 결측값 제거 : dropna()

* 결측값이 있는 행(row/case) 제거 - 행은 축이 0
* dropna(axis=0)
* 결측이 있는 행(가로)가 제거

In [14]:
data_del_row = data.dropna(axis=0)
data_del_row

Unnamed: 0,salary,sales,roe,industry,valid
0,1095.0,27595.0,14.1,1,4
3,578.0,16246.0,5.9,1,4
6,1078.0,2266.699951,16.4,2,4
7,1094.0,2966.800049,16.299999,2,4
8,1237.0,4570.200195,10.5,2,4


* 결측값이 있는 열(column/variable) 제거 - 열은 축이 1
* 결측치가 하나라도 있는 변수는 제거됨

In [15]:
data_del_col = data.dropna(axis=1)
data_del_col

Unnamed: 0,industry,valid
0,1,4
1,1,3
2,1,3
3,1,4
4,1,3
5,2,3
6,2,4
7,2,4
8,2,4
9,2,3


* 결측값 있는 특정 행/열 제거 - 데이터[['변수명']].dropna()

In [16]:
data[['salary']].dropna()

Unnamed: 0,salary
0,1095.0
3,578.0
4,1368.0
5,1145.0
6,1078.0
7,1094.0
8,1237.0
9,833.0


* dropna()의 기본은 dropna(axis=0)

In [17]:
data[['salary', 'sales', 'roe', 'industry']].dropna()

Unnamed: 0,salary,sales,roe,industry
0,1095.0,27595.0,14.1,1
3,578.0,16246.0,5.9,1
6,1078.0,2266.699951,16.4,2
7,1094.0,2966.800049,16.299999,2
8,1237.0,4570.200195,10.5,2


In [18]:
data[['salary', 'sales', 'roe', 'industry']].dropna(axis=0)

Unnamed: 0,salary,sales,roe,industry
0,1095.0,27595.0,14.1,1
3,578.0,16246.0,5.9,1
6,1078.0,2266.699951,16.4,2
7,1094.0,2966.800049,16.299999,2
8,1237.0,4570.200195,10.5,2


In [19]:
data[['salary', 'sales', 'roe', 'industry']].dropna(axis=1)

Unnamed: 0,industry
0,1
1,1
2,1
3,1
4,1
5,2
6,2
7,2
8,2
9,2
