# 2. Missing Values

## 설명
- 결측값 처리 방법1: 결측값이 존재하는 칼럼을 삭제 -> 유용한 정보를 잃을 가능성이 큼(그렇다고 해서 칼럼을 날리는 것이 항상 나쁜 선택은 아님. 왜냐하면 칼럼이 예측에 noise가 되는 칼럼일 수 있기 때문)
- 결측값 처리 방법2: Imputaion -> 다른 값으로 대체하기. 대체되는 값은 평균값 등이 될 수 있음. 칼럼을 통째로 삭제할 때보다는 더 정확한 모델을 만들 수 있음(평균값뿐만 아니라 칼럼 특성에 맞게 적절한 값으로 대체해야 함)
- 결측값 처리 방법3: An Extension To Imputation

## Exercise
- flow
1. 숫자 타입의 칼럼만 사용
1. 전체 entry에서 결측값이 차지하는 비율이 30% 이상인 경우 해당 칼럼 삭제
2. 결측값을 가지고 있는 나머지 칼럼 -> unique값을 확인하여 특정 값이 전체의 70% 이상을 차지할 경우 해당 값으로 대체. 아닐 경우 평균값으로 대체

In [44]:
# load data
import pandas as pd

df_origin = df = pd.read_csv('data/melb_data.csv')

In [45]:
# target에 대한 결측값을 가진 행 삭제
df.dropna(subset=['Price'], inplace=True)
# X, y 나누기
y = df.Price
X = df.drop(['Price'], axis=1)

# 숫자 타입의 칼럼만 사용
X = X.select_dtypes(exclude=['object'])

In [46]:
# check null values

# df의 각 모든 값에 대해 해당 값이 null인지 체크
df.isnull()

# 특정 칼럼의 모든 값에 대해 해당 값이 null인지 체크
df['Suburb'].isnull()

# df의 각 칼럼에 null이 하나라도 있는지 체크
df.isnull().any()

# df의 각 칼럼의 null값 카운트
df.isnull().sum()

Suburb              0
Address             0
Rooms               0
Type                0
Price               0
Method              0
SellerG             0
Date                0
Distance            0
Postcode            0
Bedroom2            0
Bathroom            0
Car                62
Landsize            0
BuildingArea     6450
YearBuilt        5375
CouncilArea      1369
Lattitude           0
Longtitude          0
Regionname          0
Propertycount       0
dtype: int64

In [47]:
# 각 칼럼별 결측값 비율 확인
rows_num = df.shape[0]
missing_ratio = df.isnull().sum().map(lambda x: x / rows_num * 100)
# print(missing_ratio)


# 결측값 비율이 30% 이상인 칼럼 추출
drop_cols = list(missing_ratio[missing_ratio > 30].index)
print(drop_cols)

['BuildingArea', 'YearBuilt']


In [48]:
# 결측값 비율이 30% 이상인 칼럼 제거
df.drop(drop_cols, axis=1, inplace=True)
df.head()

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,2.0,1.0,1.0,202.0,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,2.0,1.0,0.0,156.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,3.0,2.0,0.0,134.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067.0,3.0,2.0,1.0,94.0,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,3.0,1.0,2.0,120.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0


In [61]:
X_rows_num = X.shape[0]

temp = X['Rooms'].value_counts().map(lambda x: x / X_rows_num * 100)