**This notebook is an exercise in the [Data Cleaning](https://www.kaggle.com/learn/data-cleaning) course.  You can reference the tutorial at [this link](https://www.kaggle.com/alexisbcook/handling-missing-values).**

---


이 연습에서는 결측값 처리 튜토리얼에서 배운 내용을 적용합니다.

# Setup

피드백 시스템을 설정하려면 다음 셀을 실행하십시오.

In [None]:
from learntools.core import binder
binder.bind(globals())
from learntools.data_cleaning.ex1 import *
print("Setup Complete")

# 1) 데이터 살펴보기

다음 코드 셀을 실행하여 연습을 완료하는 데 사용할 라이브러리와 데이터 세트를 로드합니다

In [None]:
# modules we'll use
import pandas as pd
import numpy as np

# read in all our data (건물 허가 신청 데이터)
sf_permits = pd.read_csv("../input/building-permit-applications-data/Building_Permits.csv")

# 재현성을 위해 seed를 설정합니다.
np.random.seed(0) 

아래 코드 셀을 사용하여`sf_permits` DataFrame의 처음 5 개 행을 인쇄합니다.

In [None]:
# TODO: Your code here!
sf_permits[:5]
# sf_permits.head()

데이터 세트에 누락 된 값이 있습니까? 답변을 찾으면 아래 코드 셀을 실행하여 작업에 대한 크레딧을 받으세요.

데이터의 처음 5 개 행은 여러 열에 결 측값이 있음을 보여줍니다. "Street Number Suffix", "Proposed Construction Type"및 "Site Permit" 열에서 이를 확인할 수 있습니다.

In [None]:
# Check your answer (Run this code cell to receive credit!)
q1.check()

# 2) 누락된 데이터 포인트는 몇 개일까요?

데이터 세트에서 누락된 값의 비율은 얼마입니까? 답은 0에서 100 사이의 숫자여야합니다. (데이터 세트의 값 중 1/4이 누락 된 경우 답은 25입니다.)

In [None]:
# TODO: Your code here!

# (1) 열당 누락된 데이터 포인트 수 얻기
missing_values_count = sf_permits.isnull().sum()
# print(missing_values_count)

# (2) 총 결측값의 개수 구하기 : 8552700갸의 셀 중의 2245941개의 값이 누락되어 있습니다.
total_cells = np.product(sf_permits.shape)
# print(total_cells) # 8552700
total_missing = missing_values_count.sum()
# print(total_missing) # 2245941

# (3) 결측값의 비율 구하기
percent_missing = (total_missing/total_cells) * 100

# Check your answer
q2.check()

# 3) 데이터가 누락된 이유 파악하기

[San Francisco Building Permits 데이터 세트](https://www.kaggle.com/aparnashastry/building-permit-applications-data)에서 ** "Street Number Suffix"** 및 ** "Zipcode"** 열을 확인합니다. 둘 다 결측값을 포함합니다.
- 둘 중 하나라도 존재하지 않기 때문에 누락된 것은 무엇입니까?
- 둘 중 하나라도 기록되지 않았기 때문에 누락된 것은 무엇입니까? 

모든 주소에 일반적으로 번지 접미사가 있습니까? 일반적으로 모든 주소에 우편 번호가 있습니까?

답이 찾아 아래 코드 셀을 실행하십시오.  
번지 접미사(Street Number Suffix)는 존재하지 않는 값이 전체의 99%이며, 우편 번호(zipcode)는 데이터베이스에 기록되어 있지 않습니다.

In [None]:
# Check your answer (Run this code cell to receive credit!)
q3.check()

# 4) 누락된 값 삭제 : 행

누락된 값이있는`sf_permits` 행을 모두 제거한 경우 남은 행은 몇 개입니까?

데이터 세트에 남아있는 행이 없습니다!

**참고** : 확인할 때`sf_permits` 값을 변경하지 마세요.

In [None]:
# TODO: Your code here!
sf_permits.dropna()

Once you have an answer, run the code cell below.

In [None]:
# Check your answer (Run this code cell to receive credit!)
q4.check()

# 5) 누락된 값 삭제 : 열

이제 빈 값이있는 모든 열을 제거해보십시오.
- 빈 값이 제거 된 모든 열이있는`sf_permits_with_na_dropped`라는 새 DataFrame을 만듭니다.
- 원본`sf_permits` DataFrame에서 몇 개의 열이 제거 되었습니까? 이 숫자를 사용하여 아래 'dropped_columns'변수의 값을 설정하세요.

In [None]:
# TODO: Your code here

# 누락 된 값이 하나 이상있는 모든 열 제거
sf_permits_with_na_dropped = sf_permits.dropna(axis=1)

# 삭제 된 열 수 계산
cols_in_original_dataset = sf_permits.shape[1] # 행, 열 중 열의 shape 값만 가져온다. 43
cols_in_na_dropped = sf_permits_with_na_dropped.shape[1] # 12
dropped_columns = cols_in_original_dataset - cols_in_na_dropped # 31

# Check your answer
q5.check()

# 6) 누락 된 값을 자동으로 채우기

`sf_permits` 데이터의 모든 NaN을 바로 뒤에 오는 NaN으로 바꾼 다음 나머지 NaN을 0으로 바꾸십시오.   
결과를 새 DataFrame`sf_permits_with_na_imputed`로 설정하십시오.

In [None]:
# TODO: Your code here
sf_permits_with_na_imputed = sf_permits.fillna(method='bfill', axis=0).fillna(0)

"""
fillna(method='bfill') : Bfill 또는 뒤로 채우기는 다른 null이 아닌 값이 충족 될 때까지 첫 번째 관찰 된 null이 아닌 값을 뒤로 전파합니다.
fillna(method='ffill') : Ffill 또는 forward-fill은 다른 null이 아닌 값을 만날 때까지 마지막으로 관찰 된 null이 아닌 값을 앞으로 전파합니다.
명시적 값, fillna(0) : 모든 누락을 대체하기 위해 정확한 값을 설정할 수도 있습니다. 예를 들어, 값이 누락되었음을 나타 내기 위해 이러한 대체는 -999 일 수 있습니다.
"""

# Check your answer
q6.check()

---




*Have questions or comments? Visit the [Learn Discussion forum](https://www.kaggle.com/learn-forum/172650) to chat with other Learners.*