# [ 결측치 Missing Value 처리 ]
- 데이터 미입력 또는 데이터 저장 과정에서 지워진 데이터
- 빈칸 의미
- 표시 : NaN (Not a Number), NaT (Not a Text)
- 표현 : numpy 모듈의 nan, math 모듈의 nan 사용

In [3]:
# 1. 모듈 로딩
import pandas as pd

# 2. 데이터 준비
file = '../DATA/employees.csv'
# 파일을 열어 확인하기 : 
#   - 각 열의 제목이 내용과 맞는지
#   - 행인덱스 맞는걸 찾기 (빈칸 안됨, 중복 안됨!)
#   - 구분자 확인하기

# 3. 데이터 저장
# 파일 확인 결과 : 구분자는 , / 헤더는 첫 번째 행
empDF = pd.read_csv(file)

In [4]:
# 데이터의 전반적인 요약정보 확인
#   - 칼럼별 결측치 여부 확인 => 실제 데이터에서 결측치 체크
#   - 컬럼별 데이터 타입과 실제 데이터 타입 비교 & 변환
empDF.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1001 entries, 0 to 1000
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   First Name  933 non-null    object 
 1   Gender      854 non-null    object 
 2   Start Date  999 non-null    object 
 3   Salary      999 non-null    float64
 4   Mgmt        933 non-null    object 
 5   Team        957 non-null    object 
dtypes: float64(1), object(5)
memory usage: 47.0+ KB


In [5]:
# [ 데이터의 컬럼별 분포 ]
# .describe( ) : 컬럼별 기술 통계값
empDF.describe()  # Salary만 수치라 얘만 출력

Unnamed: 0,Salary
count,999.0
mean,90655.528529
std,32939.511615
min,35013.0
25%,62560.0
50%,90427.0
75%,118744.5
max,149908.0


In [6]:
# 최빈값 : mode(), 중앙값 : median()
print(empDF.mode(numeric_only=True), empDF.median(numeric_only=True), empDF.mean(numeric_only=True), sep='\n\n')

# 결과 : 중간값이 평균 좌측에 위치 : 낮은 수치에 값이 더 모여있다

     Salary
0   86676.0
1   91462.0
2  121160.0
3  145988.0
4  147183.0

Salary    90427.0
dtype: float64

Salary    90655.528529
dtype: float64


In [7]:
# [ 결측값과 특이값 ]
# - 결측값 Missing Value : 입력되지 않은 값; NaN => 제거 & 치환
# - 특이값 Outlier : 정상 데이터 분포 밖의 값

# [ 데이터 분류 ]
# 1. 특성에 따른 분류
#   - 범주형 데이터 (Categorical) : 질적 자료, 수치로 측정 불가
#   - 연속형 데이터 (Numerical) : 양적 자료, 수치로 측정 가능
#  
# 2. 변수 개수에 따른 분류
#   - 단일변수 Univariate (일변량) : 대상이 1개로만 구성된 자료
#   - 다중변수 Multivariate (다변량) : 대상이 2개 이상인 자료

# [ 사전 처리 (전처리) ] : 젤 중요!
# - 데이터 품질을 높이기 위한 과정
# - 분석 목적에 맞게 변형
# - 과정:
#   1. 데이터 처리 : 누락 데이터, 중복 데이터  => 결측치, 이상치, 누락값
#   2. 데이터 변환 : 단위, 자료형 표준화       => kg-lb, type
#   3. 데이터 크기 : 정규화                   => 값의 범위 규정

<hr>

#### (5) 데이터 전처리 Preprocessing => 결측치 처리

In [29]:
# [ 1. 결측치 확인 ] : .isna(), isnull()
# 전체 데이터의 컬럼별 결측치 체크

empDF.isna().head(), empDF.isnull().head()

(   First Name  Gender  Start Date  Salary   Mgmt   Team
 0       False   False       False    True  False  False
 1       False   False       False   False  False   True
 2       False   False        True   False  False  False
 3       False    True       False   False  False  False
 4       False   False       False   False  False  False,
    First Name  Gender  Start Date  Salary   Mgmt   Team
 0       False   False       False    True  False  False
 1       False   False       False   False  False   True
 2       False   False        True   False  False  False
 3       False    True       False   False  False  False
 4       False   False       False   False  False  False)

In [13]:
# .sum() 으로 총 개수 확인
empDF.isna().sum(), empDF.isnull().sum()

(First Name     68
 Gender        147
 Start Date      2
 Salary          2
 Mgmt           68
 Team           44
 dtype: int64,
 First Name     68
 Gender        147
 Start Date      2
 Salary          2
 Mgmt           68
 Team           44
 dtype: int64)

In [15]:
# 결측치 확인 : notna() notnull()
# - 결측치가 아니면 True 반환
empDF.notna().sum(), empDF.notnull().sum()

(First Name    933
 Gender        854
 Start Date    999
 Salary        999
 Mgmt          933
 Team          957
 dtype: int64,
 First Name    933
 Gender        854
 Start Date    999
 Salary        999
 Mgmt          933
 Team          957
 dtype: int64)

<hr>

In [16]:
# [ 2. 결측치 처리 ]
#   1. 삭제 : .dropna()

[dropna()]
empDF.dropna()

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
4,Larry,Male,1/24/98,101004.0,True,IT
5,Dennis,Male,4/18/87,115163.0,False,Legal
6,Ruby,Female,8/17/87,65476.0,True,Product
8,Angela,Female,11/22/05,95570.0,True,Engineering
9,Frances,Female,8/8/02,139852.0,True,Business Dev
...,...,...,...,...,...,...
994,George,Male,6/21/13,98874.0,True,Marketing
996,Phillip,Male,1/31/84,42392.0,False,Finance
997,Russell,Male,5/20/13,96914.0,False,Product
998,Larry,Male,4/20/13,60500.0,False,Business Dev


In [18]:
# 비교해보기
empDF2 = empDF.dropna()
print(empDF.shape, empDF2.shape)  # 데이터 삭제 확인

(1001, 6) (761, 6)


In [21]:
# [ how= ] dropna([how='all']):
#  - 기본('any') : NaN 이 들어 있는 모든 행
#  - 'all' : 행의 모든 값이 NaN 이면 삭제
empDF3 = empDF.dropna(how='all')
print(empDF.shape, empDF3.shape)  # 한 줄 사라짐

(1001, 6) (1000, 6)


In [23]:
# [ subset=(col) ] : 특정 컬럼의 NaN만 체크 후 삭제하는 방법
# 예) 성별에 따른 연봉을 분석 -> Nan이면 분석 불가능 컬럼을 지정

empDF4 = empDF.dropna(subset=['Gender', 'Salary'])
print(empDF.shape, empDF4.shape)  # 한 값이라도 없으면 NaN 

(1001, 6) (853, 6)


In [27]:
# [ thresh= ] : 컬럼별 NaN가 아닌 데이터만 반환하는 방법
#   - =n : n개 이상의 자료만 가져옴
#   - axis= : 행 또는 열 설정

empDF5 = empDF.dropna(thresh=933, axis='columns')
empDF.shape, empDF5.shape, empDF.info()

# Gender만 NaN외의 수가 933개 미만 : 제거 (1001, 5)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1001 entries, 0 to 1000
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   First Name  933 non-null    object 
 1   Gender      854 non-null    object 
 2   Start Date  999 non-null    object 
 3   Salary      999 non-null    float64
 4   Mgmt        933 non-null    object 
 5   Team        957 non-null    object 
dtypes: float64(1), object(5)
memory usage: 47.0+ KB


((1001, 6), (1001, 5), None)

In [30]:
#   2. 대체 : fillna()

# 1) 대체값은 무엇으로 채울까?
empDF.describe(include='all')
# => 최빈값인 top 으로 채우기

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
count,933,854,999,999.0,933,957
unique,200,2,971,,2,10
top,Marilyn,Female,10/30/04,,True,IT
freq,11,431,2,,468,106
mean,,,,90655.528529,,
std,,,,32939.511615,,
min,,,,35013.0,,
25%,,,,62560.0,,
50%,,,,90427.0,,
75%,,,,118744.5,,


In [37]:
# 2) 최빈값으로 채우기
empDF.Gender.mode()[0]  # .mode() 하면 시리즈 형식 -> [0] 인덱싱
GenSR = empDF.Gender.fillna(empDF.Gender.mode()[0])

# 결과 확인
GenSR.isna().sum()  # 0 : 결측치 없음

0

In [43]:
# 3) 또는 NaN 이전 혹은 이후 값으로 채우기
# [ method= ] in .fillna
#   - ffill : 인덱스 앞(낮은 값)으로 채우기
#   - bfill : 인덱스 뒤(높은 값)으로 채우기
#   - 행으로만 가능 (열 불가)

#  (주의) 앞, 뒤의 값이 없으면(맨앞뒤) NaN 그대로 반환!

print(empDF.Gender.fillna(method='ffill'), empDF.Gender.fillna(method='bfill'), empDF.Gender, sep='\n\n')

0         Male
1         Male
2       Female
3       Female
4         Male
         ...  
996       Male
997       Male
998       Male
999       Male
1000      Male
Name: Gender, Length: 1001, dtype: object

0         Male
1         Male
2       Female
3         Male
4         Male
         ...  
996       Male
997       Male
998       Male
999       Male
1000       NaN
Name: Gender, Length: 1001, dtype: object

0         Male
1         Male
2       Female
3          NaN
4         Male
         ...  
996       Male
997       Male
998       Male
999       Male
1000       NaN
Name: Gender, Length: 1001, dtype: object


In [45]:
# 함수 설명 내 예시를 해보자
import numpy as np
df = pd.DataFrame([[np.nan, 2, np.nan, 0],
                    [3, 4, np.nan, 1],
                    [np.nan, np.nan, np.nan, np.nan],
                    [np.nan, 3, np.nan, 4]],
                   columns=list("ABCD"))
df

Unnamed: 0,A,B,C,D
0,,2.0,,0.0
1,3.0,4.0,,1.0
2,,,,
3,,3.0,,4.0


In [51]:
# [ limit= ] : NaN이 연속될 때 채울 NaN의 개수
df.A.fillna(method='ffill', limit=1)

# 0인덱스는 안채워지고 limit로 1개의 NaN까지만 덮어씌움

0    NaN
1    3.0
2    3.0
3    NaN
Name: A, dtype: float64

In [52]:
# 0을 채운 DF를 .fillna(DF)
df2 = pd.DataFrame(np.zeros((4,4)), columns=list("ABCE"))
df.fillna(df2)

# df2의 열에 D가 없음 : D 열의 2행만 안 채워짐

Unnamed: 0,A,B,C,D
0,0.0,2.0,0.0,0.0
1,3.0,4.0,0.0,1.0
2,0.0,0.0,0.0,
3,0.0,3.0,0.0,4.0


In [53]:
# 평균으로 결측치 채우기도 가능!
df.B.fillna(df.B.mean())

0    2.0
1    4.0
2    3.0
3    3.0
Name: B, dtype: float64

In [None]:
# 이제 중복값 다루기로 가자
# Fin.