## 결측치의 처리

In [1]:
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
from matplotlib import font_manager, rc

font_name = font_manager.FontProperties(fname="C:/Windows/Fonts/malgun.ttf").get_name()
rc('font', family=font_name)           # 맑은 고딕 폰트 지정
plt.rcParams["font.size"] = 12         # 글자 크기
plt.rcParams["figure.figsize"] = (10, 4) # 10:4의 그래프 비율
plt.rcParams['axes.unicode_minus'] = False  # minus 부호는 unicode 적용시 한글이 깨짐으로 설정

# Jupyter에게 matplotlib 그래프를 출력 영역에 표시할 것을 지시하는 명령
%matplotlib inline

## Series 상의 결측치

In [2]:
s1 = pd.Series([1, 3, 5, 7, 9])  # index: 0 ~
print(type(s1))
print(s1)

<class 'pandas.core.series.Series'>
0    1
1    3
2    5
3    7
4    9
dtype: int64


In [3]:
# index: 0 ~, nan: Not a Number
# numpy -> np.nan
s1 = pd.Series([1, 3, np.nan, 7, 9])  # index: 0 ~
print(type(s1))
print(s1)

<class 'pandas.core.series.Series'>
0    1.0
1    3.0
2    NaN
3    7.0
4    9.0
dtype: float64


In [4]:
# 2차원 list, 행 우선 데이터 할당
df = pd.DataFrame([[1, 2], [3, 4], [5, 6]], columns=['A', 'B']) 
print(type(df))
print(df)

<class 'pandas.core.frame.DataFrame'>
   A  B
0  1  2
1  3  4
2  5  6


In [8]:
# A 열만 출력
print(type(df['A'])) # <class 'pandas.core.series.Series'>
print(df['A'])

<class 'pandas.core.series.Series'>
0    1
1    3
2    5
Name: A, dtype: int64


In [9]:
# A, B열을 출력
print(type(df[['A', 'B']])) # <class 'pandas.core.frame.DataFrame'>
print(df[['A', 'B']])

<class 'pandas.core.frame.DataFrame'>
   A  B
0  1  2
1  3  4
2  5  6


In [13]:
# 시퀀스로 행 출력
# df[0] # 에러
df[0:1]

Unnamed: 0,A,B
0,1,2


In [25]:
df>2

Unnamed: 0,A,B
0,False,True
1,True,True
2,True,True


In [30]:
# true는 값이 출력, false는 NaN으로 변경 
df2 = df[df>2]
df2

Unnamed: 0,A,B
0,,
1,3.0,4.0
2,5.0,6.0


In [31]:
# NaN은 사칙연산 무시
df3 = df2 * 2
df3

Unnamed: 0,A,B
0,,
1,6.0,8.0
2,10.0,12.0


In [32]:
# 컬럼 중에 NaN이 등장하면 행 전체를 삭제, 
# 데이터 손실이 발생할 수 있음
df3 = df2.dropna()
df3

Unnamed: 0,A,B
1,3.0,4.0
2,5.0,6.0


In [36]:
df2

Unnamed: 0,A,B
0,,
1,3.0,4.0
2,5.0,6.0


In [38]:
# 컬럼 중에 NaN이 발생하면 칼럼의 값을 0으로 변경
df3 = df2.fillna(0)
df3

Unnamed: 0,A,B
0,0.0,0.0
1,3.0,4.0
2,5.0,6.0


In [39]:
df3+5

Unnamed: 0,A,B
0,5.0,5.0
1,8.0,9.0
2,10.0,11.0


In [40]:
# df.isnull(): 값이 NaN인지 검사
df2.isnull()

Unnamed: 0,A,B
0,True,True
1,False,False
2,False,False


In [48]:
# 칼럼 추가
# df2['C'] = [7,8] # ValueError: Length of values does not match length of index
df2['C'] = [7,8,9] # 개수를 맞추어야 함
df2['D'] = [0, 0, 0]
df2

Unnamed: 0,A,B,C,D
0,,,7,0
1,3.0,4.0,8,0
2,5.0,6.0,9,0


In [49]:
# .any() 변수(칼럼) 중에 NaN이 있으면 True 출력
df2.isnull().any()

A     True
B     True
C    False
D    False
dtype: bool

In [106]:
# 0을 NaN로 변경
df3 = df2.copy() # deep copy # 이렇게 하지 않으면, 원본 데이터도 같이 변경됨
df3['D'] = df3['D'].replace(0, np.nan)
df3

Unnamed: 0,A,B,C,D
0,,,7,
1,3.0,4.0,8,
2,5.0,6.0,9,


In [107]:
df3 = df3.fillna(0)
df3

Unnamed: 0,A,B,C,D
0,0.0,0.0,7,0.0
1,3.0,4.0,8,0.0
2,5.0,6.0,9,0.0


In [108]:
# 열 방향 평균
df3.mean()

A    2.666667
B    3.333333
C    8.000000
D    0.000000
dtype: float64

In [109]:
df3 = df3.replace(0, np.nan)
df3

Unnamed: 0,A,B,C,D
0,,,7,
1,3.0,4.0,8,
2,5.0,6.0,9,


In [110]:
# NaN 값을 그 칼럼의 평균으로 대체
df3['A'] = df3['A'].fillna(df3['A'].mean())
df3['B'] = df3['B'].fillna(df3['B'].mean())
df3['D'] = df3['D'].fillna(df3['D'].mean()) # 모두 NaN이므로 적용 안됨
df3

Unnamed: 0,A,B,C,D
0,4.0,5.0,7,
1,3.0,4.0,8,
2,5.0,6.0,9,


In [111]:
df3 = df3.fillna(0)
df3

Unnamed: 0,A,B,C,D
0,4.0,5.0,7,0.0
1,3.0,4.0,8,0.0
2,5.0,6.0,9,0.0


In [112]:
# 열 우선 평균, 0 생략 가능
# df3.mean(0) # 이것도 사용가능
df3.mean()

A    4.0
B    5.0
C    8.0
D    0.0
dtype: float64

In [113]:
# 행 우선 평균 처리
# df3.mean(axis=1) # 이것도 사용가능
df3.mean(1)

0    4.00
1    3.75
2    5.00
dtype: float64

In [114]:
# df3['D'] = df3.mean(1) # D도 평균 계산에 참여하게 됨 -> D는 계산에서 제거
df3['D'] = df3[['A', 'B', 'C']].mean(1)
# df3['D'] = df3.iloc[:, 0:3].mean(1) # 이렇게도 가능
df3

Unnamed: 0,A,B,C,D
0,4.0,5.0,7,5.333333
1,3.0,4.0,8,5.0
2,5.0,6.0,9,6.666667


In [115]:
# [열[행]] 리스트를 두겹으로 써야 함
df4 = pd.DataFrame([[1,2,3,4]], columns=['A', 'B', 'C', 'E'])
df4

Unnamed: 0,A,B,C,E
0,1,2,3,4


In [116]:
# pd.concat()
# 동일한 칼럼명을 기준으로 병합
# 왼쪽 행 인덱스가 0 1 2 0
df5 = pd.concat([df3, df4]) 
df5

Unnamed: 0,A,B,C,D,E
0,4.0,5.0,7,5.333333,
1,3.0,4.0,8,5.0,
2,5.0,6.0,9,6.666667,
0,1.0,2.0,3,,4.0


In [117]:
df6= df5.reset_index(drop=True) # 왼쪽 행 index를 0부터 재설정
df6

Unnamed: 0,A,B,C,D,E
0,4.0,5.0,7,5.333333,
1,3.0,4.0,8,5.0,
2,5.0,6.0,9,6.666667,
3,1.0,2.0,3,,4.0


In [118]:
# index가 3인 행을 삭제
df6.drop(3)
# df6.drop(3, axis=0) # 이렇게도 가능

Unnamed: 0,A,B,C,D,E
0,4.0,5.0,7,5.333333,
1,3.0,4.0,8,5.0,
2,5.0,6.0,9,6.666667,


In [119]:
# 0: 행 삭제, 1: 열 삭제
# 문법적으로 특이하다.
# 보통 열 우선에 1은 행을 의미하지만 삭제에서는 다르다
df6.drop('E', axis=1)

Unnamed: 0,A,B,C,D
0,4.0,5.0,7,5.333333
1,3.0,4.0,8,5.0
2,5.0,6.0,9,6.666667
3,1.0,2.0,3,


In [120]:
df3

Unnamed: 0,A,B,C,D
0,4.0,5.0,7,5.333333
1,3.0,4.0,8,5.0
2,5.0,6.0,9,6.666667


In [121]:
# D 칼럼 값을 소수점 1자리까지 반올림
df3['D'] = round(df3['D'], 1)
df3

Unnamed: 0,A,B,C,D
0,4.0,5.0,7,5.3
1,3.0,4.0,8,5.0
2,5.0,6.0,9,6.7


In [122]:
# row: 0, col:A
df3.loc[0:0, 'A'] = 100
df3

Unnamed: 0,A,B,C,D
0,100.0,5.0,7,5.3
1,3.0,4.0,8,5.0
2,5.0,6.0,9,6.7


In [123]:
# row: 0~1: 마지막 인덱스가 포함됨 (주의), col:A
df3.loc[0:1, 'A'] = 100 
df3

Unnamed: 0,A,B,C,D
0,100.0,5.0,7,5.3
1,100.0,4.0,8,5.0
2,5.0,6.0,9,6.7
