**단계 1:** 전처리에 사용할 패키지 로드

In [3]:
import pandas as pd
import numpy as np

**단계 2:** 데이터 정제에 사용할 데이터 생성

In [4]:
# 컬럼 (속성)이 3개 있는 데이터 프레임을 생성합니다.
# 이때 각 셀의 값은 난수로 채워집니다.
# np.random.randn(m,n)은 0~1 분포의 표준정규분포 난수 매트릭스 (m,n)을 생성합니다.

df = pd.DataFrame(np.random.randn(5, 3),
columns=['C1', 'C2', 'C3'])




In [10]:
df

Unnamed: 0,C1,C2,C3
0,-1.816915,-0.080071,-0.506556
1,0.076752,-0.34207,-1.004591
2,-0.364737,1.208131,-1.767929
3,1.223317,0.507659,-0.049723
4,-0.248572,-1.039308,-0.257406


**단계 3:** 일부 셀을 결측값으로 채웁니다.

In [11]:
# pandas.loc [행, 열]은 특정 행 또는 열의 데이터를 추출하거나 수정할 때 사용합니다.
# pandas.loc[1, ['C2',C3']] = np.nan을 다음을 의미합니다.
# 속성 (C1, C3)의 1번째 줄에 해당되는 값을 결측값으로 채웁니다.

df.loc[         ] = np.nan
#df.loc[4, ['C1', 'C3']] = np.nan
#df.loc[0, ['C1']] = np.nan

df

Unnamed: 0,C1,C2,C3
0,-1.816915,-0.080071,-0.506556
1,,-0.34207,
2,-0.364737,1.208131,-1.767929
3,1.223317,0.507659,-0.049723
4,-0.248572,-1.039308,-0.257406


**단계 4:** 결측값을 특정 값으로 채웁니다.

In [12]:
# 결측값을 모두 0으로 채웁니다.

df_0 = df.fillna(0)
df_0

Unnamed: 0,C1,C2,C3
0,-1.816915,-0.080071,-0.506556
1,0.0,-0.34207,0.0
2,-0.364737,1.208131,-1.767929
3,1.223317,0.507659,-0.049723
4,-0.248572,-1.039308,-0.257406


**단계 5:** 결측값을 다양한 옵션을 사용하여 특정 값으로 채웁니다.

In [14]:
#  fillna (method)는 method에 따라 다양한 방법으로 결측값을 채웁니다.
# method 의 값이 ffill/pad 이면, 결측값을 앞 방향에 있는 것을 사용합니다.
# bfill/backfill은 뒤 방향에 있는 값을 결측값을 채우는데 사용합니다.

# 결측값을 앞과 뒤에 있는 것으로 각각 참조하여 채웁니다.

df_0 = df.fillna(           )
df_0

df_0 = df.fillna(           )
df_0

Unnamed: 0,C1,C2,C3
0,-1.816915,-0.080071,-0.506556
1,-0.364737,-0.34207,-1.767929
2,-0.364737,1.208131,-1.767929
3,1.223317,0.507659,-0.049723
4,-0.248572,-1.039308,-0.257406


**단계 6:** 평균값을 사용하여 결측값 채우기

In [22]:
# 결측값 생성

df.loc[1, ['C1', 'C3']] = np.nan
df.loc[3, ['C1', 'C3']] = np.nan
df

Unnamed: 0,C1,C2,C3
0,-1.816915,-0.080071,-0.506556
1,,-0.34207,
2,-0.364737,1.208131,-1.767929
3,,0.507659,
4,-0.248572,-1.039308,-0.257406


In [20]:
# 평균값을 확인합니다

df.mean()

C1   -0.810075
C2    0.050868
C3   -0.843964
dtype: float64

In [21]:
# 결측값을 평균값으로 채웁니다.

df.fillna(df.mean())

Unnamed: 0,C1,C2,C3
0,-1.816915,-0.080071,-0.506556
1,-0.810075,-0.34207,-0.843964
2,-0.364737,1.208131,-1.767929
3,-0.810075,0.507659,-0.843964
4,-0.248572,-1.039308,-0.257406


In [23]:
# 결측값이 있는 위치에 데이터를, 평균값으로 채웁니다.
# 이때 계산기준은 column 입니다.

df.where(                   )

Unnamed: 0,C1,C2,C3
0,-1.816915,-0.080071,-0.506556
1,-0.810075,-0.34207,-0.843964
2,-0.364737,1.208131,-1.767929
3,-0.810075,0.507659,-0.843964
4,-0.248572,-1.039308,-0.257406


**단계 7:** 결측값의 제거

In [9]:
# 결측값 생성

df = pd.DataFrame(np.random.randn(5, 3),
columns=['C1', 'C2', 'C3'])

df.loc[1, ['C1', 'C3']] = np.nan
df.loc[4, ['C1', 'C3']] = np.nan
df.loc[0, ['C1']] = np.nan
df

Unnamed: 0,C1,C2,C3
0,,0.559676,1.558432
1,,1.075516,
2,0.972984,-0.470836,-0.277198
3,-0.742818,0.37198,0.31179
4,,0.896794,


In [11]:
# padnas.dropna()는 결측값을 제거합니다.
# 이때 결측값이 포함되어 있는 행 또는 열을 삭제합니다.
# 결측값을 행을 기준으로 제거합니다.
# 행은 axis=0으로 합니다.
df_dop_row= 
df_dop_row

Unnamed: 0,C1,C2,C3
2,0.972984,-0.470836,-0.277198
3,-0.742818,0.37198,0.31179


In [12]:
# 결측값을 행을 기준으로 제거합니다.
# 행은 axis=1으로 합니다.
df_dop_col= 
df_dop_col

Unnamed: 0,C2
0,0.559676
1,1.075516
2,-0.470836
3,0.37198
4,0.896794
