In [9]:
import pandas as pd
from io import StringIO

df = pd.read_csv('data.csv')
df.isnull().sum() #결측치 정보 보기

A    0
B    0
C    1
D    1
dtype: int64

첫번째로 결측값 제거법에 대해 알아보자.

In [10]:
# 누락된 열이 있는 행을 모두 제거한다.
df.dropna(axis=0)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [11]:
# 해당열에 하나라도 누락된 행이 있으면, 그 행을 제거한다.
df.dropna(axis=1)

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,10.0,11.0


In [12]:
df.dropna(how='all') # 모든 열이 공백일때만 행을 삭제한다.
# 이 데이터에선 그런 행이 없음으로 제거가 일어나지 않는다.

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [13]:
# NaN이 아닌 값이 4개 보다 작은 행을 삭제한다. (isnull()애의 결과가 false인 열이 4개 보다 작으면 삭제한다.)
df.dropna(thresh=4)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [14]:
# 특정 열('C')에 NaN이 있는 행만 삭제한다.
df.dropna(subset=['C'])
# 두번째 행이 제거됐다.

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
2,10.0,11.0,12.0,


결측값을 이번엔 대체하는법을 알아볼것이다.

In [18]:
from sklearn.impute import SimpleImputer
import numpy as np
# 사이킷런의 함수를 이용한 결측치 메꾸기
# NaN값을 결측값으로 취급, 결측값을 그 열의 평균값으로 메꾼다.
imr = SimpleImputer(missing_values=np.nan, strategy='mean')
imr = imr.fit(df.values)
imputed_data = imr.transform(df.values)
imputed_data

array([[ 1. ,  2. ,  3. ,  4. ],
       [ 5. ,  6. ,  7.5,  8. ],
       [10. , 11. , 12. ,  6. ]])

In [19]:
# 판다스의 메서드로 결측값 평균으로 메꾸기
df.fillna(df.mean())

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.5,8.0
2,10.0,11.0,12.0,6.0


데이터 인코딩 방법에 대해서 알아보자

In [27]:
df = pd.DataFrame([
    ['green', 'M', 10.1, 'C2'],
    ['red', 'L',  13.5, 'C1'],
    ['blue', 'XL', 15.3, 'C1'],
])
df.columns = ['color', 'size', 'price', 'classlabel']

순서가 있는 특성 매핑, 예를들어 M < L < XL 와 같이 정량적 또는 개념적인 순서가 있을때, 이 순서에 맞게 인코딩 하기

In [28]:
# 레이블에 순서 있는 특성 매핑 하는법
size_mapping = {
    'XL' : 3,
    'L' : 2,
    'M' : 1}

df['size'] = df['size'].map(size_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,C2
1,red,2,13.5,C1
2,blue,3,15.3,C1


In [30]:
# 정수값을 원래의 문자표현으로 되돌리는 법
inv_size_mapping = {v: k for k, v in size_mapping.items()}
df['size'].map(inv_size_mapping)

0     M
1     L
2    XL
Name: size, dtype: object

In [32]:
# 순서 없는 레이블 인코딩 *인코딩된 숫자는 순서가 아니라 그냥 임의값*
class_mapping = {label : idx for idx, label in enumerate(np.unique(df['classlabel']))}
df['classlabel'] = df['classlabel'].map(class_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,1
1,red,2,13.5,0
2,blue,3,15.3,0


In [34]:
# 레이블을 다시 원본 문자열로 되돌리는법
inv_class_mapping = {v:k for k, v in class_mapping.items()}
df['classlabel'] = df['classlabel'].map(inv_class_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,1
1,red,2,13.5,0
2,blue,3,15.3,0


In [40]:
# 사이킷런으로 같은 라벨인코딩 하는법
from sklearn.preprocessing import LabelEncoder
class_le = LabelEncoder()
y = class_le.fit_transform(df['classlabel'].values)
df['classlabel'] = y
df

array([1, 0, 0])

In [43]:
# 사이킷런으로 라벨인코딩된 데이터셋을 다시 원본 문자열로 되돌리기
class_le.inverse_transform(y)
y

array([1, 0, 0])