## 누락된 데이터 다루기

In [None]:
import pandas as pd
from io import StringIO

# 간단한 예제 데이터셋 생성

csv_data = '''
A,B,C,D
1.0,2.0,3.0,4.0
5.0,6.0,,8.0
10.0,11.0,12.0,
'''

# csv -> pandas DataFrame
# StringIO는 하드 디스크에 일반 CSV 파일처럼 csv_data에 저장된 문자열을 읽는다. 
df = pd.read_csv(StringIO(csv_data))
df

In [34]:
# 열마다 누락된 값의 개수 구하기 

# isnull 함수는 셀에 값이 있는지 여부를 bool 값으로 채운 DataFrame을 반환한다.
# sum 함수를 쓰면 누락된 값의 개수를 얻는다.
df.isnull().sum()

A    0
B    0
C    1
D    1
dtype: int64

In [35]:
# axis=0 => NaN이 하나라도 있는 행 삭제
df.dropna(axis=0)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [36]:
# axis=1 => NaN이 하나라도 있는 열 삭제 
df.dropna(axis=1)

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,10.0,11.0


In [37]:
# 모든 열이 NaN일 때만 행을 삭제
df.dropna(how='all')

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [38]:
# 실수 값이 네 개보다 작은 행은 삭제
df.dropna(thresh=4)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [39]:
# 특정 열에 NaN이 있는 행을 삭제
df.dropna(subset=['C'])

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
2,10.0,11.0,12.0,


In [40]:
# 누락된 값을 평균값으로 대체하기

import numpy as np
from sklearn.impute import SimpleImputer

imr = SimpleImputer(missing_values=np.nan, strategy='mean')
imr = imr.fit(df.values)
imputed_data = imr.transform(df.values)
imputed_data

 




array([[ 1. ,  2. ,  3. ,  4. ],
       [ 5. ,  6. ,  7.5,  8. ],
       [10. , 11. , 12. ,  6. ]])