In [2]:
import pandas as pd
import numpy as np

raw_data = {'first_name' : ['Jason', np.nan, 'Tina', 'Jake', 'Amy'],
            'last_name' : ['Miller', np.nan, 'Ali', 'Miler', 'Cooze'],
            'age' : [42, np.nan, 36, 24, 73],
            'sex' : ['m', np.nan, 'f', 'm', 'f'],
            'preTestScore' : [4, np.nan, np.nan, 2, 3],
            'postTestScore' : [25, np.nan, np.nan, 62, 70]
            }

df = pd.DataFrame(raw_data, columns= ['first_name', 'last_name', 'age','sex','preTestScore','postTestScore'])
df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
1,,,,,,
2,Tina,Ali,36.0,f,,
3,Jake,Miler,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


In [3]:
#isnull()로 결측치 확인 Nan 값 존재 -> Ture
#sum()로 true인 경우를 모두 더하고 전체 데이터 개수로 나누어 열별 데이터 결측치 비율을 확인

df.isnull().sum() / len(df)

first_name       0.2
last_name        0.2
age              0.2
sex              0.2
preTestScore     0.4
postTestScore    0.4
dtype: float64

In [4]:
#drop() -> 결측치가 나온 열이나 행을 삭제
#dropna() 사용하여 NaN이 있는 모든 데이터의 행을 없앰
df.dropna()

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
3,Jake,Miler,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


In [5]:
#드롭 관련 명령어는 결과만 보여줄 뿐 저장 X
#저장하고 싶으면 다른 변수에 재 할당하던가 매개 변수로 inplace=True 사용
df_no_missing = df.dropna()
df_no_missing

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
3,Jake,Miler,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


In [6]:
#매개 변수 how
#조건에 따라 결측치를 지움(all or any)
#all : 행에 있는 모든 값이 NaN일 때 행을 지움
#any : 하나의 NaN만 있어도 삭제(이게 defalut 설정)
df_cleaned = df.dropna(how='all')
df_cleaned

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
2,Tina,Ali,36.0,f,,
3,Jake,Miler,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


In [7]:
#열 값이 모두 NaN일경우
#축 axis를 추가하여 삭제
df['location'] = np.nan
df#location열 추가 확인
df.dropna(axis=1, how='all')#location열이 삭제됨을 확인

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
1,,,,,,
2,Tina,Ali,36.0,f,,
3,Jake,Miler,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


In [8]:
#thresh 매개 변수
#데이터의 개수를 기준으로 삭제 => thresh = 1 : 데이터가 1개라도 존재하는 행은 남김
#만약 n개 이상의 데이터가 있어야 행을 남기려면 thresh = n을 사용
df.dropna(axis=0, thresh=1)

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
2,Tina,Ali,36.0,f,,,
3,Jake,Miler,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


In [9]:
#fillna()를 사용해 비어있는 값을 채움
#일반적으로 드롭한 후에 남은 값들을 채우기 처리
#평균값, 최빈값 등 데이터의 분포를 고려해서 채움
df.fillna(0)

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,0.0
1,0,0,0.0,0,0.0,0.0,0.0
2,Tina,Ali,36.0,f,0.0,0.0,0.0
3,Jake,Miler,24.0,m,2.0,62.0,0.0
4,Amy,Cooze,73.0,f,3.0,70.0,0.0


In [10]:
#평균값 채우기
#빈 값에 평균값을 채우려면 열 단위의 평균 값을 계산하여 해당 열에만 값을 채움
#매개변수 inplace는 변경된 값을 반환하는 것이 아니고 해당 변수 자체의 값을 변경
df['preTestScore'].fillna(df['preTestScore'].mean(), inplace=True)
df