# DataFrame 누락된 데이터 처리하기

In [1]:
import numpy as np
import pandas as pd

df = pd.DataFrame({"name": ["Jessica", "Liam", "Sophia", "Ryan", "Alex"],
					"gender": ['F', np.nan, np.nan, 'M', 'F'],
					"score": [10,20,30,np.nan,50]})

## 1. 누락된 데이터 확인

### 1-1. isna()

누락된 데이터를 True로 표시

In [None]:
display(pd.isna(df))

# 이것도 가능
# display(df.isna())

Unnamed: 0,name,gender,score
0,False,False,False
1,False,True,False
2,False,True,False
3,False,False,True
4,False,False,False


### 1-2. 누락된 데이터 개수 확인

In [None]:
display(pd.isna(df).sum())

# 이것도가능
# display(df.isna().sum())

name      0
gender    2
score     1
dtype: int64

name      0
gender    2
score     1
dtype: int64

## 2. 누락된 데이터 삭제

### 2-1. dropna()

누락된 데이터가 포함된 행 또는 열을 삭제  
axis=0 : 행을 삭제 (기본값)  
axis=1, axis="columns" : 열을 삭제

In [8]:
clean_df = df.dropna()
display(clean_df)

Unnamed: 0,name,gender,score
0,Jessica,F,10.0
4,Alex,F,50.0


### 2-2. 컬럼을 지정하여 삭제

subset에 설정한 컬럼 중 누락된 값이 있을 경우 해당 행을 삭제

In [9]:
clean_df = df.dropna(subset=["name", "score"])
display(clean_df)

Unnamed: 0,name,gender,score
0,Jessica,F,10.0
1,Liam,,20.0
2,Sophia,,30.0
4,Alex,F,50.0


## 3. 누락된 데이터를 다른 값으로 대체

### 3-1. fillna()

누락된 값을 지정한 값으로 대체

In [10]:
filled_df = df.fillna(0)
display(filled_df)

Unnamed: 0,name,gender,score
0,Jessica,F,10.0
1,Liam,0,20.0
2,Sophia,0,30.0
3,Ryan,M,0.0
4,Alex,F,50.0


### 3-2. 컬럼별로 대체값 지정

fillna({컬럼명 : 대체값, 컬럼명 : 대체값})

In [12]:
filled_df = df.fillna({"gender": "etc", "score" : 0})
display(filled_df)

Unnamed: 0,name,gender,score
0,Jessica,F,10.0
1,Liam,etc,20.0
2,Sophia,etc,30.0
3,Ryan,M,0.0
4,Alex,F,50.0
