1. isna()와 isnull()로 결측치 탐지  
isna()와 isnull() 함수는 데이터프레임의 각 요소가 결측치인지 여부를 확인한다. 두 함수는 동일한 기능을 한다.  
(1)isna(), isnull(): 결측값인 경우 True, 아닌 경우 False를 반환함  
(2)notna(), notnull(): 결측값인 경우 False, 아닌 경우 True를 반환함

In [1]:
import pandas as pd
data = {
    '이름': ['철수', '영희', '민수', '지수'],
    '나이': [25, 30, None, 35],
    '직업': ['학생', '회사원', '학생', None]
}
df = pd.DataFrame(data)
print(df.isna()) 

      이름     나이     직업
0  False  False  False
1  False  False  False
2  False   True  False
3  False  False   True


In [4]:
# 결측치의 총 개수를 확인하려면 isna() 또는 isnull()과 sum()을 조합해 사용함
print(df.isna().sum())  

이름    0
나이    1
직업    1
dtype: int64


가. 결측치 제거  
(1) dropna() 함수를 사용결측치가 포함된 행이나 열을 삭제함  
(2) dropna(axis=0): 결측값이 있는 행을 제거함  
(3) dropna(axis=1): 결측값이 있는 열을 제거함  
(4) how: 'any' 또는 'all'로 설정하여 일부 또는 모든 값이 결측값인 경우에만 제거함  

In [5]:
df_dropped_rows = df.dropna()  # 결측치가 있는 행 제거
print(df_dropped_rows) 

   이름    나이   직업
0  철수  25.0   학생
1  영희  30.0  회사원


In [None]:
df_dropped_columns = df.dropna(axis=1)  # 결측치가 있는 열 제거
print(df_dropped_columns)

   이름
0  철수
1  영희
2  민수
3  지수


나. 결측치 대체(채우기)  
fillna() 함수를 사용하여 결측치를 특정 값으로 대체할 수 있다. 대체할 값은 평균, 중앙값, 최빈값 등 다양한 방식으로 설정할 수 있다.

In [7]:
df_filled = df.fillna('없음')  # 결측치를 '없음'으로 대체
print(df_filled)

   이름    나이   직업
0  철수  25.0   학생
1  영희  30.0  회사원
2  민수    없음   학생
3  지수  35.0   없음


In [9]:
df['나이'] = df['나이'].fillna(df['나이'].mean())  # '나이' 열의 결측치를 평균값으로 대체
print(df)

   이름    나이    직업
0  철수  25.0    학생
1  영희  30.0   회사원
2  민수  30.0    학생
3  지수  35.0  None


다. 결측치 보간(Interpolation)  
interpolate() 함수를 사용하여 결측치를 주변 값들을 기반으로 보간할 수 있어 시간 데이터를 다룰 때 유용하다. 선형보간법은 앞뒤 데이터 포인트의 값을 이용해 직선으로 연결하여 그 사이의 값을 예측한다.

In [10]:
data = {
    '날짜': pd.date_range('2023-01-01', periods=5),
    '온도': [20, 22, None, 24, 25]
}
df2 = pd.DataFrame(data)

# 선형 보간법으로 결측치 채우기 
df2['온도'] = df2['온도'].interpolate() 
print(df2) 

          날짜    온도
0 2023-01-01  20.0
1 2023-01-02  22.0
2 2023-01-03  23.0
3 2023-01-04  24.0
4 2023-01-05  25.0


In [11]:
# '직업'이 '학생'인 경우 '나이'를 20으로 채우기
df.loc[(df['직업'] == '학생') & (df['나이'].isna()), '나이'] = 20
print(df) 

   이름    나이    직업
0  철수  25.0    학생
1  영희  30.0   회사원
2  민수  30.0    학생
3  지수  35.0  None


In [12]:
# 예시: '나이'가 결측치일 경우, 기본값으로 18을 채우는 함수
def fill_missing_age(x):
    if pd.isna(x):  # 값이 결측값(NaN)인지 확인
        return 18  # 결측값일 경우 18로 대체
    return x  # 결측값이 아니면 원래 값을 반환
#결측값을 fill_missing_age 함수로 처리
df['나이'] = df['나이'].apply(fill_missing_age)  
print(df)

   이름    나이    직업
0  철수  25.0    학생
1  영희  30.0   회사원
2  민수  30.0    학생
3  지수  35.0  None
