## 결측치 탐지

In [2]:
import pandas as pd

# 예시 데이터프레임 생성
data = {
    '이름': ['철수', '영희', '민수', '지수'],
    '나이': [25, 30, None, 35],
    '직업': ['학생', '회사원', '학생', None]
}
df = pd.DataFrame(data)

# 결측치 여부 확인
print(df.isna(), '\n')

# 각 열별 결측치 개수 확인
print(df.isna().sum())

      이름     나이     직업
0  False  False  False
1  False  False  False
2  False   True  False
3  False  False   True 

이름    0
나이    1
직업    1
dtype: int64


In [3]:
# 결측치가 있는 행 제거
df_dropped_rows = df.dropna()
print(df_dropped_rows, '\n')

# 결측치가 있는 열 제거
df_dropped_columns = df.dropna(axis=1)
print(df_dropped_columns)


   이름    나이   직업
0  철수  25.0   학생
1  영희  30.0  회사원 

   이름
0  철수
1  영희
2  민수
3  지수


In [4]:
# 결측치를 '없음'으로 대체
df_filled = df.fillna('없음')
print(df_filled)

   이름    나이   직업
0  철수  25.0   학생
1  영희  30.0  회사원
2  민수    없음   학생
3  지수  35.0   없음


In [5]:
# 예시 데이터프레임 생성
data = {
    '날짜': pd.date_range('2023-01-01', periods=5),
    '온도': [20, 22, None, 24, 25]
}
df2 = pd.DataFrame(data)

# 선형 보간법으로 결측치 채우기 (주변 값들을 기반으로 결측치를 보충)
df2['온도'] = df2['온도'].interpolate()
df2

Unnamed: 0,날짜,온도
0,2023-01-01,20.0
1,2023-01-02,22.0
2,2023-01-03,23.0
3,2023-01-04,24.0
4,2023-01-05,25.0


In [7]:
# 예시: '나이'가 결측치일 경우, 기본값으로 18을 채우는 함수
def fill_missing_age(x):
    if pd.isna(x):
        return 18
    return x

# apply()는 결측치를 처리하는 사용자 정의 함수를 적용하는 함수
df['나이'] = df['나이'].apply(fill_missing_age)
df

Unnamed: 0,이름,나이,직업
0,철수,25.0,학생
1,영희,30.0,회사원
2,민수,18.0,학생
3,지수,35.0,
