In [1]:
import numpy as np
import pandas as pd


data = {
    "학생": [
        "이순신",
        "세종대왕",
        "윤봉길",
        "안중근",
        "김구",
        "강감찬",
        "유관순",
        "장영실",
        "이성계",
        "이황",
    ],
    "국어": [85, 92, np.nan, 88, 76, 95, np.nan, 90, 80, np.nan],
    "수학": [78, 85, 88, np.nan, 90, 85, 93, np.nan, 82, 77],
    "영어": [92, np.nan, 85, 89, 94, 90, np.nan, 88, 84, 79],
    "과학": [np.nan, 89, 90, 85, 87, 93, 92, 90, np.nan, 88],
}

df = pd.DataFrame(data)

In [4]:
# 1. 결측치 확인
print(df.isnull().sum())  # 몇개 있는지 확인

학생    0
국어    3
수학    2
영어    2
과학    2
dtype: int64


In [8]:
# 결측치 제거

# 1. 결측치가 있는 행을 제거하는 방법
df_cleaned = df.dropna(axis="index")

print(df_cleaned)

    학생    국어    수학    영어    과학
4   김구  76.0  90.0  94.0  87.0
5  강감찬  95.0  85.0  90.0  93.0


In [10]:
# 2.  결측치가 있는 열을 제거하는 방법
df_cleaned = df.dropna(axis="columns")

print(df_cleaned)

     학생
0   이순신
1  세종대왕
2   윤봉길
3   안중근
4    김구
5   강감찬
6   유관순
7   장영실
8   이성계
9    이황


In [17]:
# 3. 일부 열에 대해 결측치가 있을 때 행을 제거하는 방법
# subset = ["열1","열2"]

# 수학, 영어 열에 대한 결측치가 있을 때 행을 제거하는 코드를 짜보자
df_cleaned = df.dropna(axis=0, subset=["수학", "영어"])
print(df_cleaned)

    학생    국어    수학    영어    과학
0  이순신  85.0  78.0  92.0   NaN
2  윤봉길   NaN  88.0  85.0  90.0
4   김구  76.0  90.0  94.0  87.0
5  강감찬  95.0  85.0  90.0  93.0
8  이성계  80.0  82.0  84.0   NaN
9   이황   NaN  77.0  79.0  88.0


In [24]:
# 결측치 대체

# 1. 특정 열 결측치를 고정값으로 대체
# 데이터프레임 복사
df_replace = df.copy()

df_replace["국어"] = df["국어"].fillna(50)
print(df_replace)

     학생    국어    수학    영어    과학
0   이순신  85.0  78.0  92.0   NaN
1  세종대왕  92.0  85.0   NaN  89.0
2   윤봉길  50.0  88.0  85.0  90.0
3   안중근  88.0   NaN  89.0  85.0
4    김구  76.0  90.0  94.0  87.0
5   강감찬  95.0  85.0  90.0  93.0
6   유관순  50.0  93.0   NaN  92.0
7   장영실  90.0   NaN  88.0  90.0
8   이성계  80.0  82.0  84.0   NaN
9    이황  50.0  77.0  79.0  88.0


In [30]:
# 2. 산술 연산(평균, 중앙값) 대체

# 수학 데이터들의 평균값으로 대체
df_replace["수학"] = df["수학"].fillna(df["수학"].mean())

# 수학 데이터들의 중앙값으로 대체
df_replace["과학"] = df["과학"].fillna(df["과학"].median())

df_replace

Unnamed: 0,학생,국어,수학,영어,과학
0,이순신,85.0,78.0,92.0,89.5
1,세종대왕,92.0,85.0,,89.0
2,윤봉길,50.0,88.0,85.0,90.0
3,안중근,88.0,84.75,89.0,85.0
4,김구,76.0,90.0,94.0,87.0
5,강감찬,95.0,85.0,90.0,93.0
6,유관순,50.0,93.0,,92.0
7,장영실,90.0,84.75,88.0,90.0
8,이성계,80.0,82.0,84.0,89.5
9,이황,50.0,77.0,79.0,88.0


In [32]:
# 3. 최빈값 mode()
df_replace["영어"] = df["영어"].fillna(
    df["영어"].mode("영어"[0])
)  # 최빈값이 여러개일경우 맨 처음 값을 가져온다.
print(df_replace)

     학생    국어     수학    영어    과학
0   이순신  85.0  78.00  92.0  89.5
1  세종대왕  92.0  85.00  84.0  89.0
2   윤봉길  50.0  88.00  85.0  90.0
3   안중근  88.0  84.75  89.0  85.0
4    김구  76.0  90.00  94.0  87.0
5   강감찬  95.0  85.00  90.0  93.0
6   유관순  50.0  93.00  92.0  92.0
7   장영실  90.0  84.75  88.0  90.0
8   이성계  80.0  82.00  84.0  89.5
9    이황  50.0  77.00  79.0  88.0
