#### 결측치 처리

In [130]:
import numpy as np
import pandas as pd

data = {
    "이름": [
        "김민수", "박철수", "이영희", "최현우", "정은지",
        "윤정민", "장지훈", "심수정", "오세진", "한가영",
        "김다은", "박성훈", "이아름", "최주환", "정민우",
        "윤하늘", "장미정", "심수영", "오영진", "한보람"
    ],
    "국어": [
        85, 92, np.nan, 88, 76,
        95, np.nan, 90, 80, np.nan,
        82, 91, np.nan, 87, 79,
        np.nan, 93, 94, np.nan, 89
    ],
    "수학": [
        78, 85, 88, np.nan, 90,
        85, 93, np.nan, 82, 77,
        81, np.nan, 90, 86, np.nan,
        88, 91, np.nan, 80, 79
    ],
    "영어": [
        92, np.nan, 85, 89, 94,
        90, np.nan, 88, 84, 79,
        83, np.nan, 86, 91, np.nan,
        92, 95, 87, np.nan, 78
    ],
    "과학": [
        np.nan, 89, 90, 85, 87,
        93, 92, 90, np.nan, 88,
        89, 90, np.nan, 85, 93,
        92, np.nan, 86, 90, 88
    ],
}

df = pd.DataFrame(data)


In [131]:
#결측치 개수 반환
df.isnull().sum()

이름    0
국어    6
수학    5
영어    5
과학    4
dtype: int64

In [132]:
#결측치가 아닌 값
df.count()

이름    20
국어    14
수학    15
영어    15
과학    16
dtype: int64

In [133]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   이름      20 non-null     object 
 1   국어      14 non-null     float64
 2   수학      15 non-null     float64
 3   영어      15 non-null     float64
 4   과학      16 non-null     float64
dtypes: float64(4), object(1)
memory usage: 932.0+ bytes


In [134]:
#dropna : 결측치 제거
df.dropna(axis = "index") #행을 기준으로 결측치가 있으면 제거

Unnamed: 0,이름,국어,수학,영어,과학
4,정은지,76.0,90.0,94.0,87.0
5,윤정민,95.0,85.0,90.0,93.0
10,김다은,82.0,81.0,83.0,89.0
13,최주환,87.0,86.0,91.0,85.0
19,한보람,89.0,79.0,78.0,88.0


In [135]:
df.dropna(axis = "columns") 

Unnamed: 0,이름
0,김민수
1,박철수
2,이영희
3,최현우
4,정은지
5,윤정민
6,장지훈
7,심수정
8,오세진
9,한가영


In [136]:
#기준 열을 선택해서, 결측치가 있는 행을 삭제
df.dropna(subset=["국어","수학"]) #국어 or 수학에 결측치가 있으면 삭제

Unnamed: 0,이름,국어,수학,영어,과학
0,김민수,85.0,78.0,92.0,
1,박철수,92.0,85.0,,89.0
4,정은지,76.0,90.0,94.0,87.0
5,윤정민,95.0,85.0,90.0,93.0
8,오세진,80.0,82.0,84.0,
10,김다은,82.0,81.0,83.0,89.0
13,최주환,87.0,86.0,91.0,85.0
16,장미정,93.0,91.0,95.0,
19,한보람,89.0,79.0,78.0,88.0


In [137]:
#fillna : 결측치를 채운다
#데이터프레임['열'].fillna("결측치에 대체할 값")
df["국어"].fillna(0) #국어 열의 결측치 값들을 0(고정값)으로 대체

0     85.0
1     92.0
2      0.0
3     88.0
4     76.0
5     95.0
6      0.0
7     90.0
8     80.0
9      0.0
10    82.0
11    91.0
12     0.0
13    87.0
14    79.0
15     0.0
16    93.0
17    94.0
18     0.0
19    89.0
Name: 국어, dtype: float64

In [138]:
#영어 열의 결측치를 평균으로 대체
df["영어"].fillna(df["영어"].mean())

0     92.000000
1     87.533333
2     85.000000
3     89.000000
4     94.000000
5     90.000000
6     87.533333
7     88.000000
8     84.000000
9     79.000000
10    83.000000
11    87.533333
12    86.000000
13    91.000000
14    87.533333
15    92.000000
16    95.000000
17    87.000000
18    87.533333
19    78.000000
Name: 영어, dtype: float64

In [139]:
#fillna()는 기존 데이터 프레임을 수정하지 않는다
#결측치 대체된 값이 기존 데이터프레임에 반영되지 않음음

df["국어"] = df["국어"].fillna(df["국어"].mean())
df

Unnamed: 0,이름,국어,수학,영어,과학
0,김민수,85.0,78.0,92.0,
1,박철수,92.0,85.0,,89.0
2,이영희,87.214286,88.0,85.0,90.0
3,최현우,88.0,,89.0,85.0
4,정은지,76.0,90.0,94.0,87.0
5,윤정민,95.0,85.0,90.0,93.0
6,장지훈,87.214286,93.0,,92.0
7,심수정,90.0,,88.0,90.0
8,오세진,80.0,82.0,84.0,
9,한가영,87.214286,77.0,79.0,88.0


In [140]:
#최빈값으로 대체
df["과학"] = df["과학"].fillna(df["과학"].mode()[0])

In [141]:
df["과학"].mode()

0    90.0
Name: 과학, dtype: float64

In [142]:
df.isnull().sum()

이름    0
국어    0
수학    5
영어    5
과학    0
dtype: int64

In [143]:
import pandas as pd
import numpy as np

# 랜덤 모듈 사용을 위한 시드 설정
np.random.seed(0)

# 학생 수와 데이터 수 설정
num_students = 10000

# 데이터프레임 생성
df = pd.DataFrame(
    {
        "학생ID": np.arange(1, num_students + 1),
        "이름": [f"학생{i}" for i in range(1, num_students + 1)],
        "나이": np.random.randint(20, 30, size=num_students),
        "전공": np.random.choice(
            ["컴퓨터공학", "물리학", "전자공학", "수학", "화학", "생물학"],
            size=num_students,
        ),
        "학년": np.random.randint(1, 5, size=num_students),
        "학점": np.round(np.random.uniform(1.0, 4.5, size=num_students), 2),
    }
)
# 결측치 20% 생성
num_na_count = int(num_students * 0.2)

na_inde_age = np.random.choice(df.index, num_na_count, replace=False)
df.loc[na_inde_age, "나이"] = np.nan

na_inde_major = np.random.choice(df.index, num_na_count, replace=False)
df.loc[na_inde_major, "전공"] = np.nan

na_inde_grade = np.random.choice(df.index, num_na_count, replace=False)
df.loc[na_inde_grade, "학년"] = np.nan

na_inde_gpa = np.random.choice(df.index, num_na_count, replace=False)
df.loc[na_inde_gpa, "학점"] = np.nan

df

Unnamed: 0,학생ID,이름,나이,전공,학년,학점
0,1,학생1,25.0,생물학,2.0,3.05
1,2,학생2,20.0,,4.0,1.72
2,3,학생3,23.0,생물학,1.0,2.51
3,4,학생4,23.0,,1.0,2.40
4,5,학생5,,물리학,3.0,3.25
...,...,...,...,...,...,...
9995,9996,학생9996,22.0,전자공학,3.0,3.07
9996,9997,학생9997,28.0,컴퓨터공학,3.0,
9997,9998,학생9998,20.0,컴퓨터공학,3.0,2.87
9998,9999,학생9999,,컴퓨터공학,,3.57


In [144]:
#결측치수
df.isnull().sum()

학생ID       0
이름         0
나이      2000
전공      2000
학년      2000
학점      2000
dtype: int64

In [145]:
df.dropna(axis = "index")

Unnamed: 0,학생ID,이름,나이,전공,학년,학점
0,1,학생1,25.0,생물학,2.0,3.05
2,3,학생3,23.0,생물학,1.0,2.51
5,6,학생6,29.0,물리학,4.0,1.45
9,10,학생10,24.0,물리학,2.0,1.20
11,12,학생12,26.0,컴퓨터공학,3.0,2.69
...,...,...,...,...,...,...
9982,9983,학생9983,28.0,수학,1.0,3.91
9985,9986,학생9986,21.0,컴퓨터공학,4.0,3.09
9986,9987,학생9987,29.0,물리학,1.0,2.57
9995,9996,학생9996,22.0,전자공학,3.0,3.07


In [146]:
#나이 열의 결측치를 평균값으로 대체한다.
df["나이"] = df["나이"].fillna(df["나이"].mean())
df["나이"]

0       25.00000
1       20.00000
2       23.00000
3       23.00000
4       24.53325
          ...   
9995    22.00000
9996    28.00000
9997    20.00000
9998    24.53325
9999    20.00000
Name: 나이, Length: 10000, dtype: float64

In [147]:
#전공 열의 결측치를 최빈값으로 대체한다.
df["전공"] = df["전공"].fillna(df["전공"].mode()[0])
df["전공"]

0         생물학
1          화학
2         생물학
3          화학
4         물리학
        ...  
9995     전자공학
9996    컴퓨터공학
9997    컴퓨터공학
9998    컴퓨터공학
9999    컴퓨터공학
Name: 전공, Length: 10000, dtype: object

In [148]:
# 6. `학년` 열의 결측치를 1로 대체한다.
df["학년"] = df["학년"].fillna(1)
df["학년"]

0       2.0
1       4.0
2       1.0
3       1.0
4       3.0
       ... 
9995    3.0
9996    3.0
9997    3.0
9998    1.0
9999    3.0
Name: 학년, Length: 10000, dtype: float64

In [149]:
# 7. `학점` 열의 결측치를 중앙값으로 대체한다.
df["학점"] = df["학점"].fillna(df["학점"].median())
df["학점"]

0       3.05
1       1.72
2       2.51
3       2.40
4       3.25
        ... 
9995    3.07
9996    2.77
9997    2.87
9998    3.57
9999    2.77
Name: 학점, Length: 10000, dtype: float64

In [150]:
# 8. 각 열의 결측치 수를 출력한다.
df.isnull().sum()

학생ID    0
이름      0
나이      0
전공      0
학년      0
학점      0
dtype: int64