<a href="https://colab.research.google.com/github/nowoclock/PM_data/blob/main/PM_MissingData_1220.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# missing DATA (결측치)
## [1] 결측치 처리 프로세스

결측치란 데이터에서 값이 `비어있는 경우`를 의미하며 데이터가 없거나 관측되지 않은 값 모두를 의미한다.

결측치 처리 프로세스는 다음과 같다.

1. 결측치 확인
2. 결측치 처리 전략 결정
3. 결측치 처리
4. 결측치 처리 후 검증

In [None]:
import numpy as np
import pandas as pd

data = {
    "이름": [
        "김민수", "박철수", "이영희", "최현우", "정은지",
        "윤정민", "장지훈", "심수정", "오세진", "한가영",
        "김다은", "박성훈", "이아름", "최주환", "정민우",
        "윤하늘", "장미정", "심수영", "오영진", "한보람"
    ],
    "국어": [
        85, 92, np.nan, 88, 76,
        95, np.nan, 90, 80, np.nan,
        82, 91, np.nan, 87, 79,
        np.nan, 93, 94, np.nan, 89
    ],
    "수학": [
        78, 85, 88, np.nan, 90,
        85, 93, np.nan, 82, 77,
        81, np.nan, 90, 86, np.nan,
        88, 91, np.nan, 80, 79
    ],
    "영어": [
        92, np.nan, 85, 89, 94,
        90, np.nan, 88, 84, 79,
        83, np.nan, 86, 91, np.nan,
        92, 95, 87, np.nan, 78
    ],
    "과학": [
        np.nan, 89, 90, 85, 87,
        93, 92, 90, np.nan, 88,
        89, 90, np.nan, 85, 93,
        92, np.nan, 86, 90, 88
    ],
}

df = pd.DataFrame(data)

## 결측치 갯수 확인하기

### 결측치 개수 출력 .isnull().sum()

In [None]:
# 각 열의 결측치 개수 출력
df.isnull().sum()

Unnamed: 0,0
이름,0
국어,6
수학,5
영어,5
과학,4


In [None]:
# 결측치가 아닌 갯수 출력
df.count()

Unnamed: 0,0
이름,20
국어,14
수학,15
영어,15
과학,16


## 결측치 제거하기

### 행 제거

In [None]:
# 결측치가 있는 행 제거
df.dropna(axis='index')

Unnamed: 0,이름,국어,수학,영어,과학
4,정은지,76.0,90.0,94.0,87.0
5,윤정민,95.0,85.0,90.0,93.0
10,김다은,82.0,81.0,83.0,89.0
13,최주환,87.0,86.0,91.0,85.0
19,한보람,89.0,79.0,78.0,88.0


### 열 제거

In [None]:
# 결측치가 있는 열 제거
df.dropna(axis='columns')

Unnamed: 0,이름
0,김민수
1,박철수
2,이영희
3,최현우
4,정은지
5,윤정민
6,장지훈
7,심수정
8,오세진
9,한가영


### 특정 열 제거

In [None]:
# 특정 열 결측치 행 제거
# 수학에 결측치가 있는 행 제거
df.dropna(subset=['수학'])

Unnamed: 0,이름,국어,수학,영어,과학
0,김민수,85.0,78.0,92.0,
1,박철수,92.0,85.0,,89.0
2,이영희,,88.0,85.0,90.0
4,정은지,76.0,90.0,94.0,87.0
5,윤정민,95.0,85.0,90.0,93.0
6,장지훈,,93.0,,92.0
8,오세진,80.0,82.0,84.0,
9,한가영,,77.0,79.0,88.0
10,김다은,82.0,81.0,83.0,89.0
12,이아름,,90.0,86.0,


## 결측치 채우기
- df["열"].fillna('대체 값')

In [None]:
# 국어의 결측치 0으로 변경
df['국어'] = df['국어'].fillna(0)

In [None]:
# 영어 결측치를 평균으로 채우기
df['영어'] = df['영어'].fillna(df['영어'].mean())

In [None]:
# 수학 결측치 중간값으로 대체
df['수학'] = df['수학'].fillna(df['수학'].median())

In [None]:
# 과학 결측치 최빈값으로 대체
df['과학'] = df['과학'].fillna(df['과학'].mode()[0])

In [None]:
df.isnull().sum()

Unnamed: 0,0
이름,0
국어,0
수학,0
영어,0
과학,0


## [실습]

2. 각 열의 결측치 수를 출력한다.
3. 결측치가 있는 행을 삭제하고, 변수 `df_cleaned_row` 에 저장한다.
데이터프레임의 구조를 출력한다.
4. `나이` 열의 결측치를 평균값으로 대체한다.
5. `전공` 열의 결측치를 최빈값으로 대체한다.
6. `학년` 열의 결측치를 1로 대체한다.
7. `학점` 열의 결측치를 중앙값으로 대체한다.
8. 각 열의 결측치 수를 출력한다.

In [None]:
import pandas as pd
import numpy as np

# 랜덤 모듈 사용을 위한 시드 설정
np.random.seed(0)

# 학생 수와 데이터 수 설정
num_students = 10000

# 데이터프레임 생성
df = pd.DataFrame(
    {
        "나이": np.random.randint(20, 30, size=num_students),
        "전공": np.random.choice(
            ["컴퓨터공학", "물리학", "전자공학", "수학", "화학", "생물학"],
            size=num_students,
        ),
        "학년": np.random.randint(1, 5, size=num_students),
        "학점": np.round(np.random.uniform(1.0, 4.5, size=num_students), 2),
    }
)
# 결측치 20% 생성
num_na_count = int(num_students * 0.2)

na_inde_age = np.random.choice(df.index, num_na_count, replace=False)
df.loc[na_inde_age, "나이"] = np.nan

na_inde_major = np.random.choice(df.index, num_na_count, replace=False)
df.loc[na_inde_major, "전공"] = np.nan

na_inde_grade = np.random.choice(df.index, num_na_count, replace=False)
df.loc[na_inde_grade, "학년"] = np.nan

na_inde_gpa = np.random.choice(df.index, num_na_count, replace=False)
df.loc[na_inde_gpa, "학점"] = np.nan

In [None]:
df.isnull().sum()

Unnamed: 0,0
나이,2000
전공,2000
학년,2000
학점,2000


In [None]:
df_cleaned_row = df.dropna(axis='index')
df_cleaned_row.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   나이      10000 non-null  float64
 1   전공      10000 non-null  object 
 2   학년      10000 non-null  float64
 3   학점      10000 non-null  float64
dtypes: float64(3), object(1)
memory usage: 312.6+ KB


In [None]:
df['나이'] = df['나이'].fillna(df['나이'].mean())
df['전공'] = df['전공'].fillna(df['전공'].mode()[0])
df['학년'] = df['학년'].fillna(1)
df['학점'] = df['학점'].fillna(df['학점'].median())
df.isnull().sum()

Unnamed: 0,0
나이,0
전공,0
학년,0
학점,0
