In [252]:
#데이터 전처리:결측치 탐지와 다양한 처리 방법

In [254]:
#결측치 탐지
# isna()와 isnull()로 결측치 탐지
# isna()와 isnull() 함수는 데이터프레임의 각 요소가 결측치인지 여부를 확인.
# 두 함수는 동일한 기능을 함.

In [315]:
import pandas as pd

#데이터프레임 생성
data = {
    '이름' : ['철수', '영희', '민수', '지수'],
    '나이' : [25,30,None,35],
    '직업' : ['학생', '회사원', '학생', None]
}
df = pd.DataFrame(data)

#결측치 여부 확인
print(df.isna())

# 결측치 여부 확인 (True/False 대신 1/0으로 변환)
print(df.isna().astype(int))

      이름     나이     직업
0  False  False  False
1  False  False  False
2  False   True  False
3  False  False   True
   이름  나이  직업
0   0   0   0
1   0   0   0
2   0   1   0
3   0   0   1


In [258]:
#결측치가 있는 항목에만 True 출력

In [260]:
#sum()을 사용한 결측치 개수 확인
#결측치의 총 개수를 확인하려면 isna() 또는 isnull()과 sum()을 조합해 사용.

In [262]:
#각 열별 결측치 개수 확인
print(df.isna().sum())

이름    0
나이    1
직업    1
dtype: int64


In [264]:
#위에 True/False로 출력된 결측치값을 주목
#True : 1
#False : 0
#따라서 결측치 개수가 저렇게 출력

In [267]:
#경측치 처리 방법
#결측치를 적절하게 처리하는 방법은 데이터의 특성과 분석 목적에 따라 달라짐.

In [269]:
#결측치 제거
#결측치가 포함된 행이나 열을 삭제할 수 있음.
#dropna()함수 사용

#결측치가 있는 행 제거
df_dropna_rows = df.dropna()
print(df_dropna_rows)

   이름    나이   직업
0  철수  25.0   학생
1  영희  30.0  회사원


In [271]:
#결측치가 있는 행을 제거하고자 하는 경우 (axis=0)
df_dropna_columns = df.dropna(axis=0)
print(df_dropna_columns)

   이름    나이   직업
0  철수  25.0   학생
1  영희  30.0  회사원


In [273]:
#결측치가 있는 열을 제거하고자 하는 경우 (axis=1)
df_dropna_rows = df.dropna(axis=1)
print(df_dropna_rows)

   이름
0  철수
1  영희
2  민수
3  지수


In [275]:
#결측치 대체(채우기)
#결측치를 특정 값으로 대체(채우기) 가능.
#fillna() 함수 사용.

#결측치를 '없음'으로 대체
df_filled = df.fillna('없음')
print(df_filled)

   이름    나이   직업
0  철수  25.0   학생
1  영희  30.0  회사원
2  민수    없음   학생
3  지수  35.0   없음


In [277]:
#평균, 중앙값, 최빈값 등으로 결측치를 채울 수 있음.

In [279]:
# '나이' 열의 결측치를 평균값으로 대체
df['나이'] = df['나이'].fillna(df['나이'].mean())

In [281]:
print(df)

   이름    나이    직업
0  철수  25.0    학생
1  영희  30.0   회사원
2  민수  30.0    학생
3  지수  35.0  None


In [284]:
#결측치 보간(Interpolation
#결측치를 주변 값들을 기반으로 추정하여 보간할 수 있음.
#interpolate() 함수를 사용.
#특히 시간 데이터를 다룰 때 유용.

In [286]:
#예시 데이터프레임 생성
data = {
    '날짜' : pd.date_range('2023-01-01', periods=5),
    '온도' : [20, 22, None, 24, 25]
}
df2 = pd.DataFrame(data)

#선형 보간법으로 결측치 채우기
df2['온도'] = df2['온도'].interpolate()
print(df2)

          날짜    온도
0 2023-01-01  20.0
1 2023-01-02  22.0
2 2023-01-03  23.0
3 2023-01-04  24.0
4 2023-01-05  25.0


In [289]:
#고급 결측치 처리 방법

In [291]:
#특정 조건을 기반으로 결측치 처리
#특정 조건을 기반으로 결측치를 처리할 수도 있음.
#예를 들어, 다른 열의 값을 기준으로 결측치를 채우는 방법.

In [293]:
#'직업'이 '학생'이 아닌 경우 '나이'를 20으로 채우기

#데이터프레임 생성
data = {
    '이름' : ['철수', '영희', '민수', '지수'],
    '나이' : [25,30,None,35],
    '직업' : ['학생', '회사원', '학생', None]
}
df = pd.DataFrame(data)

df.loc[(df['직업'] == '학생') & (df['나이'].isna()), '나이'] = 20
print(df)

   이름    나이    직업
0  철수  25.0    학생
1  영희  30.0   회사원
2  민수  20.0    학생
3  지수  35.0  None


In [296]:
#apply()를 사용한 사용자 정의 함수 적용
# apply() 함수를 사용해 결측치를 처리하는 사용자 정의 함수를 적용할 수 있음.

In [307]:
#예시: '나이'가 결측치일 경우, 기본값으로 18을 채우는 함수

# 데이터프레임 생성: 각 사람의 이름, 나이, 직업을 가진 데이터프레임 생성
data = {
    '이름' : ['철수', '영희', '민수', '지수'],  # 이름 컬럼
    '나이' : [25, 30, None, 35],               # 나이 컬럼, '민수'의 나이는 결측치(None)
    '직업' : ['학생', '회사원', '학생', None]   # 직업 컬럼, '지수'의 직업은 결측치(None)
}
df = pd.DataFrame(data)  # 데이터프레임 생성

# '나이'가 결측치일 경우 기본값 18로 대체하는 함수 정의
def fill_missing_age(x):
    if pd.isna(x):   # 입력값이 결측치(NaN, None)인지 확인
        return 18    # 결측치라면 기본값 18 반환
    return x         # 결측치가 아니면 원래 값 반환

# '나이' 컬럼에 결측치 처리 함수 적용
df['나이'] = df['나이'].apply(fill_missing_age)  # 각 '나이' 값을 순회하며 결측치는 18로 대체

# 최종 데이터프레임 출력
print(df)  # 결측치가 처리된 데이터프레임 출력


   이름    나이    직업
0  철수  25.0    학생
1  영희  30.0   회사원
2  민수  18.0    학생
3  지수  35.0  None


In [None]:
#요약
#결측치 탐지는 isna()와 isnull()을 사용해 수행하며, sum()을 통해 열별 결측치 개수를 확인할 수 있음.
#결측치 처리 방법으로는 행 또는 열 삭제(dropna()), 특정 값으로 채우기 (fillna()), 보간법(interpolite()), 조건 기반 처리 및 사용자 정의 함수 적용 등이 있음.