In [None]:
# Python에서는 KNNImputer와 SimpleImputer 외에도 다른 imputer를 사용할 수 있습니다. 예를 들어, sklearn 라이브러리의 IterativeImputer 클래스를 사용하면, 결측치를 다른 특성들과의 상관관계를 이용하여 회귀 모델로 예측하여 대체할 수 있습니다. IterativeImputer 클래스는 estimator라는 파라미터로 회귀 모델을 지정할 수 있습니다.

# Python에서 sklearn 라이브러리의 IterativeImputer 클래스를 사용하는 예시 코드는 다음과 같습니다.

In [17]:
# sklearn 라이브러리 임포트
from sklearn.experimental import enable_iterative_imputer
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor

import pandas as pd

# 예시 데이터프레임 생성
df = pd.DataFrame({
    "age": [25, 30, 35, None, 40],
    "income": [3000, 4000, 5000, 6000, None],
    "gender": [0, 1, 0, 1, None]
})

# 범주형 결측치를 회귀 모델로 예측하여 대체하는 IterativeImputer 객체 생성
imp = enable_iterative_imputer.IterativeImputer(estimator=RandomForestRegressor())

# IterativeImputer 객체를 데이터프레임에 적용
df_imputed = pd.DataFrame(imp.fit_transform(df), columns=df.columns)

# 결측치가 대체된 데이터프레임 출력
print(df_imputed)

     age  income  gender
0  25.00  3000.0     0.0
1  30.00  4000.0     1.0
2  35.00  5000.0     0.0
3  36.85  6000.0     1.0
4  40.00  5460.0     0.5




In [None]:
# 범주형 결측치를 채우기 위한 다른 Python imputer가 있습니다. 예를 들어, sklearn 라이브러리의 KNNImputer 클래스를 사용하면, 결측치를 가장 가까운 이웃의 값들로 대체할 수 있습니다1. KNNImputer 클래스는 n_neighbors라는 파라미터로 이웃의 개수를 지정할 수 있습니다.

# Python에서 sklearn 라이브러리의 KNNImputer 클래스를 사용하는 예시 코드는 다음과 같습니다.

In [16]:
# sklearn 라이브러리 임포트
from sklearn.impute import KNNImputer
import pandas as pd

# 예시 데이터프레임 생성
df = pd.DataFrame({
    "age": [25, 30, 35, None, 40],
    "income": [3000, 4000, 5000, 6000, None],
    "gender": ["M", "F", "M", "F", None]
})

df.loc[df['gender']=='M',"gender"]=1
df.loc[df['gender']=='F',"gender"]=0

# 범주형 결측치를 가장 가까운 이웃의 값으로 대체하는 KNNImputer 객체 생성
imp = KNNImputer(n_neighbors=2)

# KNNImputer 객체를 데이터프레임에 적용
df_imputed = pd.DataFrame(imp.fit_transform(df), columns=df.columns)

# 결측치가 대체된 데이터프레임 출력
print(df_imputed)

    age  income  gender
0  25.0  3000.0     1.0
1  30.0  4000.0     0.0
2  35.0  5000.0     1.0
3  32.5  6000.0     0.0
4  40.0  4500.0     0.5


In [None]:
# 범주형 결측치를 채우기 위해서 머신러닝 기법을 사용하고 싶다면, Python에서는 sklearn 라이브러리의 SimpleImputer 클래스를 사용할 수 있습니다1. SimpleImputer 클래스는 결측치를 평균, 중앙값, 최빈값 등으로 대체하는 기능을 제공합니다. 범주형 결측치의 경우, 최빈값을 사용하는 것이 일반적입니다.

# Python에서 sklearn 라이브러리를 사용하는 예시 코드는 다음과 같습니다.

In [18]:
# sklearn 라이브러리 임포트
from sklearn.impute import SimpleImputer
import pandas as pd

# 예시 데이터프레임 생성
df = pd.DataFrame({
    "color": ["red", "blue", "green", "red", None],
    "size": ["big", "small", "medium", None, "small"],
    "shape": ["circle", "square", "triangle", "circle", "square"]
})

# 범주형 결측치를 최빈값으로 대체하는 SimpleImputer 객체 생성
imp = SimpleImputer(strategy="most_frequent")

# SimpleImputer 객체를 데이터프레임에 적용
df_imputed = pd.DataFrame(imp.fit_transform(df), columns=df.columns)

# 결측치가 대체된 데이터프레임 출력
print(df_imputed)

   color    size     shape
0    red     big    circle
1   blue   small    square
2  green  medium  triangle
3    red    None    circle
4   None   small    square


In [3]:
import sys

print(sys.version)

3.10.8 | packaged by conda-forge | (main, Nov 24 2022, 14:07:00) [MSC v.1916 64 bit (AMD64)]
