<a href="https://colab.research.google.com/github/hayaboy/ADP_Practical_Exam/blob/main/%EA%B2%B0%EC%B8%A1%EA%B0%92%EC%B2%98%EB%A6%AC.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

결측값 처리 방법 중 평균대치법, 단순확률대치법, 다중대치법에 대해 설명하겠습니다. 각 방법에 대한 설명과 함께 Python 코드 예시를 제공하겠습니다.

1. 평균대치법 (Mean Imputation)
평균대치법은 결측값을 해당 열의 평균값으로 대체하는 방법입니다. 이 방법은 데이터의 분포를 유지하면서 결측값을 채우는 간단한 방법 중 하나입니다.

설명:

결측값이 있는 열의 평균을 계산합니다.
평균값으로 결측값을 대체합니다.
장단점:

장점: 간단하고 이해하기 쉽습니다.
단점: 데이터의 분산을 과소평가할 수 있으며, 실제 분포와 왜곡될 수 있습니다.

In [1]:
import pandas as pd

# 데이터프레임 생성 (예시)
data = {'A': [1, 2, None, 4, 5],
        'B': [None, 2, 3, 4, 5]}
df = pd.DataFrame(data)

# 평균 대치법 적용
df_mean_imputed = df.fillna(df.mean())

print("평균 대치법 적용 결과:")
print(df_mean_imputed)


평균 대치법 적용 결과:
     A    B
0  1.0  3.5
1  2.0  2.0
2  3.0  3.0
3  4.0  4.0
4  5.0  5.0


2. 단순확률대치법 (Single Imputation with Random Sampling)
단순확률대치법은 결측값을 해당 열의 관측값을 기반으로 랜덤하게 선택하여 대체하는 방법입니다. 이 방법은 무작위로 결측값을 채우기 때문에 여러 번 적용할 때마다 다른 결과를 얻을 수 있습니다.

설명:

결측값이 있는 열에서 관측값을 무작위로 선택합니다.
선택된 값으로 결측값을 대체합니다.
장단점:

장점: 데이터의 분산을 유지하면서 결측값을 대체합니다.
단점: 무작위성으로 인해 반복적으로 적용할 때마다 결과가 달라질 수 있습니다.

In [5]:
import pandas as pd
import numpy as np

# 데이터프레임 생성 (예시)
data = {'A': [1, 2, None, 4, 5],
        'B': [None, 2, 3, 4, 5]}
df = pd.DataFrame(data)

# 단순확률대치법 적용
def single_imputation_with_random_sampling(column):
    random_sample = np.random.choice(column.dropna(), size=column.isnull().sum(), replace=True)
    column[column.isnull()] = random_sample
    return column

df_single_imputed = df.apply(single_imputation_with_random_sampling, axis=0)

print("단순확률대치법 적용 결과:")
print(df_single_imputed)


단순확률대치법 적용 결과:
     A    B
0  1.0  3.0
1  2.0  2.0
2  1.0  3.0
3  4.0  4.0
4  5.0  5.0


3. 다중대치법 (Multiple Imputation)
다중대치법은 결측값을 여러 번 대체하여 여러 가지 대체된 데이터 세트를 생성하는 방법입니다. 이 방법은 대체된 여러 데이터 세트를 분석하여 결측값 처리의 불확실성을 고려합니다.

설명:

결측값이 있는 열을 대체하여 여러 번 데이터 세트를 생성합니다.
각 데이터 세트를 분석하여 결과를 통합합니다.
장단점:

장점: 결측값 처리의 불확실성을 고려하여 더 정확한 결과를 얻을 수 있습니다.
단점: 계산 비용이 많이 들 수 있고, 구현하기 어려울 수 있습니다.

In [7]:
from sklearn.impute import SimpleImputer
import numpy as np

# 데이터프레임 생성 (예시)
data = {'A': [1, 2, None, 4, 5],
        'B': [None, 2, 3, 4, 5]}
df = pd.DataFrame(data)

# 다중대치법 적용
def multiple_imputation(data, n):
    imputer = SimpleImputer(strategy='mean')  # 다른 대치 방법을 선택할 수도 있음
    imputed_dfs = []
    for _ in range(n):
        imputed_data = imputer.fit_transform(data)
        imputed_dfs.append(pd.DataFrame(imputed_data, columns=data.columns))
    return imputed_dfs

n = 5  # 생성할 데이터 세트 수
imputed_datasets = multiple_imputation(df, n)

# 결과 출력
for i, df_imputed in enumerate(imputed_datasets):
    print(f"다중대치법 적용 결과 {i+1}:")
    print(df_imputed)


다중대치법 적용 결과 1:
     A    B
0  1.0  3.5
1  2.0  2.0
2  3.0  3.0
3  4.0  4.0
4  5.0  5.0
다중대치법 적용 결과 2:
     A    B
0  1.0  3.5
1  2.0  2.0
2  3.0  3.0
3  4.0  4.0
4  5.0  5.0
다중대치법 적용 결과 3:
     A    B
0  1.0  3.5
1  2.0  2.0
2  3.0  3.0
3  4.0  4.0
4  5.0  5.0
다중대치법 적용 결과 4:
     A    B
0  1.0  3.5
1  2.0  2.0
2  3.0  3.0
3  4.0  4.0
4  5.0  5.0
다중대치법 적용 결과 5:
     A    B
0  1.0  3.5
1  2.0  2.0
2  3.0  3.0
3  4.0  4.0
4  5.0  5.0
