## 결측치 처리
---
### 1. 상수 대체
**사용 예:**
- 데이터 분석 초기에 간단한 대체가 필요한 경우
- 특정 값(예: 0 또는 -1)이 의미 있는 경우
- 데이터의 null 값이 특별한 의미가 없고, 단순히 빈 값으로 처리할 수 있을 때

**예시:**
- 제품의 재고 수량에서 결측값을 0으로 대체하여, 결측값이 있는 경우 해당 제품의 재고가 없음을 의미하도록 할 때
---
### 2. 평균 대체
**사용 예:**
- 연속형 데이터의 결측값을 처리할 때
- 데이터 분포가 정규분포에 가깝고, 평균값이 대표 값을 잘 나타낼 때
- 결측값이 많지 않고, 평균으로 대체해도 큰 왜곡이 없을 때

**예시:**
- 학생들의 시험 점수에서 결측값을 평균 점수로 대체하여, 전체 성적 분포를 유지하고자 할 때
---
### 3. 중간값 대체
**사용 예:**
- 데이터에 극단값(outliers)이 존재하여 평균이 대표 값을 잘 나타내지 못할 때
- 데이터가 비대칭적으로 분포되어 있을 때
- 연속형 데이터에서 중앙값이 더 적합한 대표 값일 때

**예시:**
- 가구 소득 데이터에서 결측값을 중간값으로 대체하여, 소득 분포의 왜곡을 최소화할 때
---
### 4. 최대값 대체
**사용 예:**
- 데이터의 특정 값이 매우 중요한 의미를 가질 때
- 결측값이 발생한 경우 최대값을 대체하는 것이 의미가 있을 때
- 데이터 분석 목적상 최고 값을 기준으로 결측값을 대체하는 것이 적절할 때

**예시:**
- 판매량 데이터에서 결측값을 최대 판매량으로 대체하여, 최악의 시나리오를 가정하고자 할 때
---
### 5. 최소값 대체
**사용 예:**
- 데이터의 특정 값이 매우 중요한 의미를 가질 때
- 결측값이 발생한 경우 최소값을 대체하는 것이 의미가 있을 때
- 데이터 분석 목적상 최저 값을 기준으로 결측값을 대체하는 것이 적절할 때

**예시:**
- 온도 데이터에서 결측값을 최소 온도로 대체하여, 최악의 시나리오를 가정하고자 할 때
---
### 6. 최빈값 대체
**사용 예:**
- 범주형 데이터의 결측값을 처리할 때
- 특정 범주의 빈도가 매우 높아 그 값으로 대체하는 것이 자연스러울 때
- 데이터가 명목형 또는 순서형일 때

**예시:**
- 고객 선호 색상 데이터에서 결측값을 가장 많이 선택된 색상으로 대체하여, 분석 결과의 신뢰성을 높일 때
---
### 7. 선행값 대체
**사용 예:**
- 시계열 데이터의 결측값을 처리할 때
- 연속된 데이터에서 결측값이 이전 값과 동일할 가능성이 높을 때
- 결측값이 발생한 경우 이전 상태를 유지하는 것이 적절할 때

**예시:**
- 주식 가격 데이터에서 결측값을 이전 날의 가격으로 대체하여, 일시적인 데이터 손실을 보완할 때
---
### 8. 후행값 대체
**사용 예:**
- 시계열 데이터의 결측값을 처리할 때
- 연속된 데이터에서 결측값이 이후 값과 동일할 가능성이 높을 때
- 결측값이 발생한 경우 이후 상태를 유지하는 것이 적절할 때

**예시:**
- 센서 데이터에서 결측값을 이후의 값으로 대체하여, 센서가 정상 작동을 재개한 이후의 데이터를 신뢰할 때

## 1. Pandas 메소드를 활용한 결측치 처리

- **상수 대체**: 도메인 지식이 있거나 null값을 명확히 구분하고자 할 때 사용.
- **평균 대체**: 데이터가 정규분포를 따르고, 극단값이 없는 경우 사용.
- **중간값 대체**: 극단값의 영향을 줄이고자 할 때 사용.
- **최빈값 대체**: 범주형 변수의 null값을 대체하거나, 특정 값이 자주 나타나는 경우 사용.

In [21]:
import pandas as pd
import numpy as np

col_a = [np.random.randint(10) for _ in range(1,20)] + [np.nan]*2
col_b = [np.random.randint(10)*13 for _ in range(1,20)] + [np.nan]*2
col_c = [np.random.randint(10)*47 for _ in range(1,20)] + [np.nan]*2

In [27]:
# 샘플 데이터 생성
# np.random.seed(42)
data = {
    'A': np.random.choice(col_a, 50),
    'B': np.random.choice(col_b, 50),
    'C': np.random.choice(col_c, 50)
}
df = pd.DataFrame(data)

# 데이터프레임 출력
df.isnull().sum()

A    5
B    6
C    4
dtype: int64

In [29]:
import pandas as pd

df = pd.read_csv("./dataset/null.csv")

In [30]:
df.mode()

Unnamed: 0,A,B,C
0,3.0,0.0,141.0
1,,,329.0


In [None]:
## 상수 대체
### limit -> 각 레이블값에 대해서 결측치 변경을 수행할 횟수 / 행 기준일경우 왼쪽부터, 열 기준일 경우 위에서부터 수행
df_cons = df.fillna(0, limit=3)

# 평균으로 결측값 대체
df_mean = df.fillna(df.mean())
print(df_mean)

## 중간값 대체
df_median = df.fillna(df.median())
print(df_median)

## 최대/최소값 대체
df_max = df.fillna(df.max())
df_min = df.fillna(df.min())

## 최빈값 대체 -> dataframe의 최빈값을 구해주는 mode() 함수 사용
df_mode = df.fillna(df.mode().iloc[0])
print(df_mode)

In [None]:
## 선행값 대체

df_ffill = df.fillna(method='ffill')
print(df_ffill)

## 후행값 대체

df_bfill = df.fillna(method='bfill')
# print(df_bfill)

## 2. Sklearn 메소드를 활용한 결측치 처리
- **SimpleImputer()**
  - missing_values: 결측치 처리를 할 데이터 타입
  - strategy: default = 'mean', 'median', 'most_frequent', 'constant'
  - fill_value: 결측치를 채우는 값 (option: str or numerical value, default=None)
  - copy: 복사본을 만들어서 결측치 처리를 할지의 여부 (option: bool, default = True)

In [14]:
from sklearn.impute import SimpleImputer
import numpy as np

# 평균으로 결측값 대체
imputer = SimpleImputer(strategy='mean')
data_imputed = imputer.fit_transform(df)
print(data_imputed)

[[4.         2.         4.        ]
 [5.         5.         1.        ]
 [3.8        4.         4.        ]
 [5.         3.5        3.42857143]
 [5.         3.5        3.42857143]
 [2.         3.         1.        ]
 [3.8        3.         3.42857143]
 [3.8        2.         5.        ]
 [3.8        4.         3.42857143]
 [5.         4.         4.        ]
 [4.         3.         4.        ]
 [3.8        4.         4.        ]
 [5.         4.         4.        ]
 [2.         3.5        5.        ]
 [4.         3.         3.        ]
 [2.         5.         1.        ]
 [4.         3.         4.        ]
 [5.         5.         3.42857143]
 [1.         3.5        4.        ]
 [4.         2.         3.42857143]]
