## 결측치 처리

### 1. 상수 대체
**사용 예:**
- 데이터 분석 초기에 간단한 대체가 필요한 경우
- 특정 값(예: 0 또는 -1)이 의미 있는 경우
- 데이터의 null 값이 특별한 의미가 없고, 단순히 빈 값으로 처리할 수 있을 때

**예시:**
- 제품의 재고 수량에서 결측값을 0으로 대체하여, 결측값이 있는 경우 해당 제품의 재고가 없음을 의미하도록 할 때

### 2. 평균 대체
**사용 예:**
- 연속형 데이터의 결측값을 처리할 때
- 데이터 분포가 정규분포에 가깝고, 평균값이 대표 값을 잘 나타낼 때
- 결측값이 많지 않고, 평균으로 대체해도 큰 왜곡이 없을 때

### 3. 중간값 대체
**사용 예:**
- 데이터에 극단값(outliers)이 존재하여 평균이 대표 값을 잘 나타내지 못할 때
- 데이터가 비대칭적으로 분포되어 있을 때
- 연속형 데이터에서 중앙값이 더 적합한 대표 값일 때

### 4. 최대값 대체
**사용 예:**
- 데이터의 특정 값이 매우 중요한 의미를 가질 때
- 결측값이 발생한 경우 최대값을 대체하는 것이 의미가 있을 때
- 데이터 분석 목적상 최고 값을 기준으로 결측값을 대체하는 것이 적절할 때

**예시:**
- 판매량 데이터에서 결측값을 최대 판매량으로 대체하여, 최악의 시나리오를 가정하고자 할 때
---
### 5. 최소값 대체
**사용 예:**
- 데이터의 특정 값이 매우 중요한 의미를 가질 때
- 결측값이 발생한 경우 최소값을 대체하는 것이 의미가 있을 때
- 데이터 분석 목적상 최저 값을 기준으로 결측값을 대체하는 것이 적절할 때

**예시:**
- 온도 데이터에서 결측값을 최소 온도로 대체하여, 최악의 시나리오를 가정하고자 할 때

### 6. 최빈값 대체
**사용 예:**
- 범주형 데이터의 결측값을 처리할 때
- 특정 범주의 빈도가 매우 높아 그 값으로 대체하는 것이 자연스러울 때
- 데이터가 명목형 또는 순서형일 때

### 7. 선행값 대체
**사용 예:**
- 시계열 데이터의 결측값을 처리할 때
- 연속된 데이터에서 결측값이 이전 값과 동일할 가능성이 높을 때
- 결측값이 발생한 경우 이전 상태를 유지하는 것이 적절할 때

**예시:**
- 주식 가격 데이터에서 결측값을 이전 날의 가격으로 대체하여, 일시적인 데이터 손실을 보완할 때


### 7. 선행값 대체
**사용 예:**
- 시계열 데이터의 결측값을 처리할 때
- 연속된 데이터에서 결측값이 이전 값과 동일할 가능성이 높을 때
- 결측값이 발생한 경우 이전 상태를 유지하는 것이 적절할 때

**예시:**
- 주식 가격 데이터에서 결측값을 이전 날의 가격으로 대체하여, 일시적인 데이터 손실을 보완할 때
---
### 8. 후행값 대체
**사용 예:**
- 시계열 데이터의 결측값을 처리할 때
- 연속된 데이터에서 결측값이 이후 값과 동일할 가능성이 높을 때
- 결측값이 발생한 경우 이후 상태를 유지하는 것이 적절할 때

**예시:**
- 센서 데이터에서 결측값을 이후의 값으로 대체하여, 센서가 정상 작동을 재개한 이후의 데이터를 신뢰할 때

      A      B      C
0   5.0    0.0  376.0
1   3.0    0.0   94.0
2   3.0   91.0  141.0
3   3.0   78.0  141.0
4   2.0  104.0  376.0
5   3.0    0.0  329.0
6   5.0   13.0  376.0
7   5.0   13.0  235.0
8   8.0   91.0  141.0
9   2.0   52.0  235.0
10  3.0   13.0  282.0
11  0.0   52.0  376.0
12  3.0   52.0  329.0
13  0.0  104.0  329.0
14  3.0  104.0  376.0
15  9.0   78.0  188.0
16  3.0   91.0  376.0
17  3.0   13.0  188.0
18  3.0  104.0  141.0
19  3.0    0.0  141.0
20  3.0   13.0  329.0
21  3.0   91.0  329.0
22  9.0   26.0  141.0
23  5.0    0.0   94.0
24  1.0  117.0  376.0
25  5.0   13.0  141.0
26  3.0  104.0  188.0
27  0.0    0.0  329.0
28  3.0    0.0    0.0
29  3.0    0.0  329.0
30  3.0   13.0  141.0
31  1.0   78.0   94.0
32  1.0   91.0   94.0
33  0.0    0.0  329.0
34  3.0   78.0  329.0
35  3.0    0.0  141.0
36  0.0    0.0  282.0
37  1.0   78.0  282.0
38  1.0   78.0  188.0
39  9.0   13.0    0.0
40  8.0   52.0  188.0
41  5.0    0.0   94.0
42  2.0    0.0  329.0
43  3.0   13.0  329.0
44  8.0   

  df_ffill = df.fillna(method='ffill')
  df_bfill = df.fillna(method='bfill')


### 8. 후행값 대체
**사용 예:**
- 시계열 데이터의 결측값을 처리할 때
- 연속된 데이터에서 결측값이 이후 값과 동일할 가능성이 높을 때
- 결측값이 발생한 경우 이후 상태를 유지하는 것이 적절할 때

**예시:**
- 센서 데이터에서 결측값을 이후의 값으로 대체하여, 센서가 정상 작동을 재개한 이후의 데이터를 신뢰할 때

## 2. Sklearn 메소드를 활용한 결측치 처리
- **SimpleImputer()**
  - missing_values: 결측치 처리를 할 데이터 타입
  - strategy: default = 'mean', 'median', 'most_frequent', 'constant'
  - fill_value: 결측치를 채우는 값 (option: str or numerical value, default=None)
  - copy: 복사본을 만들어서 결측치 처리를 할지의 여부 (option: bool, default = True)