# Fastcampus
## 데이터 전처리
### 개요
데이터 전처리 = 데이터의 특성을 이해하고 수정하여 품질을 향상시키는 과정  
따라서 데이터 분석(EDA)가 무조건 필요하다.  
1. 데이터 전처리는 편향을 제거하며, 이를 통해 신뢰성 높은 모델을 제작 가능하다.  
- 선형회귀 모델 및 거리기반 알고리즘(KNN)은 결측치 및 이상치에 영향  
2. 알고리즘 모델 성능에 영향을 끼치는 중요 변수나 패턴을 찾기가 용이
- 알고리즘 모델에 있어서 중요한 변수나 패턴을 찾는 일은 모델의 복잡도를 낮추고, 과적합을 방지하는 역할
3. 데이터 시각화가 용이하여 데이터 및 모델 해석에 있어서 편리함 제공
- 데이터 전처리 및 탐색 과정에서 데이터 시각화는 필수적으로 선행
- 데이터 전처리는 분포 및 특성을 시각적으로 올바르게 표현하여 잠재적 정보 탐색이나 문제를 발견할 수 있음

### 데이터의 종류
#### 정형 데이터
행과 열이 있는 테이블로 이루어진 정형 데이터 및 테이블  
관측값을 나타내는 행(Row)과 속성(Attribute)을 나타내는 열(column)로 구성  
#### 비정형 데이터  
구조화 되지 않은 데이터
### 변수
측정하거나 게산할 수 있는 특성, 숫자, 수량을 의미  
-시간이 지남에 따라 값들이 변경되기에 변수라고 명명  
#### 연속형변수
소수점을 가지는 변수(실수 범위 내에서 수치로 표현 가능한 연속적인 값을 가지는 변수)  
#### 명목형 변수
범주로 표현할 수 있는 변수, 변수간 순서나 등급이 존재하지 않으며, 동등하고 독립적인 형태(종목과 같이 범줄 표현)

### 결측치
데이터에서 누락된 관측치  
데이터의 손실과 더불어, 분포를 왜곡시켜 편향을 야기시키는 원인이 됨.  
NaN/NULL/Empty/? 등의 값으로 표현됨.  
#### 결측치 매커니즘
1. 완전 무작위 결측(MCAR: Missing Completely At Random)
- 결측치가 다른 변수와 상관 없이 무작위로 발생하는 경우  
- 관측치와 결측치 모두 결측 원인과 독립 (완전 무작위로 발생함)  
- 센서의 고장, 전상 오류 등의 이유로 발생  
2. 무작위 결측(MAR: Missing At Random)
- 결측치가 해당 변수와는 무관하나, 다른 변수와 연관되어 있는 경우  
- 다른 변수의 관측치와 연관되어 있기 때문에 예측 모델을 통해 대체가능  
- ex. 몸무게에 결측치가 생겼을 때, 키를 보고 어느정도 예측할 수 있음.  
3. 비무작위 결측 (MNAR: Missing Not At Random)
- 결측 원인이 해당 변수와 연관되어 발생
- 몸무게가 비교적 높은 응답군에서 결측이 많이 발생(몸무게가 높은 사람들이 자신의 몸무게를 숨기기 때문)
#### 결측치 패턴
1. 일변량 결측 패턴(univariate Pattern)
- 하나의 변수에서만 결측치가 발생
- 다른 변수와는 연관성이 없는 형태
2. 단조 결측 패턴(Monotone Pattern)
- 일정하고 단조적인 패턴으로 결측치가 발생
- 임상실험과 같은 종단 연구에서 많이 발생
- ex) 나이에 따른 사망, 악화 등 일정 개체에서 중도 탈락이 발생
3. 일반 결측 패턴(General & Non-Monotone Pattern)
- 단조적이지 않은 형태의 결측치
- 다른 변수와의 관게에 따라 나타날 수 있는 비선형 결측 패턴 형태
4. 규칙 결측 패턴(Planned Pattern)
- 결측의 원인이 일정한 패턴 및 규칙에 따라 발생
#### 결측치 처리
##### 삭제
- 장점 : 결측치를 처리하기가 편리하고, 결측치가 데이터 왜곡의 원인이라면, 삭제로 인한 왜곡 방지와 알고리즘 모델 성능 향상 기대
- 단점 : 결측치에도 데이터 특성잉 유효한 경우가 존재하고, 삭제된 데이터로 인해 남은 데이터의 편향이 만들어질 가능성, 관측치의 정보가 줄어들게 되므로 알고리즘 모델에 악영향
1. 목록 삭제(Listwise Deletion)
- 변수에 결측치가 존재하는 해당 행(Row) 제거  
- 모든 변수가 결측치 없이 채워진 형태의 행만 분석 및 모델링에 활용
- 의미를 가진 결측치를 함부로 제거하면 편향이 발생할 가능성이 높음
- 너무 많은 데이터가 사라짐.
2. 열 삭제(Dropping Columns & Features)
- 변수에 결측치가 존재하는 해당 열을 제거
##### 대체
결측치를 관측치의 통계값(평균값, 최빈값, 중앙값)으로 대체
장점: 대체된 값은 데이터의 통계 특성을 반영하므로 정보를 안정적으로 보존할 수 있다.
단점: 통계값으로 인해 변수의 분산이 감소하여 변수간 상관관계가 낮아지는 문제가 발생한다.
1. 회귀 대체(Regression)
- 변수간의 관계를 파악 후, 예측하여 결측치를 대체하는 방식
- 장점: 변수간의 연관성을 활용해 결측치를 예측하기 때문에 많은 데이터 정보를 활용 가능  
        삭제 및 대체 방법에 비해 실제 데이터와 유사 가능성이 높음
### 이상치
변수의 분포상 비정상적으로 극단적이며, 일반적인 데이터 패턴을 벗어나는 관측치  
데이터의 전송오류, 위변조 해팅, 수집기기의 오작동 등으로 이상치 발생  
#### 이상치의 종류
1. 상황적 이상치
- 정상적인 데이터 패턴이라도 상황에 따라 이상치로 변환되는 형태
- 상황은 주로 시점에 따라 바뀌기 때문에 시게열 데이터에서 주로 나타나는 케이스
2. 집단적 이상치
- 데이터 분포에서 집단적으로 편차가 이탈되어 이상치로 간주
- 관측치 개별로 보았을 때는 이상치처럼 보이지 않음
- ex) 스팸 메일은 일반 메일과 형태가 유사하지만 정상적이지 못한 메일
#### 이상치 탐지
1. Z-Score
- 평균으로부터의 표준편차 거리 단위를 측정하여 이상치를 탐지하는 방법
- Z 값이 2.5~3 정도 수치가 나오면 이상치로 판별
- 장점: 데이터에서 이상치를 간단하게 탐지가능
- 단점: 데이터가 정규분포를 따르지 않을 경우 효과적이지 않음.
2. IQR
- 상위 75%와 하위 25%사이의 범위
- 최극단의 이상치로 판단하여 처리
- 장점 : 직관적, 백분위수를 사용하므로 이상치에 강건함.
- 단점 : 왜도가 심하거나 정규분포를 따르지 않을 경우 제대로 작동 x
#### 이상치 처리 방식
1. 삭제
- 이상치에 해당하는 데이터 포인트를 제거
- 이상치는 도메인 지식에 기반하여 객관적인 상항에 맞게 제거하는것이 필요
2. 대체
- 통게치(평균, 중앙, 최빈)으로 이상치를 대체
- 상한값, 하한값 정해 놓고 이상치가 경계를 넘어갈 때 대체
- 회귀 및 KNN 등의 거리기반 알고리즘 등을 통해 이상치를 에측 및 대체하는 방식도 존재
3. 변환
- 변수 내에서 매우 큰 값을 가진 이상치를 완화시킬 수 있는 방법
- 이외에도 제곱근 변환으로 대체하여 사용가능

## 연속형 변수 다루기
### 함수 변환
#### 로그변환
- 비대칭 된 임의의 분포를 정규분포에 가깝게 전환시키는데 도움  
- 데이터의 정규성은 모델(회귀의 성능을 향상시키는데 도움  
- 데이터의 스케일을 작게 만들어 데이터 간의 편차를 줄이는 효과  
- 데이터의 이상치 완화에도 효율적이지만 0이나 음수를 적용하는 것이 불가능

#### 제곱근 변환
- 변수에 제곱근을 적용하여 전환  
- 제곱근 변환의 효과는 로그변환과 유사(정규성, 선형관계 생성, 데이터 스케일 축소, 이상치 제거)  
- 로그변환과의 차이점은 변환시 데이터 편자의 강도가 다른다. 비대칭이 강하면 로그변환을, 약한 경우 제곱근변환을 사용.  
- 왼쪽으로 치우쳐진 데이터 분포에 활용시 더 치우치는 부작용이 발생

#### Box-Cox 변환
- 람다 파라미터 값을 통해 다양한 변환을 하는 방법
- 목적에 맞게 최적 람다 파라미터 값을 찾는 것이 중요

### 스케일링
- 스케일링을 통해 동일한 수치 범위로 변경(중요도 조절 때문에 그럼, 토익 110점이 영어90점보다 똑똑하게 될까봐)
- 독립변수들의 영향력을 동등하게 변환시켜 KNN과 같은 거리기반 알고리즘에 효과

#### Min-Max 스케일링
- 연속형 변수의 수치 범위를 0-1 사이로 전환
- 각기 다른 연속형 변수의 수치범위를 통일할 때 사용
- 최소, 최대값을 기준으로 데이터의 상대적 위치를 구성
- MIN MAX가 무엇이냐에 따라 이상치에 취약한 부분이 존재 (0~30까지 범위에 99%가 몰려있고 100에 한개의 이상치가 있을 경우)

#### 표준화 
- 변수의 수치범위를 평균이 0, 표준편차가 1이 되돌고 변경 (Z-score)
- 평균과의 거리를 표주편차로 나누기 = 평균에 가까워질수록 0으로, 멀어질수록 큰 값으로 변환
- 정규화와 마찬가지로 편수들의 추치범위를 축소시키기 때문에 거리기반 알고리즘에서 강점을 보임

#### 로버스트 스케일링
- IQR을 기준으로 변환
- 중앙값에 가까워질수록 0으로, 중앙값에서 멀어질수록 큰 값으로 변환
- 평균대신 중앙값을 사용해 이상치에 조금더 강한 모습을 보임

### 구간화
#### 개요
- 수치형 변수를 범주형 변수로 전환 -> 학습모델의 복잡도가 줄어듦

#### 특징
- 등간격(동일길이), 등빈도(동일 개수)로 나누어 구간화를 진행
- 수치 값들이 기준에 따라 범주로 통일되기 때문에 이상치를 완화 할 수 있다.
- 데이터의 '구분'이 가능해지기 때문에 데이터 및 모델 해석에 용이

## 범주형 변수 다루기
### 원-핫 인코딩
1. 개요
- 범주 변수를 0과 1로만 구성된 이진(binary) 벡토 형태로 변환하는 방법
- 고유 범주 변수 크기와 동일한 이진 벡터를 생성
- 범주에 해당하는 값만 1설정, 나머지는 모두 0으로 변환
2. 장점
- 변수의 이진화를 통해 컴퓨터가 인식하는 것에 적합
- 알고리즘 모델이 변수의 의미를 정확하게 파악 가능
3. 단점
- 고유 범주 변수의 크기가 늘어날 때마다 희소 벡터 차원이 늘어나는 문제점이 존재
- 벡터의 차원이 늘어나면 메모리 및 연산에 악영향
- 차원의 저주 발생

### 레이블 인코딩
1. 개요
- 이진 벡터로 표현하는 원-핫 인코딩과 다르게 각 범주를 정수로 표현
- 하나의 변수로 모든 범주 표현이 가능하다.
- 순서(ordinal)가 존재하는 변수들에 적용할 경우 효율적
2. 장점
- 범주당 정수로 간단하게 변환가능
- 메모리 관리 측면에서 효율적
3. 단점
- 순서가 아닌 값을 순서로 인식할 가능성 존재
### 빈도 인코딩
1. 개요
- 고유 범주의 빈도값을 인코딩
- 빈도가 높을수록 높은 정숫값을, 빈도가 낮을수록 낮은 정숫값을 부여받는 형태
2. 장점
- 빈도라는 수치적인 의미를 변수에 부여 가능
- 하나의 변수로 표현 가능해 메모리 관리 효율적
3. 단점
- 다른 특성의 의미를 지니고 있어도 빈도가 같으면, 다른 범주간 의미가 동일하게 인식될 가능성 존재(레이블 인코딩과 같이 사용해 이를 극복할 수도 있다.)

### 타겟 인코딩
1. 개요
- 특정 타겟 변수를 통계량으로 인코딩하는 방식
- 범주형 변수가 연속적인 특성을 가진 값으로 변환
2. 장점
- 범주간 수치적인 의미를 변수에 부여가능
- 타겟 변수라는 추가적인 정보를 가진 변수에 의존하므로 추가된 정보를 알고리즘에 입력 가능
- 하나의 변수로 표현 가능해 메모리 관리 측면에서 효율적
3. 단점
- 타겟 변수에 이상치가 존재하거나, 타겟 변수의 범주 종류가 소수라면 과적합 가능성 존재
- 학습과 검증데이터를 분할했을 때, 타겟 변수 특성이 학습 데이터셋에서 이미 노출되었기 때문에 Data-Leakage 발생생
4. 과적합 방지
- 스무딩(Smoothing) : 전체 데이터셋의 평균에 가깝게 전환
- K-Fold(교차검증)  : 데이터 샘플 내에서도 다시 여러 데이터 샘플로 재구성하여 각각 샘플을 타겟 인코딩을 하는 방식

# 