# 데이터 변환 (Data Transformation)

* 데이터 변환은 데이터 분석에 적절한 형태로 데이터를 바꾸는 전처리 작업을 의미

* 데이터 변환 방법
    - 평활(Smoothing): 데이터로부터 잡음을 제거. 구간화(binning), 회귀(regression), 군집화(clustering) 등이대표적 기법
    - 집계(Aggregation): 그룹화 연산을 데이터에 적용 (일일 판매 데이터를 월별 또는 연도별로 그룹화하는기법으로 주로 데이터 큐브를 구축하는 데 사용)

    - 속성 구성(Allribule Conslruclion): 주어진 속성 집합으로부터 새로운 속성을 구성하는 기법

    - **정규화(Normalization)**: 데이터를 정해진 구간 내에 존재하도록 변환시키는 기법

    - **이산화(Discretization)**: 수치형 속성의 원시값raw-value을 구간 라벨로 대체하거나 개념적인 라벨로 대체하는 기법
    - **개념 계층(Conceptual Hierarchy)**: 도로명과 같은 속성을 시나 국가와 같은 상위 레벨 개념으로 일반화시키는 기법 (많은 명목형 속성들이 암시적인 개념 계층을 가지고 있음)


## 정규화(Normalization)

* 정규화는 속성값으로 -1.0 ~ 1.0과 같이 정해진 구간 내에 들도록 하는 기법

* 최단 근접 분류와 군집화와 같은 거리 측정 등을 위해 특히 유용

![image.png](attachment:image.png)

https://www.slideshare.net/nsrivast/data-analytics-club-data-visualization-workshop

### 최소-최대 정규화(min-max normalization)

* 원본 데이터에 대하여 선형 변환 수행
* 속성 A에 대한 최소값과 최대값을 ming 와 max, 라고 가정
* A의 값은 다음 계산식에 의해 v를 구간 에서의 값 v으로 사상

![image.png](attachment:image.png)

* 최소-최대 정규화는 **원본 데이터 값들 간의 관계**를 보존
* 정규화를 위한 입력이 A에 대한 원분 데이터 구간에서 벗어난 경우는 범위 초과(out-of-bounds) 오류 발생

<div> <img align='left' src='https://www.researchgate.net/publication/282541174/figure/fig1/AS:307388692353061@1450298583749/Min-max-method-of-normalization_W640.jpg' width='600' /> </div>

출처https://www.researchgate.net/publication/282541174/figure/fig1/AS:307388692353061@1450298583749/Min-max-method-of-normalization_W640.jpg

### Z-score 정규화(Z-score normalization)

* 속성 A에 대한 값을 A의 평균과 표준편차를 기초로 정규화하는 방법
* $\bar{A}$와 $\sigma_{A}$를 A의 평균과 표준편차라고 가정
* A의 값 $v$는 다음 계산식에 의해 $v^\prime$에 사상
![image.png](attachment:image.png)

* Z-score 정규화는 속성 A의 실제 최소값과최대값이 알려져 있지 않거나, 최소-최대정규화에 큰 영향을 주는 이상치가 존재
할 때 유용

![image.png](attachment:image.png)

출처 https://upload.wikimedia.org/wikipedia/commons/2/25/The_Normal_Distribution.svg

### 소수 척도화(decimal scaling)

* 속성 A 값들의 소수점을 이동해서 정규화
* 이동되는 소수점의 수는 A의 최대 절대값에 의존
* Max($\left\vert v^\prime \right\vert$) < 1을 만족하는 가장 작은 정수를 j라고 가정
* A의 값 v는 다음 계산식에 의해 $v^\prime$로 사상
![image-2.png](attachment:image-2.png)

## 수치형 데이터 이산화(numeric data discretization)

<div> <img align='left' src='attachment:image.png' width='600' /> </div>

- 구간화(binning)
- 히스토그램(histogram)
- 엔트로피-기반 이산화
- 카이제곱 $\chi^2$ 결합
- 군집 분석 (cluster analysis)
- 직관적 분할에 의한 이산화

### 엔트로피-기반 이산화(entropy-based discretization)

* Top-down 방식의 이산화 기법
* 분할점들의 결정과 계산을 위해 클래스 분포 정보를 탐색
* 수치형 속성 A의 값들을 분할하기 위하여 분할점으로 최소 엔트로피를 갖는 A의 값을 선택
* 계층적 이산화를 달성하기 위하여 그 결과 구간을 분할
* 이러한 방식을 통해 속성 A의 개념 계층 생성

#### 엔트로피-기반 이산화 절차

![image.png](attachment:image.png)

## 카이제곱 $\chi^2$ 결합

* 대부분의 이산화 기법들이 top-down 분할 방식을 적용하는 것과는 달리 카이제곱  $\chi^2$  결
합기법은 가장 가까운 이웃 구간을 찾아내고 이들을 결합하여 더 큰 구간을 형성시키는
bottom-up 방식을 적용

* 엔트로피-기반 이산화와 같이 클래스 정보를 활용한다는 측면에서 지도(supervised) 기법

* 카이제곱 $\chi^2$ 결합 기법의 핵심 개념은 정교한 이산화를 위해 클래스 상대도수가 구간에 매우 일관성이 있어야 함

* 만약 두 개의 이웃 구간들이 매우 유사한 분포를 가진다면 그 구간들은 결합되고, 그렇지 않으면 분리된 상태로 둠

*  $\chi^2$ 통계량은 주어진 속성에 대한 “두 개의 이웃 구간들의 독립이다" 라는 가설 검정

* 데이터 분할표를 구성하면 분할표는두 개의 이웃 구간을 의미하는 두 개의 열과 m개의 행을 가짐

* 값 $o_{ij}$는 i번째 구간의 j번째 클래스에 해당하는 튜플들의 수

* 유사하게 $o_{ij}$의 기대빈도수 $e_{ij}$는 (구간 $i$의 튜플 수)x(클래스 $j$의 튜플 수)/N이며, 여기서 N은 데이터 튜플의 총 수

* 한 구간 쌍에 대해 낮은 $\chi^2$ 값은 '구간들의 클래스와 독립' 이라는 것을 의미하고 그 구간
들이 결합할 수 있다는 것을 의미

* 정지 규칙은 세 가지 조건 중 하나에 의해 결정
    1. 모든 인접 구간들에 대한  $\chi^2$ 값들이 유의수준에 의해 설정된 임계치를 초과
    2. 구간의 개수가 사전 정의된 최대-구간 내로 들어옴
    3. 상대도수가 구간 내에서 일치(또는 사전 허용 오차 범위 내)

## 직관적 분할에 의한 이산화

* 직관적 분할의 대표적인 기법 3-4-5 규칙

* 3-4-5 규칙은 데이터의 주어진 범위를 '가장 큰 유효숫자(most significant digit)'에서의 값의 범위를 토대로, 재귀적(recursively) 그리고 수준별로 3, 4, 5개의 비교적 동일한 폭의 구간들로 분할

* 어떤 구간이 가장 큰 유효숫자에서 3, 6, 7, 9개의 개별 값들을 포함한다면, 그 범위를 세개의 동일 폭 구간들로 분할, 7에 대해서는 2-3-2로 묶인 세 개의 구간으로 분할

* 어떤 구간이 가장 큰 유효숫자에서 2, 4, 8개의 개별 값들을 포함한다면, 그 범위를 네 개의 동일 폭 구간들로 분할

* 어떤 구간이 가장 큰 유효숫자에서 1,5, 10개의 개별 값들을 포함한다면, 그 범위를 다섯개의 동일 폭 구간들로 분할

## 범주형 데이터 개념 계층

범주형 데이터는 기본적으로 이산 데이터로서 값들 사이에 순서가 없는 유한개의 구별값을 가짐

![image.png](attachment:image.png)

### 범주형 데이터 개념 계층 생성 방법

* 스키마 단계에서의 명시적 생성
    - 스키마 수준에서 속성들의 개념 계층 정의
    - 주소의 경우, 스키마 수준에서 '동 <기초시군구 < 광역시도< 국가'를 정함
* 명시적 그룹화에 의한 일부 생성
    - 개념 계층의 일부를 수동으로 정의
    - [서울특별시, 경기도, 인천광역시] $\subset $ 수도권, [전라북도, 전라남도, 광주광역시] C 호남권
* 속성들의 개념 계층을 자동 생성
    - 개념 계층은 일반적으로 상위 개념 수준이 몇 개의 하위 개념 수준을 포함하므로, 상위 수준의 개념 수가 하위 수준의 개념 수보다 적음
    - 각 수준에서의 구별 값들의 개수를 근거로 상위와 하위의 순서를 자동으로 정하여 개념 계층 생성
* 속성들의 부분 집합만을 생성
    - 개념 계층의 생성 시에 관련 속성들의 일부만 사용하는 방식
    - 주소에 대해서 동과 기초시군구 만을 사용하여 개념 계층 생성