# 정규화

## 정규화(Normalization) 

- 정규화는 데이터의 일관성, 최소한의 데이터 중복, 최대한의 데이터 유연성을 위한 방법이며 데이터를 분해하는 과정 
- 정규화는 데이터 중복을 제거하고 데이터 모델의 독립성을 확보하기 위한 작업 

## 정규화 절차 

1. 제 1 정규화(1NF) : 속성(Attribute)의 원자성을 확보한다. 기본키(Primary)를 설정한다. 
2. 제 2 정규화(2NF) : 기본키가 2개 이상의 속성으로 이루어진 경우, 부분 함수 종속성을 제거한다. 
3. 제 3 정규화(3NF) : 기본키를 제외한 컬럼간에 종속성을 제거한다. 이행 함수 종속성을 제거한다. 
4. BCNF : 기본키를 제외하고 후보키가 있는 경우, 후보키가 기본키를 종속시키면 분해한다. 
5. 제 4 정규화(4NF) : 여러 칼럼들이 하나의 칼럼을 종속시키는 경우 분해하여 다중값 종속성을 제거한다. 다체 종속을 제거함. \
6. 제 5 정규화(5NF) : 조인에 의해서 종속성이 발생되는 경우 분해함. 

## 함수 종속성 

**1) 제 1 정규화**
- 정규화는 함수적 종속성을 근거로 한다. 함수적 종속성이란 $X \to Y$이면, Y는 X에 함수적으로 종속된다고 말한다. 
- 기본키를 잡는 것이 제1 정규화이다. 

**2) 제 2 정규화**
- 부분 함수 종속성이란, 기본키가 2개 이상의 칼럼으로 이루어진 경우에만 발생함. 
- 기본키가 하나의 칼럼으로 이루어지면 제 2 정규화는 생략함. 

**3) 제 3 정규화**
- 제 3 정규화는 이행 함수 종속성을 제거함. 이행 함수 종속성이란, 기본키를 제외하고 칼럼간에 종속성이 발생하는 것.

# 정규화의 성능 

## 정규화의 문제점 
- 정규화는 테이블을 분해해서 데이터 중복을 제거하기 때문에 데이터 모델의 유연성을 높인다. 
- 정규화는 데이터 조회시에 조인을 유발하기 때문에 CPU와 메모리를 많이 사용한다. 
- 조인연산은 서로 다른 테이블의 같은 키를 기준으로 데이터를 찾는다. 이는 중첩 루프를 발생시킨다. 

## 정규화를 사용한 성능 튜닝 
- 조인으로 인하여 성능이 저하되는 문제를 반정규화로 해결 가능. 
- 반정규화는 데이터를 중복시키기 때문에 또 다른 문제를 야기함. 

# 반정규화

## 반정규화(De-Normalization) 
- 데이터베이스의 성능 향상을 위하여, 데이터 중복을 허용하고 조인을 줄이는 데이터베이스 성능 향상 기법 
- 반정규화는 SELECT 속도를 향상하지만, 데이터 모델의 유연성은 낮아진다. 

## 반정규화를 수행하는 경우 
- 정규화에 충실하면 종속성, 활용성은 향상되지만 수행속도가 느려지는 경우 
- 다량의 범위를 자주 처리해야 하는 경우
- 특정 범위의 데이터만 자주 처리하는 경우 
- 요약/집계 정보가 자주 요구되는 경우 

## 반정규화 기법 
**1) 계산된 칼럼 추가** 
- 배치 프로그램으로 총 판매액, 평균 잔고, 계좌 평가 등을 미리 계산하고, 그 결과를 특정 칼럼에 추가한다. 

**2) 테이블 수직 분할**
- 하나의 테이블을 두 개 이상의 테이블로 분할한다. 즉, 컬럼을 분할하여 새로운 테이블을 만든다. 
- 특정 테이블에서 특정 컬럼만 추출하는 경우에 DISK I/O를 경감할 수 있는 반정규화 기법 

**3) 테이블 수평 분할**
- 하나의 테이블에 있는 값을 기준으로 테이블을 분할하는 방법. 
- 데이터 조회시에 엑세스 범위가 줄어들기 때문에 성능이 향상됨. 
- 데이터가 분할되어 있기 떄문에 I/O의 성능이 향상된다. 
- 각 파티션을 독립적으로 백업 및 복구가 가능함. 

**4) 중복 관계 추가**
- 데이터 무결성을 꺠트릴 위험을 갖지 않고서도 데이터 처리의 성능을 향상시킬 수 있음. 

**5) 테이블 병합**
- 1:1 관계의 테이블을 하나의 테이블로 병합해서 성능을 향상시킨다. 
- 1:N 관계의 테이블을 병합하여 성능을 향상시킨다. 하지만 많은 양의 데이터 중복이 발생함. 
- 슈퍼 타입과 서브 타입 관계가 발생하면 테이블을 통합하여 성능을 향상시킨다. 

## 슈퍼타입/서브타입 관계 
Extended ER 모델이라고 부르는 이른바 슈퍼/서브 타입 데이터 모델은 최근 데이터 모델링을 할 때 자주 쓰이는 모델링 방법이다. 이 모델이 자주 쓰이는 이유는 업무를 구성하는 데이터의 특징을 공통과 차이점의 특징을 고려하여 효과적으로 표현할 수 있기 때문이다. 

즉, 공통의 부분을 슈퍼타입으로 모델링하고, 공통으로부터 상속받아 다른 엔터티와 차이가 있는 속성에 대해서는 별도의 서브 엔터티로 구분하여 업무의 모습을 정확하게 표현하면서, 물리적인 데이터 모델로 변환을 할 때 선택의 폭을 넓힐 수 있는 장점이 있음. 

**1) 1:1 타입(One to One Type)**
- 슈퍼타입과 서브타입을 개별 테이블로 도출함
- 테이블의 수가 많아서 조인이 많이 발생하고 관리가 어려움 

**2) 슈퍼+서브 타입(Plus Type)**
- 슈퍼타입과 서브타입 테이블로 도출
- 조인이 발생하고 관리가 어려움 

**3) All in One Type(Single Type)**
- 항상 분리되어 있는 엔터티를 동시에 조회해야하는 경우가 있음
- 슈퍼타입과 서브타입을 하나의 테이블로 조회하는 것 
- 조인성능이 좋고 관리가 편하지만 I/O성능이 나쁨

# 분산 데이터베이스 

## 분산 데이터베이스 
- 물리적으로 떨어진 데이터베이스에 네트워크로 연결하여 단일 데이터베이스 이미지를 보여주고 분산된 작업 처리를 수행하는 데이터베이스
- 분산 데이터베이스를 사용하는 고객은 시스템이 네트워크로 분산되어 있는지의 여부를 인식하지 못하면서, 자신만의 데이터베이스를 사용하는 것처럼 사용함 

## 투명성 종류 
- 분할 투명성 : 고객은 하나의 논리적 릴레이션이 여러 단편으로 분할되어 각 단편의 사본이 여러 시스템에 저장되어 있음을 인식할 필요가 없음 
- 위치 투명성 : 고객이 사용하려는 데이터의 저장 장소를 명시할 필요가 없음. 고객은 데이터가 어느 위치에 있더라도 동일한 명령을 사용하여 데이터에 접근할 수 있어야 함
- 지역 사상 투명성 : 지역 DBMS와 물적 데이터베이스 사이의 사상이 보장된에 따라 각 지역 시스템의 이름과 무관한 이름이 사용 가능함 
- 중복 투명성 : 데이터베이스 객체가 여러 시스템에 중복되어 존재함에도 고객과는 무관하게 데이터의 일관성을 유지가능함 
- 장애 투명성 : 데이터베이스가 분산되어 있는 각 지역의 시스템이나 통신망에 이상이 발생해도, 데이터의 무결성은 보장됨 
- 병행 투명성 : 여러 고객의 응용프로그램이 동시에 분산 데이터베이스에 대한 트랜잭션을 수행하는 경우에도 이상이 없음 

## 분산 데이터베이스 설계 방식 
**1. 상향식 설계 방식**
- 지역 스키마 작성 후 향후 전역 스키마를 작성하여 분산 데이터베이스를 구축함 

**2. 하향식 설계 방식**
- 전역 스키마 작성 후 해당 지역 사상 스키마를 작성하여 분산 데이터베이스를 구축함 
- 분산 데이터베이스를 하향 접근 방식으로 구축한다는 것은 기업 전체의 전사 데이터 모델을 수립하여 전역 스키마를 생성하고, 각 지역별로 지역 스키마를 작성하여 분산데이터베이스를 구축함 

## 분산 데이터베이스의 장단점
**1. 장점**
- 데이터베이스 신뢰성과 가용성이 높다
- 분산 데이터베이스가 병렬처리를 수행하기 때문에 빠른 응답이 가능 
- 분산 데이터베이스를 추가하여 시스템 용량 확장이 쉽다

**2. 단점**
- 여러 네트워크를 통해 분할되어 있어 관리와 통제가 어려움
- 보안 관리가 어려움
- 데이터 무결성 관리가 어려움 
- 데이터베이스 설계의 복잡성 