# *정규화( Normalization )*

---

## **1. Noramilzation이란?**
- 데이터 베이스 설계 과정에서 중복 데이터를 최소화하고 데이터 일관성을 유지하기 위한 중요한 원칙 중 하나
- 정규화는 데이터베이스 테이블을 여러 테이블로 분할하고, 이러한 테이블 간의 관계를 정의함으로써 데이터를 더 효율적으로 저장하고 관리하는 방법


#### 1. 정규화의 목적

- 정규화는 중복 데이터를 제거하여 데이터베이스 크기를 줄이고 데이터 일관성을 유지
    - 중복 데이터는 데이터베이스를 비효율적으로 만들며, 업데이트 시 데이터 불일치 문제를 발생
- 데이터베이스의 데이터 무결성을 유지하는 것은 매우 중요, 정규화는 이를 달성하기 위해 데이터를 더 작은 단위로 분리하고, 각 테이블 간의 관계를 활용
    - 이를 통해 데이터 무결성 규칙을 쉽게 적용할 수 있음

---

## **2. 정규화의 절차**

#### 1. 제 1정규형 : 1NF (First Normal Form)
- 원자값 (Atomic Values) : 각 열은 원자적인 값(더 이상 분해할 수 없는 값, 하나의 값)을 가져야 한다.
- 고유한 식별자(Unique Identifier) : 각 행은 고유한 식별자(primary key)를 가져야 한다. 이 식별자를 통해 각 행을 고유하게 식별할 수 있어야 한다.
- 중복 데이터 제거 (No Duplicate Rows) : 동일한 데이터가 중복으로 나타나지 않아야 한다.
    
![image.png](attachment:image.png)    




#### 2. 제 2정규형 : 2NF (Second Normal Form)
- 1NF 만족 : 1NF를 만족해야 한다.
- 부분 종속성 제거 : 테이블의 모든 컬럼이 완전 함수적 종속을 만족해야 한다. 테이블에서 기본키가 복합키(키1, 키2)로 묶여있을 때,   
두 키 중 하나의 키만으로 다른 칼럼을 결정 지을 수 있으면 안된다.
    
![image-2.png](attachment:image-2.png)   




#### 3. 제 3정규형 : 3NF (Third Normal Form)
- 데이터베이스 정규화의 세 번째 단계로, 2NF를 만족하면서 이행 종속성을 제거하는 것이 목적이다.
- 2NF 만족 : 2NF를 만족해야 한다.
- 기본키 의존 : 기본키가 아닌 속성들은 기본키에 의존해야 한다.
    
![image-3.png](attachment:image-3.png)   




#### 4. BCNF (Boyce-Codd Normal Form)
- 주로 다중 후보 키와 관련된 테이블에서 발생한다.
- 3NF 만족 : 3NF를 만족해야 한다.
- 후보 키에 대한 함수 종속성 : 모든 결정자가 후보키가 되도록 테이블을 분해하는 것   
즉, 후보키 집합에 없는 칼럼이 결정자가 되어서는 안 된다는 뜻
    
![image-4.png](attachment:image-4.png)    




#### 5. 제 4정규형 : 4NF (Fourth Normal Form)
- 보통 정규화는 BCNF 까지만 한다. 그 이상으로 하면 정규화의 단점이 나타남
- 다치 종속성 (Multicalued Dependency) : 다치 종속성은 테이블의 열들 간에 다중 값 종속성을 나타낸다.    
즉, 하나의 키 (주요 키 또는 후보키)에 대한 여러 개의 값 집합이 있을 때 다치 종속성이 발생한다.
- 후보키의 독립성 : 테이블이 여러 개의 후보키를 가질 때, 한 후보키의 값을 변경할 때 다른 후보키에 영향을 주어서는 안된다.    
즉, A, B, C 가 있을 때 A와 B 사이에 다치종속성이 있을 때 B와 C가 독립적이어야 한다.
    
![image-5.png](attachment:image-5.png)     




#### 6. 제 5정규형 : 5NF (Fifth Normal Form)
- 조인 종속성을 처리하기 위해 추가적인 정규화 단계로, 복잡성과 성능 문제로 현실적으로 잘 사용되지 않는다.
- 4NF 만족 : 4NF를 만족해야한다.
- 조인 종속성 (Join Dependency) : 조인 종속성이 없어야 하고, 조인 연산을 했을 때 손실이 없어야 한다.

---

## **3. 정규화의 단점**
- 테이블의 분해로 인해 데이터베이스 내의 JOIN 연산이 많아져, 쿼리 성능이 저하될 수 있따.
- 특히 대규모 데이터베이스에서는 조인 비용이 높아질 수 있다.
- 따라서 처리 성능이 중요한 데이터에 대해 '반정규화(De-normalization)'을 하기도 한다.
    - 반정규화는 조회(select) 속도를 향상시키지만, 데이터 모델의 유연성은 낮아진다.