# Database

<hr/>

## 데이터 표준화


### 데이터 표준 정책
**정의:** 데이터 표준에 대한 규칙과 지침을 정의한 문서

01. **필요성:**
- 동시 다발적인 정보 시스템 개발 시 발생하는 문제점
    - 데이터 불일치 및 통합 어려움
    
    - 시스템 유지보수 및 확장 어려움
    - 정보 활용 및 의사결정 어려움
- 데이터 표준 정책을 통한 해결 방안
    - 문제점 해결 및 데이터 관리 효율성 향상
    - 시스템 유지보수 및 확장 용이
    - 정보 활용 및 의사결정 효과 증대

- 데이터 의미, 형식, 코드, 명칭 등을 명확하게 정의

- 데이터 모델, 메타데이터 등을 포함

- 기업의 업무 특성, 시스템 환경, 데이터 활용 목적 등을 고려하여 수립

02. **수립 과정**
1. 현황 분석 및 요구사항 정의

2. 데이터 모델 및 메타데이터 개발

3. 데이터 표준 정책 초안 작성 및 검토

4. 데이터 표준 정책 배포 및 교육

5. 지속적인 관리 및 업데이트

### 데이터 표준화

**정의**
- 데이터 표준화는 데이터 관리와 활용을 위한 다양한 규칙과 지침을 정의하는 과정이다. 여기에는 데이터 의미, 형식, 코드, 명칭, 데이터 모델, 메타데이터 등이 포함

**목적**
- 여러 시스템 또는 조직에서 사용되는 데이터의 호환성 및 통합성 확보

- 데이터 관리 효율성 향상, 시스템 유지보수 및 확장 용이, 정보 활용 및 의사결정 효과 증대

**주요 요소**
- 데이터 모델, 데이터 형식, 데이터 코드, 데이터 명칭, 메타데이터

**종류**
- 기술 표준: 데이터 형식, 코드, 메타데이터 등 기술적인 측면을 표준화

- 업무 표준: 데이터 의미, 명칭, 분류 등 업무적인 측면을 표준화

- 도메인 표준: 특정 분야 또는 산업에서 사용되는 데이터를 표준화

**데이터 표준화의 효과**

- 데이터 통합 및 활용성 향상

- 데이터 품질 향상

- 시스템 유지보수 및 확장성 향상

- 비용 절감

**데이터 표준화 프로세스**
1. 현황 분석 : 현재 데이터 관리 및 활용 상황을 분석

2. 요구사항 정의 : 데이터 표준화 목표 및 필요사항을 정의

3. 표준 개발 : 데이터 표준 정책 및 지침을 개발

4. 배포 및 교육 : 개발된 표준을 사용자들에게 배포하고 교육

5. 운영 및 유지보수 : 지속적인 관리 및 업데이트를 통해 표준을 유지

<hr/>

## 데이터 정규화

### 데이터 정규화 정의
데이터 정규화는 데이터의 값 분포를 정규 분포에 가깝게 만드는 과정이다. 이는 데이터 분석 및 모델 학습의 정확성을 높이기 위해 사용된다.

### 데이터 정규화의 필요성

**데이터 값 분포의 불균형 문제:**
- 데이터 값 분포가 균일하지 않을 경우 특정 값이 분석 결과에 지나치게 영향을 미칠 수 있다.

- 예를 들어, 데이터 값 대부분이 0과 가까운 범위에 분포하고 일부 값만 극단적으로 높거나 낮은 경우, 분석 결과가 왜곡될 수 있다.

**데이터 정규화를 통한 문제 해결:**
- 데이터 값 분포를 정규 분포에 가깝게 만들어 데이터 분석 및 모델 학습의 정확성을 향상시킬 수 있다.

- 특정 값의 영향을 줄이고 모든 값을 균등하게 고려하여 분석 결과의 신뢰도를 높일 수 있다.

### 데이터 정규화 방법
1. **표준화:** 데이터 값을 평균 0, 표준편차 1인 정규 분포로 변환한다.

2. **최소-최대값 정규화:** 데이터 값을 최소값 0, 최대값 1 사이의 범위로 변환한다.

3. **로그 변환:** 데이터 값을 로그함수로 변환한다. -오른쪽으로 치우친 경우

4. **제곱근 변환:** 데이터 값을 제곱근 함수로 변환한다. - 왼쪽으로 치우친 경우

5. **box-cox 변환:** 로그 변환, 제곱근 변환을 일반화한 방법 - 정규분포를 따리지 않을 경우

6. **Quantile normalization:** 데이터 값 분포를 특정 분포에 맞추어 변환합니다.

### **데이터 정규화 선택 기준**
- 데이터 값의 분포

- 데이터 분석 및 모델 학습의 목적

- 사용되는 알고리즘

### **데이터 정규화의 주의점**
- 데이터 정규화는 모든 데이터에 적용하지 않아도 된다.

- 데이터 정규화는 데이터의 값을 변환하기 때문에 원본 데이터를 백업해야 한다.

- 데이터 정규화 방법은 데이터의 특성에 따라 적절하게 선택해야 한다.

### **데이터 정규화 예시**
- **표준화 예시:** 학생들의 시험 점수 데이터 (평균: 70, 표준편차: 10)

- **최소-최대값 정규화 예시:** 제품 가격 데이터 (최소값: 10,000원, 최대값: 100,000원)

### **데이터 정규화와 표준화의 차이점**
- 데이터 정규화는 데이터 값 분포를 정규 분포에 가깝게 만드는 전반적인 개념이다.

- 데이터 표준화는 데이터 값을 평균 0, 표준편차 1인 정규 분포로 변환하는 구체적인 방법이다.

### **데이터 정규화의 장점**
- 데이터 분석 및 모델 학습 정확성 향상

- 모델 학습 속도 향상

- 모델 일반화 성능 향상

### **데이터 정규화의 단점**
- 데이터 값 변환으로 인한 정보 손실 가능성

- 모든 데이터에 적합하지 않을 수 있음

### **데이터 정규화 적용 시 고려 사항**
- 데이터 값 분포

- 데이터 분석 및 모델 학습 목적

- 사용되는 알고리즘

### **추가적인 데이터 정규화 방법**
- z-score 정규화

- minmax 정규화

- box-cox 변환

- Quantile normalization

### **정규화 방법 선택 가이드**

**데이터 값 분포:**
- **정규 분포에 가까운 경우:** 정규화 필요 없음

- **왼쪽 또는 오른쪽으로 치우친 경우:** 로그 변환, 제곱근 변환 등 적용

- **범위가 명확한 경우:** 최소-최대값 정규화 적용

**데이터 분석 및 모델 학습 목적:**
- **특정 값 영향 최소화:** 표준화, 최소-최대값 정규화 적용

- **모델 학습 속도 향상:** 표준화 적용

- **모델 일반화 성능 향상:** 표준화, 최소-최대값 정규화 적용

**사용되는 알고리즘:**
- **선형 회귀 모델:** 표준화 적합

- **K-최근접 이웃 알고리즘:** 거리 계산 방식에 따라 정규화 방법 선택 필요

- **신경망 모델:** 데이터 값 범위 중요, 최소-최대값 정규화 또는 표준화 적용

**문자형 데이터 정규화 적용 예시:**

**- Label Encoding :** 설문조사 데이터에서 성별 변수 (남성, 여성)

**- One-Hot Encoding :** 뉴스 기사 데이터에서 주제 분류 (정치, 경제, 사회)

**- TF-IDF :** 문서 검색 시스템에서 문서 유사도 계산

**- Word2Vec :** 챗봇 시스템에서 단어 의미 기반 응답 생성

**정규화를 사용하지 말아야 할 때:**

1. **데이터 값 분포가 이미 정규 분포를 따르는 경우:**
    - 정규화를 수행할 경우 정보 손실이 발생할 수 있다.

2. **데이터 값의 순서가 중요한 경우:**
    - 정규화를 수행하면 순서 정보가 손실될 수 있다.

3. **이상치가 존재하는 경우:**
    - 정규화를 수행하면 이상치의 영향이 더욱 커질 수 있다.

4. **특정 알고리즘에 정규화가 필요하지 않은 경우:**
    - 특정 알고리즘은 정규화된 데이터를 필요로 하지 않는다.
        (e.g. KNN)

5. **데이터 크기가 크고 계산 효율성이 중요한 경우:**
    - 데이터 크기가 크고 계산 효율성이 중요한 경우, 정규화 과정에서 많은 시간과 계산 자원이 소요될 수 있다.

<hr/>
<hr/>

## 데이터 모델링

### **데이터 모델링이란?**
데이터 모델링은 현실 세계의 정보를 추상화하여 데이터 구조와 관계를 정의하는 과정이다. 데이터 분석, 데이터베이스 설계, 정보 시스템 개발 등 다양한 분야에서 중요한 역할을 한다.

### **데이터 모델링의 주요 목적:**

**데이터 이해 및 정의:** 
- 조직 내 데이터의 의미, 구조, 관계를 명확하게 정의하여 데이터를 이해하고 관리하기 쉽게 한다.

**데이터베이스 설계:**
- 정보 시스템에서 사용되는 데이터베이스의 구조를 설계하는 기반을 제공한다.

**정보 시스템 개발:**
- 데이터 모델은 정보 시스템 개발 과정에서 사용되는 데이터 구조와 관계를 정의하여 개발 과정을 효율적으로 진행할 수 있도록 한다.

**데이터 통합:**
- 서로 다른 데이터 소스에서 데이터를 통합하여 분석 및 활용할 수 있도록 한다.

**데이터 공유:**
- 데이터 모델은 데이터를 표준화하여 조직 내에서 데이터를 공유하고 활용하기 쉽게 한다.

### **데이터 모델링 과정:**

1. 요구사항 분석 : 정보 시스템의 요구사항을 분석하고 데이터 모델링의 목적을 정의


2. 개념적 모델링 : 현실 세계의 정보를 추상화하여 데이터의 의미, 구조, 관계를 정의
    - 엔터티, 속성, 관계 (엔터티-관계 다이어그램 er다이어그램)

<p align="center"><img src="image/1.png" width="800"></p>

<hr/>

3. 논리적 모델링 : 개념적 모델을 구현 가능한 형태로 변환하여 데이터베이스 구조를 설계
    - 테이블, 컬럼, 데이터 유형, 키(ID)

<p align="center"><img src="image/2.png" width="800"></p>

<hr/>

4. 물리적 모델링 : 논리적 모델을 특정 데이터베이스 관리 시스템(DBMS)에 맞춰 구현
    - 데이터베이스 엔진, 인덱싱, 데이터베이스 분할



<p align="center"><img src="image/3.png" width="800"></p>
<hr/>

### **데이터 프로세스**

1. 엔터티 식별
- 고객: 이름, 성, 주소, 전화번호, 이메일 주소 등

- 상품: 제품명, 가격, 설명, 재고 수량, 카테고리 등

- 주문: 주문 날짜, 주문 상태, 배송 주소, 결제 정보 등

- 주문 항목: 주문된 상품, 수량, 가격 등


2. 엔터티 속성

<p align="center"><img src="image/4.png" width="800"></p>

<hr/>

3. 엔터티 관계

<hr/>

<p align="center"><img src="image/5.png" width="800"></p>

<hr/>

- 고객은 여러 주문을 할 수 있다.

- 상품은 여러 주문 항목에 포함될 수 있다.

- 주문은 하나의 고객에게 속한다.

- 주문 항목은 하나의 주문에 속한다.

- 주문 항목은 하나의 상품에 대한 정보를 나타낸다.



4. 속성 매핑

- 속성 매핑은 데이터 모델의 엔터티 속성을 실제 시스템의 구체적인 요소에 연결하는 프로세스

5. 정규화

- 고객 엔터티는 이미 정규화되어 있다.

- 상품 엔터티는 "카테고리" 속성을 분리하여 정규화할 수 있다

- 주문 엔터티는 "결제 정보" 속성을 분리하여 정규화할 수 있다

6. 검증

- 데이터 모델이 비즈니스 요구 사항을 충족하는지 확인

- 데이터 모델이 일관성 있고 정확한지 확인

- 데이터 모델을 테스트하여 오류를 수정

데이터 모델링 기술 유형

1. **계층적 데이터 모델링:**

- 데이터 유형: 명확한 상하위 관계가 있는 데이터
- 예시:
    - 조직 구조
    - 파일 시스템
    - 제품 카탈로그
    
2. **그래프 데이터 모델링:**

- 데이터 유형: 복잡한 연결 관계가 있는 데이터
- 예시:
    - 소셜 네트워크
    - 추천 시스템
    - 지식 그래프

3. **관계형 데이터 모델링:**

- 데이터 유형: 구조화된 데이터
- 예시:
    - 온라인 상점
    - 고객 관리 시스템
    - 재고 관리 시스템

4. **엔터티-관계 데이터 모델링:**

- 데이터 유형: 엔터티 간 관계를 명확하게 표현해야 하는 데이터
- 예시:
    - 교육 시스템
    - 의료 시스템
    - 제조 시스템

5. **객체 지향 데이터 모델링:**

- 데이터 유형: 동작과 속성을 가진 데이터
- 예시:
    - 금융 시스템
    - 시뮬레이션 시스템
    - 게임 엔진

6. **차원 데이터 모델링:**

- 데이터 유형: 다차원 분석이 필요한 데이터
- 예시:
    - 판매 분석
    - 마케팅 분석
    - 생산 분석

## **트랜잭션**

- 트랜잭션은 데이터베이스 작업의 논리적 단위이다. 여러 데이터베이스 작업을 하나의 묶음으로 처리하여 데이터의 일관성을 유지하게 된다. 

#### **트랜잭션의 특징**

- 원자성(Atomicity):
    - 트랜잭션을 구성하는 연산들이 모두 정상적으로 실행되거나 하나도 실행하지 않아야 한다는 all-or-nothing 방식을 의미한다. 트랜잭션을 수행하다가 장애가 발행하여 작업을 완료하지 못했다면, 지금까지 실행한 연상들을 모두 처리를 취소하고 데이터베이스를 트랜잭션 작업 전의 상태로 롤백하여 원자성을 보장해야 한다.

- 일관성(Consistency)
    - 트랜잭션이 성공적으로 수행된 후에도 데이터베이스가 일관성 있는 상태를 유지해야 한다.
    트랜잭션이 수행되기 전에 데이터베이스가 일관된 상태였다면 트랜잭션의 수행이 완료된 후 결과를 방영한 데이터베이스도 또 다른 일관된 상태가 되어야한다.
    트랜잭션이 수행되는 과정 중에는 데이터베이스가 일시적으로 일관된 상태가 아닐 수 있지만 트랜잭션의 수행이 성공적으로 완료된 후에는 데이터베이스가 일관되어야한다.

- 격리성(Isolation)
    - 수행 중인 트랜잭션이 완료될 때까지 트랜잭션이 생성한 중간 연산 결과에 다른 트랜잭션들이 접근할 수 없다. 여러 트랜잭션이 동시에 수행될때 각 트랜잭션이 독립적으로 수행될 수 있도록 다른 트랜잭션의 중간 연산 결과에 서로 접근하지 못하게한다.

- 지속성(Durability)
    - 트랜잭션이 성공적으로 완료된 후 데이터베이스에 반영한 수행 결과는 어떠한 경우에도 손실되지 않고 영구적이어야 한다. 시스템에 장애가 발생하더라도 트랜잭션 작업 결과는 없어지지 않고 데이터베이스에 그대로 남아있어야 한다. 지속성을 보장하려면 시스템에 장애가 발생했을 때 데이터베이스를 원래 상태로 복구하는 회복 기능이 필요하다.

#### **트랜잭션 과정**
1. 동기화 되어 있을 때 과정(분산 트랜잭션)
    1. 송금하는 은행(송금 은행)은 자행 데이터베이스 서버에서 송금 금액을 차감하는 트랜잭션을 시작합니다.

    2. 송금 은행은 2단계 커밋 프로토콜을 사용하여 수신 은행(수신 은행)에게 송금 요청을 전송합니다.

    3. 수신 은행은 자행 데이터베이스 서버에서 송금 금액을 적립하는 트랜잭션을 시작합니다.

    4. 송금 은행과 수신 은행 모두 트랜잭션이 성공적으로 완료되었는지 확인합니다.

    5. 두 은행 모두 트랜잭션이 성공적으로 완료되었다면 2단계 커밋 프로토콜을 통해 커밋을 확정합니다.

    <p align="center"><img src="image/6.png" width="800"></p>

    6. 만약 송금 은행 또는 수신 은행에서 트랜잭션이 실패하면 2단계 커밋 프로토콜을 통해 롤백을 수행하여 트랜잭션을 취소합니다.
2. 동기화 되어있지 않을 때 과정 (메시지 큐)
    - 두 은행의 데이터베이스 서버가 동기화되지 않아도 메시지 큐를 사용하여 트랜잭션의 일관성을 유지할 수 있다. (메시지 큐는 일시적으로 저장하는 공간)

    1. 송금 정보 준비: 송금 은행은 송금 금액, 송금자 정보, 수신자 정보 등 송금에 필요한 정보를 준비합니다.
    
    2. 메시지 생성: 송금 은행은 준비된 정보를 이용하여 송금 정보를 담은 메시지를 생성합니다.

    3. 메시지 큐 전송: 송금 은행은 메시지 큐에 송금 정보 메시지를 전송합니다.

    4. 트랜잭션 시작: 송금 은행은 메시지 큐에 메시지를 전송하는 순간에 자행 데이터베이스 서버에서 송금 금액을 차감하는 트랜잭션을 시작합니다.

    5. 메시지 확인: 송금 은행은 수신 은행으로부터 송금 성공 메시지를 받았는지 확인합니다.

    6. 트랜잭션 종료(커밋): 송금 은행은 수신 은행으로부터 송금 성공 메시지를 받으면 트랜잭션을 성공적으로 종료합니다.

    7. 메시지 삭제: 송금 은행은 메시지 큐에서 송금 정보 메시지를 삭제합니다.
    
    8. 수신 은행은 메시지 큐에서 송금 정보를 받아 자행 데이터베이스 서버에서 송금 금액을 적립하는 트랜잭션을 시작합니다.
    
    9. 수신 은행은 송금 은행에게 송금 성공 메시지를 전송합니다.
    
    10. 송금 은행은 송금 성공 메시지를 받으면 메시지 큐에서 송금 정보를 삭제합니다.
    
    11. 만약 수신 은행에서 트랜잭션이 실패하면 송금 은행에게 송금 실패 메시지를 전송합니다.
    
    12. 송금 은행은 송금 실패 메시지를 받으면 메시지 큐에서 송금 정보를 삭제하고 송금 금액을 원상 복구합니다.

    1. 송금 실패 메시지 수신: 송금 은행은 수신 은행으로부터 송금 실패 메시지를 받습니다.

    2. 트랜잭션 롤백: 송금 은행은 트랜잭션을 롤백하여 송금 금액을 원상 복구합니다.
    
    3. 메시지 삭제: 송금 은행은 메시지 큐에서 송금 정보 메시지를 삭제합니다.

#### **트랜잭션의 연산**
- commit
    - 작업 완료를 의미한다.
    
    - 트랜잭션을 구성하는 모든 연산이 정상적으로 처리되면 commit 연산의 시행을 통해 트랜잭션의 수행이 성공적으로 완료되었음을 선언한다.

- rollback
    - 연산과 작업 취소를 의미한다.
    
    - 트랜잭션이 수행되는 도중에 장애가 발생하여 일부 연산이 처리되지 못한 상황에서는 rollback 연산을 실행하여 트랜잭션의 수행이 실패했음을 선언하고, 모순되지 않도록 데이터베이스를 트랜잭션 수행 전의 일관된 상태로 되돌린다.

**트랜잭션 폐기가 발생하는 경우**
- 데이터 불존재: 트랜잭션이 처리하려는 데이터가 데이터베이스에 존재하지 않는 경우

- 논리 오류: 트랜잭션의 논리에 오류가 있어 정상적으로 처리할 수 없는 경우

- 시스템 오류: 시스템 오류로 인해 트랜잭션 처리가 중단된 경우

- 이는 데이터베이스의 일관성을 유지하고 시스템 오류로부터 데이터를 보호해준다.

**롤백과 폐기의 차이**
- 롤백
    - 트랜잭션이 완료되기 전에 발생하는 오류로 인해 트랜잭션을 취소하는 경우

    - 트랜잭션 처리 과정에서 발생한 모든 변경 사항을 되돌린다

    - 트랜잭션에 참여한 모든 데이터에 영향을 미친다.

    - 트랜잭션 처리 과정에서 실시간으로 발생한다

- **폐기**
    - 트랜잭션이 완료된 후에 발생하는 오류로 인해 트랜잭션을 취소하는 경우

    - 트랜잭션 완료 후 발생한 일부 변경 사항만 되돌릴 수 있다

    - 특정 데이터에만 영향을 미친다

    - 트랜잭션 완료 후 일정 시간 후에 발생한다.

#### **트랜잭션의 장애**
- 트랜잭션 장애
    - 트랜잭션의 논리적 오류, 잘못된 데이터 입력, 시스템 자원의 과다 사용 요구, 처리 대상 데이터의 부재 등 트랜잭션 수행 중 오류가 발새앟여 정상적으로 수행할 수 없는 상태

- 시스탬 장애
    - 하드웨어 이상으로 메인 메모리에 저장된 정보가 손실되고나 교착 상태가 발생한 경우 등 하드웨어의 결함으로 정상적으로 수행을 계속할 수 없는 상태

- 미디어 장애
    - 디스크 헤드의 손상이나 고장으로 디스크 장치의 결함으로 디스크에 저장된 데이터베이스의 일부 혹은 전체가 손상된 상태

#### **회복 기법**
- 로그 회복 기법
    - UNDO 기법: 트랜잭션 로그를 이용하여 실패한 트랜잭션의 변경 사항을 취소하는 기법입니다.
    
    - REDO 기법: 트랜잭션 로그를 이용하여 장애 발생 이전까지 완료된 트랜잭션의 변경 사항을 다시 적용하는 기법입니다.

- 검사 시점 회복 기법
    - 검사 시점 회복 기법은 로그 회복 기법과 같은 방법으로 로그 기록을 이용하되, 일정 시간 간격으로 검사 시점(checkpoint)을 만들어둔다. 그리고 장애가 발생하면 가장 최근 검사 시점 이전의 트랜잭션에는 회복 작업을 수행하지 않고, 이후의 트랜잭션에만 회복 작업을 수행한다

- 미디어 회복 기법
    - 미디어 회복 기법은 전체 데이터베이스의 내용을 일정 주기마다 다른 안전한 저장 장치에 복사해두는 덤프를 이용한다. 디스크 장애가 발생하면 가장 최근에 복사해둔 덤프를 이용해 장애 발생 이전의 일관된 데이터베이스 상태로 복구한다. 그런 다음 필요에 따라 로그의 내용을 토대로 redo 연산을 실행한다.







- SQL
- 인덱싱과 검색 최적화
- 분산 데이터베이스
- NoSQL 데이터베이스

