### 관계 데이터 모델
사용자의 이용과 DBMS의 건전한 상태를 정의한 관계 데이터의 구조, 제약조건, 연산의 개념적 표현이다.

#### $\blacktriangleright$ 관계 데이터 구조
릴레이션 스킴(속성, 도메인 등의 설명)과 릴레이션 인스턴스(R, tuple 집합)으로 구성된다. 
- 릴레이션(저장장치 관점)은 관계형 데이터를 의미한다.
  $$R = \{R_i\}, ~R_i = \{<V_{i1}, V_{i2}, \cdots, V_{in}>\}~ i=1,2,\cdots m$$
  $$(R_i: \text{릴레이션의}~ i\text{번째 tuple(행)},~ V_{ik}: i\text{행의} ~k\text{번째 속성(열)값},~ n:\text{차수(속성 개수, degree)}, ~m: \text{tuple 개수(cardinality)})$$
- 릴레이션의 속성은 더 이상 세부 속성으로 분해할 수 없는 원자값만 가져 속성값으로 여러 개의 값이나 다른 datatype 값이 존재하지 않아야 한다.
- $i$번째 속성의 unique값을 원소로 하는 집합을 $i$번째 도메인(domain)이라 하며 릴레이션을 도메인간 카티션 프로덕트(가능한 모든 도메인의 원소 조합들, cartesian product)의 `부분집합`이라 할 수 있다. **즉, 중복된 행이 존재하지 않고 tuple간 순서가 없다.**
- 관계 데이터 구조는 릴레이션 스킴(속성, 도메인 등의 설명)과 릴레이션 인스턴스(R, tuple 집합)으로 구성된다. 

In [None]:
# 건축도면, 케이블 설계구조 등 복잡한 데이터는 Table형태로 전환불가하기에 객체지향 DBMS에 저장한다.

#### $\blacktriangleright$ 관계 제약
속성값의 범위나 형태와 key 등을 명시한 무결성 제약, 다중값 제약, 도메인 제약, 유일성 제약 등이다. 
- 후보키는 릴레이션의 tuple을 구분, 추출할 수 있는 $k$개의 속성 집합으로 유일성(모든 tuple내 $k$개 속성값이 모두 다름)과 최소성($k$를 최소한으로 함)을 갖는다. 가능한 후보키의 datatype, byte를 비교해 DB설계자가 사용하기로 결정한 단 하나의 key가 기본키가 된다.
- 특정 릴레이션(부모 테이블)의 기본키를 참조해 만들어진 속성은 자식테이블의 외래키라 한다. 기본키가 개체 무결성(유일성과 Null이 없어야 함)을 만족해 외래키는 참조 무결성(기본키값과 같거나 Null 존재를 허용함)을 갖춘다.
- 관계제약을 명시함으로써 DB의 건전한 상태(데이터간 모순이 없고 데이터 갱신에도 정확한 상태 유지)를 정의하고 관리할 수 있으며 부적절한 연산의 실행 자체를 거부할 수 있다. 건전한 상태가 깨질 경우 `수학적`으로 이외 데이터는 건전하다 증명할 수 없기에 모두 버려야 한다.

#### $\blacktriangleright$ 관계 연산
- #### 집합 연산자<br>
  $\bullet$ 합병 가능한 릴레이션(차수와 대응되는 속성의 domain이 같음)들에만 수행가능한 합집합, 교집합, 차집합이 있다.<br>
  $\bullet$ 카티션 프로덕트(집합의 곱셈)로 얻는 릴레이션의 cardinality는 피연산자의 cardinality들의 곱, degree는 피연산자의 degree합이다.
- #### 순수 관계 연산자<br>
  $\bullet$ `select`는 조건에 만족하는 tuple을 선택하는 연산(unary)이다.
  
  $$\large \sigma_{\text{조건}} (릴레이션명) = \sigma_{A \theta B} (릴레이션명)$$
  $$(A: \text{속성}, B: \text{속성 또는 value}, \theta: \text{비교연산자})$$<br>
  - 교환적 성질로 조건별 select 연산을 연쇄적으로 할 필요 없이 모든 조건을 동시에 사용해 select하면 된다.
  
     $$\large \sigma_{\text{조건}_1 ~\small\wedge~ \large\text{조건}_2 ~\small\wedge~ \cdots}~ (릴레이션명)$$
     
  $\bullet$ `project`는 타겟리스트(속성집합)을 추출하는 연산(unary)이다.
  
  $$\large \Pi_{\text{타겟리스트}}~(릴레이션명) = \Pi_{\text{속성}_1, \text{속성}_2, \cdots}~(릴레이션명)$$<br>
  - project한 릴레이션 내 중복 tuple은 모두 제거되기에 타겟 리스트에 기본키를 포함해야 한다. <br>
  
  $\bullet$ Project를 수행한 릴레이션에 Select 조건속성이 없을 수 있기에 Select를 수행하고 Project를 수행해야 한다.<br>
  $\bullet$ `Join`은 중복 없이 저장된 릴레이션들을 병합하는 연산자(binary)로 카티션 프로덕트를 기반으로 조건에 부합하는 두 릴레이션의 tuple 조합을 반환한다.<br>
  - 세타조인: 조인속성값끼리의 비교연산자로 Join할 tuple을 선택해 조합하는 연산
  
    $$\large R ~\small[\times] ~\large_{\text{조인조건식}}~ S = \large R ~\small[\times] \large_{~A\theta B}~ S = \{r \centerdot s \} = \sigma_{A\theta B} ~(R\times S)$$
$$(A, B: \text{릴레이션}R, S\text{내 조인하려는 속성(조인속성)})$$<br>

  - 등가조인(동일조인): 세타조인에서 $\theta$가 =인, 조인속성값이 같은 tuple의 조합을 구하는 연산
  - 자연조인: 등가조인(동일조인) 후 결과에 존재하는 중복된 속성을 제거한 연산
  
    $$\large R ~\small[\times]_\text{ N} ~~\large S = \Pi_{X\cup Y}(R ~\small[\times] \large_{~A= B}~\large(R\times S)) = \Pi_{X\cup Y}(\sigma_{A=B}(R\times S))$$
    $$(X, Y: \text{릴레이션} R, S \text{의 모든 속성집합}, A=B=X\cap Y: \text{릴레이션} R, S \text{의 공통속성})$$
    
    $\bullet$ 연산에 개인키를 사용하면 R 내 tuple 중 S와 병합할 수 있는 tuple이 오직 하나이다. 병합가능한 tuple을 탐색하는 비용효율이 좋다.
  - Join은 결합적으로 조건이 다른 join을 연쇄적으로 할 필요 없이 모든 조건의 join을 연결해 동시에 사용해할 수 있다.
    $$\large R ~\small[\times]_\text{ N} ~~\large S ~\small[\times]_\text{ N} ~~\large T \cdots$$

$~~$ ※ 관계 연산으로 생성된 릴레이션과 속성에 이름을 붙이는 작업은 아래와 같다.<br>
$~~~~~~\bullet~~~~~~ \large\rho \tiny S ~\small (E)~~~~~~ \rightarrow$ 관계 연산 결과인 릴레이션 $E$를 $S$라 이름 붙인다.<br>
$~~~~~~\bullet \large\rho \tiny S_(B_1, B_2, \cdots,  )~\small(E) \rightarrow$ 관계 연산 결과인 릴레이션 $E$를 $S$라 이름 붙이고 각 속성명을 $B_1, B_2, \cdots,  $로 변경한다.<br>

#### 확장된 관계 연산자
$\bullet$ 세미 조인<br>
$~~$ 릴레이션 R 중 릴레이션 S와 Join 가능한 tuple, 릴레이션 S 중 릴레이션 R과 Join 가능한 tuple을 선택하는 연산이다.
$$R \bowtie_{\text{N}} S = (R \ltimes S) \bowtie_{\text{N}} (S \ltimes R)$$
$\bullet$ 외부 조인<br>
$~~$ 한 릴레이션의 tuple과 대응되는 상대 릴레이션 tuple이 없을 경우에도 Null로 표현해 모든 tuple이 존재하게 한다.
- Left Outer Join: pandas의 pd.merge(how='left')와 동일한 기능
- Right Outer Join: pandas의 pd.merge(how='right')와 동일한 기능
- Full Outer Join: pandas의 pd.merge(how='outer')와 동일한 기능

$\bullet$ 외부 합집합<br>
$~~$ pandas의 pd.concat()과 동일한 기능이다.

$\bullet$ 그룹 연산과 집단함수<br>
$~~$ 그룹연산(GROUP)은 범주형 변수의 범주별로 수치형 변수값을 집계하는 연산(unary)이고 집단함수(F, unary)까지 사용해야 결과값이 반환된다.
- pandas의 pd.groupby(기준속성)[수치형변수].집단함수()와 동일한 기능이다.
  $$F_{수치형변수}~(GROUP_{기준속성}~ (\text{릴레이션})$$
- 집단함수는 Null값은 제외해 계산하며 중복값은 계산에 포함한다.

In [None]:
# 참고
# [Relationale Algebra LaTeX] https://dbai.tuwien.ac.at/education/dm/resources/symbols.html

### 속성 유형
- 단순속성: 해당 속성을 구성하는 하위 속성이 없는 속성<br>
  복합속성: 단순속성들의 결합으로 이루어진 속성
- 복합 속성을 단순 속성으로 분류해 둠에 `검색`을 효율적이고 빠르게 할 수 있다.
- 단일값속성: 테이블을 구성하기 위한 필수적인 조건으로 한 개체는 갖는 속성값이 반드시 하나인 속성이다.<br>
  ※ 다중값속성은 한 개체가 여러 값을 가질 수 있는 속성으로 테이블을 구성할 수 없는 속성이다. 
- 유도속성: 저장 속성으로 계산할 수 있는, 생성할 수 있는 속성<br>
  저장속성: 테이블에 기존부터 존재한 속성