### 1. 도입

#### 파일 시스템 vs 데이터베이스(DBMS)

In [None]:
'''
파일 시스템은 원시 데이터 파일을 컴퓨터의 하드 디스크 등에 저장하는 시스템이다. 
중복 데이터가 많이 발생하고 데이터의 일관성이 떨어지며 보안, 백업·복구가 불편한 문제가 있었다.

데이터베이스는 그러한 파일 시스템의 단점을 보완하고 데이터의 모델링, 무결성, 다수 사용자를 위한 동시성 제어 등을 제공한다.

참고로 이 책에서 다루는 SQLite는 하나의 데이터베이스를 한 개의 파일에 저장하지만, 모든 DBMS가 그런 것은 아니다. 
데이터베이스를 여러 개의 파일에 저장하거나 아예 파일 시스템을 이용하지 않고 디스크에 직접 기록하는 기능을 지원하는 DBMS도 있다.

파일 시스템 방식:

    예를 들어 user1.txt, user2.txt, order1.csv 이런 식으로 각각의 파일에 데이터를 저장
    파일들이 서로 독립적이라 데이터 간의 관계를 관리하기 어려움
    같은 정보가 여러 파일에 중복 저장될 수 있음
    여러 사람이 동시에 수정하면 충돌 가능

데이터베이스 방식:

    데이터를 구조화해 저장 (테이블, 관계 등)
    데이터 간의 관계를 정의하고 무결성을 보장
    중복을 최소화하고 일관성 유지
    동시성 제어, 트랜잭션 등을 제공
'''

#### 관계형, 계층형, 그래프 데이터 베이스 (벡터 DB는 별도의 범주)

In [None]:
'''
관계형 데이터베이스 - RDBMS(Relational DBMS)
관계형 데이터베이스는 데이터를 관계(relation)로 나타낸다. - 이를테면 CSV같은..

일반적으로 DBMS라고 하면 RDBMS(Relational DBMS)를 가리킨다. 
오라클 데이터베이스 서버, 마이크로소프트 SQL 서버, MySQL과 MariaDB, SQLite, PostgreSQL 등이 이에 해당한다.

SQLite: SQLite는 가장 널리 사용되는 데이터베이스 엔진으로, 
임베디드 디바이스, 사물 인터넷, 데이터 분석, 작은 규모의 웹사이트에 사용하기 적합하다.

SQLite의 특징:

    SQLite는 임베디드 SQL 데이터베이스 엔진으로, 독립적인 서버 프로세스를 갖지 않는다.
    설치 과정이 없고, 설정 파일도 존재하지 않는다.
    테이블, 인덱스, 트리거, 뷰 등을 포함한 완전한 데이터베이스가 디스크 상에 단 하나의 파일로 존재한다.
    퍼블릭 도메인5으로서 개인적 또는 상업적 목적으로 사용할 수 있다.


일반적인 DB(MySQL, PostgreSQL)와 임베디드 DB(SQLite)의 차이

    일반적인 데이터베이스 (MySQL, PostgreSQL 등):

        별도의 서버 프로세스가 독립적으로 실행됨
        애플리케이션이 네트워크를 통해 DB 서버에 접속 (외부 네트워크 필요)
        설치/설정/관리가 필요

    임베디드 데이터베이스 (SQLite):

        서버 없이 애플리케이션에 직접 포함됨 (embedded = 내장된)
        라이브러리처럼 프로그램 안에서 바로 동작
        별도 설치/설정 없이 파일 하나로 동작
        설정이 간단하고 가벼움

'''

#### Relation (관계/테이블)

| Attribute 1 | Attribute 2 | Attribute 3 | Attribute 4 | Attribute 5 |
|-------------|-------------|-------------|-------------|-------------|
| 데이터      | 데이터      | 데이터      | 데이터      | 데이터      |
| 데이터      | 데이터      | 데이터      | 데이터      | 데이터      |
| 데이터      | 데이터      | 데이터      | 데이터      | 데이터      |  
| 데이터      | 데이터      | 데이터      | 데이터      | 데이터      |
| 데이터      | 데이터      | 데이터      | 데이터      | 데이터      |
      Tuple (튜플/행)
      Attribute (속성/열)

In [None]:
'''
관계형 데이터베이스에서는 데이터를 ‘관계’로 나타내며, 이는 ‘테이블’로 구현된다. 

‘행’과 ‘열’에 해당하는 것을 ‘튜플’과 ‘속성’이라는 용어로 가리킨다.

CSV와의 차이:
    참조 무결성: 존재하지 않는 user_id를 넣으면 에러 발생
    데이터 타입 강제: age에 문자열 넣으면 거부
    트랜잭션: 여러 작업을 하나로 묶어 안전하게 처리
    인덱스: 검색 속도 대폭 향상
    동시성 제어: 여러 사용자가 동시에 안전하게 접근
    복잡한 쿼리: JOIN으로 여러 테이블 결합
    
** DB와 CSV간에 import와 export도 자주 함 (형식 자체는 동일하기 때문)
    DB는 관리/검색/무결성에 강함
    CSV는 호환성/단순함에 강함
    필요에 따라 서로 변환해서 사용
'''

#### 스프레드시트와 데이터베이스의 비교

마이크로소프트 엑셀(Microsoft Excel)이나 구글 스프레드시트(Google Sheets) 같은 스프레드시트와 (관계형) 데이터베이스의 차이는 다음과 같다.

| 스프레드시트 | 데이터베이스 |
|-------------|-------------|
| 소프트웨어 애플리케이션이다 | SQL과 같은 질의 언어(query language)를 사용해 액세스하는 데이터 스토어(data store)다 |
| 행(row)과 열(column)의 형식으로 데이터를 구조화한다 | 규칙(rule)과 관계(relationship)로 데이터를 구조화한다 |
| 정보를 셀(cell)에 조직화(organize)한다 | 정보를 복합적인 컬렉션에 조직화한다 |
| 제한적인 양의 데이터에 대한 액세스를 제공한다 | 대량의 데이터에 대한 액세스를 제공한다 |
| 수동으로 데이터를 입력한다 | 엄격하고 일관적인 데이터 입력 |
| 일반적으로 한 번에 한 명의 사용자 | 다중 사용자 |
| 사용자에 의해 통제된다 | 데이터베이스 관리 시스템(database management system)에 의해 통제된다 |

#### SQL(Structured Query Language)

In [None]:
'''
SQL은 RDBMS의 데이터를 다루기 위해 사용하는 언어다.

DML(Data Manipulation Language, 데이터 조작 언어): 
    DML은 데이터를 추가, 삭제, 갱신, 조회하는 데 사용
    INSERT, DELETE, UPDATE, SELECT 문이 DML에 해당

DDL(Data Definition Language, 데이터 정의 언어): 
    DDL은 테이블 등을 생성, 변경, 제거하는 데 사용
    CREATE, ALTER, DROP, TRUNCATE 문이 DDL에 해당
    참고로 SQLite에는 TRUNCATE 문이 없음
'''