## 데이터베이스 개요

### 데이터베이스란 무엇인가

데이터베이스는 체계적으로 구조화되고 조직화된 데이터의 집합입니다. 컴퓨터 시스템에 저장되어 있으며, 여러 사용자가 공유하고 동시에 접근할 수 있도록 관리되는 데이터의 저장소입니다.

### 데이터베이스의 필요성

#### 기존 파일 시스템의 문제점
- **데이터 중복**: 같은 데이터가 여러 파일에 중복 저장
- **데이터 불일치**: 중복된 데이터 간의 일관성 부족
- **데이터 접근의 어려움**: 새로운 질의를 위해 새로운 프로그램 작성 필요
- **데이터 격리**: 데이터가 여러 파일과 형식으로 분산
- **무결성 문제**: 데이터 제약 조건 유지의 어려움
- **원자성 문제**: 부분적 업데이트로 인한 데이터 손상
- **동시 접근 문제**: 여러 사용자의 동시 접근 시 데이터 불일치
- **보안 문제**: 데이터 접근 권한 관리의 어려움

#### 데이터베이스 시스템의 장점
- **데이터 중복 최소화**: 정규화를 통한 중복 제거
- **데이터 일관성**: 무결성 제약을 통한 일관된 데이터 유지
- **데이터 공유**: 여러 사용자와 응용프로그램 간 데이터 공유
- **데이터 보안**: 접근 권한 관리와 보안 기능
- **데이터 무결성**: 제약 조건을 통한 데이터 품질 보장
- **백업과 복구**: 데이터 손실 방지 기능
- **동시성 제어**: 다중 사용자 환경에서의 데이터 일관성 보장

### 데이터베이스 관리 시스템 (DBMS)

DBMS는 데이터베이스를 생성, 관리, 조작하기 위한 소프트웨어 시스템입니다.

#### DBMS의 주요 기능
- **데이터 정의**: 데이터 구조와 제약 조건 정의
- **데이터 조작**: 데이터 삽입, 수정, 삭제, 검색
- **데이터 제어**: 보안, 권한 관리, 동시성 제어
- **데이터 저장**: 물리적 저장 구조 관리
- **데이터 복구**: 장애 발생 시 데이터 복구

#### DBMS의 구성 요소
- **질의 처리기**: SQL 문을 해석하고 실행 계획 생성
- **저장 관리자**: 디스크 상의 데이터 저장과 검색 관리
- **트랜잭션 관리자**: 트랜잭션의 원자성과 일관성 보장
- **버퍼 관리자**: 메모리와 디스크 간의 데이터 이동 관리


---

## 관계형 데이터베이스 vs 비관계형 데이터베이스

### 관계형 데이터베이스 (RDBMS)

관계형 데이터베이스는 데이터를 테이블 형태로 저장하고 관리하는 데이터베이스입니다. 테이블 간의 관계를 통해 데이터를 구조화합니다.

#### 관계형 데이터베이스의 특징
- **테이블 구조**: 행과 열로 구성된 테이블에 데이터 저장
- **스키마**: 미리 정의된 구조와 제약 조건
- **ACID 속성**: 원자성, 일관성, 격리성, 지속성 보장
- **SQL 사용**: 표준화된 질의 언어 사용
- **정규화**: 데이터 중복 제거와 무결성 보장
- **관계**: 외래키를 통한 테이블 간 관계 설정

#### 관계형 데이터베이스의 장점
- **데이터 무결성**: 제약 조건을 통한 데이터 품질 보장
- **ACID 트랜잭션**: 안정적인 데이터 처리
- **표준화된 SQL**: 학습과 사용의 용이성
- **성숙한 기술**: 오랜 기간 검증된 안정성
- **복잡한 쿼리**: 조인을 통한 복잡한 데이터 분석 가능
- **도구 지원**: 다양한 관리 도구와 생태계

#### 관계형 데이터베이스의 단점
- **확장성 제한**: 수직 확장에 의존, 수평 확장 어려움
- **스키마 변경**: 구조 변경 시 복잡성과 비용
- **성능**: 대용량 데이터 처리 시 성능 저하
- **복잡성**: 정규화로 인한 복잡한 조인 연산

### 비관계형 데이터베이스 (NoSQL)

NoSQL 데이터베이스는 관계형 모델을 사용하지 않는 데이터베이스의 총칭입니다. 다양한 데이터 모델을 지원합니다.

#### NoSQL 데이터베이스의 유형

##### 문서형 데이터베이스 (Document Database)
- **특징**: JSON, BSON 등의 문서 형태로 데이터 저장
- **예시**: MongoDB, CouchDB, Amazon DocumentDB
- **장점**: 스키마 유연성, 중첩 구조 지원
- **사용 사례**: 콘텐츠 관리, 카탈로그, 사용자 프로필

##### 키-값 데이터베이스 (Key-Value Database)
- **특징**: 키와 값의 쌍으로 데이터 저장
- **예시**: Redis, Amazon DynamoDB, Riak
- **장점**: 단순한 구조, 높은 성능
- **사용 사례**: 캐싱, 세션 관리, 실시간 추천

##### 컬럼형 데이터베이스 (Column-Family Database)
- **특징**: 컬럼 패밀리 단위로 데이터 저장
- **예시**: Cassandra, HBase, Amazon SimpleDB
- **장점**: 대용량 데이터 처리, 높은 가용성
- **사용 사례**: 시계열 데이터, 로그 분석, IoT 데이터

##### 그래프 데이터베이스 (Graph Database)
- **특징**: 노드와 엣지로 관계 중심의 데이터 저장
- **예시**: Neo4j, Amazon Neptune, ArangoDB
- **장점**: 복잡한 관계 분석, 빠른 관계 탐색
- **사용 사례**: 소셜 네트워크, 추천 시스템, 사기 탐지

#### NoSQL 데이터베이스의 장점
- **확장성**: 수평 확장 용이
- **유연성**: 스키마 변경 자유로움
- **성능**: 특정 용도에 최적화된 성능
- **다양성**: 다양한 데이터 모델 지원
- **비용**: 오픈소스 솔루션 다수

#### NoSQL 데이터베이스의 단점
- **일관성**: ACID 속성 보장 제한적
- **표준화 부족**: 각기 다른 쿼리 언어
- **복잡한 쿼리**: 관계형 DB 대비 복잡한 쿼리 처리 어려움
- **성숙도**: 상대적으로 새로운 기술

### 관계형 vs 비관계형 데이터베이스 비교

| 특성 | 관계형 데이터베이스 | 비관계형 데이터베이스 |
|------|-------------------|---------------------|
| **데이터 모델** | 테이블, 행, 열 | 문서, 키-값, 컬럼, 그래프 |
| **스키마** | 고정된 스키마 | 유연한 스키마 |
| **확장성** | 수직 확장 | 수평 확장 |
| **ACID** | 완전 지원 | 제한적 지원 |
| **쿼리 언어** | SQL | 각기 다른 API |
| **복잡한 쿼리** | 우수 | 제한적 |
| **성능** | 일반적 용도 | 특정 용도 최적화 |
| **일관성** | 강한 일관성 | 최종 일관성 |

### 선택 기준

#### 관계형 데이터베이스를 선택해야 하는 경우
- 복잡한 쿼리와 트랜잭션이 필요한 경우
- 데이터 일관성이 매우 중요한 경우
- 기존 시스템과의 호환성이 필요한 경우
- 표준화된 SQL 사용이 중요한 경우

#### NoSQL 데이터베이스를 선택해야 하는 경우
- 대용량 데이터와 높은 확장성이 필요한 경우
- 빠른 개발과 스키마 변경이 빈번한 경우
- 특정 데이터 모델에 최적화된 성능이 필요한 경우
- 분산 환경에서의 높은 가용성이 필요한 경우


---

## 주요 데이터베이스 시스템 비교

### 관계형 데이터베이스 시스템

#### SQLite
- **특징**: 파일 기반의 경량 데이터베이스
- **장점**:
  - 설치 불필요, 단일 파일로 구성
  - 크로스 플랫폼 지원
  - 서버 설정 불필요
  - 트랜잭션 지원
- **단점**:
  - 동시 쓰기 제한
  - 네트워크 접근 불가
  - 대용량 데이터 처리 제한
- **사용 사례**: 모바일 앱, 임베디드 시스템, 프로토타입, 소규모 웹 애플리케이션

#### MySQL
- **특징**: 오픈소스 관계형 데이터베이스
- **장점**:
  - 높은 성능과 안정성
  - 풍부한 생태계와 커뮤니티
  - 다양한 스토리지 엔진 지원
  - 복제와 클러스터링 지원
- **단점**:
  - 복잡한 쿼리 성능 제한
  - 일부 고급 기능 부족
- **사용 사례**: 웹 애플리케이션, 전자상거래, 콘텐츠 관리 시스템

#### PostgreSQL
- **특징**: 객체-관계형 데이터베이스
- **장점**:
  - 고급 SQL 기능 지원
  - 확장성과 사용자 정의 기능
  - ACID 완전 준수
  - JSON 지원
- **단점**:
  - 상대적으로 복잡한 설정
  - 메모리 사용량이 높음
- **사용 사례**: 복잡한 쿼리, 데이터 웨어하우스, 지리정보 시스템

#### Oracle Database
- **특징**: 엔터프라이즈급 상용 데이터베이스
- **장점**:
  - 최고 수준의 성능과 확장성
  - 고급 보안 기능
  - 완전한 ACID 지원
  - 풍부한 관리 도구
- **단점**:
  - 높은 라이선스 비용
  - 복잡한 관리
- **사용 사례**: 대기업, 금융 시스템, ERP 시스템

#### Microsoft SQL Server
- **특징**: 마이크로소프트의 관계형 데이터베이스
- **장점**:
  - Windows 환경 최적화
  - 우수한 관리 도구
  - 비즈니스 인텔리전스 통합
- **단점**:
  - Windows 플랫폼 의존성
  - 라이선스 비용
- **사용 사례**: Windows 기반 엔터프라이즈 애플리케이션

### NoSQL 데이터베이스 시스템

#### MongoDB
- **특징**: 문서형 NoSQL 데이터베이스
- **장점**:
  - 유연한 스키마
  - 수평 확장 지원
  - 풍부한 쿼리 기능
  - JSON 형태의 문서 저장
- **단점**:
  - 메모리 사용량이 높음
  - 트랜잭션 지원 제한적
- **사용 사례**: 콘텐츠 관리, 실시간 분석, IoT 애플리케이션

#### Redis
- **특징**: 인메모리 키-값 데이터베이스
- **장점**:
  - 매우 빠른 성능
  - 다양한 데이터 구조 지원
  - 퍼시스턴스 옵션
  - 클러스터링 지원
- **단점**:
  - 메모리 크기 제한
  - 복잡한 쿼리 불가
- **사용 사례**: 캐싱, 세션 저장, 실시간 리더보드

#### Cassandra
- **특징**: 분산 컬럼형 데이터베이스
- **장점**:
  - 높은 가용성
  - 선형적 확장성
  - 지리적 분산 지원
- **단점**:
  - 복잡한 설정과 관리
  - 제한적인 쿼리 기능
- **사용 사례**: 대용량 시계열 데이터, IoT 데이터, 로그 분석

#### Neo4j
- **특징**: 그래프 데이터베이스
- **장점**:
  - 복잡한 관계 분석
  - 직관적인 그래프 모델
  - Cypher 쿼리 언어
- **단점**:
  - 특수 목적 데이터베이스
  - 학습 곡선
- **사용 사례**: 소셜 네트워크, 추천 엔진, 사기 탐지

### 데이터베이스 선택 가이드

#### 프로젝트 규모별 추천

##### 소규모 프로젝트
- **SQLite**: 단순한 데이터 저장
- **MySQL**: 기본적인 웹 애플리케이션
- **MongoDB**: 빠른 프로토타이핑

##### 중규모 프로젝트
- **PostgreSQL**: 복잡한 쿼리와 데이터 무결성
- **MySQL**: 높은 읽기 성능 요구
- **MongoDB**: 유연한 스키마 필요

##### 대규모 프로젝트
- **PostgreSQL**: 복잡한 분석과 보고
- **Oracle/SQL Server**: 엔터프라이즈 요구사항
- **Cassandra**: 대용량 분산 데이터
- **Redis**: 고성능 캐싱

#### 용도별 추천

| 용도 | 추천 데이터베이스 | 이유 |
|------|------------------|------|
| **웹 애플리케이션** | MySQL, PostgreSQL | 안정성, 성능, 생태계 |
| **모바일 앱** | SQLite, Firebase | 경량성, 오프라인 지원 |
| **실시간 분석** | Redis, MongoDB | 빠른 읽기/쓰기 성능 |
| **빅데이터** | Cassandra, HBase | 수평 확장성 |
| **소셜 네트워크** | Neo4j, MongoDB | 관계 분석, 유연성 |
| **전자상거래** | PostgreSQL, MySQL | 트랜잭션, 일관성 |
| **IoT** | InfluxDB, Cassandra | 시계열 데이터 처리 |
| **캐싱** | Redis, Memcached | 인메모리 성능 |


---

## SQL 기초 문법 학습

SQL(Structured Query Language)은 관계형 데이터베이스에서 데이터를 관리하기 위한 표준 언어입니다.

### SQL의 분류

#### DDL (Data Definition Language) - 데이터 정의어
데이터베이스 구조를 정의하고 수정하는 명령어들입니다.

- **CREATE**: 테이블, 인덱스, 뷰 등을 생성
- **ALTER**: 기존 구조를 수정
- **DROP**: 구조를 삭제
- **TRUNCATE**: 테이블의 모든 데이터를 삭제

#### DML (Data Manipulation Language) - 데이터 조작어
데이터를 조작하는 명령어들입니다.

- **SELECT**: 데이터 조회
- **INSERT**: 데이터 삽입
- **UPDATE**: 데이터 수정
- **DELETE**: 데이터 삭제

#### DCL (Data Control Language) - 데이터 제어어
데이터베이스 접근 권한을 제어하는 명령어들입니다.

- **GRANT**: 권한 부여
- **REVOKE**: 권한 회수

#### TCL (Transaction Control Language) - 트랜잭션 제어어
트랜잭션을 제어하는 명령어들입니다.

- **COMMIT**: 트랜잭션 확정
- **ROLLBACK**: 트랜잭션 취소
- **SAVEPOINT**: 저장점 설정

### 기본 SQL 문법

#### 테이블 생성 (CREATE TABLE)

```sql
CREATE TABLE 테이블명 (
    컬럼명1 데이터타입 제약조건,
    컬럼명2 데이터타입 제약조건,
    ...
);
```

**예시:**
```sql
CREATE TABLE students (
    id INTEGER PRIMARY KEY,
    name TEXT NOT NULL,
    age INTEGER,
    email TEXT UNIQUE,
    created_at DATETIME DEFAULT CURRENT_TIMESTAMP
);
```

#### 데이터 삽입 (INSERT)

```sql
-- 모든 컬럼에 데이터 삽입
INSERT INTO 테이블명 VALUES (값1, 값2, ...);

-- 특정 컬럼에만 데이터 삽입
INSERT INTO 테이블명 (컬럼1, 컬럼2) VALUES (값1, 값2);

-- 여러 행 동시 삽입
INSERT INTO 테이블명 (컬럼1, 컬럼2) VALUES
    (값1, 값2),
    (값3, 값4),
    (값5, 값6);
```

#### 데이터 조회 (SELECT)

```sql
-- 기본 조회
SELECT 컬럼1, 컬럼2 FROM 테이블명;

-- 모든 컬럼 조회
SELECT * FROM 테이블명;

-- 조건부 조회
SELECT * FROM 테이블명 WHERE 조건;

-- 정렬
SELECT * FROM 테이블명 ORDER BY 컬럼명 ASC/DESC;

-- 제한
SELECT * FROM 테이블명 LIMIT 개수;
```

#### 데이터 수정 (UPDATE)

```sql
UPDATE 테이블명
SET 컬럼1 = 값1, 컬럼2 = 값2
WHERE 조건;
```

#### 데이터 삭제 (DELETE)

```sql
DELETE FROM 테이블명 WHERE 조건;
```

### 고급 SQL 기능

#### 조건절 (WHERE)

```sql
-- 비교 연산자
SELECT * FROM students WHERE age > 20;
SELECT * FROM students WHERE name = 'John';

-- 논리 연산자
SELECT * FROM students WHERE age > 18 AND age < 30;
SELECT * FROM students WHERE name = 'John' OR name = 'Jane';
SELECT * FROM students WHERE NOT age < 18;

-- 범위 검색
SELECT * FROM students WHERE age BETWEEN 18 AND 25;

-- 패턴 매칭
SELECT * FROM students WHERE name LIKE 'J%';  -- J로 시작
SELECT * FROM students WHERE name LIKE '%son'; -- son으로 끝남
SELECT * FROM students WHERE name LIKE '%oh%';  -- oh 포함

-- NULL 검사
SELECT * FROM students WHERE email IS NULL;
SELECT * FROM students WHERE email IS NOT NULL;

-- IN 연산자
SELECT * FROM students WHERE age IN (18, 19, 20);
```

#### 집계 함수

```sql
-- 개수
SELECT COUNT(*) FROM students;
SELECT COUNT(email) FROM students; -- NULL 제외

-- 합계
SELECT SUM(age) FROM students;

-- 평균
SELECT AVG(age) FROM students;

-- 최대값/최소값
SELECT MAX(age), MIN(age) FROM students;
```

#### 그룹화 (GROUP BY)

```sql
-- 그룹별 집계
SELECT age, COUNT(*) FROM students GROUP BY age;

-- 조건부 그룹화
SELECT age, COUNT(*) FROM students
GROUP BY age
HAVING COUNT(*) > 1;
```

#### 조인 (JOIN)

```sql
-- 내부 조인
SELECT s.name, c.course_name
FROM students s
INNER JOIN courses c ON s.course_id = c.id;

-- 외부 조인
SELECT s.name, c.course_name
FROM students s
LEFT JOIN courses c ON s.course_id = c.id;
```

#### 서브쿼리

```sql
-- WHERE절 서브쿼리
SELECT * FROM students
WHERE age > (SELECT AVG(age) FROM students);

-- FROM절 서브쿼리
SELECT * FROM (
    SELECT name, age FROM students WHERE age > 18
) AS adult_students;
```

### 데이터 타입

#### 숫자형
- **INTEGER**: 정수
- **REAL**: 실수
- **NUMERIC**: 정확한 숫자

#### 문자형
- **TEXT**: 가변 길이 문자열
- **VARCHAR(n)**: 최대 n자리 가변 길이 문자열
- **CHAR(n)**: 고정 길이 문자열

#### 날짜/시간형
- **DATE**: 날짜
- **TIME**: 시간
- **DATETIME**: 날짜와 시간
- **TIMESTAMP**: 타임스탬프

### 제약 조건 (Constraints)

#### 기본 제약 조건
- **PRIMARY KEY**: 기본키 (유일하고 NULL 불가)
- **FOREIGN KEY**: 외래키 (다른 테이블 참조)
- **UNIQUE**: 유일성 제약
- **NOT NULL**: NULL 값 불허
- **CHECK**: 값의 범위나 조건 제한
- **DEFAULT**: 기본값 설정

#### 제약 조건 예시

```sql
CREATE TABLE orders (
    id INTEGER PRIMARY KEY,
    customer_id INTEGER NOT NULL,
    order_date DATE DEFAULT CURRENT_DATE,
    amount REAL CHECK (amount > 0),
    status TEXT DEFAULT 'pending',
    FOREIGN KEY (customer_id) REFERENCES customers(id)
);
```

### 인덱스 (Index)

인덱스는 데이터 검색 속도를 향상시키는 데이터베이스 객체입니다.

```sql
-- 인덱스 생성
CREATE INDEX idx_student_name ON students(name);

-- 복합 인덱스
CREATE INDEX idx_student_age_name ON students(age, name);

-- 유일 인덱스
CREATE UNIQUE INDEX idx_student_email ON students(email);

-- 인덱스 삭제
DROP INDEX idx_student_name;
```

### 뷰 (View)

뷰는 하나 이상의 테이블에서 유도된 가상 테이블입니다.

```sql
-- 뷰 생성
CREATE VIEW adult_students AS
SELECT name, age, email
FROM students
WHERE age >= 18;

-- 뷰 사용
SELECT * FROM adult_students;

-- 뷰 삭제
DROP VIEW adult_students;
```

### 트랜잭션

트랜잭션은 데이터베이스의 상태를 변화시키는 작업의 단위입니다.

```sql
-- 트랜잭션 시작
BEGIN TRANSACTION;

-- 작업 수행
INSERT INTO students (name, age) VALUES ('Alice', 20);
UPDATE students SET age = 21 WHERE name = 'Bob';

-- 커밋 (확정)
COMMIT;

-- 또는 롤백 (취소)
-- ROLLBACK;
```


## 파이썬과 데이터베이스 연동

파이썬은 다양한 데이터베이스와 연동할 수 있는 풍부한 라이브러리를 제공합니다. 여기서는 주요 데이터베이스 연동 방법을 살펴보겠습니다.

### 데이터베이스 연동 개요

#### DB-API 표준
파이썬의 DB-API는 데이터베이스 접근을 위한 표준 인터페이스를 정의합니다.

**주요 구성 요소:**
- **Connection**: 데이터베이스 연결 객체
- **Cursor**: SQL 실행과 결과 처리 객체
- **Transaction**: 트랜잭션 관리

**기본 작업 흐름:**
1. 데이터베이스 연결
2. 커서 생성
3. SQL 실행
4. 결과 처리
5. 연결 종료

### SQLite 연동

SQLite는 파이썬 표준 라이브러리에 포함되어 있어 별도 설치 없이 사용할 수 있습니다.

#### 기본 연동 방법


In [None]:
import sqlite3

# 데이터베이스 연결 (파일이 없으면 자동 생성)
conn = sqlite3.connect('example.db')

# 커서 생성
cursor = conn.cursor()

# 테이블 생성
cursor.execute('''
    CREATE TABLE IF NOT EXISTS students (
        id INTEGER PRIMARY KEY AUTOINCREMENT,
        name TEXT NOT NULL,
        age INTEGER,
        email TEXT UNIQUE
    )
''')

# 변경사항 저장
conn.commit()

# 연결 종료
conn.close()

print("데이터베이스와 테이블이 성공적으로 생성되었습니다.")


데이터베이스와 테이블이 성공적으로 생성되었습니다.


#### 데이터 삽입 (INSERT)


In [None]:
import sqlite3

conn = sqlite3.connect('example.db')
cursor = conn.cursor()

# 단일 데이터 삽입
cursor.execute("INSERT INTO students (name, age, email) VALUES (?, ?, ?)",
               ("Alice", 20, "alice@example.com"))

# 여러 데이터 삽입
students_data = [
    ("Bob", 22, "bob@example.com"),
    ("Charlie", 19, "charlie@example.com"),
    ("Diana", 21, "diana@example.com")
]

cursor.executemany("INSERT INTO students (name, age, email) VALUES (?, ?, ?)",
                   students_data)

# 변경사항 저장
conn.commit()

print(f"총 {cursor.rowcount}개의 행이 삽입되었습니다.")

conn.close()


총 3개의 행이 삽입되었습니다.


#### 데이터 조회 (SELECT)


In [None]:
import sqlite3

conn = sqlite3.connect('example.db')
cursor = conn.cursor()

# 모든 데이터 조회
cursor.execute("SELECT * FROM students")
all_students = cursor.fetchall()

print("모든 학생 정보:")
for student in all_students:
    print(f"ID: {student[0]}, 이름: {student[1]}, 나이: {student[2]}, 이메일: {student[3]}")

print("\n" + "="*50 + "\n")

# 조건부 조회
cursor.execute("SELECT name, age FROM students WHERE age > ?", (20,))
adult_students = cursor.fetchall()

print("성인 학생들:")
for name, age in adult_students:
    print(f"이름: {name}, 나이: {age}")

print("\n" + "="*50 + "\n")

# 단일 결과 조회
cursor.execute("SELECT * FROM students WHERE name = ?", ("Alice",))
alice = cursor.fetchone()

if alice:
    print(f"Alice 정보: ID={alice[0]}, 나이={alice[2]}, 이메일={alice[3]}")
else:
    print("Alice를 찾을 수 없습니다.")

conn.close()


모든 학생 정보:
ID: 1, 이름: Alice, 나이: 20, 이메일: alice@example.com
ID: 2, 이름: Bob, 나이: 22, 이메일: bob@example.com
ID: 3, 이름: Charlie, 나이: 19, 이메일: charlie@example.com
ID: 4, 이름: Diana, 나이: 21, 이메일: diana@example.com


성인 학생들:
이름: Bob, 나이: 22
이름: Diana, 나이: 21


Alice 정보: ID=1, 나이=20, 이메일=alice@example.com


#### 데이터 수정 및 삭제


In [None]:
import sqlite3

conn = sqlite3.connect('example.db')
cursor = conn.cursor()

# 데이터 수정
cursor.execute("UPDATE students SET age = ? WHERE name = ?", (23, "Bob"))
print(f"수정된 행의 수: {cursor.rowcount}")

# 데이터 삭제
cursor.execute("DELETE FROM students WHERE age < ?", (20,))
print(f"삭제된 행의 수: {cursor.rowcount}")

# 변경사항 저장
conn.commit()

# 결과 확인
cursor.execute("SELECT * FROM students")
remaining_students = cursor.fetchall()

print("\n남은 학생들:")
for student in remaining_students:
    print(f"ID: {student[0]}, 이름: {student[1]}, 나이: {student[2]}, 이메일: {student[3]}")

conn.close()


수정된 행의 수: 1
삭제된 행의 수: 1

남은 학생들:
ID: 1, 이름: Alice, 나이: 20, 이메일: alice@example.com
ID: 2, 이름: Bob, 나이: 23, 이메일: bob@example.com
ID: 4, 이름: Diana, 나이: 21, 이메일: diana@example.com


#### 컨텍스트 매니저 사용


In [None]:
import sqlite3

# with 문을 사용한 안전한 데이터베이스 연결
with sqlite3.connect('example.db') as conn:
    cursor = conn.cursor()

    # Row factory 설정 (딕셔너리 형태로 결과 반환)
    conn.row_factory = sqlite3.Row

    cursor.execute("SELECT * FROM students")
    students = cursor.fetchall()

    print("딕셔너리 형태의 결과:")
    for student in students:
        print(f"ID: {student[0]}, 이름: {student[1]}, 나이: {student[2]}, 이메일: {student[3]}")

# 연결이 자동으로 닫힘


딕셔너리 형태의 결과:
ID: 1, 이름: Alice, 나이: 20, 이메일: alice@example.com
ID: 2, 이름: Bob, 나이: 23, 이메일: bob@example.com
ID: 4, 이름: Diana, 나이: 21, 이메일: diana@example.com


In [None]:
student

(1, 'Alice', 20, 'alice@example.com')

### 다른 데이터베이스 연동

#### MySQL 연동

MySQL과 연동하기 위해서는 `mysql-connector-python` 또는 `PyMySQL` 라이브러리를 사용합니다.

```python
# 설치: pip install mysql-connector-python

import mysql.connector

# 데이터베이스 연결
conn = mysql.connector.connect(
    host='localhost',
    user='username',
    password='password',
    database='mydb'
)

cursor = conn.cursor()

# SQL 실행
cursor.execute("SELECT * FROM users")
results = cursor.fetchall()

for row in results:
    print(row)

conn.close()
```



---

## MongoDB 개념과 실습

### MongoDB란 무엇인가

MongoDB는 문서 지향 NoSQL 데이터베이스입니다. 관계형 데이터베이스의 테이블과 행 대신 컬렉션과 문서를 사용하여 데이터를 저장합니다.

### MongoDB의 주요 특징

#### 문서 지향 데이터베이스
- **BSON 형식**: Binary JSON 형태로 데이터 저장
- **스키마 유연성**: 고정된 스키마 없이 다양한 구조의 문서 저장 가능
- **중첩 구조**: 배열과 객체를 포함한 복잡한 데이터 구조 지원
- **동적 스키마**: 런타임에 필드 추가/제거 가능

#### 확장성과 성능
- **수평 확장**: 샤딩을 통한 분산 저장
- **복제**: 레플리카 셋을 통한 고가용성
- **인덱싱**: 다양한 인덱스 타입 지원
- **집계 파이프라인**: 강력한 데이터 처리 기능

#### 개발자 친화적
- **JSON 형태**: 웹 개발에 자연스러운 데이터 형식
- **풍부한 쿼리**: 복잡한 쿼리와 업데이트 지원
- **다양한 드라이버**: 여러 프로그래밍 언어 지원

### MongoDB vs 관계형 데이터베이스 비교

| 관계형 DB | MongoDB |
|-----------|---------|
| 데이터베이스 | 데이터베이스 |
| 테이블 | 컬렉션 |
| 행 | 문서 |
| 열 | 필드 |
| 기본키 | ObjectId |
| 인덱스 | 인덱스 |
| 조인 | 임베딩/참조 |

### MongoDB 데이터 모델

#### 문서 구조
MongoDB의 문서는 BSON 형태로 저장되며, JSON과 유사한 구조를 가집니다.

```json
{
  "_id": ObjectId("..."),
  "name": "홍길동",
  "age": 25,
  "email": "hong@example.com",
  "address": {
    "city": "서울",
    "district": "강남구",
    "zipcode": "12345"
  },
  "hobbies": ["독서", "영화감상", "운동"],
  "created_at": ISODate("2023-01-01T00:00:00Z")
}
```

#### 데이터 타입
- **String**: 문자열
- **Number**: 숫자 (Integer, Double, Decimal)
- **Boolean**: 불린값
- **Date**: 날짜
- **Array**: 배열
- **Object**: 객체
- **ObjectId**: 고유 식별자
- **Null**: 널값

### MongoDB 설계 패턴

#### 임베딩 vs 참조

##### 임베딩 (Embedding)
관련 데이터를 하나의 문서에 포함시키는 방식

```json
{
  "_id": ObjectId("..."),
  "title": "MongoDB 가이드",
  "author": "김개발",
  "comments": [
    {
      "user": "독자A",
      "text": "좋은 책입니다",
      "date": ISODate("2023-01-01")
    },
    {
      "user": "독자B",
      "text": "도움이 되었습니다",
      "date": ISODate("2023-01-02")
    }
  ]
}
```

**장점**: 단일 쿼리로 모든 데이터 조회, 원자적 업데이트
**단점**: 문서 크기 제한, 데이터 중복 가능성

##### 참조 (Referencing)
관련 데이터를 별도 컬렉션에 저장하고 참조하는 방식

```json
// books 컬렉션
{
  "_id": ObjectId("book1"),
  "title": "MongoDB 가이드",
  "author": "김개발"
}

// comments 컬렉션
{
  "_id": ObjectId("comment1"),
  "book_id": ObjectId("book1"),
  "user": "독자A",
  "text": "좋은 책입니다"
}
```

**장점**: 데이터 정규화, 유연성
**단점**: 여러 쿼리 필요, 조인 복잡성



### mongodb atlas free tier 연결
- https://www.mongodb.com/cloud/atlas/register?utm_source=google&utm_campaign=search_gs_pl_evergreen_atlas_core-high-int_prosp-brand_gic-null_ww-tier1_ps-all_desktop_eng_lead&utm_term=mongodb%20atlas&utm_medium=cpc_paid_search&utm_ad=e&utm_ad_campaign_id=22031347569&adgroup=173739098393&cq_cmp=22031347569&gad_source=1&gad_campaignid=22031347569
    - 여기서 계정생성
- free tier로 클러스터 생성
- 클러스터 만들어준 후, 아래와 같이 생기는 url에 비밀번호 넣으면 mongodb atlass 연결됨
    - mongodb+srv://test:<db_password>@cluster0.hvz1li1.mongodb.net/
    - 실제 사용가능 db) mongodb+srv://test:test1234@cluster0.hvz1li1.mongodb.net/

In [None]:
# MongoDB Python 클라이언트 설치 및 연결
#!pip install pymongo

# 필요한 라이브러리 설치

from pymongo import MongoClient
from datetime import datetime
import json

# MongoDB 연결

client = MongoClient('mongodb+srv://test:test1234@cluster0.hvz1li1.mongodb.net/')

# 데이터베이스 생성/선택
db = client['ecommerce_db']

# 컬렉션 생성/선택
users_collection = db['users']
products_collection = db['products']
orders_collection = db['orders']

- 아래 코드가 실행 안될때

In [None]:
## CREATE - 데이터 삽입

# 단일 문서 삽입
user1 = {
    "user_id": "user001",
    "name": "김철수",
    "email": "kim@example.com",
    "age": 28,
    "address": {
        "city": "서울",
        "district": "강남구"
    },
    "created_at": datetime.now()
}

result = users_collection.insert_one(user1)
print(f"삽입된 문서 ID: {result.inserted_id}")

# 여러 문서 동시 삽입
users_data = [
    {
        "user_id": "user002",
        "name": "이영희",
        "email": "lee@example.com",
        "age": 25,
        "address": {"city": "부산", "district": "해운대구"},
        "created_at": datetime.now()
    },
    {
        "user_id": "user003",
        "name": "박민수",
        "email": "park@example.com",
        "age": 32,
        "address": {"city": "서울", "district": "종로구"},
        "created_at": datetime.now()
    }
]

result = users_collection.insert_many(users_data)
print(f"삽입된 문서 개수: {len(result.inserted_ids)}")
print(f"삽입된 ID들: {result.inserted_ids}")


삽입된 문서 ID: 68c00776dfcbbea77ac1b20d
삽입된 문서 개수: 2
삽입된 ID들: [ObjectId('68c00779dfcbbea77ac1b20e'), ObjectId('68c00779dfcbbea77ac1b20f')]


In [None]:
# 상품 데이터 삽입
products_data = [
    {
        "product_id": "prod001",
        "name": "노트북",
        "category": "전자제품",
        "price": 1200000,
        "stock": 50,
        "description": "고성능 게이밍 노트북"
    },
    {
        "product_id": "prod002",
        "name": "마우스",
        "category": "전자제품",
        "price": 30000,
        "stock": 100,
        "description": "무선 게이밍 마우스"
    },
    {
        "product_id": "prod003",
        "name": "키보드",
        "category": "전자제품",
        "price": 80000,
        "stock": 75,
        "description": "기계식 키보드"
    }
]

products_collection.insert_many(products_data)
print("상품 데이터 삽입 완료")


In [None]:
## READ - 데이터 조회

# 모든 문서 조회
print("=== 모든 사용자 조회 ===")
for user in users_collection.find():
    print(user)

print("\n=== 특정 조건으로 조회 ===")
# 특정 조건으로 조회
seoul_users = users_collection.find({"address.city": "서울"})
for user in seoul_users:
    print(f"서울 거주자: {user['name']}")

print("\n=== 나이 조건으로 조회 ===")
# 나이가 30 이상인 사용자
adult_users = users_collection.find({"age": {"$gte": 30}})
for user in adult_users:
    print(f"30세 이상: {user['name']}, 나이: {user['age']}")

print("\n=== 단일 문서 조회 ===")
# 단일 문서 조회
user = users_collection.find_one({"user_id": "user001"})
print(f"찾은 사용자: {user['name']}")

print("\n=== 특정 필드만 조회 (projection) ===")
# 특정 필드만 조회
users_names = users_collection.find({}, {"name": 1, "email": 1, "_id": 0})
for user in users_names:
    print(user)


In [None]:
# 고급 쿼리 예제
print("=== 고급 쿼리 예제 ===")

# 정규표현식 사용
print("\n이메일이 'kim'으로 시작하는 사용자:")
kim_users = users_collection.find({"email": {"$regex": "^kim"}})
for user in kim_users:
    print(f"{user['name']}: {user['email']}")

# 배열 및 범위 조건
print("\n가격이 50000원 이상 100000원 이하인 상품:")
mid_price_products = products_collection.find({
    "price": {"$gte": 50000, "$lte": 100000}
})
for product in mid_price_products:
    print(f"{product['name']}: {product['price']}원")

# 정렬 및 제한
print("\n나이순으로 정렬된 사용자 (내림차순):")
sorted_users = users_collection.find().sort("age", -1).limit(2)
for user in sorted_users:
    print(f"{user['name']}: {user['age']}세")

# 문서 개수 세기
user_count = users_collection.count_documents({})
product_count = products_collection.count_documents({})
print(f"\n총 사용자 수: {user_count}")
print(f"총 상품 수: {product_count}")


In [None]:
## UPDATE - 데이터 수정

# 단일 문서 수정
print("=== 단일 문서 수정 ===")
result = users_collection.update_one(
    {"user_id": "user001"},  # 조건
    {"$set": {"age": 29, "email": "kim_updated@example.com"}}  # 수정할 내용
)
print(f"수정된 문서 개수: {result.modified_count}")

# 수정 결과 확인
updated_user = users_collection.find_one({"user_id": "user001"})
print(f"수정된 사용자: {updated_user['name']}, 나이: {updated_user['age']}, 이메일: {updated_user['email']}")

# 여러 문서 수정
print("\n=== 여러 문서 수정 ===")
result = users_collection.update_many(
    {"address.city": "서울"},  # 서울 거주자 모두
    {"$set": {"region": "수도권"}}  # 새 필드 추가
)
print(f"수정된 문서 개수: {result.modified_count}")

# 배열 필드 추가
print("\n=== 배열 필드 추가 ===")
users_collection.update_one(
    {"user_id": "user002"},
    {"$push": {"hobbies": "독서"}}  # 배열에 요소 추가
)

users_collection.update_one(
    {"user_id": "user002"},
    {"$push": {"hobbies": {"$each": ["영화감상", "운동"]}}}  # 여러 요소 추가
)

# 숫자 필드 증가
print("\n=== 숫자 필드 증가 ===")
products_collection.update_one(
    {"product_id": "prod001"},
    {"$inc": {"stock": -5}}  # 재고 5개 감소
)

updated_product = products_collection.find_one({"product_id": "prod001"})
print(f"노트북 재고: {updated_product['stock']}개")


In [None]:
## DELETE - 데이터 삭제

# 테스트용 데이터 추가
test_user = {
    "user_id": "test_user",
    "name": "테스트 사용자",
    "email": "test@example.com",
    "age": 20
}
users_collection.insert_one(test_user)

# 단일 문서 삭제
print("=== 단일 문서 삭제 ===")
result = users_collection.delete_one({"user_id": "test_user"})
print(f"삭제된 문서 개수: {result.deleted_count}")

# 조건에 맞는 여러 문서 삭제
print("\n=== 조건부 삭제 ===")
# 나이가 25 미만인 사용자 삭제 (실제로는 실행하지 않음)
# result = users_collection.delete_many({"age": {"$lt": 25}})
# print(f"삭제된 문서 개수: {result.deleted_count}")

# 삭제 전 확인
users_to_delete = users_collection.find({"age": {"$lt": 25}})
print("25세 미만 사용자:")
for user in users_to_delete:
    print(f"- {user['name']}: {user['age']}세")

print("\n현재 남은 사용자 수:", users_collection.count_documents({}))


In [None]:
# 텍스트 검색 예제
print("\n=== 텍스트 검색 ===")
search_results = products_collection.find({"$text": {"$search": "게이밍"}})
print("'게이밍' 키워드 검색 결과:")
for product in search_results:
    print(f"- {product['name']}: {product['description']}")

## RAG 및 Agent AI 시대의 트렌디한 데이터베이스

현대 AI 애플리케이션, 특히 RAG(Retrieval-Augmented Generation)와 Agent AI 시스템에서는 기존 데이터베이스와는 다른 요구사항을 가지고 있습니다. 이러한 요구사항을 충족하기 위해 새로운 유형의 데이터베이스들이 주목받고 있습니다.

### 벡터 데이터베이스 (Vector Database)

벡터 데이터베이스는 고차원 벡터 데이터를 효율적으로 저장하고 검색할 수 있는 특수한 데이터베이스입니다.

#### 주요 특징
- **임베딩 저장**: 텍스트, 이미지, 오디오 등의 임베딩 벡터 저장
- **유사도 검색**: 코사인 유사도, 유클리드 거리 등을 이용한 검색
- **고성능**: 대용량 벡터 데이터에 대한 빠른 검색
- **확장성**: 수백만 개 이상의 벡터 처리 가능

#### 주요 벡터 데이터베이스

##### Pinecone
- **특징**: 완전 관리형 벡터 데이터베이스 서비스
- **장점**:
  - 설정과 관리가 간단
  - 자동 확장
  - 높은 성능과 안정성
- **사용 사례**: RAG 시스템, 추천 엔진, 이미지 검색

##### Weaviate
- **특징**: 오픈소스 벡터 검색 엔진
- **장점**:
  - GraphQL API 지원
  - 다양한 ML 모델 통합
  - 하이브리드 검색 지원
- **사용 사례**: 지식 그래프, 의미 검색, 콘텐츠 추천

##### Chroma
- **특징**: 임베딩을 위한 오픈소스 데이터베이스
- **장점**:
  - 간단한 API
  - 로컬 개발 친화적
  - Python 생태계 통합
- **사용 사례**: 프로토타이핑, 소규모 RAG 시스템

##### Qdrant
- **특징**: Rust로 작성된 벡터 검색 엔진
- **장점**:
  - 높은 성능
  - 필터링 기능
  - 클러스터링 지원
- **사용 사례**: 대규모 벡터 검색, 실시간 추천

##### Milvus
- **특징**: 클라우드 네이티브 벡터 데이터베이스
- **장점**:
  - 높은 확장성
  - 다양한 인덱스 알고리즘
  - Kubernetes 지원
- **사용 사례**: 엔터프라이즈 AI 애플리케이션

### 그래프 데이터베이스의 AI 활용

#### Neo4j의 AI 기능
- **벡터 인덱스**: 임베딩 벡터 저장과 검색
- **그래프 데이터 사이언스**: 머신러닝 알고리즘 내장
- **지식 그래프**: 구조화된 지식 표현

#### Amazon Neptune
- **특징**: 완전 관리형 그래프 데이터베이스
- **AI 통합**: SageMaker와의 연동
- **사용 사례**: 지식 그래프 기반 AI 시스템

### 시계열 데이터베이스

#### InfluxDB
- **특징**: 시계열 데이터 전용 데이터베이스
- **AI 활용**:
  - 실시간 모니터링 데이터
  - IoT 센서 데이터 분석
  - 모델 성능 메트릭 추적

#### TimescaleDB
- **특징**: PostgreSQL 기반 시계열 확장
- **장점**: SQL 호환성과 시계열 최적화

### 멀티모달 데이터베이스

#### Elasticsearch
- **특징**: 검색 엔진 기반 데이터베이스
- **AI 기능**:
  - 벡터 검색 지원
  - 자연어 처리 통합
  - 하이브리드 검색

#### MongoDB Atlas Vector Search
- **특징**: MongoDB의 벡터 검색 기능
- **장점**:
  - 기존 문서 데이터와 벡터 통합
  - 유연한 스키마
  - Atlas 클라우드 서비스

### RAG 시스템을 위한 데이터베이스 선택

#### 소규모 RAG 시스템
- **Chroma**: 로컬 개발과 프로토타이핑
- **SQLite + 벡터 확장**: 단순한 구조

#### 중규모 RAG 시스템
- **Weaviate**: 하이브리드 검색 필요시
- **Qdrant**: 높은 성능 요구시
- **PostgreSQL + pgvector**: 기존 시스템 통합

#### 대규모 RAG 시스템
- **Pinecone**: 완전 관리형 서비스
- **Milvus**: 엔터프라이즈 환경
- **Elasticsearch**: 복합 검색 요구사항

### Agent AI를 위한 데이터 저장

#### 메모리 저장
- **Redis**: 단기 메모리와 캐싱
- **MongoDB**: 대화 히스토리와 컨텍스트

#### 지식 저장
- **Neo4j**: 구조화된 지식과 관계
- **벡터 DB**: 임베딩된 지식

#### 도구 및 액션 로그
- **InfluxDB**: 시계열 액션 로그
- **PostgreSQL**: 구조화된 로그 데이터

### 하이브리드 접근법

현대 AI 시스템은 종종 여러 데이터베이스를 조합하여 사용합니다:

- **벡터 DB + 관계형 DB**: 의미 검색과 구조화된 데이터
- **그래프 DB + 벡터 DB**: 관계와 임베딩 정보
- **캐시 + 영구 저장소**: 성능과 지속성

### 선택 가이드

| 용도 | 추천 데이터베이스 | 이유 |
|------|------------------|------|
| **RAG 시스템** | Pinecone, Weaviate, Chroma | 벡터 검색 최적화 |
| **지식 그래프** | Neo4j, Amazon Neptune | 관계 중심 데이터 |
| **실시간 AI** | Redis, InfluxDB | 빠른 읽기/쓰기 |
| **멀티모달 검색** | Elasticsearch, Weaviate | 다양한 데이터 타입 |
| **Agent 메모리** | Redis + PostgreSQL | 단기/장기 메모리 |
