# Text-to-SQL: 자연어로 데이터베이스 검색하기

이 노트북에서는 **자연어 질문을 SQL 쿼리로 자동 변환**하여 데이터베이스를 검색하는 방법을 배웁니다.

## Text-to-SQL이란?

**Text-to-SQL**은 사람의 말을 SQL로 바꿔주는 기술입니다.

```
┌────────────────────────────────────────────────────────────────────┐
│                   Text-to-SQL의 마법                              │
├────────────────────────────────────────────────────────────────────┤
│                                                                    │
│   사용자: "직원은 모두 몇 명인가요?"                               │
│           │                                                       │
│           ▼                                                       │
│   ┌─────────────────────────────────────┐                          │
│   │            LLM 변환                  │                          │
│   │                                     │                          │
│   │   입력: 자연어 질문                  │                          │
│   │   출력: SQL 쿼리                    │                          │
│   └─────────────────────────────────────┘                          │
│           │                                                       │
│           ▼                                                       │
│   SQL: SELECT COUNT(*) FROM employee;                             │
│           │                                                       │
│           ▼                                                       │
│   결과: 8                                                         │
│                                                                    │
│   ✅ SQL을 몰라도 데이터베이스 검색 가능!                          │
│                                                                    │
└────────────────────────────────────────────────────────────────────┘
```

## 왜 Text-to-SQL이 필요할까요?

| 기존 방식 | Text-to-SQL |
|----------|-------------|
| SQL 문법을 알아야 함 | 자연어로 질문 |
| 테이블 구조를 파악해야 함 | LLM이 자동 분석 |
| 오타에 민감 | 의미 기반 이해 |
| 전문가만 사용 가능 | 누구나 사용 가능 |

## 벡터 검색 vs SQL 검색

```
┌────────────────────────────────────────────────────────────────────┐
│                 RAG에서 두 가지 데이터 소스                         │
├────────────────────────────────────────────────────────────────────┤
│                                                                    │
│   ┌─────────────────────┐      ┌─────────────────────┐            │
│   │   벡터 저장소 (RAG)  │      │   SQL 데이터베이스   │            │
│   ├─────────────────────┤      ├─────────────────────┤            │
│   │ • 비정형 텍스트      │      │ • 정형 데이터        │            │
│   │ • 문서, 기사, 논문   │      │ • 고객, 주문, 재고   │            │
│   │ • 의미 기반 검색     │      │ • 정확한 수치 검색   │            │
│   │ • "~와 비슷한 것"    │      │ • "~이 몇 개인가"    │            │
│   └─────────────────────┘      └─────────────────────┘            │
│                                                                    │
│   → 두 가지를 상황에 맞게 활용!                                    │
│                                                                    │
└────────────────────────────────────────────────────────────────────┘
```

---

# 1. SQLite 데이터베이스 준비

이 예시에서는 **Chinook** 데이터베이스를 사용합니다.
Chinook은 음악 스토어 데이터로, 아티스트, 앨범, 직원 등의 정보가 있습니다.

In [None]:
# Chinook 데이터베이스 다운로드
!curl -s https://raw.githubusercontent.com/lerocha/chinook-database/master/ChinookDatabase/DataSources/Chinook_Sqlite.sql | sqlite3 Chinook.db

print("✅ Chinook.db 데이터베이스 생성 완료")

# 2. 패키지 설치 및 Ollama 준비

In [None]:
!pip install -q langchain langchain-community langchain-ollama

In [None]:
import subprocess
import time

!apt-get install -y zstd
!curl -fsSL https://ollama.com/install.sh | sh

subprocess.Popen(['ollama', 'serve'])
time.sleep(3)

!ollama pull llama3.2

# 3. 데이터베이스 연결 및 탐색

## SQLDatabase란?

LangChain에서 SQL 데이터베이스에 연결하고 정보를 가져오는 도구입니다.

In [None]:
from langchain_community.utilities import SQLDatabase

# 데이터베이스 연결
db = SQLDatabase.from_uri('sqlite:///Chinook.db')

# 테이블 목록 확인
tables = db.get_usable_table_names()

print("✅ 데이터베이스 연결 완료")
print(f"\n=== 사용 가능한 테이블 ({len(tables)}개) ===")
for t in tables:
    print(f"   • {t}")

In [None]:
# 테이블 스키마 확인
print("=== Employee 테이블 구조 ===")
print(db.get_table_info(['Employee']))

# 4. SQL 쿼리 생성 체인 만들기

자연어 질문을 SQL로 변환하는 체인입니다.

## create_sql_query_chain의 동작

```
┌────────────────────────────────────────────────────────────────────┐
│              create_sql_query_chain 동작 원리                      │
├────────────────────────────────────────────────────────────────────┤
│                                                                    │
│   입력: {"question": "직원은 몇 명인가요?"}                        │
│          │                                                        │
│          ▼                                                        │
│   ┌─────────────────────────────────────┐                          │
│   │   LLM에게 전달되는 정보:            │                          │
│   │   • 테이블 스키마 (열 이름, 타입)    │                          │
│   │   • 샘플 데이터                      │                          │
│   │   • 사용자 질문                      │                          │
│   └─────────────────────────────────────┘                          │
│          │                                                        │
│          ▼                                                        │
│   출력: SELECT COUNT(*) FROM Employee                             │
│                                                                    │
└────────────────────────────────────────────────────────────────────┘
```

In [None]:
from langchain.chains import create_sql_query_chain
from langchain_ollama import ChatOllama

# LLM
llm = ChatOllama(model='llama3.2', temperature=0)

# SQL 쿼리 생성 체인
write_query = create_sql_query_chain(llm, db)

print("✅ SQL 쿼리 생성 체인 준비 완료")

In [None]:
# SQL 생성 테스트
question = '직원(employee)은 모두 몇 명인가요?'

sql_query = write_query.invoke({'question': question})

print(f"질문: {question}\n")
print("=== 생성된 SQL ===")
print(sql_query)

# 5. SQL 쿼리 실행 도구 추가

생성된 SQL을 실제로 실행하는 도구입니다.

In [None]:
from langchain_community.tools import QuerySQLDatabaseTool

# SQL 쿼리 실행 도구
execute_query = QuerySQLDatabaseTool(db=db)

print("✅ SQL 쿼리 실행 도구 준비 완료")

In [None]:
# SQL 실행 테스트
result = execute_query.invoke(sql_query)

print(f"SQL: {sql_query}")
print(f"\n결과: {result}")

# 6. Text-to-SQL 전체 체인 완성

```
┌─────────────────────────────────────────────────────────────────────┐
│                  Text-to-SQL 전체 파이프라인                        │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│   자연어 질문    →    SQL 쿼리 생성    →    SQL 실행    →    결과   │
│                                                                     │
│   "직원 수?"       SELECT COUNT(*)      8              "8"         │
│                    FROM Employee                                    │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘
```

In [None]:
# 전체 체인: 질문 → SQL 생성 → SQL 실행
combined_chain = write_query | execute_query

print("✅ Text-to-SQL 전체 체인 준비 완료")

In [None]:
# 전체 체인 테스트
question = '직원(employee)은 모두 몇 명인가요?'

print(f"질문: {question}\n")

result = combined_chain.invoke({'question': question})

print(f"결과: {result}")

# 7. 다양한 질문으로 테스트

In [None]:
test_questions = [
    "앨범(Album)은 총 몇 개인가요?",
    "아티스트(Artist) 수는?",
    "가장 최근에 가입한 고객(Customer)의 이름은?",
    "가장 많은 트랙을 가진 앨범의 이름은?",
]

for q in test_questions:
    print(f"\n{'='*60}")
    print(f"질문: {q}")
    print("="*60)
    
    try:
        # SQL 생성
        sql = write_query.invoke({'question': q})
        print(f"SQL: {sql[:100]}..." if len(sql) > 100 else f"SQL: {sql}")
        
        # SQL 실행
        result = combined_chain.invoke({'question': q})
        print(f"결과: {result}")
    except Exception as e:
        print(f"오류: {str(e)[:100]}")

# 8. 주의사항: SQL 인젝션

## SQL 인젝션이란?

악의적인 SQL 코드를 주입하여 데이터베이스를 조작하는 공격입니다.

```
┌────────────────────────────────────────────────────────────────────┐
│                   ⚠️ SQL 인젝션 주의                              │
├────────────────────────────────────────────────────────────────────┤
│                                                                    │
│   Text-to-SQL 사용 시 주의할 점:                                   │
│                                                                    │
│   ❌ 위험한 사용:                                                  │
│   • 사용자 입력을 검증 없이 LLM에 전달                             │
│   • DELETE, DROP 등 위험한 쿼리 실행 허용                         │
│                                                                    │
│   ✅ 안전한 사용:                                                  │
│   • SELECT 쿼리만 허용하도록 제한                                  │
│   • 읽기 전용 데이터베이스 사용자 권한                             │
│   • 쿼리 실행 전 검증 단계 추가                                    │
│                                                                    │
└────────────────────────────────────────────────────────────────────┘
```

---

## 정리: Text-to-SQL

### 언제 사용하면 좋을까요?

| 상황 | 적합한 방식 |
|------|------------|
| 비정형 텍스트 검색 | 벡터 검색 (RAG) |
| 정확한 수치/통계 | Text-to-SQL ✅ |
| 의미 기반 유사 검색 | 벡터 검색 (RAG) |
| 필터링/정렬/집계 | Text-to-SQL ✅ |

### 핵심 코드

```python
from langchain_community.utilities import SQLDatabase
from langchain.chains import create_sql_query_chain
from langchain_community.tools import QuerySQLDatabaseTool

# 1. 데이터베이스 연결
db = SQLDatabase.from_uri('sqlite:///data.db')

# 2. SQL 쿼리 생성 체인
write_query = create_sql_query_chain(llm, db)

# 3. SQL 쿼리 실행 도구
execute_query = QuerySQLDatabaseTool(db=db)

# 4. 전체 체인
chain = write_query | execute_query

# 5. 실행
result = chain.invoke({'question': '직원 수는?'})
```

### 지원하는 데이터베이스

| 데이터베이스 | 연결 문자열 예시 |
|-------------|------------------|
| SQLite | `sqlite:///data.db` |
| PostgreSQL | `postgresql://user:pass@host:port/db` |
| MySQL | `mysql://user:pass@host:port/db` |
| Oracle | `oracle://user:pass@host:port/db` |

## 코드 변경점 (OpenAI → Ollama)

```python
# 원본
from langchain_openai import ChatOpenAI
llm = ChatOpenAI(model='gpt-4o', temperature=0)

# 변경
from langchain_ollama import ChatOllama
llm = ChatOllama(model='llama3.2', temperature=0)
```

## ch03 요약

이 챕터에서 배운 고급 RAG 기법들:

| 기법 | 핵심 아이디어 |
|------|---------------|
| **Basic RAG** | 검색 + 생성 |
| **Query Rewriting** | 질문 재작성으로 검색 개선 |
| **Multi-Query** | 여러 버전의 질문으로 검색 |
| **RAG Fusion** | RRF로 검색 결과 재순위화 |
| **HyDE** | 가상 문서로 검색 |
| **Router** | 질문 유형별 라우팅 |
| **Semantic Router** | 의미 기반 자동 라우팅 |
| **Self-Query** | 메타데이터 자동 필터링 |
| **Text-to-SQL** | 자연어 → SQL 변환 |