from torchtext.vocab import build_vocab_from_iterator

# 문장들
sentences = [
    ['I', 'love', 'PyTorch'],
    ['PyTorch', 'is', 'amazing']
]

# Vocab 생성
vocab = build_vocab_from_iterator(sentences)

# 1. 단어 → 인덱스
print(vocab['PyTorch'])  # 특정 인덱스

# 2. 문장 → 인덱스 리스트
sentence = ['I', 'love', 'PyTorch']
indices = vocab.lookup_indices(sentence)
print(indices)  # [2, 3, 0] (예시)

# 3. OOV 처리
vocab.set_default_index(0)  # 모르는 단어는 0번으로
unknown_idx = vocab['unknown_word']
print(unknown_idx)  # 0

# 4. 전체 단어 목록
print(vocab.get_itos())
# ['PyTorch', 'is', 'I', 'love', 'amazing']
```

## 📊 요약표

| 메서드 | 기능 | 예시 |
|--------|------|------|
| `__len__()` | 단어 개수 | `len(vocab)` |
| `__contains__()` | 단어 존재 확인 | `'apple' in vocab` |
| `__getitem__()` | 단어→인덱스 | `vocab['apple']` |
| `lookup_indices()` | 여러 단어→인덱스 | `vocab.lookup_indices(['a', 'b'])` |
| `lookup_token()` | 인덱스→단어 | `vocab.lookup_token(0)` |
| `lookup_tokens()` | 여러 인덱스→단어 | `vocab.lookup_tokens([0, 1])` |
| `get_itos()` | 전체 단어 리스트 | `vocab.get_itos()` |
| `get_stoi()` | 단어:인덱스 딕셔너리 | `vocab.get_stoi()` |
| `append_token()` | 맨 뒤 추가 | `vocab.append_token('new')` |
| `insert_token()` | 특정 위치 삽입 | `vocab.insert_token('new', 1)` |
| `set_default_index()` | OOV 기본값 설정 | `vocab.set_default_index(0)` |

## 💡 핵심 이해

Vocab은 **"자연어(단어) ↔ 숫자" 변환기**입니다:
```
"I love PyTorch" → [2, 3, 0] → 신경망 입력