### 0. MongoDB 인덱스
- MongoDB 인덱스는 데이터베이스 성능 최적화를 위한 중요한 도구임  
- 인덱스는 특정 필드 또는 필드 세트에 대한 특정 정렬 순서를 유지하는 데이터 구조
- 이를 통해 데이터베이스 엔진이 특정 쿼리를 더 빠르게 처리할 수 있음

### 인덱스의 중요성
- 데이터 셋이 클 경우, 전체 데이터베이스를 스캔하는 것은 매우 비효율적
- 이러한 상황에서 인덱스는 필요한 문서를 훨씬 더 빠르게 찾도록 도와줌
- 인덱스는 특정 필드의 값들을 정렬된 순서로 유지하여 해당 필드에 대한 쿼리가 빠르게 실행될 수 있도록 함
- 하지만 인덱스도 스토리지 공간을 차지하므로 적절히 사용해야 하므로, 불필요한 인덱스는 성능을 저하시킬 수 있음

> 읽기 작업이 많은 경우 인덱스는 유용하지만, 쓰기 작업이 많은 경우에는 수시로 인덱스까지 업데이트해야 하므로, 인덱스 오버헤드로 성능이 오히려 저하될 수 있음


### MongoDB 인덱스 유형
- 단일 필드 인덱스: MongoDB에서, 사용자는 단일 필드의 값을 기반으로 인덱스를 생성할 수 있음
- 복합 인덱스: (★ 두 개 이상)의 필드를 기반으로 인덱스를 만들 수도 있습니다. 이를 복합 인덱스라고 함
- 다중키 인덱스: (★ 배열 데이터를 색인화하기 위해) MongoDB는 다중키 인덱스를 사용함
- 지리 공간 인덱스: 지리적 위치 데이터를 기반으로 인덱스를 생성하는 것도 가능함
- (★)텍스트 인덱스: 텍스트 쿼리를 지원하기 위해 MongoDB는 텍스트 인덱스를 제공함  (## 가중치 값 이용)

### 주요 문법
- 인덱스 생성: db.collection.createIndex({ field: 1 })----(1:오름차순(기본값, 생략가능))
- 인덱스 삭제: db.collection.dropIndex("indexName")
- 인덱스 리스트 조회: db.collection.getIndexes()
- 복합 인덱스 생성: db.collection.createIndex({ field1: 1, field2: -1 })
- 다중키 인덱스 생성: db.collection.createIndex({ fieldArray: 1 })
- 텍스트 인덱스 생성: db.collection.createIndex({ field: "text" })  --- 정렬 순서 대신, { field: "text" } 입력. 고정값

### 1. MongoDB 인덱스 사용법 이해
- sample_mflix 데이터넷을 기반으로, 테스트를 통해 MongoDB 인덱스 사용법 이해

### 기본 pymongo 템플릿 코드

In [5]:
from pymongo import MongoClient

client = MongoClient("mongodb://localhost:27017")

db = client.sample_mflix
movies = db.movies

### 단일 필드 인덱스 생성
- 영화의 제목(title)에 대한 인덱스 만들기 
- create_index 메서드는 인덱스 이름을 반환

In [6]:
result = movies.create_index("title")
print(result)

title_1


### 인덱스 리스트 조회
- 컬렉션에 있는 모든 인덱스 조회
- 결과로 반환되는 객체는 각 인덱스를 표현하는 키-값 쌍의 딕셔너리
- 인덱스 리스트 조회 결과 예
   - **\_id\_** : 이는 MongoDB가 자동으로 생성하는 기본 인덱스입니다. 모든 MongoDB 문서는 기본적으로 _id 필드를 가지며, 이 필드에는 각 문서의 고유 식별자가 저장됩니다.
   - **title_1** : 이는 사용자가 만든 사용자 정의 인덱스입니다. 이 경우에는 title 필드에 대한 인덱스입니다.
   - 각 키에는 또 다른 딕셔너리가 연결되어 있습니다. 이 내부 딕셔너리는 인덱스에 대한 자세한 정보를 제공합니다.
   - **v** : 이는 인덱스의 버전을 나타냅니다. MongoDB는 시간이 지남에 따라 인덱스의 내부 표현을 최적화하기 위해 인덱스 버전을 업데이트합니다. 여기서 '2'는 인덱스의 버전이 2라는 것을 나타냅니다.
   - **key** : 이는 인덱스의 키 패턴을 나타냅니다. 이는 인덱스가 어떤 필드에 대해 구축되었는지, 그리고 해당 필드가 오름차순(1) 또는 내림차순(-1)으로 정렬되었는지를 나타냅니다.
```python
{'_id_': {'v': 2, 'key': [('_id', 1)]}, 'title_1': {'v': 2, 'key': [('title', 1)]}}
```

In [7]:
indices = movies.index_information()
print(indices)

{'_id_': {'v': 2, 'key': [('_id', 1)]}, 'title_1': {'v': 2, 'key': [('title', 1)]}}


### 복합 인덱스 생성
- 복합 인덱스는 두 개 이상의 필드에 대한 인덱스
- 아래는 제목과 년도에 대한 복합 인덱스를 만드는 방법
- 복합 인덱스의 이름은 각 필드 이름과 정렬 순서(1 또는 -1)를 결합한 문자열임
  - 오름차순(1) 또는 내림차순(-1)
- 이 경우 'title_1_year_-1'이 출력됨

In [8]:
result = movies.create_index([("title", 1), ("year", -1)])
print(result)

title_1_year_-1


### 다중키 인덱스 생성

- 배열 필드에 인덱스를 생성하면 MongoDB는 다중키 인덱스를 자동으로 생성
- cast 필드는 값이 배열임 

In [9]:
pipeline = [
    {"$limit": 1}
]
for movie in movies.aggregate(pipeline): print(movie['cast'])

['Charles Kayser', 'John Ott']


In [10]:
result = movies.create_index("cast")
print(result)

cast_1


### 텍스트 인덱스 생성

- 텍스트 인덱스는 문자열 콘텐츠를 검색하는 데 사용
- 영화의 개요(plot)를 검색하는 데 사용할 수 있는 텍스트 인덱스 생성 예
   - 텍스트 인덱스의 이름은 'plot_text'

In [11]:
result = movies.create_index([("plot", "text")])
print(result)

plot_text


### 인덱스 삭제

- 더 이상 필요하지 않은 인덱스는 삭제
- 별도 리턴값은 없음 (없는 인덱스 삭제 시도시는 에러 발생)

In [12]:
movies.drop_index("title_1")

In [13]:
movies.drop_index("plot_text")

### 모든 인덱스 삭제
- 모든 인덱스를 한 번에 삭제하는 drop_indexes()라는 메서드를 제공
- 단, MongoDB는 각 컬렉션의 _id 필드에 대한 인덱스를 자동으로 생성하며, 이 인덱스는 drop_indexes() 메서드로 삭제할 수 없음

In [19]:
movies.drop_indexes()

### MongoDB 인덱스의 가중치 사용
- MongoDB의 텍스트 인덱스는 가중치를 사용하여 특정 필드의 중요성을 강조할 수 있음
- 가중치는 각 필드에 대해 설정할 수 있으며, 이는 해당 필드에서 일치하는 결과의 적합성 점수(-- 검색이 더 잘 될 값에 점수를 더 주는 것--)에 영향을 미침
- 텍스트 인덱스의 각 필드에 가중치를 설정하면, 해당 필드에서 일치하는 텍스트는 가중치가 더 낮은 다른 필드에서 일치하는 텍스트보다 더 높은 점수를 받음
  - 즉, 일치 결과의 정렬에 큰 영향을 미침

In [16]:
result = movies.create_index([("title", "text"), ("plot","text")],
                            weights = {"title":5, "plot":1})

- 위 코드는 'title' 필드의 가중치를 5로, 'plot' 필드의 가중치를 1로 설정  (--적당한 가중치, 실무에서는 10 이상 부여하지 않음--)
- 이렇게 하면, 'title' 필드에서 일치하는 단어는 'plot' 필드에서 일치하는 단어보다 검색 결과의 순서에 더 큰 영향을 미치게 됨
- 가중치가 적용된 텍스트 인덱스를 사용하여 쿼리를 실행하면, 각 문서에는 적합성(유사도) 점수가 부여됨
- 이 점수는 MongoDB 에서 textScore 로 해당 점수를 관리하며, 해당 점수를 가져오거나, 사용하여 정렬하려면, $meta 연산자를 함께 사용해야 함
   - 다음 `{"score": {"$meta": "textScore"}(★고정)}` 코드에서 `score`는 임의로 지정한 필드 이름, 이 필드는 각 document의 'textScore'를 저장하기 위해, `$meta` 연산자를 사용해야함 

In [None]:
cursor = movies.find(
    {"$text": {"$search": "thriller"}},
    {"score": {"$meta": "textScore"}}).sort([("score", {"$meta": "textScore"})]).limit(5)

for doc in cursor:
    print(doc)

- 위 코드는 "thriller"를 검색하는 쿼리를 실행하고, 각 결과 문서에 적합성 점수를 부여함 
- 결과는 적합성 점수에 따라 정렬됨
- 'title' 필드에서 "thriller"와 일치하는 문서는 'plot' 필드에서 "thriller"와 일치하는 문서보다 더 높은 적합성 점수를 받게 되어, 검색 결과의 상단에 더 가까이 위치하게 됨
- `sort([("score", {"$meta": "textScore"})])` 는 오름차순으로 설정할 수 없음 (유사도가 높은 순으로 정렬하는 특수 기능) -- 동적으로 스코어 계산

### 참고
- 위 코드에서 sort("score") 는 정상 동작하지 않는 이유
   - score 필드에 저장된 값이 textScore를 계산하기 위한 **`$meta` 연산자에 의해 동적으로 생성된 값**
   - **동적으로 계산된 값을 기준으로 정렬하려면 해당 값을 다시 계산하도록 MongoDB에게 명시적으로 지시해야 함**
      - 따라서, 정렬을 수행하려면 MongoDB에게 textScore 값을 다시 계산하도록 지시해야 함
      - 이런 동작 방식은 MongoDB의 sort() 메소드가 동적으로 계산된 값에 대해서는 기본적으로 재계산을 수행하지 않기 때문
      - 동적으로 계산된 값을 기준으로 정렬하려면 해당 값을 다시 계산하도록 MongoDB에게 명시적으로 지시해야 함
   - 이를 위해 `sort([("score", {"$meta": "textScore"})])` 와 같이 $meta 연산자를 sort() 메소드에도 전달해야 함
   - 이렇게 하면 MongoDB는 각 문서의 textScore 값을 계산하여 이를 기준으로 정렬을 수행하게 됨
   

### 2. MongoDB 텍스트 인덱스와 텍스트 검색
- 텍스트 검색을 위해서는 텍스트 인덱스가 필요함
- 다음 코드는 텍스트 인덱스가 없을 경우, 에러 발생

```python
cursor = movies.find({"$text": {"$search": "Jaws"}})
for doc in cursor:
    print(doc)
```

```bash
ERROR: text index required for $text query
```

### 텍스트 검색 방법

- **1단계: 텍스트 인덱스 생성**

In [20]:
result = movies.create_index([("title", "text")])

- **2단계: 텍스트 검색 쿼리 실행**

  - 텍스트 인덱스를 생성한 후에는 `$text` 연산자와 `$search` 필드를 사용하여 텍스트 검색 쿼리를 실행할 수 있음 
  - 다음은 title 필드에서 "Jaws"를 찾는 쿼리 예시임

In [None]:
cursor = movies.find({"$text": {"$search": "Jaws"}})

for doc in cursor:
    print(doc)

- **3단계: 적합성 점수를 사용한 정렬**
   - 텍스트 검색 쿼리는 `$meta` 연산자를 사용하여 적합성 점수에 따라 결과를 정렬할 수 있음  
   - 적합성 점수는 각 문서가 검색 문자열과 얼마나 잘 일치하는지를 나타냄
   - 다음과 같이 적합성 점수를 계산하고 이를 기준으로 결과를 정렬할 수 있음
   
```bash
cursor = movies.find(
    {"$text": {"$search": "Jaws"}},
    {"score": {"$meta": "textScore"}}).sort([("score", {"$meta": "textScore"})])
```

- `$text` 연산자를 이용한 검색 쿼리는 각 문서에 대해 검색 문자열과의 일치도를 기반으로 적합성 점수를 계산함  
   - 적합성 점수는 문서가 검색 쿼리와 얼마나 잘 일치하는지를 나타내는 지표임 
   - 이 점수는 각 문서에 포함된 검색 문자열의 빈도, 위치 등 여러 요인을 고려하여 계산됨
- 적합성 점수는 `$meta` 연산자를 사용하여 조회할 수 있으며, 이 연산자는 'textScore'라는 특별한 메타데이터 필드에 이 점수를 저장함 
- 이 때, 'textScore'는 MongoDB가 내부적으로 적합성 점수를 저장하기 위해 사용하는 필드 이름임
```bash
{"score": {"$meta": "textScore"}}
```
- 위 코드는 검색 결과로 반환되는 각 문서에 적합성 점수를 추가하는 프로젝션임
- 'score'는 이 코드의 작성자가 적합성 점수를 저장하기 위해 선택한 임의의 필드 이름임  
- 이 이름은 원하는 대로 변경할 수 있음
```bash
.sort([("score", {"$meta": "textScore"})])
```
- 위 코드는 적합성 점수를 기준으로 검색 결과를 정렬하는 코드임 
- 이 코드는 'score' 필드에 저장된 적합성 점수를 기준으로 검색 결과를 내림차순으로 정렬함 
- 이 때도 'score'는 위에서 지정한 필드 이름과 동일해야 함

In [22]:
cursor = movies.find(
    {"$text": {"$search": "Jaws"}},
    {"score": {"$meta": "textScore"}}).sort([("score", {"$meta": "textScore"})])

for doc in cursor:
    print(doc)

{'_id': ObjectId('573a1396f29313caabce5ba0'), 'fullplot': "It's a hot summer on Amity Island, a small community whose main business is its beaches. When new Sheriff Martin Brody discovers the remains of a shark attack victim, his first inclination is to close the beaches to swimmers. This doesn't sit well with Mayor Larry Vaughn and several of the local businessmen. Brody backs down to his regret as that weekend a young boy is killed by the predator. The dead boy's mother puts out a bounty on the shark and Amity is soon swamped with amateur hunters and fisherman hoping to cash in on the reward. A local fisherman with much experience hunting sharks, Quint, offers to hunt down the creature for a hefty fee. Soon Quint, Brody and Matt Hooper from the Oceanographic Institute are at sea hunting the Great White shark. As Brody succinctly surmises after their first encounter with the creature, they're going to need a bigger boat.", 'imdb': {'rating': 8.1, 'votes': 368812, 'id': 73195}, 'year':