## 2. mongodb 인덱스 (INDEX)
- 검색을 더 빠르게 수행하고자 만든 추가적인 data structure
  - index 데이터 구조가 없다면, 컬렉션에 있는 데이터를 하나씩 조회하는 방식으로 검색이 됨

### 2.1 기본 인덱스 _id
- 모든 mongodb 컬렉션은 기본적으로 _id 필드를 기반으로 기본 인덱스가 생성됨

#### mongodb 접속 기본 코드

In [2]:
from bs4 import BeautifulSoup
import requests
import pymongo
import re

conn = pymongo.MongoClient()
actor_db = conn.cine21
actor_collection = actor_db.actor_collection

actor_collection.find_one({})
docs = actor_collection.find({}).limit(3)
for doc in docs:
    print (doc)
actor = actor_collection

{'_id': ObjectId('5d4541ccc92b652d52161313'), '배우이름': '주지훈', '흥행지수': 29515, '출연영화': ['신과 함께-인과 연', '공작', '암수살인', '신과 함께-죄와 벌', '아수라', '좋은 친구들'], '랭킹': '1', '원어명': '주지훈', '직업': '배우', '생년월일': '1982-05-16', '성별': '남', '홈페이지': '\nhttps://www.instagram.com/_jujihoon/\n', '신장/체중': '187cm, 68kg', '학교': '경기대학교 연기', '취미': '컴퓨터 게임', '특기': '속독, 노래, 춤, 합기도, 피아노', '다른이름': '주영훈'}
{'_id': ObjectId('5d4541ccc92b652d52161314'), '배우이름': '진선규', '흥행지수': 27687, '출연영화': ['극한직업', '사바하', '롱 리브 더 킹: 목포 영웅', '돈', '동네사람들', '완벽한 타인'], '랭킹': '2', '직업': '배우', '생년월일': '1977-09-13', '성별': '남'}
{'_id': ObjectId('5d4541ccc92b652d52161315'), '배우이름': '마동석', '흥행지수': 25252, '출연영화': ['신과 함께-인과 연', '성난황소', '동네사람들', '원더풀 고스트', '노리개: 그녀의 눈물', '악인전'], '랭킹': '3', '직업': '배우', '생년월일': '1971-03-01', '성별': '남', '홈페이지': '\nhttps://www.instagram.com/madongseok_/\nhttps://twitter.com/madongseok12\n'}


### 2.2 Single(단일) 필드 인덱스

#### index 생성: create_index()

In [28]:
actor.create_index('배우이름')

'배우이름_1'

#### index 정보 확인: index_information()

In [26]:
actor.index_information()

{'_id_': {'v': 2, 'key': [('_id', 1)], 'ns': 'cine21.actor_collection'},
 '출연영화_text': {'v': 2,
  'key': [('_fts', 'text'), ('_ftsx', 1)],
  'ns': 'cine21.actor_collection',
  'weights': SON([('출연영화', 1)]),
  'default_language': 'english',
  'language_override': 'language',
  'textIndexVersion': 3}}

- key: ('필드명', direction)
  - direction
    - pymongo.ASCENDING = 1
    - pymongo.DESCENDING = -1
    - pymongo.TEXT = 'text'

#### 전체 인덱스 삭제

In [38]:
actor.drop_indexes()

In [33]:
actor.index_information()

{'_id_': {'v': 2, 'key': [('_id', 1)], 'ns': 'cine21.actor_collection'}}

#### 특정 인덱스 삭제

In [9]:
actor.drop_index([('배우이름', 1)])

In [10]:
actor.index_information()

{'_id_': {'v': 2, 'key': [('_id', 1)], 'ns': 'cine21.actor_collection'}}

#### 여러개의 single index 생성 가능

In [11]:
actor.create_index('배우이름')

'배우이름_1'

In [12]:
actor.create_index('랭킹')

'랭킹_1'

In [13]:
actor.create_index('흥행지수')

'흥행지수_1'

In [18]:
actor.index_information()

{'_id_': {'v': 2, 'key': [('_id', 1)], 'ns': 'cine21.actor_collection'},
 '배우이름_1': {'v': 2, 'key': [('배우이름', 1)], 'ns': 'cine21.actor_collection'},
 '랭킹_1': {'v': 2, 'key': [('랭킹', 1)], 'ns': 'cine21.actor_collection'},
 '흥행지수_1': {'v': 2, 'key': [('흥행지수', 1)], 'ns': 'cine21.actor_collection'},
 '직업_-1': {'v': 2, 'key': [('직업', -1)], 'ns': 'cine21.actor_collection'},
 '출연영화_text': {'v': 2,
  'key': [('_fts', 'text'), ('_ftsx', 1)],
  'ns': 'cine21.actor_collection',
  'weights': SON([('출연영화', 1)]),
  'default_language': 'english',
  'language_override': 'language',
  'textIndexVersion': 3}}

In [15]:
actor.create_index([('직업', pymongo.DESCENDING)])

'직업_-1'

#### 부분 문자열 검색을 위해, text index 생성

In [52]:
actor.drop_indexes()

In [50]:
actor.create_index([('직업', 'text')])

'직업_text'

In [51]:
actor.index_information()

{'_id_': {'v': 2, 'key': [('_id', 1)], 'ns': 'cine21.actor_collection'},
 '직업_text': {'v': 2,
  'key': [('_fts', 'text'), ('_ftsx', 1)],
  'ns': 'cine21.actor_collection',
  'weights': SON([('직업', 1)]),
  'default_language': 'english',
  'language_override': 'language',
  'textIndexVersion': 3}}

#### 부분 문자열 검색: $text

In [41]:
docs = actor.find({'$text': {'$search': '가수'}})
for doc in docs:
    print (doc)

{'_id': ObjectId('5d4541ccc92b652d52161387'), '배우이름': '임윤아', '흥행지수': 2176, '출연영화': ['엑시트', '공조'], '랭킹': '117', '직업': '가수', '생년월일': '1990-05-30', '성별': '여', '홈페이지': '\nhttps://www.instagram.com/yoona__lim/\n', '소속사': 'SM엔터테인먼트', '다른이름': '소녀시대; girlsgeneration; girls generation'}
{'_id': ObjectId('5d4541ccc92b652d52161378'), '배우이름': '진영', '흥행지수': 2469, '출연영화': ['내안의 그놈', '수상한 그녀'], '랭킹': '102', '직업': '가수', '생년월일': '1991-11-18', '성별': '남', '홈페이지': '\nhttps://twitter.com/_jinyoung911118\nhttps://instagram.com/jinyoung0423/\n', '신장/체중': '178cm, 59kg', '다른이름': '정진영; 비원에이포; B1A4'}
{'_id': ObjectId('5d4541ccc92b652d52161377'), '배우이름': '도경수', '흥행지수': 2475, '출연영화': ['스윙키즈', '언더독', '신과 함께-죄와 벌', '형', '순정', '7호실'], '랭킹': '101', '직업': '가수', '성별': '남', '다른이름': '엑소;EXO; 디오'}
{'_id': ObjectId('5d4541ccc92b652d52161369'), '배우이름': '김설현', '흥행지수': 2944, '출연영화': ['안시성'], '랭킹': '87', '직업': '가수', '생년월일': '1995-01-03', '성별': '여', '홈페이지': '\nhttps://instagram.com/sh_9513\n', '다른이름': '김설현;AOA;에이오에이'}


### 2.3 Compound(복합) 필드 인덱스
- 최대 31개의 필드로 만들 수 있음

In [84]:
actor.drop_indexes()

In [82]:
actor.create_index([('출연영화', pymongo.TEXT), ('직업', pymongo.TEXT), ('흥행지수', pymongo.DESCENDING)])

'출연영화_text_직업_text_흥행지수_-1'

In [83]:
docs = actor.find({'$text': {'$search': '신과'}})
for doc in docs:
    print (doc)

{'_id': ObjectId('5d4541ccc92b652d52161359'), '배우이름': '정해균', '흥행지수': 3596, '출연영화': ['신과 함께-인과 연', '나랏말싸미', '성난황소', '신과 함께-죄와 벌'], '랭킹': '71', '직업': '배우', '생년월일': '1968-08-16', '성별': '남'}
{'_id': ObjectId('5d4541ccc92b652d5216133e'), '배우이름': '이준혁', '흥행지수': 5536, '출연영화': ['신과 함께-인과 연', '신과 함께-죄와 벌'], '랭킹': '44', '직업': '배우', '생년월일': '1984-03-13', '성별': '남', '홈페이지': '\nhttps://twitter.com/4eyedjack\n', '신장/체중': '181cm, 70kg', '학교': '한신대학교 광고홍보학'}
{'_id': ObjectId('5d4541ccc92b652d52161335'), '배우이름': '장광', '흥행지수': 7075, '출연영화': ['신과 함께-인과 연', '협상', '안시성', '동네사람들', '덕구', '신과 함께-죄와 벌'], '랭킹': '35', '직업': '배우', '생년월일': '1952-01-05', '성별': '남'}
{'_id': ObjectId('5d4541ccc92b652d5216132f'), '배우이름': '임원희', '흥행지수': 8304, '출연영화': ['신과 함께-인과 연', '신과 함께-죄와 벌', '늦여름'], '랭킹': '29', '직업': '배우', '생년월일': '1970-10-11', '성별': '남', '신장/체중': '175cm, 68kg', '학교': '서울예술대학 연극', '소속사': '빌리지엔터테인먼트'}
{'_id': ObjectId('5d4541ccc92b652d52161326'), '배우이름': '김동욱', '흥행지수': 11121, '출연영화': ['신과 함께-인과 연', '어쩌다, 결혼', '신과 함께

### 2.4 다양한 문자열 검색

In [85]:
# 정규표현식 ($text operator 는 $search operator 와 함께 사용됨)
result = actor.find({'출연영화' : {'$regex' : '함께'}})
for record in result:
    print(record)

{'_id': ObjectId('5d4541ccc92b652d52161313'), '배우이름': '주지훈', '흥행지수': 29515, '출연영화': ['신과 함께-인과 연', '공작', '암수살인', '신과 함께-죄와 벌', '아수라', '좋은 친구들'], '랭킹': '1', '원어명': '주지훈', '직업': '배우', '생년월일': '1982-05-16', '성별': '남', '홈페이지': '\nhttps://www.instagram.com/_jujihoon/\n', '신장/체중': '187cm, 68kg', '학교': '경기대학교 연기', '취미': '컴퓨터 게임', '특기': '속독, 노래, 춤, 합기도, 피아노', '다른이름': '주영훈'}
{'_id': ObjectId('5d4541ccc92b652d52161315'), '배우이름': '마동석', '흥행지수': 25252, '출연영화': ['신과 함께-인과 연', '성난황소', '동네사람들', '원더풀 고스트', '노리개: 그녀의 눈물', '악인전'], '랭킹': '3', '직업': '배우', '생년월일': '1971-03-01', '성별': '남', '홈페이지': '\nhttps://www.instagram.com/madongseok_/\nhttps://twitter.com/madongseok12\n'}
{'_id': ObjectId('5d4541ccc92b652d52161317'), '배우이름': '하정우', '흥행지수': 21128, '출연영화': ['신과 함께-인과 연', 'PMC: 더 벙커', '신과 함께-죄와 벌', '더 테러 라이브', '암살', '베를린'], '랭킹': '5', '직업': '배우', '생년월일': '1978-03-11', '성별': '남', '홈페이지': '\nhttps://www.facebook.com/ft.hajungwoo\n', '신장/체중': '184cm, 75kg', '학교': '중앙대학교 연극학 학사', '취미': '피아노, 검도, 수영', '다른이름': '

In [86]:
from bs4 import BeautifulSoup
import requests
import pymongo
import re

conn = pymongo.MongoClient()
actor_db = conn.cine21
text_collection = actor_db.text_collection

In [87]:
text_collection.insert_many(
    [
        { "name": "Java Hut", "description": "Coffee and cakes", "ranking": 1 },
        { "name": "Burger Buns", "description": "Java hamburgers", "ranking": 2 },
        { "name": "Coffee Shop", "description": "Just coffee", "ranking": 3 },
        { "name": "Clothes Clothes Clothes", "description": "Discount clothing", "ranking": 4 },
        { "name": "Java Shopping", "description": "Indonesian goods", "ranking": 5 }
    ]
)

<pymongo.results.InsertManyResult at 0x10b306b08>

In [91]:
docs = text_collection.find({'name': {'$regex': 'Co.*'}})
for doc in docs:
    print (doc)

{'_id': ObjectId('5d4d2d3bc92b650ad6a7cb3d'), 'name': 'Coffee Shop', 'description': 'Just coffee', 'ranking': 3}


In [92]:
docs = text_collection.find({'name': {'$regex': 'Sh.*'}})
for doc in docs:
    print (doc)

{'_id': ObjectId('5d4d2d3bc92b650ad6a7cb3d'), 'name': 'Coffee Shop', 'description': 'Just coffee', 'ranking': 3}
{'_id': ObjectId('5d4d2d3bc92b650ad6a7cb3f'), 'name': 'Java Shopping', 'description': 'Indonesian goods', 'ranking': 5}


In [93]:
text_collection.create_index([('name', pymongo.TEXT)])

'name_text'

In [95]:
docs = text_collection.find({'$text': {'$search': 'coffee'}})
for doc in docs:
    print (doc)

{'_id': ObjectId('5d4d2d3bc92b650ad6a7cb3d'), 'name': 'Coffee Shop', 'description': 'Just coffee', 'ranking': 3}


In [96]:
docs = text_collection.find({'$text': {'$search': 'java coffee shop'}})
for doc in docs:
    print (doc)

{'_id': ObjectId('5d4d2d3bc92b650ad6a7cb3d'), 'name': 'Coffee Shop', 'description': 'Just coffee', 'ranking': 3}
{'_id': ObjectId('5d4d2d3bc92b650ad6a7cb3f'), 'name': 'Java Shopping', 'description': 'Indonesian goods', 'ranking': 5}
{'_id': ObjectId('5d4d2d3bc92b650ad6a7cb3b'), 'name': 'Java Hut', 'description': 'Coffee and cakes', 'ranking': 1}


In [101]:
docs = text_collection.find({'$text': {'$search': '\"coffee shop\"'}})
for doc in docs:
    print (doc)

{'_id': ObjectId('5d4d2d3bc92b650ad6a7cb3d'), 'name': 'Coffee Shop', 'description': 'Just coffee', 'ranking': 3}


In [103]:
docs = text_collection.find({'$text': {'$search': 'Coffee', '$caseSensitive': True}})
for doc in docs:
    print (doc)

{'_id': ObjectId('5d4d2d3bc92b650ad6a7cb3d'), 'name': 'Coffee Shop', 'description': 'Just coffee', 'ranking': 3}


<div class="alert alert-block alert-warning">
<font color="blue" size="4em">실습</font><br>
배우중에 중앙대학교를 나온 배우를 흥행지수 순으로 최대 10명 출력하라
</div>

In [106]:
result = actor.find({'학교' : {'$regex' : '중앙대학교'}}).sort('흥행지수', pymongo.DESCENDING).limit(10)
for record in result:
    print(record)

{'_id': ObjectId('5d4541ccc92b652d52161313'), '배우이름': '주지훈', '흥행지수': 29515, '출연영화': ['신과 함께-인과 연', '공작', '암수살인', '신과 함께-죄와 벌', '아수라', '좋은 친구들'], '랭킹': '1', '원어명': '주지훈', '직업': '배우', '생년월일': '1982-05-16', '성별': '남', '홈페이지': '\nhttps://www.instagram.com/_jujihoon/\n', '신장/체중': '187cm, 68kg', '학교': '경기대학교 연기', '취미': '컴퓨터 게임', '특기': '속독, 노래, 춤, 합기도, 피아노', '다른이름': '주영훈'}
{'_id': ObjectId('5d4541ccc92b652d52161357'), '배우이름': '정우성', '흥행지수': 3732, '출연영화': ['인랑', '증인', '호우시절', '더 킹', '비트', '아수라'], '랭킹': '69', '직업': '배우', '생년월일': '1973-03-20', '성별': '남', '홈페이지': '\nhttps://www.instagram.com/tojws/\nhttps://www.facebook.com/officialjws\n', '신장/체중': '186cm, 79kg', '학교': '경기상업고등학교 중퇴', '취미': '비디오 감상，드라이브', '특기': '농구，수영', '소속사': '(주)토러스 필름'}
