# Indexing Employee Documents

이번 문서에서는 Employee 데이터를 저장합니다. 하나의 Document는 한명의 Employee를 뜻하며, 데이터를 Elasticsearch에 저장하는 것을 *Indexing*이라고 부릅니다. Elasticsearch Cluster는 multiple indices를 갖을수 있으며, 각각의 index는 multiple types을 갖을 수 있습니다. 그리고 이 types들은 각각 multiple documents를 갖을수 있으며, 각각의 document는 multiple fields를 갖을 수 있습니다.

Elastic Cluster < Multiple Indices < Multiple types < Multiple Documents < Multiple fields



### Index의 여러가지 의미

1. **Index (Noun)**: traditional relational database에서 말하는 인덱스의 의미와 동일합니다.
2. **Index (Verb)**: **To index a document** 의 의미는 해당 document를 특정 index(noun)에 저장하는것을 의미합니다. 즉 Insert와 동일하며 기존의 동일한 document가 있었다면, 새로운 document가 replace하게 됩니다.
3. **Inverted Index**: 기존 RDBMS에서는 B-tree Index같은 Index를 사용하여 특정 columns을 빠르게 찾도록 합니다. Elasticsearch 그리고 Lucene에서는 Inverted Index라는 구조를 같은 이유로 사용을 합니다.


* 참고로.. 크롬에서 JSON Formatter라는 앱을 다운받아서 JSON을 보면 편함..

In [18]:
# -*- coding:utf-8 -*-
from elasticsearch import Elasticsearch
from pprint import pprint as pp

es = Elasticsearch([{'host': 'localhost', 'port': 9200}])

# Index an employee

아래의 예제는 [http://localhost:9200/megacorp/employee/1](http://localhost:9200/megacorp/employee/1) 에서 확인가능합니다.

In [24]:
es.index(index='megacorp', doc_type='employee', id=1, body={
        'first_name': 'Anderson',
        'last_name': 'Jo',
        'age': 32,
        'about': '연봉 1억으로 올리고 싶어요. 어떻게 하면 될까요?',
        'interests': ['자전거', 'Movie']
    })

es.index(index='megacorp', doc_type='employee', id=2, body={
        'first_name': 'Neo',
        'last_name': 'Jo',
        'age': 30,
        'about': 'I like donut',
        'interests': ['Eat', 'Pray', 'Fuck']
    })

es.index(index='megacorp', doc_type='employee', id=3, body={
        'first_name': 'Harry',
        'last_name': 'Potter',
        'age': 25,
        'about': "it's about MAGIC",
        'interests': ['ABADACADABRA!']
    })

{u'_id': u'3',
 u'_index': u'megacorp',
 u'_shards': {u'failed': 0, u'successful': 1, u'total': 2},
 u'_type': u'employee',
 u'_version': 1,
 u'created': True,
 u'result': u'created'}

# Retrieve the employee data

Indexing(저장)을 위의 코드에서 했는데, 이번에는 반대로 가져오는 것을 해보겠습니다.

In [25]:
pp(es.get(index='megacorp', doc_type='employee', id=1))

{u'_id': u'1',
 u'_index': u'megacorp',
 u'_source': {u'about': u'\uc5f0\ubd09 1\uc5b5\uc73c\ub85c \uc62c\ub9ac\uace0 \uc2f6\uc5b4\uc694. \uc5b4\ub5bb\uac8c \ud558\uba74 \ub420\uae4c\uc694?',
              u'age': 32,
              u'first_name': u'Anderson',
              u'interests': [u'\uc790\uc804\uac70', u'Movie'],
              u'last_name': u'Jo'},
 u'_type': u'employee',
 u'_version': 5,
 u'found': True}


# Search Lite

조금더 Advanced한 검색 쿼리로 넘어가보겠습니다.<br>
이번에는 특정 Document ID 대신에 *_search* endpoint를 줘보겠습니다. <br>
위에서 저장한 모든 documents가 **hints** array이 안에 들어가있는것을 확인할 수 있습니다.

[/megacorp/employee/_search](http://localhost:9200/megacorp/employee/_search)

이번에는 last_name이 Potter인 사람만 검색해보겠습니다.

[/megacorp/employee/_search?q=last_name:Potter](http://localhost:9200/megacorp/employee/_search?q=last_name:Potter)

아래의 파이썬 코드는 Search Lite는 아니고, Query DSL을 사용한 예제입니다. <br>
DSL을 사용할 경우 더 복잡한 query를 만들수 있습니다.

In [32]:
# Query with DSL
es.search(index='megacorp', doc_type='employee', body={'query': {'match': {'last_name': 'Potter'}}})

{u'_shards': {u'failed': 0, u'successful': 5, u'total': 5},
 u'hits': {u'hits': [{u'_id': u'3',
    u'_index': u'megacorp',
    u'_score': 0.2876821,
    u'_source': {u'about': u"it's about MAGIC",
     u'age': 25,
     u'first_name': u'Harry',
     u'interests': [u'ABADACADABRA!'],
     u'last_name': u'Potter'},
    u'_type': u'employee'}],
  u'max_score': 0.2876821,
  u'total': 1},
 u'timed_out': False,
 u'took': 2}

# Advanced Search

In [37]:
query = {
    'query': {
        'bool': {
            'must': {
                'match': {
                    'last_name': 'Jo'
                }
            },
            'filter': {
                'range': {
                    'age': {'gte': 32}
                }
            }
        }
    }
}
es.search(index='megacorp', doc_type='employee', body=query)

{u'_shards': {u'failed': 0, u'successful': 5, u'total': 5},
 u'hits': {u'hits': [{u'_id': u'1',
    u'_index': u'megacorp',
    u'_score': 0.2876821,
    u'_source': {u'about': u'\uc5f0\ubd09 1\uc5b5\uc73c\ub85c \uc62c\ub9ac\uace0 \uc2f6\uc5b4\uc694. \uc5b4\ub5bb\uac8c \ud558\uba74 \ub420\uae4c\uc694?',
     u'age': 32,
     u'first_name': u'Anderson',
     u'interests': [u'\uc790\uc804\uac70', u'Movie'],
     u'last_name': u'Jo'},
    u'_type': u'employee'}],
  u'max_score': 0.2876821,
  u'total': 1},
 u'timed_out': False,
 u'took': 4}