# ElasticSearch Indices, Mapping y Operaciones CRUD
## Maestría en Sistemas de Información
### Almacenamiento masivo de datos Workshop indexación

El presente Workshop permitirá al estudiante familiarizarse con los conceptos de **indexación**, **maping** y las operaciones CRUD en **ElasticSearch** versión 7.5.2. Una vez conlcuido se espera del estudiante que esté en capacidad de:

* Conocer los conceptos de indexación y maping y aplicarlos en la configuración de bases customizables de ElasticSearch
* Utilizar los comandos de Kibana para las operaciones de: Create, Update, Read, Delete 
* Utilizar los comandos de python de la librería de ElasticSearch para las operaciones de: Create, Update, Read, Delete

Para aplicar y afianzar los conocimientos, el estudiante realizará una aplicación Flask que permita Crear una base de datos de ElasticSearch, permita indexar información, actualizarla y borrarla. 

## Elasticsearch términos:
* __Documento:__ Unidad básica de informacón indexable, recuperable. (**json**)
* **Índice:** Un índice de Elasticsearch (ES) es el nombre que recibe el espacio donde ES guarda los datos (documentos) . Está conformado por: una o más **shards**, que pueden tener cero o más **réplicas**.

* **Shard:** Son contenedores ubicados en un uno o múltiples nodos. Están conformados de segmentos de *Lucene*. Un índice se divide en uno o mas **shards**. Un **shard** es un Fragmento de un índice que contiene parte de los documentos

* **Replica:** Copia o duplicado de la información que  existe en el **shard primario**.

* __Nodo:__ Instancia de Elastic Search; Almacena todos los documentos.
* __Cluster:__ Conjunto de uno o más nodos. Pueden existir diferentes índices dentro de un clúster.
* __Settings:__ Configuración del índice: # de réplicas, # de shards a nivel de cluster. Diferentes indices pueden tener diferentes valores, mientras que todos los nodos del cluster tendrán los mismos valores.
* __Mappings:__ Modelo de datos de un índice. Campos y Tipos de dato.

## Indexación Invertida:

**Concepto:** 
* Es una estructura de datos que consiste en una lista de palabras únicas del documento empatadas con una tupla que identifica el documento y la posición en la que aparece el término.
* Es un mapeo de **términos o palabras** a los **documentos**

<p align="center"><img src = "images/inverse_indexing.png"></p>

## Workshop:
### Directrices

1. En las siguientes diapositivas se le presentará los comandos en **Kibana** para manipular  *Elasticsearch** y los comandos de **Python** equivalentes para el mismo efecto.

2. Los índices creados con Kibana tendran la extensión **\_ki**; como en: **empleados_ki** y las bases similares creadas con **Python** tendrán la extensión **\_py**, como en: **empleados_py**

3. Recuerde activar el servicio elastic search con:

In [2]:
!service elasticsearch start

4. Recuerde activar el servicio kibana con:

In [3]:
!service kibana start

### Creando un índice con Kibana

Para crear un indice con Kibana ejecutamos el código:

    PUT estudiantes_maestria_ki
    
La respuesta obtenida es:

    {
      "acknowledged" : true,
      "shards_acknowledged" : true,
      "index" : "estudiantes_maestria_ki"
    }

PUT estudiantes_maestria_ki


### Creando un índice con Python

1. Importar la librería de Elasticsearch
2. Instanciar un objeto **es** de Elasticsearch con conexión al **localhost:9200**

In [5]:
from elasticsearch import Elasticsearch
es = Elasticsearch("localhost:9200")
resp = es.indices.create(index="estudiantes_maestria_py")
resp

{'acknowledged': True,
 'shards_acknowledged': True,
 'index': 'estudiantes_maestria_py'}

### Configuración de un índice
Por defecto elasticsearch genera un indice con 1 shard y 1 réplica. Para confirmarlo utilice el comando en Kibana:
    
    GET estudiantes_maestria_ki/_settings?pretty
Que devuelve:

    {
      "estudiantes_maestria_ki" : {
        "settings" : {
          "index" : {
            "creation_date" : "1581034801288",
            "number_of_shards" : "1",
            "number_of_replicas" : "1",
            "uuid" : "Au4DvS54Rr-gTrbA5ayN_A",
            "version" : {
              "created" : "7050299"
            },
            "provided_name" : "estudiantes_maestria_ki"
          }
        }
      }
    }

En Python se obtiene la información con el comando:

In [9]:
import json
resp = es.indices.get_settings(index="estudiantes_maestria_py")
resp

{'estudiantes_maestria_py': {'settings': {'index': {'creation_date': '1581035898162',
    'number_of_shards': '1',
    'number_of_replicas': '1',
    'uuid': 'I2rQeCUcSg-P-T5qqN3kIA',
    'version': {'created': '7050299'},
    'provided_name': 'estudiantes_maestria_py'}}}}