![title](https://ucm.es/themes/ucm16/media/img/logo.png)

# Bases de datos NoSQL - Rafael Caballero

### Motores de búsqueda. Elastic Search



Rafael Caballero

**Índice**

[Introducción](#Introducción)<br>
[Instalación](#Instalación)<br>
[Prueba](#Prueba)<br>
[Inserción](#Inserción)<br>
[Hits](#Hits)<br>
[Match y Term](#Match-y-Term)<br>
[Range](#Range)<br>
[Condiciones compuestas](#Condiciones-compuestas)<br>
[Agregaciones](#Agregaciones)<br>
[Enlaces](#Enlaces)<br>



### Introducción



<div>
<img src="https://media-exp1.licdn.com/dms/image/C4E12AQHHzKlL2XQvcQ/article-cover_image-shrink_600_2000/0?e=1592438400&v=beta&t=e2XPVI4uzksaaXak6Egq4xJLG9eck8GWNFoY3XStO1s" width="500"/>
</div>

Uno de los principales objetivos de toda base de datos es ser capaz de recuperar información de forma eficiente, es decir de responder a consultas rápidamente. Para lograr esto a menudo utilizan *índices* complejos.

Un *motor de búsqueda* sería entonces una base de datos optimizada para este fin: obtener rápidamente las respuestas, que en este campo se llaman *hits*, para cualquier consulta.

Algunas características típicas de los motores de búsqueda son:

* Se pone todo el énfasis en la recuperación de la información, no se presta tanta atención a cómo se almacena esta información (de hecho a menudo se asume que ya se dispone de un *corpus* inicial y ni siquiera se tienen operaciones de inserción)

* Las repuestas o *hits* a menudo se ordenan según el grado de similitud con la consulta

* Para lograr una respuesta rápida se suelen utilizar *índices*

Seguramente Google, especializado en recuperar páginas web, es el motor de búsqueda más conocido, pero existen muchos otros que se utilizan principalmente en el ámbito de la recuperación de documentos. Por ejemplo, cuando buscamos un fichero en el ordenador estamos utilizando un motor de búsqueda. 

Pero si lo que deseamos es integrar un motor de búsqueda en una aplicación, una de las soluciones más comunes suele ser utilizar Elastic Search.

### Instalación

Elastic es fácil de [instalar](https://www.elastic.co/es/downloads/elasticsearch) en cualquier sistema operativo. Si no queremos instalar nada en nuestra máquina podemos también utilizar la instalación en cloud (que se recomienda para esta práctica, aprovechando los 14 días gratuítos)

Para ello accederemos a https://www.elastic.co/es/cloud/elasticsearch-service/signup

* Introducimos el correo y hacemos click en "start free trial"
* Vamos a nuestro correo y damos en "Verify and Accept"
* Esto nos lleva a Elastic Cloud donde debemos introducir un password
* Ya dentro le damos a "Start your free trial"

Ya estamos preparados para crear nuestro "deployment" que será el equivalente a nuestro cluster. Yo he puesto 

* 1. Nombre: NoSQL
* 2. Cloud platform: AWS
* 3. Region: EU (Frankfurt)

En 4 y 5 no he cambiado nada. Ahora podemos pulsar "Create deployment". Tardará unos minutos, pero de momento ya nos mostrará el username (posiblemente `elastic`) y el password, algo como `DUApg5ZDkkcd6mm1UDQjpVgV` **que debemos copiar y guardar** ya que será parte de la cadena de conexión.

Cuando haya acabado pondrá algo como 

    Your deployment has been created.

    Now that it’s ready, view your deployment.

Hacemos click sobre "view your deployment". Allí, en donde pone "Elastic" elegir "Copy Endpoint URL", la cadena será del estilo

https://1850499b1fd94a22b3019182a5bd106c.eu-central-1.aws.cloud.es.io:9243


Finalmente para poder usar elastic desde Python, instalar desde la consola de Anaconda:

    pip install elasticsearch



### Prueba

Para probar debemos cambiar la URL por la de conexión de nuestro "deployment". 

Debemos copiar la `cadena` que nos pone en endpoint y añadir el `login` y el `password`:

    https://username:password@cadena

Por ejemplo, dado el deployment

https://1850499b1fd94a22b3019182a5bd106c.eu-central-1.aws.cloud.es.io:9243

con username `elastic`y  passwd `DUApg5ZDkkcd6mm1UDQjpVgV`, tendremos que formar la URL

También podemos entrar a partir de 

https://cloud.elastic.co/

In [1]:
#urlConexion = "https://elastic:vdPEYFAu560VwPYRBlcBggZE@bfdec1eb23234f23a254b1708312f824.eu-central-1.aws.cloud.es.io:9243"
urlConexion = "https://elastic:jdS3abH3u78gOa2EJ4AWGEEe@1a35c21911884b199284b6ea61bcc2fe.eu-central-1.aws.cloud.es.io:9243"
# elastic:password@deployment
# deployment: https://1a35c21911884b199284b6ea61bcc2fe.eu-central-1.aws.cloud.es.io:9243

import elasticsearch
from elasticsearch import Elasticsearch
es = Elasticsearch(urlConexion)

if es.ping():
        print('Conectado')
else:
        print('Error de conexión!')

# para desconectar        
#es.transport.connection_pool.close()

Conectado


### Inserción

Insertamos los datos; esto puede tardar minutos

In [2]:
path = "C:/Users/Arturo/Desktop/ElasticSearch/"
file = path+"tweet.json"

import json

i = 0
ndocs = 0
with open(file,encoding="utf8") as f:
    for linea in f:
        i+=1
        if linea=="{\n":
            s= ""
        s += linea
        if linea=="}\n":
            doc = json.loads(s)
            # elastic no admite el nombre de clave _id
            del doc["_id"]
            es.index(index="tweet", id=i, body=doc)
            ndocs +=1
            # los 1000 primeros
            if ndocs>1000:
                break
            if ndocs%10==0:
                print(ndocs,end=" - ")
        



10 - 20 - 30 - 40 - 50 - 60 - 70 - 80 - 90 - 100 - 110 - 120 - 130 - 140 - 150 - 160 - 170 - 180 - 190 - 200 - 210 - 220 - 230 - 240 - 250 - 260 - 270 - 280 - 290 - 300 - 310 - 320 - 330 - 340 - 350 - 360 - 370 - 380 - 390 - 400 - 410 - 420 - 430 - 440 - 450 - 460 - 470 - 480 - 490 - 500 - 510 - 520 - 530 - 540 - 550 - 560 - 570 - 580 - 590 - 600 - 610 - 620 - 630 - 640 - 650 - 660 - 670 - 680 - 690 - 700 - 710 - 720 - 730 - 740 - 750 - 760 - 770 - 780 - 790 - 800 - 810 - 820 - 830 - 840 - 850 - 860 - 870 - 880 - 890 - 900 - 910 - 920 - 930 - 940 - 950 - 960 - 970 - 980 - 990 - 1000 - 

### Hits

Una primera consulta sencilla: devolver todos los registros. Utilizamos el método `search` con dos argumentos: el índice y la consulta.

In [3]:
res = es.search(
    index="tweet", 
    body={
        "query": {"match_all": {}}
    }
)

Vamos a entender mejor el diccionario Python que devuelve *search*

In [4]:
res["hits"]

{'total': {'value': 1001, 'relation': 'eq'},
 'max_score': 1.0,
 'hits': [{'_index': 'tweet',
   '_type': '_doc',
   '_id': '23',
   '_score': 1.0,
   '_source': {'text': "I've lived in the USA for 7 years. I have a green card but I can't vote. If you are able to then please vote @HillaryClinton NOT the buffoon",
    'created_at': {'$date': '2016-11-08T19:22:15.000Z'},
    'user': {'_id': '265554862', 'verified': True, 'screen': 'JosephMorgan'},
    'RT': False,
    'clinton': True,
    'trump': False,
    'mentions': ['HillaryClinton'],
    'hlabel': 1,
    'tlabel': 0,
    'opinion': 1}},
  {'_index': 'tweet',
   '_type': '_doc',
   '_id': '51',
   '_score': 1.0,
   '_source': {'text': 'RT @jpm05880: @realDonaldTrump latinos storming precinct 10 sw Miami to vote for our one and only president Trump!! https://t.co/46GC1n8LU6',
    'created_at': {'$date': '2016-11-01T22:21:12.000Z'},
    'user': {'_id': '721446222549147648',
     'verified': False,
     'screen': 'FacMagnaAmerica'},
  

In [5]:
print(res["hits"].keys())

dict_keys(['total', 'max_score', 'hits'])


Veamos los componentes uno a uno:
    
*total* es el total de hits. A su vez es un diccionario, pero el valor que nos interesa es `value` con el total de hits devueltos

In [6]:
print(res["hits"]["total"])
print("Resultados: ",res["hits"]["total"]["value"])

{'value': 1001, 'relation': 'eq'}
Resultados:  1001


El `max_score` sirve para consultas en las que se evalúa lo acertada que es la respuesta.

In [7]:
print(res["hits"]["max_score"])

1.0


Finalmente, los hits son una lista

In [8]:
print(type(res["hits"]["hits"]))

<class 'list'>


Los elementos de la lista de resultados ` res['hits']["hits"]` son documentos json representados en Python como diccionarios:

In [9]:
i = 0
hits = res['hits']["hits"]
for i in range(min(3,len(hits))):
    print(type(hits[i]), hits[i], end="\n"+"*"*25+"\n")
    

<class 'dict'> {'_index': 'tweet', '_type': '_doc', '_id': '23', '_score': 1.0, '_source': {'text': "I've lived in the USA for 7 years. I have a green card but I can't vote. If you are able to then please vote @HillaryClinton NOT the buffoon", 'created_at': {'$date': '2016-11-08T19:22:15.000Z'}, 'user': {'_id': '265554862', 'verified': True, 'screen': 'JosephMorgan'}, 'RT': False, 'clinton': True, 'trump': False, 'mentions': ['HillaryClinton'], 'hlabel': 1, 'tlabel': 0, 'opinion': 1}}
*************************
<class 'dict'> {'_index': 'tweet', '_type': '_doc', '_id': '51', '_score': 1.0, '_source': {'text': 'RT @jpm05880: @realDonaldTrump latinos storming precinct 10 sw Miami to vote for our one and only president Trump!! https://t.co/46GC1n8LU6', 'created_at': {'$date': '2016-11-01T22:21:12.000Z'}, 'user': {'_id': '721446222549147648', 'verified': False, 'screen': 'FacMagnaAmerica'}, 'short': 'RT @jpm05880: @realDonaldTrump latinos storming precinct 10 sw Miami to vote for our one an

### Match y Term - Consultas

Match para textos, Term para integers

Match es la forma más básica de consulta, y también una de las más utilizada. El formato es:
    
        q = {
        "query": {
            "match" : {
                "nombredecampo" : {
                    "query" : valor
                }
            }
        }
      }
      
Se utiliza sobre todo para la búsqueda de texto. La sintaxis completa se puede ver en:

https://www.elastic.co/guide/en/elasticsearch/reference/7.5/query-dsl-match-query.html

Un ejemplo:

In [10]:
import pprint
pp = pprint.PrettyPrinter(indent=4) #para mostrar los jsons "bonitos"

def muestraQuery(es,index,q,maxres=10):
    res = es.search(index=index, body=q)
    print("Total Resultados: ",res["hits"]["total"]["value"], ". Máx. Score",res["hits"]["max_score"])
    hits = res['hits']["hits"]
    for i in range(min(maxres,len(hits))):
        print(i+1,".- ",end=" ")
        pp.pprint( hits[i])
        print("-"*80+"\n")

q = {
    "query": {
        "match" : {
            "text" : { #text es una clave del tweet
                "query" : "vote"
            }
        }
    }
}

muestraQuery(es,"tweet",q)

Total Resultados:  66 . Máx. Score 3.3731253
1 .-  {   '_id': '24036',
    '_index': 'tweet',
    '_score': 3.3731253,
    '_source': {   'RT': False,
                   'clinton': True,
                   'created_at': {'$date': '2016-11-07T15:31:31.000Z'},
                   'hlabel': 0,
                   'mentions': [],
                   'opinion': 0,
                   'text': "You don't vote, you can't complain. "
                           'https://t.co/lQoYKbehmz',
                   'tlabel': 0,
                   'trump': False,
                   'user': {   '_id': '499073990',
                               'screen': 'DebraMessing',
                               'verified': True}},
    '_type': '_doc'}
--------------------------------------------------------------------------------

2 .-  {   '_id': '8464',
    '_index': 'tweet',
    '_score': 3.3123643,
    '_source': {   'RT': False,
                   'clinton': False,
                   'created_at': {'$date': '2016-1

Si lo que queremos es buscar un valor concreto en un campo que no es de texto se recomienda utilizar [term](https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl-term-query.html) con la sintaxis:


    q = {
        "query": {
            "term" : {
                "nombredecampo" : {
                    "value" : valor
                }
            }
        }
      }
      
Por ejemplo, tweets cuya opinión sobre trump sea negativa:

In [11]:
# tweets con opinión sobre trump negativa tlabel==-
q = {
    "query": {
        "term" : {
            "tlabel" : {
                "value" : -1
            }
        }
    }
}

muestraQuery(es,"tweet",q)

Total Resultados:  112 . Máx. Score 1.0
1 .-  {   '_id': '160',
    '_index': 'tweet',
    '_score': 1.0,
    '_source': {   'RT': True,
                   'RTscreen': 'SportsPlusShow',
                   'clinton': False,
                   'created_at': {'$date': '2016-11-04T01:46:26.000Z'},
                   'hlabel': 0,
                   'loriginal': 99.0,
                   'lshort': 119.0,
                   'opinion': 1,
                   'original': "@wpjenna ummm lady you're full of shit you're "
                               'tweeting this now like it just happened wonder '
                               'why @r',
                   'short': "RT @SportsPlusShow: @wpjenna ummm lady you're "
                            "full of shit you're tweeting this now like it "
                            'just happened wonder why @r',
                   'source': {'$numberLong': '794274175456157696'},
                   'text': "RT @SportsPlusShow: @wpjenna ummm lady you're full "
  

Búsqueda de usuarios que tienen cuenta verificada (aquí empleamos el . para acceder a subdocumentos, como en Mongo):

In [12]:
# tweets con opinión sobre trump negativa tlabel==-
q = {
    "query": {
        "term" : {
            "user.verified" : {
                "value" : True
            }
        }
    }
}

muestraQuery(es,"tweet",q)

Total Resultados:  272 . Máx. Score 1.3021146
1 .-  {   '_id': '23',
    '_index': 'tweet',
    '_score': 1.3021146,
    '_source': {   'RT': False,
                   'clinton': True,
                   'created_at': {'$date': '2016-11-08T19:22:15.000Z'},
                   'hlabel': 1,
                   'mentions': ['HillaryClinton'],
                   'opinion': 1,
                   'text': "I've lived in the USA for 7 years. I have a green "
                           "card but I can't vote. If you are able to then "
                           'please vote @HillaryClinton NOT the buffoon',
                   'tlabel': 0,
                   'trump': False,
                   'user': {   '_id': '265554862',
                               'screen': 'JosephMorgan',
                               'verified': True}},
    '_type': '_doc'}
--------------------------------------------------------------------------------

2 .-  {   '_id': '7849',
    '_index': 'tweet',
    '_score': 1.302

Èn el caso de arrays, se busca cada una de las cláusulas como elementos del array, exigiendo que el array contenga al menos una de las claúsulas que indica la consulta:

In [13]:
q = {
    "query": {
        "match" : {
            "mentions" : {
                "query" : "FBI realDonaldTrump"
            }
        }
    }
}
muestraQuery(es,"tweet",q)

Total Resultados:  174 . Máx. Score 4.0521975
1 .-  {   '_id': '2398',
    '_index': 'tweet',
    '_score': 4.0521975,
    '_source': {   'RT': False,
                   'clinton': False,
                   'created_at': {'$date': '2016-11-06T16:33:20.000Z'},
                   'hlabel': 0,
                   'mentions': ['FBI', 'POTUS', 'realDonaldTrump'],
                   'opinion': 1,
                   'text': '[Watch] President Obama Commit Treason In 3 2 '
                           '1...\n'
                           '\n'
                           'Why Is This Man Not In Prison?\n'
                           '@FBI \n'
                           '@POTUS \n'
                           '@realDonaldTrump https://t.co/jo0xL65pJ8',
                   'tlabel': 1,
                   'trump': True,
                   'user': {   '_id': '1075681177',
                               'screen': '2ALAW',
                               'verified': False}},
    '_type': '_doc'}
-------------

Por defecto, en caso de varias palabras o "claúsulas" se busca en primer lugar que se tengan todas las palabras (un and) aunque se admiten las que solo tienen alguna de ellas con menor score

In [14]:
q = {
    "query": {
        "match" : {
            "text" : {
                "query" : "president Trump"
            }
        }
    }
}

muestraQuery(es,"tweet",q)

Total Resultados:  110 . Máx. Score 5.693731
1 .-  {   '_id': '2210',
    '_index': 'tweet',
    '_score': 5.693731,
    '_source': {   'RT': True,
                   'RTscreen': 'MrEdTrain',
                   'clinton': False,
                   'created_at': {'$date': '2016-11-06T03:36:42.000Z'},
                   'hlabel': 0,
                   'loriginal': 104.0,
                   'lshort': 119.0,
                   'opinion': 1,
                   'original': 'President elect &amp; Mrs Donald J. Trump '
                               '11-08-16 🇺🇸 #TrumpTrain #TrumpFamily #MAGA '
                               '#NeverGiveUp #Tru',
                   'short': 'RT @MrEdTrain: President elect &amp; Mrs Donald '
                            'J. Trump 11-08-16 🇺🇸 #TrumpTrain #TrumpFamily '
                            '#MAGA #NeverGiveUp #Tru',
                   'source': {'$numberLong': '795099930113310722'},
                   'text': 'RT @MrEdTrain: President elect &amp; Mrs Donald

Si lo que queremos es buscar palabras consecutivas, necesitamos especificar un analizador propio que trabaje con parejas o bigramas.

[Aquí](https://www.elastic.co/guide/en/elasticsearch/guide/current/shingles.html) se pueden ver detalles.

Se puede sustituir el `and` por un `or`explícitamente

In [15]:
q = {
    "query": {
        "match" : {
            "text" : {
                "query" : "wins Trump",
                 "operator" : "and"
            }
        }
    }
}

muestraQuery(es,"tweet",q)

Total Resultados:  2 . Máx. Score 7.291876
1 .-  {   '_id': '21885',
    '_index': 'tweet',
    '_score': 7.291876,
    '_source': {   'RT': False,
                   'clinton': False,
                   'created_at': {'$date': '2016-11-04T21:45:50.000Z'},
                   'hlabel': 0,
                   'mentions': ['bazbaldwin', 'FBI', 'realDonaldTrump'],
                   'opinion': 0,
                   'text': '@bazbaldwin @FBI @realDonaldTrump listen, if trump '
                           'wins and you riot because you believe russians '
                           'won... well youre just an idiot',
                   'tlabel': 0,
                   'trump': True,
                   'user': {   '_id': '288619518',
                               'screen': 'JoseANunez1',
                               'verified': False}},
    '_type': '_doc'}
--------------------------------------------------------------------------------

2 .-  {   '_id': '7276',
    '_index': 'tweet',
    '_sco

Se puede indicar cuántas palabras (cláusulas) deben coincidir como minimo

In [16]:
q = {
    "query": {
        "match" : {
            "text" : {
                "query" : "wins president Trump",
                 "operator" : "or",
                "minimum_should_match": 2
            }
        }
    }
}

muestraQuery(es,"tweet",q)

Total Resultados:  8 . Máx. Score 7.291876
1 .-  {   '_id': '21885',
    '_index': 'tweet',
    '_score': 7.291876,
    '_source': {   'RT': False,
                   'clinton': False,
                   'created_at': {'$date': '2016-11-04T21:45:50.000Z'},
                   'hlabel': 0,
                   'mentions': ['bazbaldwin', 'FBI', 'realDonaldTrump'],
                   'opinion': 0,
                   'text': '@bazbaldwin @FBI @realDonaldTrump listen, if trump '
                           'wins and you riot because you believe russians '
                           'won... well youre just an idiot',
                   'tlabel': 0,
                   'trump': True,
                   'user': {   '_id': '288619518',
                               'screen': 'JoseANunez1',
                               'verified': False}},
    '_type': '_doc'}
--------------------------------------------------------------------------------

2 .-  {   '_id': '7276',
    '_index': 'tweet',
    '_sco

Hay que tener en cuenta que en el caso de claves de texto, Elastic preprocesa el texto para buscar raíces de verbos, quitar plurales, etc. Por eso `match` no devuelve coincidencias exactas (de ahí el score). 

En el caso de estar utilizando `term` se puede lograr la búsqueda con or simplemente cambiando `term` por `terms

In [17]:
# tweets con opinión sobre trump negativa tlabel==-
q = {
    "query": {
        "terms" : {
            "tlabel" :  [-1,0]
        }
    }
}

muestraQuery(es,"tweet",q)

Total Resultados:  792 . Máx. Score 1.0
1 .-  {   '_id': '23',
    '_index': 'tweet',
    '_score': 1.0,
    '_source': {   'RT': False,
                   'clinton': True,
                   'created_at': {'$date': '2016-11-08T19:22:15.000Z'},
                   'hlabel': 1,
                   'mentions': ['HillaryClinton'],
                   'opinion': 1,
                   'text': "I've lived in the USA for 7 years. I have a green "
                           "card but I can't vote. If you are able to then "
                           'please vote @HillaryClinton NOT the buffoon',
                   'tlabel': 0,
                   'trump': False,
                   'user': {   '_id': '265554862',
                               'screen': 'JosephMorgan',
                               'verified': True}},
    '_type': '_doc'}
--------------------------------------------------------------------------------

2 .-  {   '_id': '79',
    '_index': 'tweet',
    '_score': 1.0,
    '_source':

In [18]:
# tweets con opinión sobre trump negativa tlabel==-
q = {
    "query": {
        "terms" : {
            "tlabel" :  [-1,0]
        }
    }
}

muestraQuery(es,"tweet",q)

Total Resultados:  792 . Máx. Score 1.0
1 .-  {   '_id': '23',
    '_index': 'tweet',
    '_score': 1.0,
    '_source': {   'RT': False,
                   'clinton': True,
                   'created_at': {'$date': '2016-11-08T19:22:15.000Z'},
                   'hlabel': 1,
                   'mentions': ['HillaryClinton'],
                   'opinion': 1,
                   'text': "I've lived in the USA for 7 years. I have a green "
                           "card but I can't vote. If you are able to then "
                           'please vote @HillaryClinton NOT the buffoon',
                   'tlabel': 0,
                   'trump': False,
                   'user': {   '_id': '265554862',
                               'screen': 'JosephMorgan',
                               'verified': True}},
    '_type': '_doc'}
--------------------------------------------------------------------------------

2 .-  {   '_id': '79',
    '_index': 'tweet',
    '_score': 1.0,
    '_source':

### Range

Se utiliza para buscar valores dentro de un rango

In [19]:
q = {
    "query": {
        "range" : {
            "loriginal" : {
                "gte" : 100,
                "lte" : 110,
            }
        }
    }
}
muestraQuery(es,"tweet",q)

Total Resultados:  267 . Máx. Score 1.0
1 .-  {   '_id': '51',
    '_index': 'tweet',
    '_score': 1.0,
    '_source': {   'RT': True,
                   'RTscreen': 'jpm05880',
                   'clinton': False,
                   'created_at': {'$date': '2016-11-01T22:21:12.000Z'},
                   'hlabel': 0,
                   'loriginal': 105.0,
                   'lshort': 119.0,
                   'opinion': 1,
                   'original': '@realDonaldTrump latinos storming precinct 10 '
                               'sw Miami to vote for our one and only '
                               'president Trump!! htt',
                   'short': 'RT @jpm05880: @realDonaldTrump latinos storming '
                            'precinct 10 sw Miami to vote for our one and only '
                            'president Trump!! htt',
                   'source': {'$numberLong': '793451387522805760'},
                   'text': 'RT @jpm05880: @realDonaldTrump latinos storming '
     

### Condiciones compuestas

Podemos combinar varias consultas utilizando el tipo de consultas `bool`. Consta de 4 tipos de queries:

* must: la consulta debe devolver resultados (normalmente es un "match" o un "term") y sus scores se utilizan para el score final
* filter: como la anterior, pero los scores no se tienen en cuenta
* must not: la consulta debe fallar, es decir no devolver resultados. No influye en el score
* should: Si aparece, se incluye en el score



In [20]:
q = {
      "query": {
        "bool": {
          "must": [{"match": {"text": "president"}}],
          "must_not": [{"match": {"text": "RT"}}],
          "filter": [{"term": {"tlabel": 1}}] # forzamos a que tengan tlabel a 1
        }
      }
    }

muestraQuery(es,"tweet",q)

Total Resultados:  2 . Máx. Score 3.1057525
1 .-  {   '_id': '604',
    '_index': 'tweet',
    '_score': 3.1057525,
    '_source': {   'RT': False,
                   'clinton': False,
                   'created_at': {'$date': '2016-11-08T16:24:39.000Z'},
                   'hlabel': 0,
                   'mentions': [   'realDonaldTrump',
                                   'MELANIATRUMP',
                                   'IvankaTrump'],
                   'opinion': 1,
                   'text': 'Our future President, @realDonaldTrump, votes with '
                           'our future First Lady, @MELANIATRUMP, &amp; '
                           '@IvankaTrump in New York… https://t.co/cWPUZxfURD',
                   'tlabel': 1,
                   'trump': True,
                   'user': {   '_id': '721446222549147648',
                               'screen': 'FacMagnaAmerica',
                               'verified': False}},
    '_type': '_doc'}
----------------------------

### Agregaciones

Las [agregaciones](https://www.elastic.co/guide/en/elasticsearch/reference/7.5/search-aggregations-bucket.html) en Elastic nos permiten calcular valores como medias, máximos, etc.

In [21]:
q = {
    "aggs" : {
        "minh" : { "avg" : { "field" : "hlabel" } }
    }
}

# minh es el nombre que le pones
# se hace la media del campo hlabel

res = es.search(index="tweet", body=q)
print(res['aggregations'])

{'minh': {'value': 0.06393606393606394}}


Se pueden combinar con consultas normales:

In [22]:
q = {
    "query" : {"term" : {"tlabel":-1}    },
    "aggs" : {
        "minh" : { "avg" : { "field" : "hlabel" } }
    }
}
res = es.search(index="tweet", body=q)
print(res['aggregations'])

{'minh': {'value': 0.125}}


### Enlaces

* Referencia de [Query DSL](https://www.elastic.co/guide/en/elasticsearch/reference/7.5/query-dsl.html) el lenguaje de consultas de elastic

* [Ejemplos](https://dzone.com/articles/23-useful-elasticsearch-example-queries) del lenguaje de queries de Elastic Search. Incluye cómo se escribe en el API y cómo se trasladan a nuestro caso

* Match es solo un ejemplo de query de tipo texto. [Aquí](www.elastic.co/guide/en/elasticsearch/reference/7.5/full-text-queries.html) se discuten todos

* [Agregaciones](https://www.erch-agglastic.co/guide/en/elasticsearch/reference/7.5/searegations.html)