# Lab 2: Busquedas de texto autocompletadas

Una funcionalidad muy demandada a la hora de hacer burscadores para aplicaciones el la búsqueda atuocompletada. Esta consiste en ir sugiriendo al usuario como completar el término de búsqueda según lo va escribiendo el en el buscador en función de los valores que encontramos en la base de datos.

<img src="../images/els/els41.png" alt="Busqueda autocompletada"/>

En este notebook vamos a ver las distintas altenativas que tenemos para realizar esta funcionalidad:

* Prefix Query, Phrase Prefix Query
* Completion suggest
* Analizador n-grams

Para realizar los ejercicios propuestos en este notebook, puedes utilizar el Dev Tools de Kibana. Puedes acceder a él a través de este enlace: http://127.0.0.1:5601

Como paso previo vamos a crear el índice y a insertar unos cuantos datos en él para poder realizar los ejercicios.

Vamos a utilizar la sentencia bulk como hicimos en el notebook anterior.

`POST _bulk
{"index":{"_index":"employees","_id":"3"}}
{"name":"Elvis"}
{"index":{"_index":"employees","_id":"7"}}
{"name":"Average Joe"}
{"index":{"_index":"employees","_id":"11"}}
{"name":"Elisabeth"}
{"index":{"_index":"employees","_id":"13"}}
{"name":"William"}
{"index":{"_index":"employees","_id":"17"}}
{"name":"Jack"}
{"index":{"_index":"employees","_id":"19"}}
{"name":"Iris"}
{"index":{"_index":"employees","_id":"23"}}
{"name":"Barbara"}
{"index":{"_index":"employees","_id":"29"}}
{"name":"Averell Dalton"}
{"index":{"_index":"employees","_id":"31"}}
{"name":"Bryce Dallas Howard"}
{"index":{"_index":"employees","_id":"37"}}
{"name":"Fabio"}
{"index":{"_index":"employees","_id":"41"}}
{"name":"Fabian"}
`

Una vez que hayas insertado los datos en Elasticsearch entra en la sección index management de Kibana y busca la información del index employees. Fijate bien en el mapping type y como son los campos de tipo texto. Sobre estos campos es sobre lso que vamos a realizar las búsquedas.


# 1. Prefix Query, Phrase Prefix Query

Antes de entrar en detalle, vamos a ver que significa, como hemos dicho en clase, que Elasticsearch analiza los campos de tipo text para crear el índice invertido.

Vamos a ver que cual es el resultado de analizar un texto en Elastic serch. Para ello ejecuta la siguiente sentencia en Kibana:

`GET _analyze
{
  "text": ["Average Joe"]
}`

1. ¿Cuántos tokens ha generado?
2. ¿El valor del token contiene mayúsculas?
3. Prueba a analizar la frase que tu quieras.

Como ves en el resultado, ha creado dos tokens, "average" y "joe". Estos tokens son los que Elasticsearch utiliza como entrada para el índice inverso.

Haciendo un recordatorio de lo que hemos visto en clase, podemos declarar de dos formas diferentes los campos de tipo texto:

* **text ⇒ analyzed text**
* **keyword ⇒ not analyzed text**



1. Quizás es buen momento de que vuelvas a repasar el mapping type del índice del ejercicio que hemos creado antes para identificar que tipo a asignado Elasticsearch a los valores de tipo texto.



## 1.1. Prefix Query

La primera opción que tenemos para crear una búsqueda autocompletada es utilizar las Prefix Query. Estas queries se realizan sobre campos de tipo **keyword**, por lo que no ser realiza sobre campos analizados. Comprueba que el campo especificado cumple con el prefijo indicado en la query:

`GET employees/_search
{
  "query": { "prefix": { "name.keyword": "El" } }
}
`

1. ¿Qué pasa si en vez de indicar 'El' se indica 'el' en la query?
2. ¿Y si en vez de 'El' se indica 'Eli'?

Como vemos este tipo de consultas es muy limitado ya que sólo comprueba el prefijo.

En el contexto de las búsquedas autocompletadas, para mejorar las sugerencias, es muy común comprobar las distintas combinaciones de las letras del termino de búsqueda dentro de las palabras de los campos a buscar para sugerir respuestas. Por ejemplo, si buscamos Eli, puede ser interesante que se sugiera como término Elisabeth y Elvis. Como podemos ver Elvis no empieza pro Eli, pero si tiene una i a continuación e El. Es muy común sugerir estos resultados para evitar los typo error (errores de escritura, ordenes le las letras, letras que faltan...)

Una forma de incorporar este comportamiento a las Prefix Query es combinarlas con las Fuzzi Queries. 

Las fuzzi queries buscan similaridad entre las palabras, así una *fuzzi query* con nivel de *fizziness* 1 devolvería *Mario* y *Dario* sobre una búsqueda del término *Mario*.

Vamos a ver un ejemplo:

`GET employees/_search
{
  "query": {
    "bool": {
      "should": [
        { "prefix": { "name.keyword": "Eli" } },
        { "fuzzy": { "name.keyword": { "value": "Eli", "fuzziness": 2, "prefix_length": 0 } } }
      ]
    }
  }
}`

1. ¿Qué resultdao obtenemos si en vez de buscar por 'Eli' buscamos por 'Elis'?


## 1.2. Match Phrase Prefix Query

Las Match Phrase Prefix Query se realizan sobre campos de tipo **text**, es decir sobre campos **analizados**. Por esta razón permite hacer búsquedas sobre todas las palabras que se encuentren en una frase buscando prefijos y no sólo sobre el prefijo de la primera palabra de la frase.

`GET employees/_search
{
  "query": {
    "match_phrase_prefix": {
      "name": {
        "query": "Dal",
        "max_expansions": 10
      }
    }
  }
}`

1. ¿En qué lugar se encuentra el prefijo buscado en la frase del resultado devuelto?
2. Realiza la buscqueda con el emismo término (Dal) con una prefix query. ¿Que diferencia hay con respecto de la anterior?

Estas sentencias no soportan *fuzziness*.


## 1.3 Conclusiones

* Son sencillas de implementar.
* El rendimiento disminuye según van creciendo los documentos indexados en el índice. Buenas para datasets pequeños.
* Necesitan combinarse con *Fuzzi queries*


# 2. Completion Suggester

Es el mecanismo que provee Elasticserach para hacer este tipo de búsquedas 'type as you go'.

* Ofrece sugerencias de búsqueda sobre los elementos almacenados en un campo concreto. 
* Están pensados para que se ejecuten de forma rápida, por lo que normalmente construyen un índice en memoria que acelere su ejecución.
* Sólo trabajan sobre prefijos y expresiones regulares.
* Es necesario indicar en el mapping type que los campos por los que queremos realizar este tipo de búsqueda son de tipo completion.

Para este ejercicio vamos a crear nosotos el mapping type para indicarle a Elasticsearch que campos vamos a utilizar como suggesters:

`PUT music
{
  "mappings": {
    "properties": {
      "year": { "format": "year", "type": "date" },
      "album": { "type" : "completion" },
      "artist": { "type": "text" },
      "genre": { "type": "text" },
      "name": { "type" : "completion" },
      "track": { "type": "integer" },
      "duration": { "type": "float" }
    }
  }
}`

Insertamos unos cuantos datos para hacer el ejercicio:

`POST _bulk
{"index":{"_index":"music"}}
{"year": 1989, "album": "Bleach", "artist": "Nirvana", "genere": "Grunge", "name": "Blew", "track": 1, "duration": 2.55}
{"index":{"_index":"music"}}
{"year": 1989, "album": "Bleach", "artist": "Nirvana", "genere": "Grunge", "name": "Floyd the Barber", "track": 2, "duration": 2.17}
{"index":{"_index":"music"}}
{"year": 1989, "album": "Bleach", "artist": "Nirvana", "genere": "Grunge", "name": "About a Girl", "track": 3, "duration": 2.48}
{"index":{"_index":"music"}}
{"year": 1989, "album": "Bleach", "artist": "Nirvana", "genere": "Grunge", "name": "School", "track": 4, "duration": 2.42}
{"index":{"_index":"music"}}
{"year": 1989, "album": "Bleach", "artist": "Nirvana", "genere": "Grunge", "name": "Love Buzz", "track": 5, "duration": 3.35}
{"index":{"_index":"music"}}
{"year": 1989, "album": "Bleach", "artist": "Nirvana", "genere": "Grunge", "name": "Paper Cuts", "track": 6, "duration": 4.05}
{"index":{"_index":"music"}}
{"year": 1989, "album": "Bleach", "artist": "Nirvana", "genere": "Grunge", "name": "Negative Creep", "track": 7, "duration": 2.55}
{"index":{"_index":"music"}}
{"year": 1989, "album": "Bleach", "artist": "Nirvana", "genere": "Grunge", "name": "Scoff", "track": 8, "duration": 4.10}
{"index":{"_index":"music"}}
{"year": 1989, "album": "Bleach", "artist": "Nirvana", "genere": "Grunge", "name": "Swap Meet", "track": 9, "duration": 3.02}
{"index":{"_index":"music"}}
{"year": 1989, "album": "Bleach", "artist": "Nirvana", "genere": "Grunge", "name": "Mr. Moustache", "track": 10, "duration": 3.24}
{"index":{"_index":"music"}}
{"year": 1989, "album": "Bleach", "artist": "Nirvana", "genere": "Grunge", "name": "Sifting", "track": 11, "duration": 3.05}
{"index":{"_index":"music"}}
{"year": 1991, "album": "Nevermind", "artist": "Nirvana", "genere": "Grunge", "name": "Smells Like Teen Spirit", "track": 12, "duration": 5.01}   
{"index":{"_index":"music"}}
{"year": 1991, "album": "Nevermind", "artist": "Nirvana", "genere": "Grunge", "name": "In Bloom", "track": 12, "duration": 4.14} 
{"index":{"_index":"music"}}
{"year": 1991, "album": "Nevermind", "artist": "Nirvana", "genere": "Grunge", "name": "Come as You Are", "track": 12, "duration": 3.19} 
{"index":{"_index":"music"}}
{"year": 1991, "album": "Nevermind", "artist": "Nirvana", "genere": "Grunge", "name": "Breed", "track": 12, "duration": 3.03} 
{"index":{"_index":"music"}}
{"year": 1991, "album": "Nevermind", "artist": "Nirvana", "genere": "Grunge", "name": "Lithium", "track": 12, "duration": 4.17} 
{"index":{"_index":"music"}}
{"year": 1991, "album": "Nevermind", "artist": "Nirvana", "genere": "Grunge", "name": "Polly", "track": 12, "duration": 2.57} 
{"index":{"_index":"music"}}
{"year": 1991, "album": "Nevermind", "artist": "Nirvana", "genere": "Grunge", "name": "Territorial Pissings", "track": 12, "duration": 2.22} 
{"index":{"_index":"music"}}
{"year": 1991, "album": "Nevermind", "artist": "Nirvana", "genere": "Grunge", "name": "Drain You", "track": 12, "duration": 3.43} 
{"index":{"_index":"music"}}
{"year": 1991, "album": "Nevermind", "artist": "Nirvana", "genere": "Grunge", "name": "Lounge Act", "track": 12, "duration": 2.36} 
{"index":{"_index":"music"}}
{"year": 1991, "album": "Nevermind", "artist": "Nirvana", "genere": "Grunge", "name": "Stay Away", "track": 12, "duration": 3.32} 
{"index":{"_index":"music"}}
{"year": 1991, "album": "Nevermind", "artist": "Nirvana", "genere": "Grunge", "name": "On a Plain", "track": 12, "duration": 3.16} 
{"index":{"_index":"music"}}
{"year": 1991, "album": "Nevermind", "artist": "Nirvana", "genere": "Grunge", "name": "Something in the Way", "track": 12, "duration": 3.52} 
{"index":{"_index":"music"}}
{"year": 1991, "album": "Nevermind", "artist": "Nirvana", "genere": "Grunge", "name": "Endless, Nameless", "track": 12, "duration": 2.54}
`


Vamos a utilizar el suggerte sobre el campo album para ver que nos sugiere si escribimos 'Ble'

`POST music/_search?pretty
{
    "suggest": {
        "song-suggest" : {
            "prefix" : "Ble", 
            "completion" : { 
                "field" : "album" 
            }
        }
    }
}`

1. Cuando hemos creado el mapping type hemos definido varios campos de tipo suggester. Utiliza el otro campo para realizar una query de este tipo.

## 2.1. Conclusiones

* Más rápidas que las Prefix Query, Phrase Prefix Query, se realizan en near real time, idealmente tan rápido como el usuario escribre el téxto de búsqueda.
* Necesitan más memoria para ejecutarse.
* La búsqueda siempre se realiza sobre el principio de la frase.

# 3. N-Gram Analyzer

Antes de ver como se utiliza el N-Gram analyzer para implementar este tipo de búsquedas, vamos a pararnos en estudiar el análisis que realiza el n-gram tokenizer que vamos a utilizar para indexar los documentos.

* El nGram_tokenizer se encarga de generar todos los substring (n-grams) que contiene una frase.
* Cada n-gram es una entrada en el índice inverso.

Vamos a ver como funciona, ejecuta la siguiente sentencia en Kibana:

`GET _analyze
{
  "tokenizer": "ngram",
  "text": ["Quick Fox"]
}`

El resultado es el conjunto de n-grams que extrae del texto que le pasamaos. 

Como podemos deducir del resultado del tokenizer, este análisis nos va a permitir realizar búsquedas sobre todos los términos de una frase, independientemente de donde se encuentren, al principio de la frase, como prefijo de una palabra, o contenido dentro de una palabra.

Para utilizar el tokenizer tenemos que definirlo al crear el mapping type dentro del apartado "analysis". Al configurar el nGram tokenizer se puede especificar la longitud máxima y mínima que pueden tener las substring por medio de los parámetros min_gram y max_gram.

Una vez definido el tokenizer, tenemos que definir un analizador que lo utilice y esto se hace igualmente al crear el mapping type del índice. Por último asociáremos el analizador a los campos por los que vamos a realizar la búsqueda. Puesto que son campos que vamos a analizar tendrán que ser de tipo **text**.


Vamos a ponerlo en práctica, priero vamos a crear el índice con su mapping type:

* Definimos el tokenizador ngram.
* Lo asociamos a un analyzer.
* Por útimo indicamos que campos queremos analizar con el analyzer definido.

`PUT employees3
{
  "settings": {
    "analysis": {
      "analyzer": {
        "autocomplete": {
          "tokenizer": "autocomplete",
          "filter": [
            "lowercase"
          ]
        },
        "autocomplete_search": {
          "tokenizer": "lowercase"
        }
      },
      "tokenizer": {
        "autocomplete": {
          "type": "ngram",
          "min_gram": 1,
          "max_gram": 2,
          "token_chars": [
            "letter"
          ]
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "name": {
        "type": "text",
        "analyzer": "autocomplete",
        "search_analyzer": "autocomplete_search"
      }
    }
  }
}`

1. ¿Cuántos analizadores se están definiendo para el campo name?
2. ¿Para qué sirve el search_analyzer? Para saber más entra en este enlace: https://www.elastic.co/guide/en/elasticsearch/reference/current/search-analyzer.html
3. ¿Para qué definimos el filtro lowercase?

Comprobemos como funciona el analizador que hemos definido:

`POST employees3/_analyze
{
  "analyzer": "autocomplete",
  "text": "Documentation is a love letter that you write to your future self."
}` 

El resultado obtenido son todos los terminos que extrae de la frase que le hemos indicado.

Insertamos los datos para el ejercicio con una sentencia bulk:

`POST _bulk
{"index":{"_index":"employees3","_id":"3"}}
{"name":"Elvis"}
{"index":{"_index":"employees3","_id":"7"}}
{"name":"Average Joe"}
{"index":{"_index":"employees3","_id":"11"}}
{"name":"Elisabeth"}
{"index":{"_index":"employees3","_id":"13"}}
{"name":"William"}
{"index":{"_index":"employees3","_id":"17"}}
{"name":"Jack"}
{"index":{"_index":"employees3","_id":"19"}}
{"name":"Iris"}
{"index":{"_index":"employees3","_id":"23"}}
{"name":"Barbara"}
{"index":{"_index":"employees3","_id":"29"}}
{"name":"Averell Dalton"}
{"index":{"_index":"employees3","_id":"31"}}
{"name":"Bryce Dallas Howard"}
{"index":{"_index":"employees3","_id":"37"}}
{"name":"Fabio"}
{"index":{"_index":"employees3","_id":"41"}}
{"name":"Fabian"}
`

Veamos como funcionan las bśuquedas:

`GET employees3/_search
{
  "query": {
    "match": {
      "name": {
        "query": "al"
      }
    }
  }
}`

Es muy común que a la hora de implementar este tipo de búsqueda queramos lanzarla sobre varios campos de un documento, por ejemplo sobre el título de una canción, la letra de la canción o los tags con los que las hemos clasifacado.

Podemos utilizar las búsquedas de tipo query_string para buscar sobre todos los campos de tipo text y keyword a la vez:

`GET music/_search
{
    "query": {
        "query_string" : {
            "query" : "Nirvana"
        }
    }
}`

Con el campo fields podemos especificar sobre que campos en concreto buscar
`GET music/_search
{
    "query": {
        "query_string" : {
            "query" : "Nirvana",
            "fields"  : ["title", "lyric", "tags"]
        }
    }
}`



## 3.1 Conclusiones

* Lo utilizaremos si necesitamos hacer búsquedas por cualquier término de un campo en cualquier orden.
* El tiempo de indexado es mayor, ya que el análisis que realiza es mas costoso.
* Ocupa más espacio en disco, ya que al extraer todos lo ngrams de los textos las entradas en los índices crecen.
