# Análisis de textos

Dentro de Elasticsearch nos referimos al análisis de textos al proceso de transformar un texto si estructura como puede ser el cuerpo de un email o la descripción de un producto, en un formato estructurado optimizado para su búsqeuda.

Este proceso se puede realizar en dos momentos concretos, al insertar un documento en un índice de Elasticsearch o al realizar una consulta sobre un documento y siempre sobre los campos de tipo text.

El análisis de textos es lo que permite a Elasticsearch realizar búsquedas de tipo full-text donde los resultados de las búsquedas devuelven todos los resultados relevantes en vez de sólo los resultados exactos.



## Anatomía de un analizador
Un analizador consta de tres componentes:
* **Character Filter**: Recibe el texto original como un stream de caracteres y puede transformar este stream añadiendo, eliminando o modificando estos caracteres. Por ejemplo, puede eliminar las etiquetas de marcado de un texto HTMl. Un analizador puede tener cero o mas Character Filters.
* Tokenizer: Recibe un stream de caracteres y lo divide en tokens individuales, habitualemente palabras y como salida devuelve un stream de tokens.Por ejemplo el whitespace tokenizer genera un nuevo token cada vez que encuentra un espacio en balnco. Se encarga además de registrar la posición de inicio y de fin de cada token en el stream de caracteres. Un analizador tiene exactamente un tokenizer.
* Token Filter: Recibe el stream de tokens y añade, elimina o modifica los tokens. Por ejemplo un lowercase token filter transforma todos los caracteres en mayúscula de los tokens en minúscula. El stop token filter elimina los tokens que representan las stop words de un lenguaje. Un analizador puede tener cero o mas Token Filters.

## Standard Analyzer

Por defecto, sino indicamos lo contrario, Eleasticsearch utiliza el analizador standard para analizar e indexar los campos de tipo text. Vamos a ver como funciona este analizador.

El analizador standard consta de los siguientes elementos:
* Standard tokenizer
* Token filters - Lowercase token filter y opcionalmente Stop Token Filter.

Para ver como funciona vamos a utilizar el método _analyze que nos permite probar un analizador sobre un texto y ver su salida:

`
POST _analyze
{
  "analyzer": "standard",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}
`

In [7]:
! curl -X POST "http://elasticsearch:9200/_analyze?pretty" -H 'Content-Type: application/json' -d' \
{ \
    "analyzer": "standard", \
    "text": "The 2 QUICK Brown-Foxes jumped over the lazy dogs bone." \
}'


{
  "tokens" : [
    {
      "token" : "the",
      "start_offset" : 0,
      "end_offset" : 3,
      "type" : "<ALPHANUM>",
      "position" : 0
    },
    {
      "token" : "2",
      "start_offset" : 4,
      "end_offset" : 5,
      "type" : "<NUM>",
      "position" : 1
    },
    {
      "token" : "quick",
      "start_offset" : 6,
      "end_offset" : 11,
      "type" : "<ALPHANUM>",
      "position" : 2
    },
    {
      "token" : "brown",
      "start_offset" : 12,
      "end_offset" : 17,
      "type" : "<ALPHANUM>",
      "position" : 3
    },
    {
      "token" : "foxes",
      "start_offset" : 18,
      "end_offset" : 23,
      "type" : "<ALPHANUM>",
      "position" : 4
    },
    {
      "token" : "jumped",
      "start_offset" : 24,
      "end_offset" : 30,
      "type" : "<ALPHANUM>",
      "position" : 5
    },
    {
      "token" : "over",
      "start_offset" : 31,
      "end_offset" : 35,
      "type" : "<ALPHANUM>",

Elasticsearch nos permite configurar este analizador para adecuarlo a nuestras necesidades, por ejemplo adaptarlo a nuestro idioma. Para ello podemos utilizar 3 parámetros de configuración.
* max_token_length: El tamaño máximo de letras de un token, por defecto 255.
* stopwords: Una lista predefinida de stop words, por ejemplo _english_, por defecto _none_
* stopwords_path: uri al fichero que contiene la lista de stop words. 

Vamos a ver un ejemplo:

`
PUT analyzer-example
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_english_analyzer": {
          "type": "standard",
          "max_token_length": 5,
          "stopwords": "_english_"
        }
      }
    }
  }
}
`

`
POST analyzer-example/_analyze
{
  "analyzer": "my_english_analyzer",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}
`




In [9]:
! curl -X PUT "http://elasticsearch:9200/analyzer-example?pretty" -H 'Content-Type: application/json' -d' \
{ \
  "settings": { \
    "analysis": { \
      "analyzer": { \
        "my_english_analyzer": { \
          "type": "standard", \
          "max_token_length": 5, \
          "stopwords": "_english_" \
        } \
      } \
    } \
  }\
}'

{
  "acknowledged" : true,
  "shards_acknowledged" : true,
  "index" : "analyzer-example2"
}


In [None]:
! curl -X POST "http://elasticsearch:9200/analyzer-example/_analyze?pretty" -H 'Content-Type: application/json' -d' \
{ \
    "analyzer": "my_english_analyzer", \
    "text": "The 2 QUICK Brown-Foxes jumped over the lazy dogs bone." \
}'

## Steamers

Steaming es el proceso de reducir una palabra a su raíz léxica, lo que nos permite utilizar diferentes variantes para buscar las coincidencias sobre las palabras de una búsqueda.
Por ejemplo walking y walked se reducen a su raíz walk y las ambas darán lugar a la misma ocurrencia en la búsqueda.

Este proceso es dependiente del lenguaje, por lo que necesitaremos utilizar el steamer filter correspondiente al idioma de los documentos que estamos analizando. Un steamer filter es un token filter.

Para utilizar correctamente los steamers, vamos a ver como crear nuestro propio analizador:

`
PUT /spanish_example
{
  "settings": {
    "analysis": {
      "filter": {
        "spanish_stop": {
          "type":       "stop",
          "stopwords":  "_spanish_" 
        },
        "spanish_stemmer": {
          "type":       "stemmer",
          "language":   "light_spanish"
        }
      },
      "analyzer": {
        "rebuilt_spanish": {
          "tokenizer":  "standard",
          "filter": [
            "lowercase",
            "spanish_stop",
            "spanish_stemmer"
          ]
        }
      }
    }
  }
}
`

`
POST spanish_example/_analyze
{
  "analyzer": "rebuilt_spanish",
  "text": "En un lugar de la Mancha, de cuyo nombre no quiero acordarme, no ha mucho tiempo que vivía un hidalgo de los de lanza en astillero, adarga antigua, rocín flaco y galgo corredor"
}
`

## Cómo usar un analizador

Un analizador definido en un mapping type se puede utilizar al indexar un documento para analizar uno o varios campos o bien a la hora de realizar la consulta, para analizar el texto que queremos consultar.

`
PUT /spanish_example_2
{
  "settings": {
    "analysis": {
      "filter": {
        "spanish_stop": {
          "type":       "stop",
          "stopwords":  "_spanish_" 
        },
        "spanish_stemmer": {
          "type":       "stemmer",
          "language":   "light_spanish"
        }
      },
      "analyzer": {
        "rebuilt_spanish": {
          "type": "custom",
          "tokenizer":  "standard",
          "filter": [
            "lowercase",
            "spanish_stop",
            "spanish_stemmer"
          ]
        }
      }
    }
  },  
  "mappings": {
    "properties": {
      "title": {
        "type": "text",
        "analyzer": "rebuilt_spanish",
        "search_analyzer": "rebuilt_spanish"
      }
    }
  }
}
`