## 1. Creamos un pipeline de ingesta indicando los processors y su orden de ejecución

Más adelante veremos los tipos de processors que existen. Por ahora sólo fíjate en la sintaxis.

En este caso creamos un pipeline que sólo tiene un step definido con el processor set que añade un nuevo campo en el documento a indexar, "environment" y le asigna el valor "production" independientemente del contenido del documento.  

`
PUT _ingest/pipeline/logs-add-tag
{
  "description": "Adds a static tag for the environment the log originates from",
  "processors": [
    {
      "set": {
        "field": "environment",
        "value": "production"
      }
    }
  ]
}
`



## 2. Vamos a probar el pipeline de ingesta ejecutando algunos test a través de él

Para ello utilizamos el método _simulate

`
POST _ingest/pipeline/logs-add-tag/_simulate
{
  "docs": [
    {
      "_source": {
        "host.os": "macOS",
        "source.ip": "10.22.11.89"
      }
    }
  ]
}
`

En la salida veremos el nuevo campo añadido a demás de los anteriores:
"environment": "production"

## 3. Procesar los documentos con el pipeline de ingesta

Para ello tenemos tes pociones:

### 3a. Especificando el pipeline de ingest al indexar un documento 

`
POST log-index/_doc?pipeline=logs-add-tag
{
  "host.os": "windows 10",
  "source.ip": "113.121.143.90"
}
`

Vamos a comprobar que el pipeline de ingesta se ha ejecutado al insertar el documento. Para ello buscamos el documento que acabamos de insertar y comprobamos que el documento contiene el campo "environment":

`
POST log-index/_search
{
    "query": {
        "match" : {
            "host.os.keyword" : "windows 10"
        }
    }
}
`

### 3b. Indicando el pipeline a usar en una operación de tipo bulk

`
POST _bulk
{ "index" : { "_index" : "log-index", "_id" : "1","pipeline": "logs-add-tag" } }
{ "host.os" : "windows 7", "source.ip": "10.0.0.1" }
`

Comprobamos igual que antes que se ha añadido el campo "environment" como resultado de la ejecución del pipeline:

`
POST log-index/_search
{
    "query": {
        "match" : {
            "host.os.keyword" : "windows 7"
        }
    }
}
`

### 3c. Especificando el pipeline de ingesta por defecto como un setting de un índice

Set the default pipeline for an index as follows:
 
`
PUT log-index/_settings
{ "index.default_pipeline": "logs-add-tag" }
`

Note that the setting can also be set using an index template, just like any other index setting.
Index a document to the index without specifying any pipeline query parameters, and then search the index to confirm the document was tagged as expected:

`
POST log-index/_doc/
{
  "host.os": "linux",
  "source.ip": "10.10.10.1"
}
`

Volvemos a comprobar que se ha ejecutado de forma correcta el pipeline:

`
POST log-index/_search
{
    "query": {
        "match" : {
            "host.os.keyword" : "linux"
        }
    }
}
`

### 4. Gestionar los errores de ejecución de un pipeline

Los processors de un pipeline de ingesta se ejecutan secuencialmente. Por defecto si un processor falla en su ejecución, automáticamente se para el proceso de ingesta para el documento que se estaba ingestando.

Para gestionar los errores de ejecución, y modificar el comportamiento por defecto, tenemos tres alternativas que se pueden utilizar de forma simultánea:

#### 4a. Ignorar el error
Para ello utilizaremos el campo "ignore_failure" al definir el processor asignándole el valor "true". De esta manera, el porcessor ingorará el fallo y seguirá ejecutando los siguientes processors definidos.


`
PUT _ingest/pipeline/my-pipeline
{
  "processors": [
    {
      "rename": {
        "description": "Rename 'provider' to 'cloud.provider'",
        "field": "provider",
        "target_field": "cloud.provider",
        "ignore_failure": true
      }
    }
  ]
}
`

#### 4b. Especificar una lista de processors a ejecutar inmediatamene después de que un processor falle
Utilizando el campo "on_failure" de un processor pordemos definir la secuencia de processors a ejecutar cuando este falla. De esta forma podemos tratarán el error y por ejemplo añadir el campo "error.message" con el mensaje que indique el error producido:

`
PUT _ingest/pipeline/my-pipeline
{
  "processors": [
    {
      "rename": {
        "description": "Rename 'provider' to 'cloud.provider'",
        "field": "provider",
        "target_field": "cloud.provider",
        "on_failure": [
          {
            "set": {
              "description": "Set 'error.message'",
              "field": "error.message",
              "value": "Field 'provider' does not exist. Cannot rename to 'cloud.provider'",
              "override": false
            }
          }
        ]
      }
    }
  ]
}
`

Podemos anidar tantos processors como queramos utilizando el campo "on_failure"

`
PUT _ingest/pipeline/my-pipeline
{
  "processors": [
    {
      "rename": {
        "description": "Rename 'provider' to 'cloud.provider'",
        "field": "provider",
        "target_field": "cloud.provider",
        "on_failure": [
          {
            "set": {
              "description": "Set 'error.message'",
              "field": "error.message",
              "value": "Field 'provider' does not exist. Cannot rename to 'cloud.provider'",
              "override": false,
              "on_failure": [
                {
                  "set": {
                    "description": "Set 'error.message.multi'",
                    "field": "error.message.multi",
                    "value": "Document encountered multiple ingest errors",
                    "override": true
                  }
                }
              ]
            }
          }
        ]
      }
    }
  ]
}
`

#### 4c. Definir una secuencia de processors general para todo el pipeline

Podemos definir una secuencia de processors general a ejecutar en el caso de que alguno de los processors del pipeline falle.

`
PUT _ingest/pipeline/my-pipeline
{
  "processors": [ ... ],
  "on_failure": [
    {
      "set": {
        "description": "Index document to 'failed-<index>'",
        "field": "_index",
        "value": "failed-{{{ _index }}}"
      }
    }
  ]
}
`

Podemos encontrar información adicional del fallo en los metadatos del documento que son accesibles en el bloque "on_failure": on_failure_message, on_failure_processor_type, on_failure_processor_tag y on_failure_pipeline

`
PUT _ingest/pipeline/my-pipeline
{
  "processors": [ ... ],
  "on_failure": [
    {
      "set": {
        "description": "Record error information",
        "field": "error_information",
        "value": "Processor {{ _ingest.on_failure_processor_type }} with tag {{ _ingest.on_failure_processor_tag }} in pipeline {{ _ingest.on_failure_pipeline }} failed with message {{ _ingest.on_failure_message }}"
      }
    }
  ]
}
`







## Casos de uso más comunes

Vamos a ver algunos ejemplos a través de casos de uso muy comunes que nos podemos encontrar

### 1. Parsear los valores de los campos y extraer valores útiles para nuevos campos.

Processors utilizados:
* dissect: https://www.elastic.co/guide/en/elasticsearch/reference/current/dissect-processor.html#dissect-processor
* lowercase: https://www.elastic.co/guide/en/elasticsearch/reference/current/lowercase-processor.html#lowercase-processor
* remove: https://www.elastic.co/guide/en/elasticsearch/reference/current/remove-processor.html#remove-processor

Vamos a suponer que los documentos a insertar contienen para el campo "message" cadenas de texto con el siguiente formato:

`
"10:12:05 HTTP Monitor production is in GREEN state"
"10:12:05 HTTP Monitor production is in RED state"
`

En este caso hacen referencia a líneas de un fichero de log.

Con el processor dissect podemos parsear estas cadenas y extraer ciertos valores e insertarlos en nuevos campos en el documento de entrada. 

Por ejemplo, vamos a extraer la hora el nombre del monitor y el estado para insertarlo en los respectivos campos:

`
PUT _ingest/pipeline/processors-example-one
{
  "description": "Parse and extract log useful fields",
  "processors": [
    {
      "dissect": {
        "field": "message",
        "pattern": "%{time} HTTP Monitor %{monitor.name} is in %{monitor.state} state"
      }
    }
  ]
}
`

Probemos el pipeline utilizando la función sumulate:

`
POST _ingest/pipeline/processors-example-one/_simulate
{
  "docs": [
    {
      "_source": {
        "message": "10:12:05 HTTP Monitor production is in GREEN state"
      }
    }
  ]
}
`

Para completar el pipeline, vamos a convertir en minúsculas el nuevo campo "monitor.state" utilizando el processor lowercase y a eliminar el campo original "message" con el processor remove. Lo haremos modificando el pipeline anteriror:

`
PUT _ingest/pipeline/processors-example-one
{
  "description": "Parse and extract log useful fields",
  "processors": [
    {
      "dissect": {
        "field": "message",
        "pattern": "%{time} HTTP Monitor %{monitor.name} is in %{monitor.state} state"
      }
    },
    {
      "lowercase": {
        "field": "monitor.state"
      }
    },
    {
      "remove": {
        "field": "message"
      }
    }
  ]
}
`

Comprobamos que el pipeline se ha modificado correctamente:

`
POST _ingest/pipeline/processors-example-one/_simulate
{
  "docs": [
    {
      "_source": {
        "message": "10:12:05 HTTP Monitor production is in GREEN state"
      }
    }
  ]
}
`


### 2. Tagear un documento en función del valor de un campo de documento base

En este caso vamos a utilizar sentencias condicionales para crear un nuevo campo y asignarle un valor en función del contenido de un campo del documento base.

Processors utilizados:
* set: https://www.elastic.co/guide/en/elasticsearch/reference/current/set-processor.html#set-processor


Suponemos que tenemos los siguientes documentos base:

`
{
  "environment": "production",
  "subnet": "CTS-01",
  "classification": "secret"
}
{
  "environment": "production",
  "subnet": "ATT-01",
  "classification": "unclassified"
}
`

El processor set utiliza un script para comprobar los valores de los campos "classification" y "subnet", si los campos cumplen la condición del script entonces se tagean con el vaor "protected" añadiendo dicho valor al campo "tag".

El campo "if" utiliza painless para definir la condición.

Nota: "ctx" hace referencia al documento base.

`
PUT _ingest/pipeline/processors-example-two
{
  "description": "Tag a document based on field value",
  "processors": [
    {
      "set": {
        "if": "ctx.classification=='secret' && ctx.subnet=='CTS-01'",
        "field": "tag",
        "value": "protected"
      }
    }
  ]
}
`

Comprobemos que el pipeline funciona correctamente:

`
POST _ingest/pipeline/processors-example-two/_simulate
{
  "docs": [
    {
      "_source": {
        "environment": "production",
        "subnet": "CTS-01",
        "classification": "secret"
      }
    },
    {
      "_source": {
        "environment": "production",
        "subnet": "ATT-01",
        "classification": "unclassified"
      }
    }
  ]
}
`

### 3. Descartar eventos de log no deseados basándose en los valores de los campos de tal forma que no se ingesten en el índice.

En este caso vamos a descartar documentos en función del contenido de uno o varios campos. Para ello vamos primero a crear un uevo campo "tag" con el valor "drop" si cumple la condición descrita por el processor script y después vamos a descartar los documentos cuyo campo "tag" contengan el valor "drop" utilizando el porcessor drop.

Processors utilizados:
* script: https://www.elastic.co/guide/en/elasticsearch/reference/current/drop-processor.html#drop-processor
* drop: https://www.elastic.co/guide/en/elasticsearch/reference/current/drop-processor.html#drop-processor

El formato de los ducumentos base es el siguiente:

`
{
  "environment": "production",
  "subnet": "CTS-01",
  "event_code": "AS-32"
}
{
  "environment": "production",
  "subnet": "ATT-01",
  "event_code": "AS-29"
}
`

Creamos el pipeline que procese los documentos y descarte aquellos que tienen un event_code no permitido:
El processor script permite utilizar varios lenguajes de scripting:
* painless: Por defecto sino se indica el calpo "lang". Leguaje de scripting propio de Elasticsearch. https://www.elastic.co/guide/en/elasticsearch/reference/current/modules-scripting-painless.html#modules-scripting-painless
* expression: Lenguaje de scripting de Lucene. https://www.elastic.co/guide/en/elasticsearch/reference/current/modules-scripting-expression.html#modules-scripting-expression
* mustache: Pensado para templates. https://mustache.github.io/
* Java: https://www.elastic.co/guide/en/elasticsearch/reference/current/modules-scripting-painless.html#modules-scripting-painless

`
PUT _ingest/pipeline/processors-example-three
{
  "description": "Dop document based on field value",
  "processors": [
    {
      "script": {
        "lang": "painless",
        "source": """
          def disallowedCodes = ["AS-29","BA-23"];
          if (disallowedCodes.contains(ctx.event_code)) {
            ctx.tag = "drop";
          }
          """
        }
    },
    {
      "drop": {
        "if": "ctx.tag == 'drop'"
      }
    }
  ]
}
`

Comprobemos el correcto funcionamiento del pipeline que acabamos de definir:

`
POST _ingest/pipeline/processors-example-three/_simulate
{
  "docs": [
    {
      "_source": {
        "environment": "production",
        "subnet": "CTS-01",
        "event_code": "AS-32"
      }
    },
    {
      "_source": {
        "environment": "production",
        "subnet": "ATT-01",
        "event_code": "AS-29"
      }
    }
  ]
}
`

### 4. Enrutar e indexar documentos en el ídice correcto de Elasticsearch basándose en el valor de los campos del documento.

Para indicar en que índice se insertará un documento, vamos a sobreescribir el campo "_index" que le indica a elasticsearch que índice es el que debe utilizar para indexar un documento.

Processors utilizados:
* set: https://www.elastic.co/guide/en/elasticsearch/reference/current/set-processor.html#set-processor

Para ello utilizaremos el processor set y asignaremos al campo "_index" el resultado de concatenar el valor del campo "application" del documento base con el valor del campo "environment" del documento base. De esta forma conseguiremos tener separados en diferentes índices los documentos de cada aplicación y por entorno.

Los documentos base tienen el siguiente formato:

`
{
  "environment": "production",
  "application": "apache"
}
{
  "environment": "dev",
  "application": "apache"
}
`


Creamos el pipeline:

`
PUT _ingest/pipeline/processors-example-four
{
  "description": "Route document into correct index based on field value",
  "processors": [
    {
      "set": {
        "field": "_index",
        "value": "{{application}}-{{environment}}"
      }
    }
  ]
}
`

Comprobemos el correcto funcionamiento del pipeline:

`
POST _ingest/pipeline/processors-example-four/_simulate
{
  "docs": [
    {
      "_source": {
        "environment": "production",
        "application": "apache"
      }
    },
    {
      "_source": {
        "environment": "dev",
        "application": "apache"
      }
    }
  ]
}
`






### 5. Enmascarar información sensible almacenada en los valores de los campos del documento.

Otro caso de uso muy util es poder enmascarar información sensible como en este caso los números de tarjetas de crédito. 

Processors utilizados:
* gsub: https://www.elastic.co/guide/en/elasticsearch/reference/current/gsub-processor.html#gsub-processor


Vamos a suponer el siguiente formato de documento base:

`
{
  "message": "Customer A1121 paid with 5555555555554444"
}
{
  "message": "Customer A1122 paid with 378282246310005"
}
`

Para ello vamos a definir una expresión regular que sea capaz de extraer el número de una tarjeta de credito y lo utilizaremos con el processor gsub que permite modificar una cadena aplicando expresiones regulares.

`
PUT _ingest/pipeline/processors-example-five
{
  "description": "Strip sensitive information from the fields in documents",
  "processors": [
    {
      "gsub": {
        "field": "message",
        "pattern": "\\b(?:3[47]\\d|(?:4\\d|5[1-5]|65)\\d{2}|6011)\\d{12}\\b",
        "replacement": "xxxx-xxxx-xxxx-xxxx"
      }
    }
  ]
}
`

Probamos el funcionamiento del pipeline:

`
POST _ingest/pipeline/processors-example-five/_simulate
{
  "docs": [
    {
      "_source": {
        "message": "Customer A1121 paid with 5555555555554444"
      }
    },
    {
      "_source": {
        "message": "Customer A1122 paid with 378282246310005"
      }
    }
  ]
}
`




### 6. Enriquecer la el campo que contiene una dirección IP pública con información geográfica.

También podemos utilizar el processor geoip para buscar las coordenadas geográficas de una IP y enriquecer el documento base con esta información.

Processors utilizados:
* geoip: https://www.elastic.co/guide/en/elasticsearch/reference/current/geoip-processor.html#geoip-processor
* rename: https://www.elastic.co/guide/en/elasticsearch/reference/current/rename-processor.html#rename-processor

El formato del documento base que utilizaremos es:
`
{
  "source_ip": "194.121.12.154"
}
`

Definimos el pipeline para ello primero extraemos las coordenadas geográficas a partir del campo "soruce_ip" del documento base y dejamos los valores obtenidos en el campo "source.geo". Después renombramos el campo source_ip por "source.ip" para embeberlo dendro del documento source junto con la información geográfica. 

`
PUT _ingest/pipeline/processors-example-six
{
  "description": "Enrich the public IP address fields with geo-location information",
  "processors": [
    {
      "geoip": {
        "field": "source_ip",
        "target_field": "source.geo"
      }
    },
    {
      "rename": {
        "field": "source_ip",
        "target_field": "source.ip"
      }
    }
  ]
}
`

Comprobamos su funcionamiento. Puedes probar con tu IP publica.

`
POST _ingest/pipeline/processors-example-six/_simulate
{
  "docs": [
    {
      "_source": {
        "source_ip": "194.121.12.154"
      }
    }
  ]
}
`


## Ejercicio

Ahora es tu turno para practicar. Para ello vamos a ingestar un data set que contiene todo el catálogo disponible en Netflix a fecha de octubre de 2021 junto más información como el cating, directores, ratings, duración, etc..

En este enlace puedes encontrar más información sobre el data set: https://www.kaggle.com/datasets/shivamb/netflix-shows?resource=download

El fichero ya descargado lo puedes encontrar dentro de tu workspace en la siguiente ruta: work/data/elasticsearch/netflix/netflix_titles.csv

El fichero está en formato csv donde cada línea es una entrada del catálogo. A continuación puedes encontrar tres ejemplos:

show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description

s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmmaker Kirsten Johnson stages his death in inventive and comical ways to help them both face the inevitable."

s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thabang Molaba, Dillon Windvogel, Natasha Thahane, Arno Greeff, Xolile Tshabalala, Getmore Sithole, Cindy Mahlangu, Ryle De Morny, Greteli Fincham, Sello Maake Ka-Ncube, Odwa Gwanya, Mekaila Mathys, Sandi Schultz, Duane Williams, Shamilla Miller, Patrick Mofokeng",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town teen sets out to prove whether a private-school swimming star is her sister who was abducted at birth."

s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabiha Akkari, Sofia Lesaffre, Salim Kechiouche, Noureddine Farihi, Geert Van Rampelberg, Bakary Diombera",,"September 24, 2021",2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Action & Adventure","To protect his family from a powerful drug lord, skilled thief Mehdi and his expert team of robbers are pulled into a violent and deadly turf war."

Para ingestar esta información vamos a crear un pipeline de ingesta para procesar e indexar correctamente los datos. 

### 1. Diseña el índice para lamacenar los datos

Como primer paso, diseña el índice en el que almacenar los datos ingestados, pero no lo realices la llamada para crearlo. El índice tiene que cumplir las siguientes características:

* **Nombre:** netflix_titles
* **Campos:**
    * cast, categories, country, director, duration, rating, show_id y type de tipo keyword
    * description y title de tipo text
    * date_added tipo date
    * release_year de tipo long


`
PUT netflix_titles
{
  "mappings": {
    "properties": {
      "cast": {
        "type": "keyword"
      },
      "categories": {
        "type": "keyword"
      },
      "country": {
        "type": "keyword"
      },
      "date_added": {
        "type": "date"
      },
      "description": {
        "type": "text"
      },
      "director": {
        "type": "keyword"
      },
      "duration": {
        "type": "keyword"
      },
      "rating": {
        "type": "keyword"
      },
      "release_year": {
        "type": "long"
      },
      "show_id": {
        "type": "keyword"
      },
      "title": {
        "type": "text"
      },
      "type": {
        "type": "keyword"
      }
    }
  }
}
`



### 2. Diseña un pipeline de ingesta que realice las siguientes operaciones:



* **Nombre del pipeline**: "netflix-titles-pipeline"
* **Processors**:
    1. Utiliza el processor csv para procesar cada línea del fichero (https://www.elastic.co/guide/en/elasticsearch/reference/current/csv-processor.html).
    2. Utiliza el processor split para separar los diferentes miembros del campo cast para crear un array de strings. El separador que tienes que usar es el siguiente: ",\\s*". (https://www.elastic.co/guide/en/elasticsearch/reference/current/split-processor.html).
    3. Utiliza el processor split igual que antes, pero para el campo listed_in.
    4. Utiliza el processor remane para renombrar el campo listed_in con el nombre categories. (https://www.elastic.co/guide/en/elasticsearch/reference/current/rename-processor.html)
    5. Utiliza el processor trim para eliminar los espacios en blanco del campo date_added para poderlo parsear adecuadamente (https://www.elastic.co/guide/en/elasticsearch/reference/current/trim-processor.html).
    6. Usa el processor date para parsear la fecha del campo date_added y convertirlo en un campo de tipo date (https://www.elastic.co/guide/en/elasticsearch/reference/current/date-processor.html).
    7. Utiliza el processor convert para convertir el campo release_year en un capo de tipo integer (https://www.elastic.co/guide/en/elasticsearch/reference/current/convert-processor.html).
    8. Utiliza el processor remove para eliminar el campo message con el documento original (https://www.elastic.co/guide/en/elasticsearch/reference/current/remove-processor.html).
* Configura todos los processors para que ignore los registros que no contengan los campos implicados.
* Gestiona los fallos en el pipeline de forma global para que envíe los documentos que han dado error y no se han podido parsear a un índice llamado "dead-letter-(nombre del índice en el que se intentaba insertar el documento).

Continúa al partir del siguiente procesor:

`
      {
        "csv": {
          "description": "Parse the incoming message",
          "field": "message",
          "target_fields": [
            "show_id",
            "type",
            "title",
            "director",
            "cast",
            "country",
            "date_added",
            "release_year",
            "rating",
            "duration",
            "listed_in",
            "description"
          ],
          "trim": true,
          "tag": "csv-parse-message"
        }
      }
`

`
PUT _ingest/pipeline/netflix-titles-pipeline
{
  "processors": [
      {
        "csv": {
          "description": "Parse the incoming message",
          "field": "message",
          "target_fields": [
            "show_id",
            "type",
            "title",
            "director",
            "cast",
            "country",
            "date_added",
            "release_year",
            "rating",
            "duration",
            "listed_in",
            "description"
          ],
          "trim": true,
          "tag": "csv-parse-message"
        }
      },
      {
        "split": {
          "description": "Split the cast property into cast members",
          "field": "cast",
          "separator": ",\\s*",
          "ignore_missing": true,
          "tag": "split-cast"
        }
      },
      {
        "split": {
          "description": "Split the listed_in property into categories",
          "field": "listed_in",
          "separator": ",\\s*",
          "ignore_missing": true,
          "tag": "split-listed_in"
        }
      },
      {
        "rename": {
          "description": "Rename the listed_in property in categories",
          "field": "listed_in",
          "target_field": "categories", 
          "ignore_missing": true,
          "tag": "rename-listed_in"
        }
      },
      {
        "trim": {
          "description": "Trim date_added field",
          "field": "date_added",
          "ignore_missing": true,
          "tag": "trim-date_added"
        }
      },
      {
        "date": {
          "description": "Convert date_added field to a date field",
          "field": "date_added",
          "formats": [ "MMMM d, yyyy"],
          "target_field": "date_added",
          "tag": "date-date_added"
        }
      },
      {
        "convert": {
          "description": "Convert release_year to a number",
          "field": "release_year",
          "type": "integer",
          "tag": "convert-release_year"
        }
      },
      {
        "remove": {
          "description": "Finally remove the message field",
          "field": "message",
          "tag": "remove-message"
        }
      }
    ],
    "on_failure": [
    {
      "set": {
        "description": "Index document to 'failed-<index>'",
        "field": "_index",
        "value": "dead-letter-{{{ _index }}}"
      }
    }
  ]
}
`

### 3. Prueba el funcionamiento de tu pipeline ingestando los datos del csv:

Vamos a parsear el fichero e insertarlo en elasticsearch:

In [1]:
!pip install certifi==2021.5.30
!pip install elasticsearch==7.13.1
!pip install urllib3==1.26.6

Collecting certifi==2021.5.30
  Downloading certifi-2021.5.30-py2.py3-none-any.whl (145 kB)
     |████████████████████████████████| 145 kB 995 kB/s            
[?25hInstalling collected packages: certifi
  Attempting uninstall: certifi
    Found existing installation: certifi 2018.8.24
[31mERROR: Cannot uninstall 'certifi'. It is a distutils installed project and thus we cannot accurately determine which files belong to it which would lead to only a partial uninstall.[0m
Collecting elasticsearch==7.13.1
  Downloading elasticsearch-7.13.1-py2.py3-none-any.whl (354 kB)
     |████████████████████████████████| 354 kB 1.9 MB/s            
Installing collected packages: elasticsearch
Successfully installed elasticsearch-7.13.1
Collecting urllib3==1.26.6
  Downloading urllib3-1.26.6-py2.py3-none-any.whl (138 kB)
     |████████████████████████████████| 138 kB 751 kB/s            
[?25hInstalling collected packages: urllib3
  Attempting uninstall: urllib3
    Found existing installation: ur

In [18]:
import argparse
from elasticsearch import Elasticsearch
from elasticsearch.helpers import streaming_bulk

def generate_bulk_actions(file, index, pipeline, skip_first_line, max_docs):
    with open(file, encoding = 'UTF-8') as f:
        for idx, line in enumerate(f.readlines()):
            if skip_first_line and idx ==0:
                continue
            if max_docs != -1:
                stop_idx = max_docs + 1 if skip_first_line else max_docs
                if idx == stop_idx:
                    break
            action = {
                '_index': index,
                '_source': {
                    'message': line.strip()
                }
            }
            if pipeline:
                action['pipeline'] = pipeline
            yield action

def run(file, index, pipeline):
    es_host = 'http://elasticsearch:9200'

    es = Elasticsearch([es_host])
    print('-- elasticsearch host set to :', es_host)

    successes = 0
    for ok, _ in streaming_bulk(client=es, actions= generate_bulk_actions(file, index, pipeline, True, -1)):
        successes += ok

In [19]:
run('../data/elasticsearch/netflix/netflix_titles.csv', 'netflix_titles', 'netflix-titles-pipeline')

-- elasticsearch host set to : http://elasticsearch:9200


1. Comprueba que se han insertado correctamente los documentos.
2. ¿Cuántos documentos no se han parseado correctamente?