# Elasticsearch

**ACLARACIÓN:**

El cuaderno no está preparado para ser ejecutado dentro de Colab. En su lugar, hay que seguir las instrucciones que se detallan en los respectivos apartados para instalar y ejecutar Elasticsearch en un entorno local.

## Implementación de ElasticSearch

Para la instalación de Elasticsearch se ha usdo el contenido del resopositorio [docker-elk](https://github.com/deviantony/docker-elk?tab=readme-ov-file). Cualquier duda sobre la instalación que no aparezca en este documento se puede consultar en el repositorio.

### Instalación del repositorio

Lo primero de todo es clonar el repositorio en el directorio de trabajo:

```bash
git clone https://github.com/deviantony/docker-elk?tab=readme-ov-file
```

Una vez tenemos el direcotorio clonado, nos movemos a la carpeta `docker-elk`. Podemos ver en esta carpeta dos archivos importantes:
- `docker-compose.yml`: Archivo de configuración de docker-compose.
- `.env`: Archivo de configuración del cluster.

### Modificación de credenciales <a id="modificacion-de-credenciales"></a>

Para modificar las credenciales de acceso a la interfaz web, debemos modificar el archivo `.env`. En este archivo podemos encontrar las siguientes líneas:

```bash
## Passwords for stack users
#

# User 'elastic' (built-in)
#
# Superuser role, full access to cluster management and data indices.
# https://www.elastic.co/guide/en/elasticsearch/reference/current/built-in-users.html
ELASTIC_PASSWORD='changeme'

# User 'logstash_internal' (custom)
#
# The user Logstash uses to connect and send data to Elasticsearch.
# https://www.elastic.co/guide/en/logstash/current/ls-security.html
LOGSTASH_INTERNAL_PASSWORD='changeme'

# User 'kibana_system' (built-in)
#
# The user Kibana uses to connect and communicate with Elasticsearch.
# https://www.elastic.co/guide/en/elasticsearch/reference/current/built-in-users.html
KIBANA_SYSTEM_PASSWORD='changeme'
```

De esta forma se pueden modificar los valores de las contraseñas antes de instalar e iniciar el cluster. Sin embargo, los usuarios son los que hay por defecto y no se pueden cambiar.

### Instalación de Elasticsearch

Para iniciar la instlación de Elasticsearch, simplemente ejecutamos el siguiente comando dentro de la carpeta `docker-elk`:

```bash
docker-compose up setup
```

Luego, una vez se haya terminado de instalar, iniciamos el docker-compose de forma normal:

```bash
docker-compose up
```

Para comprobar que todo ha ido bien y está el cluster funcionando, podemos acceder a la dirección `http://localhost:9200` y veremos la información del cluster (hay que meterse con las credenciales: `elastic` y `changeme`, en el caso de no haber cambiaddo la contraseña como se indica enel [apartado anterior](#modificacion-de-credenciales)). Se puede ejeccutar en Bash como:

```bash
# En el caso de Powershell "curl.exe" en vez de solo "curl"
curl -u elastic:changeme http://localhost:9200
```

Debería devolver algo similar a lo siguiente:

```json
{
  "name": "elasticsearch",
  "cluster_name": "docker-cluster",
  "cluster_uuid": "CeqMQi1oRvqLxuKa9Lejlg",
  "version": {
    "number": "8.17.0",
    "build_flavor": "default",
    "build_type": "docker",
    "build_hash": "2b6a7fed44faa321997703718f07ee0420804b41",
    "build_date": "2024-12-11T12:08:05.663969764Z",
    "build_snapshot": false,
    "lucene_version": "9.12.0",
    "minimum_wire_compatibility_version": "7.17.0",
    "minimum_index_compatibility_version": "7.0.0"
  },
  "tagline": "You Know, for Search"
}
```

## Descripción de Elasticsearch

Elasticsearch es una base de datos NoSQL orientada a documentos que utiliza un motor de búsqueda basado en Apache Lucene. Está diseñada para proporcionar un análisis rápido y eficiente de grandes volúmenes de datos y se utiliza comúnmente en aplicaciones de búsqueda y análisis de logs, métricas, contenido en tiempo real, entre otros.

### Modo de funcionamiento:
Elasticsearch funciona de manera distribuida, lo que significa que puede escalar horizontalmente agregando más nodos a un clúster. Los datos en Elasticsearch se almacenan en índices, que se dividen en shards (fragmentos) y pueden ser replicados para asegurar la disponibilidad y la durabilidad.

### Posibilidades de modelado de datos:
- **Índices**: Los datos se organizan en índices, y cada índice puede tener múltiples tipos de documentos. Un documento es una unidad de datos (por ejemplo, un registro) que se almacena en formato JSON.
- **Campos**: Los documentos se componen de campos (pares clave-valor). Los tipos de datos en Elasticsearch incluyen cadenas, enteros, fechas, booleanos, entre otros.
- **Mapping**: Elasticsearch permite definir el tipo de datos y el comportamiento de los campos a través del "mapping", lo que permite optimizar las búsquedas y el almacenamiento de los datos.

### Características principales:
- **Transacciones**: Elasticsearch no está diseñado para manejar transacciones tradicionales con ACID (Atomicidad, Consistencia, Aislamiento, Durabilidad). Aunque ofrece operaciones de escritura, no garantiza la consistencia inmediata entre nodos, ya que su enfoque está en la alta disponibilidad y la escalabilidad. En su lugar, ofrece mecanismos de consistencia eventual.

- **Organización en etiquetas**: Elasticsearch no organiza los datos de manera jerárquica en términos de etiquetas, pero se pueden usar filtros y facetas para organizar y agrupar la información durante la búsqueda. Además, se pueden usar etiquetas como valores en los documentos para facilitar su clasificación.

- **Búsquedas complejas**: Elasticsearch es extremadamente potente para realizar búsquedas complejas. Ofrece una amplia gama de consultas como:
  - **Búsquedas de texto completo**: búsqueda por coincidencia, búsqueda booleana, búsqueda de frases, etc.
  - **Filtros**: para limitar los resultados de las búsquedas.
  - **Agregaciones**: para análisis de datos como sumas, promedios, máximos, mínimos, y más.
  - **Búsqueda fuzzy**: que permite encontrar coincidencias aproximadas.
  - **Consultas geoespaciales**: para realizar búsquedas basadas en la ubicación geográfica.

- **Replicación multiservidor**: Elasticsearch permite replicar los datos entre múltiples nodos en un clúster. Esto proporciona redundancia, alta disponibilidad y equilibrio de carga. Cada shard puede tener réplicas en otros nodos, lo que asegura que los datos sigan disponibles incluso si un nodo falla.

- **Lenguaje de consultas**: Elasticsearch utiliza su propio **DSL (Domain Specific Language)** para consultas, que es una forma declarativa basada en JSON. Con este lenguaje se pueden construir consultas complejas, agregaciones, filtrados y ordenamientos. Además, es posible interactuar con Elasticsearch a través de su API RESTful, que facilita su integración con otros sistemas.

### Otras características:
- **Escalabilidad horizontal**: Elasticsearch está diseñado para escalar horizontalmente, agregando más nodos al clúster para manejar grandes volúmenes de datos y consultas.
- **Alta disponibilidad**: A través de la replicación y el control de fallos, Elasticsearch garantiza que el sistema continúe funcionando correctamente incluso si algunos nodos fallan.
- **Tiempo real**: Aunque Elasticsearch no es estrictamente "en tiempo real", tiene una latencia baja y permite búsquedas en casi tiempo real, lo que lo hace ideal para sistemas de análisis de logs, monitoreo de eventos y otros escenarios similares.

En resumen, Elasticsearch es una base de datos de búsqueda potente, distribuida y escalable, que permite realizar búsquedas complejas, realizar análisis de datos y manejar grandes volúmenes de información con alta disponibilidad y replicación entre servidores. Sin embargo, no está diseñado para gestionar transacciones tradicionales con consistencia fuerte.


## Cargas de datos a Elasticseatch

### Instalación de librerías

Para poder usar Elasticsearch necesitaremos instalar las librerías:
- `elasticsearch`
- `pandas`

Para ello, simplemente ejecutamos el siguiente comando:

In [157]:
%pip install elasticsearch pandas elasticsearch_dsl matplotlib


Collecting matplotlib
  Downloading matplotlib-3.10.0-cp310-cp310-win_amd64.whl.metadata (11 kB)
Collecting contourpy>=1.0.1 (from matplotlib)
  Downloading contourpy-1.3.1-cp310-cp310-win_amd64.whl.metadata (5.4 kB)
Collecting cycler>=0.10 (from matplotlib)
  Downloading cycler-0.12.1-py3-none-any.whl.metadata (3.8 kB)
Collecting fonttools>=4.22.0 (from matplotlib)
  Downloading fonttools-4.55.3-cp310-cp310-win_amd64.whl.metadata (168 kB)
Collecting kiwisolver>=1.3.1 (from matplotlib)
  Downloading kiwisolver-1.4.8-cp310-cp310-win_amd64.whl.metadata (6.3 kB)
Collecting pillow>=8 (from matplotlib)
  Downloading pillow-11.1.0-cp310-cp310-win_amd64.whl.metadata (9.3 kB)
Collecting pyparsing>=2.3.1 (from matplotlib)
  Downloading pyparsing-3.2.1-py3-none-any.whl.metadata (5.0 kB)
Downloading matplotlib-3.10.0-cp310-cp310-win_amd64.whl (8.0 MB)
   ---------------------------------------- 0.0/8.0 MB ? eta -:--:--
   ----------------------------------- ---- 7.1/8.0 MB 33.6 MB/s eta 0:00:01


Comprobamos que Elasticseatch se está ejecutándose correctamente:

In [4]:
from elasticsearch import Elasticsearch, helpers

# Conexión a Elasticsearch con autenticación
client = Elasticsearch(
    ['http://localhost:9200'],
    basic_auth=('elastic', 'changeme')
)

def obtener_informacion_cluster():
    try:
        # Obtener información sobre el clúster de Elasticsearch
        info_cluster = client.cluster.health()
        print("Información del clúster:")
        for element in info_cluster:
            print("\t-", element, ":", info_cluster[element])
    except Exception as e:
        print("Error al obtener información del clúster:", e)

# Llamar a la función para obtener información del clúster
obtener_informacion_cluster();

Información del clúster:
	- cluster_name : docker-cluster
	- status : green
	- timed_out : False
	- number_of_nodes : 1
	- number_of_data_nodes : 1
	- active_primary_shards : 33
	- active_shards : 33
	- relocating_shards : 0
	- initializing_shards : 0
	- unassigned_shards : 0
	- unassigned_primary_shards : 0
	- delayed_unassigned_shards : 0
	- number_of_pending_tasks : 0
	- number_of_in_flight_fetch : 0
	- task_max_waiting_in_queue_millis : 0
	- active_shards_percent_as_number : 100.0


### Subida de los documentos CSV

Primero de todo tenemos que descargar los documentos CSV de Stack Overflow. Estos documentos se encuentran en el [repositorio de la asignatura de Bases de datos](https://github.com/dsevilla/bd2-data/raw/main/es.stackoverflow/). Los archivos que hay que descargar y descomprimir son:
- `es.stackoverflow.csv.7z.001`
- `es.stackoverflow.csv.7z.002`

In [5]:
# Descargamos los archivos comprimidos
!curl -L -o es.stackoverflow.csv.7z.001 https://github.com/dsevilla/bd2-data/raw/main/es.stackoverflow/es.stackoverflow.csv.7z.001
!curl -L -o es.stackoverflow.csv.7z.002 https://github.com/dsevilla/bd2-data/raw/main/es.stackoverflow/es.stackoverflow.csv.7z.002

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed

  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0
  6  100M    6 6334k    0     0  5046k      0  0:00:20  0:00:01  0:00:19 6284k
 29  100M   29 29.1M    0     0  12.9M      0  0:00:07  0:00:02  0:00:05 14.5M
 78  100M   78 78.5M    0     0  24.1M      0  0:00:04  0:00:03  0:00:01 26.1M
100  100M  100  100M    0     0  26.4M      0  0:00:03  0:00:03 --:--:-- 28.3M
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed

  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0
  0     0    0     0    0     0      0      0 --:

Una vez tenemos los archivos descargados, los descomprimimos, de forma que deberíamos tener:
- `Posts.csv`
- `Users.csv`
- `Tags.csv`
- `Votes.csv`
- `Comments.csv`

Para la ejecución de la práctica deben estar en la misma carpeta que este Notebook.

Creamos una función para cargar los datos de los CSV a Elasticsearch:

In [147]:
# Definimos una función para pasar de CSV a Elasticsearch
import pandas as pd
from elasticsearch import Elasticsearch, helpers

def csv_to_elastic(client: Elasticsearch, df: pd.DataFrame, index: str) -> None:
    # Creamos el índice en Elasticsearch si no existe
    if not client.indices.exists(index=index):
        client.indices.create(index=index)
    
    # Creamos una lista vacía para ir guardando las filas del CSV
    docs: list = []
    
    # Cambiamos los NaN por None
    df = df.fillna("NAN").replace("NAN", None)
    
    # Creamos un bucle para recorrer las filas del DataFrame
    for _, row in df.iterrows():
        # Convertimos la fila a un diccionario
        content: dict = row.to_dict()
        
        # Creamos el documento
        doc = {
            "_index": index,
            "_source": content
        }
        
        # Añadimos el documento a la lista
        docs.append(doc)

    # Subimos los documentos a Elasticsearch
    helpers.bulk(client, docs)

Pasamos por todos los documentos guardando los datos en un DataFrame de pandas y luego los subimos a Elasticsearch.

In [148]:
import os

# Creamos el cliente de Elasticsearch
es_client: Elasticsearch = Elasticsearch(
    ['http://localhost:9200'],
    basic_auth=('elastic', 'changeme')
)

# Hacemos un bucle para pasar por todos los CSV del directorio actual
for file in os.listdir("."):
    if file.endswith(".csv"):
        # Leemos el CSV con Pandas
        df: pd.DataFrame = pd.read_csv(file)
        index: str = file.split(".")[0].lower()
        
        # Pasamos el CSV a Elasticsearch
        print("Pasando el CSV a Elasticsearch:", file)
        csv_to_elastic(es_client, df, index)

Pasando el CSV a Elasticsearch: Posts.csv
Pasando el CSV a Elasticsearch: Tags.csv
Pasando el CSV a Elasticsearch: Users.csv
Pasando el CSV a Elasticsearch: Votes.csv
