# Carga de librerias

In [1]:
from elasticsearch import Elasticsearch
import time
from datetime import timedelta, datetime
from lorem_text import lorem

es = Elasticsearch("http://127.0.0.1:9200")

print(f"Connected to ElasticSearch cluster `{es.info().body['cluster_name']}`")

Connected to ElasticSearch cluster `docker-cluster`


# Eliminación de documentos de la base de datos con 1 millón de registros y todos los campos indexados

En esta sección se revisará la operación de eliminación en la colección de 1 millón de documentos ya indexados.

In [2]:
idx = "extracto_cuenta_1m"
es.indices.get_mapping(index=idx)

ObjectApiResponse({'extracto_cuenta_1m': {'mappings': {'properties': {'agencia': {'type': 'keyword'}, 'descripcion': {'type': 'text'}, 'fecha': {'type': 'date', 'format': 'yyyy-MM-dd HH:mm:ss'}, 'monto': {'type': 'float'}, 'nota': {'type': 'text'}, 'saldo': {'type': 'float'}}}}})

## Eliminación 1: Saldo menor

Se eliminarán de la base de datos aquellos documentos cuyos saldos sean menores a determinado número.

In [12]:
def eliminar_saldo_min(saldo_min):

    query = {
        "range" : {
                  "saldo": { "lte" : f"{saldo_min}"},
      }
    }

    return es.options(request_timeout=30).delete_by_query(index = idx, query = query)

In [6]:
saldo_min= 100

start_time = time.time()
results = eliminar_saldo_min(saldo_min)
end_time = time.time()

print(results)
print(f"Se eliminaron {results['total']} en un tiempo de {str(timedelta(seconds = (end_time - start_time)))}")

{'took': 1270, 'timed_out': False, 'total': 7, 'deleted': 7, 'batches': 1, 'version_conflicts': 0, 'noops': 0, 'retries': {'bulk': 0, 'search': 0}, 'throttled_millis': 0, 'requests_per_second': -1.0, 'throttled_until_millis': 0, 'failures': []}
Se eliminaron 7 en un tiempo de 0:00:01.314142


| Tabla resumen de resultados | Valor obtenido |
|-----------------------------|----------------|
| Tiempo eliminación 1        | 1.3141 s       |

# Eliminación de documentos de la base de datos con 10 millones de registros y todos los campos indexados

En esta sección se revisará la operación de eliminación en la colección de 10 millones de documentos ya indexados.

In [7]:
idx = "extracto_cuenta_10m"
es.indices.get_mapping(index=idx)

ObjectApiResponse({'extracto_cuenta_10m': {'mappings': {'properties': {'agencia': {'type': 'keyword'}, 'descripcion': {'type': 'text'}, 'fecha': {'type': 'date', 'format': 'yyyy-MM-dd HH:mm:ss'}, 'monto': {'type': 'float'}, 'nota': {'type': 'text'}, 'saldo': {'type': 'float'}}}}})

## Eliminación 1: Saldo menor

Se eliminarán de la base de datos aquellos documentos cuyos saldos sean menores a determinado número.

In [10]:
saldo_min= 200

start_time = time.time()
results = eliminar_saldo_min(saldo_min)
end_time = time.time()

print(results)
print(f"Se eliminaron {results['total']} en un tiempo de {str(timedelta(seconds = (end_time - start_time)))}")

{'took': 3346, 'timed_out': False, 'total': 99, 'deleted': 99, 'batches': 1, 'version_conflicts': 0, 'noops': 0, 'retries': {'bulk': 0, 'search': 0}, 'throttled_millis': 0, 'requests_per_second': -1.0, 'throttled_until_millis': 0, 'failures': []}
Se eliminaron 99 en un tiempo de 0:00:03.350267


| Tabla resumen de resultados | Valor obtenido |
|-----------------------------|----------------|
| Tiempo eliminación 1        | 3.3503 s       |

# Eliminación de documentos de la base de datos con 30 millones de registros y todos los campos indexados

En esta sección se revisará la operación de eliminación en la colección de 10 millones de documentos ya indexados.

In [15]:
idx = "extracto_cuenta_30m"
es.indices.get_mapping(index=idx)

ObjectApiResponse({'extracto_cuenta_30m': {'mappings': {'properties': {'agencia': {'type': 'keyword'}, 'descripcion': {'type': 'text'}, 'fecha': {'type': 'date', 'format': 'yyyy-MM-dd HH:mm:ss'}, 'monto': {'type': 'float'}, 'nota': {'type': 'text'}, 'saldo': {'type': 'float'}}}}})

## Eliminación 1: Saldo menor

Se eliminarán de la base de datos aquellos documentos cuyos saldos sean menores a determinado número.

In [18]:
saldo_min= 200

start_time = time.time()
results = eliminar_saldo_min(saldo_min)
end_time = time.time()

print(results)
print(f"Se eliminaron {results['total']} en un tiempo de {str(timedelta(seconds = (end_time - start_time)))}")

{'took': 9096, 'timed_out': False, 'total': 284, 'deleted': 284, 'batches': 1, 'version_conflicts': 0, 'noops': 0, 'retries': {'bulk': 0, 'search': 0}, 'throttled_millis': 0, 'requests_per_second': -1.0, 'throttled_until_millis': 0, 'failures': []}
Se eliminaron 284 en un tiempo de 0:00:09.099498


| Tabla resumen de resultados | Valor obtenido |
|-----------------------------|----------------|
| Tiempo eliminación 1        | 9.0995 s       |

# Eliminación de documentos de la base de datos con 10 millones de registros y 3 campos indexados (fecha, descripcion, nota)

En esta sección se revisará la operación de eliminación en la colección de 10 millones de documentos indexados en tres campos: fecha, descripción y nota.

In [13]:
idx = "extracto_cuenta_10m_3idx"
es.indices.get_mapping(index=idx)

ObjectApiResponse({'extracto_cuenta_10m_3idx': {'mappings': {'properties': {'agencia': {'type': 'keyword', 'index': False}, 'descripcion': {'type': 'text'}, 'fecha': {'type': 'date', 'format': 'yyyy-MM-dd HH:mm:ss'}, 'monto': {'type': 'float', 'index': False}, 'nota': {'type': 'text'}, 'saldo': {'type': 'float', 'index': False}}}}})

## Eliminación 1: Saldo menor

Se eliminarán de la base de datos aquellos documentos cuyos saldos sean menores a determinado número.

In [14]:
saldo_min= 100

start_time = time.time()
results = eliminar_saldo_min(saldo_min)
end_time = time.time()

print(results)
print(f"Se eliminaron {results['total']} en un tiempo de {str(timedelta(seconds = (end_time - start_time)))}")

{'took': 12444, 'timed_out': False, 'total': 111, 'deleted': 111, 'batches': 1, 'version_conflicts': 0, 'noops': 0, 'retries': {'bulk': 0, 'search': 0}, 'throttled_millis': 0, 'requests_per_second': -1.0, 'throttled_until_millis': 0, 'failures': []}
Se eliminaron 111 en un tiempo de 0:00:12.448786


| Tabla resumen de resultados | Valor obtenido |
|-----------------------------|----------------|
| Tiempo eliminación 1        | 12.4488 s       |

# Eliminación de documentos de la base de datos con 30 millones de registros y 3 campos indexados (fecha, descripcion, nota)

En esta sección se revisará la operación de eliminación en la colección de 30 millones de documentos indexados en tres campos: fecha, descripción y nota.

In [19]:
idx = "extracto_cuenta_30m_3idx"
es.indices.get_mapping(index=idx)

ObjectApiResponse({'extracto_cuenta_30m_3idx': {'mappings': {'properties': {'agencia': {'type': 'keyword', 'index': False}, 'descripcion': {'type': 'text'}, 'fecha': {'type': 'date', 'format': 'yyyy-MM-dd HH:mm:ss'}, 'monto': {'type': 'float', 'index': False}, 'nota': {'type': 'text'}, 'saldo': {'type': 'float', 'index': False}}}}})

## Eliminación 1: Saldo menor

Se eliminarán de la base de datos aquellos documentos cuyos saldos sean menores a determinado número.

In [21]:
saldo_min= 200

start_time = time.time()
results = eliminar_saldo_min(saldo_min)
end_time = time.time()

print(results)
print(f"Se eliminaron {results['total']} en un tiempo de {str(timedelta(seconds = (end_time - start_time)))}")

{'took': 14292, 'timed_out': False, 'total': 284, 'deleted': 284, 'batches': 1, 'version_conflicts': 0, 'noops': 0, 'retries': {'bulk': 0, 'search': 0}, 'throttled_millis': 0, 'requests_per_second': -1.0, 'throttled_until_millis': 0, 'failures': []}
Se eliminaron 284 en un tiempo de 0:00:14.298594


| Tabla resumen de resultados | Valor obtenido |
|-----------------------------|----------------|
| Tiempo eliminación 1        | 14.2986 s      |