#PARTE 1: CONCEPTOS B√ÅSICOS DE B√öSQUEDAS EL√ÅSTICAS

*. ¬øQu√© es Elasticsearch/openSearch?
----------------------
ElasticSearch y OpenSearch son motores de b√∫squeda distribuidos basados en Apache Lucene, dise√±ados para manejar grandes vol√∫menes de texto de forma r√°pida mediante √≠ndices y documentos JSON.

1.   Caracter√≠sticas principales:
- B√∫squedas en tiempo real
- Escalabilidad horizontal
- B√∫squedas full-text
- An√°lisis de datos (agregaciones)
- RESTful API

2. Conceptos clave:
----------------
- √çNDICE (Index): Colecci√≥n de documentos similares (como una base de datos)
- DOCUMENTO (Document): Unidad b√°sica de informaci√≥n en formato JSON
- CAMPO (Field): Par clave-valor dentro de un documento
- MAPPING: Define el esquema y tipos de datos de los campos
- SHARDS: Divisi√≥n del √≠ndice para distribuir datos
- REPLICAS: Copias de los shards para alta disponibilidad

3.  Que tipo de b√∫squedas se pueden realizar:
-------------------
- TERM: B√∫squeda exacta (no analizada)
- MATCH: B√∫squeda full-text (analizada)
- BOOL: Combina m√∫ltiples consultas (must, should, must_not, filter)
- RANGE: B√∫squeda por rangos
- WILDCARD: B√∫squeda con comodines
- FUZZY: B√∫squeda con tolerancia a errores

4. Agregaciones (Aggregations):
-----------------------------
- METRICS: C√°lculos num√©ricos (sum, avg, min, max)
- BUCKET: Agrupaciones de documentos
- PIPELINE: Agregaciones sobre otras agregaciones

# PARTE 2: INSTALACI√ìN DE ELASTICSEARCH EN GOOGLE COLAB

In [2]:
# Instalar Elasticsearch y cliente Python
!pip install elasticsearch==8.11.0 -q

import os
import json
import requests
from datetime import datetime
from elasticsearch import Elasticsearch

In [3]:
# habilitamos drive de google desde colab
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [4]:
# Definir ruta de instalaci√≥n
ES_PATH = "/content/drive/MyDrive/UniversidadCentral/Maestr√≠a_en_Anal√≠tica_de_Datos/Bigdata/Ejercicios_de_clase/DataBase/ElasticSearch"

# Crear directorio si no existe
os.makedirs(ES_PATH, exist_ok=True)

print(" Directorio creado/verificado:", ES_PATH)

‚úÖ Directorio creado/verificado: /content/drive/MyDrive/UniversidadCentral/Maestr√≠a_en_Anal√≠tica_de_Datos/Bigdata/Ejercicios_de_clase/DataBase/ElasticSearch


In [5]:
# 3. DESCARGAR E INSTALAR ELASTICSEARCH
# ============================================================================

# Cambiar al directorio de trabajo
os.chdir(ES_PATH)

# Descargar Elasticsearch (versi√≥n 8.11.0)
ES_VERSION = "8.11.0"
ES_DOWNLOAD = f"elasticsearch-{ES_VERSION}-linux-x86_64.tar.gz"
ES_URL = f"https://artifacts.elastic.co/downloads/elasticsearch/{ES_DOWNLOAD}"

if not os.path.exists(f"elasticsearch-{ES_VERSION}"):
    print(f" Descargando Elasticsearch {ES_VERSION}...")
    !wget -q {ES_URL}
    print(" Extrayendo archivos...")
    !tar -xzf {ES_DOWNLOAD}
    !rm {ES_DOWNLOAD}
    print(" Elasticsearch instalado correctamente")
else:
    print(" Elasticsearch ya est√° instalado")

‚úÖ Elasticsearch ya est√° instalado


In [6]:
# 4. CONFIGURAR ELASTICSEARCH
# ============================================================================

ES_HOME = f"{ES_PATH}/elasticsearch-{ES_VERSION}"
CONFIG_FILE = f"{ES_HOME}/config/elasticsearch.yml"

# Configuraci√≥n b√°sica para Colab
config = """
cluster.name: colab-cluster
node.name: colab-node-1
path.data: {}/data
path.logs: {}/logs
network.host: 127.0.0.1
http.port: 9200
xpack.security.enabled: false
xpack.security.enrollment.enabled: false
""".format(ES_HOME, ES_HOME)

with open(CONFIG_FILE, 'w') as f:
    f.write(config)

print("‚úÖ Configuraci√≥n de Elasticsearch actualizada")

‚úÖ Configuraci√≥n de Elasticsearch actualizada


In [None]:
# 5. INICIAR ELASTICSEARCH
# ============================================================================

import subprocess
import time

# Iniciar Elasticsearch en background
print("üöÄ Iniciando Elasticsearch...")
es_process = subprocess.Popen(
    [f"{ES_HOME}/bin/elasticsearch"],
    stdout=subprocess.PIPE,
    stderr=subprocess.PIPE
)

# Esperar a que inicie
print("‚è≥ Esperando a que Elasticsearch est√© listo...")
for i in range(30):
    try:
        response = requests.get("http://127.0.0.1:9200")
        if response.status_code == 200:
            print("‚úÖ Elasticsearch est√° listo!")
            break
    except:
        time.sleep(2)
        print(f"   Intento {i+1}/30...")

# Conectar con Elasticsearch
es = Elasticsearch(["http://127.0.0.1:9200"])
print("\nüìä Info del cluster:", es.info())

# PARTE 3: CONEXI√ìN A ELASTICSEARCH CLOUD

In [8]:
# Configuraci√≥n de conexi√≥n
CLOUD_URL = "https://74b8ecb51d3747d09ed984342aa62aed.us-central1.gcp.cloud.es.io:443"
API_KEY = "OHN6cGRKb0IyWjRDUlg1NDJidWY6SVIzaFk0ZGNvcWYtOE52dm5sRUY1dw=="

# Crear cliente de ElasticSearch
es = Elasticsearch(
    CLOUD_URL,
    api_key=API_KEY,
    verify_certs=True
)

# Verificar conexi√≥n
if es.ping():
    print("Conexi√≥n exitosa a ElasticSearch Cloud")
    print(f"Cluster info: {es.info()['version']['number']}")
else:
    print("Error al conectar con ElasticSearch")


‚úì Conexi√≥n exitosa a ElasticSearch Cloud
Cluster info: 9.2.1


## 3.1: PREPARACI√ìN DEL INDEX Y CARGA DE DATOS

In [9]:
INDEX_NAME = "index_cuentos"

# Eliminar index si existe (para empezar limpio)
if es.indices.exists(index=INDEX_NAME):
    es.indices.delete(index=INDEX_NAME)
    print(f"Index '{INDEX_NAME}' eliminado")

Index 'index_cuentos' eliminado


## 3.2_Crear mapping para el index


In [11]:
mapping = {
    "mappings": {
        "properties": {
            "texto": {"type": "text", "analyzer": "spanish"},
            "autor": {"type": "keyword"},
            "fecha_creacion": {"type": "date"},
            "tipo_cuento": {"type": "keyword"}
        }
    }
}
es.indices.create(index=INDEX_NAME, body=mapping)
print(f" Index '{INDEX_NAME}' creado con mapping")

‚úì Index 'index_cuentos' creado con mapping


## 3.3_indexar (cargar) documentos al index

In [12]:
# Dataset de cuentos para cargar
cuentos = [
    {
        "texto": "Hab√≠a una vez un peque√±o conejo llamado Tambor que viv√≠a en el bosque encantado. Un d√≠a decidi√≥ explorar m√°s all√° de su madriguera y encontr√≥ un jard√≠n m√°gico lleno de zanahorias gigantes.",
        "autor": "Mar√≠a Gonz√°lez",
        "fecha_creacion": "2024-01-15",
        "tipo_cuento": "infantil"
    },
    {
        "texto": "La casa en la colina estaba abandonada desde hace d√©cadas. Los vecinos dec√≠an que por las noches se escuchaban gritos escalofriantes. Una noche, Juan decidi√≥ investigar y lo que encontr√≥ dentro le hel√≥ la sangre.",
        "autor": "Carlos Ruiz",
        "fecha_creacion": "2024-02-20",
        "tipo_cuento": "terror"
    },
    {
        "texto": "En el reino de Eldoria, la princesa Luna pose√≠a el poder de controlar las estrellas. Cuando el drag√≥n oscuro amenaz√≥ el reino, ella reuni√≥ a los guerreros elementales para salvar su mundo.",
        "autor": "Ana Mart√≠nez",
        "fecha_creacion": "2024-03-10",
        "tipo_cuento": "fant√°stico"
    },
    {
        "texto": "El alcalde prometi√≥ durante su campa√±a combatir la corrupci√≥n. Sin embargo, documentos filtrados revelaron su conexi√≥n con empresas fantasma. La poblaci√≥n sali√≥ a las calles exigiendo transparencia.",
        "autor": "Roberto Silva",
        "fecha_creacion": "2024-04-05",
        "tipo_cuento": "pol√≠tico"
    },
    {
        "texto": "Pepito el elefante no pod√≠a volar como los p√°jaros, pero ten√≠a el coraz√≥n m√°s grande del bosque. Cuando sus amigos estuvieron en peligro, descubri√≥ que su verdadero poder estaba en su valent√≠a y amistad.",
        "autor": "Laura Ram√≠rez",
        "fecha_creacion": "2024-05-12",
        "tipo_cuento": "infantil"
    },
    {
        "texto": "El espejo antiguo apareci√≥ en el mercado de pulgas. Quien se miraba en √©l no ve√≠a su reflejo, sino su peor pesadilla. La √∫ltima persona que lo compr√≥ nunca volvi√≥ a ser la misma.",
        "autor": "Carlos Ruiz",
        "fecha_creacion": "2024-06-18",
        "tipo_cuento": "terror"
    },
    {
        "texto": "El mago Aldrin guardaba en su torre el libro de los hechizos perdidos. Cuando el portal dimensional se abri√≥, criaturas de otros mundos invadieron la tierra y solo √©l pod√≠a cerrar la brecha.",
        "autor": "Ana Mart√≠nez",
        "fecha_creacion": "2024-07-22",
        "tipo_cuento": "fant√°stico"
    },
    {
        "texto": "La reforma tributaria dividi√≥ al congreso. Mientras unos defend√≠an beneficios para grandes empresas, otros exig√≠an mayor equidad. El debate revel√≥ las profundas fracturas del sistema pol√≠tico.",
        "autor": "Roberto Silva",
        "fecha_creacion": "2024-08-30",
        "tipo_cuento": "pol√≠tico"
    }
]


In [13]:
# Cargar documentos en el index
for i, cuento in enumerate(cuentos):
    response = es.index(index=INDEX_NAME, id=i+1, document=cuento)
    print(f"‚úì Cuento {i+1} indexado: {response['result']}")

‚úì Cuento 1 indexado: created
‚úì Cuento 2 indexado: created
‚úì Cuento 3 indexado: created
‚úì Cuento 4 indexado: created
‚úì Cuento 5 indexado: created
‚úì Cuento 6 indexado: created
‚úì Cuento 7 indexado: created
‚úì Cuento 8 indexado: created


In [14]:
# Refrescar el index para que los documentos sean buscables
es.indices.refresh(index=INDEX_NAME)
print(f"\n {len(cuentos)} cuentos cargados exitosamente")


‚úì 8 cuentos cargados exitosamente


#PARTE 4: CONSULTAS B√ÅSICAS

## 4.1_consultar todos los documentos

In [16]:
print("\n" + "="*60)
print("EJERCICIO 1: B√∫squeda de todos los documentos")
print("="*60)

query1 = {
    "query": {
        "match_all": {}
    }
}
result = es.search(index=INDEX_NAME, body=query1)
print(f"Total de documentos: {result['hits']['total']['value']}")
for hit in result['hits']['hits']:
    print(f"- {hit['_source']['autor']}: {hit['_source']['tipo_cuento']}")


EJERCICIO 1: B√∫squeda de todos los documentos
Total de documentos: 8
- Mar√≠a Gonz√°lez: infantil
- Carlos Ruiz: terror
- Ana Mart√≠nez: fant√°stico
- Roberto Silva: pol√≠tico
- Laura Ram√≠rez: infantil
- Carlos Ruiz: terror
- Ana Mart√≠nez: fant√°stico
- Roberto Silva: pol√≠tico


## 4.2_B√∫squeda por una columna (caracteristica) del documento

In [17]:
print("\n" + "="*60)
print("EJERCICIO 2: B√∫squeda por tipo de cuento espec√≠fico")
print("="*60)

query2 = {
    "query": {
        "term": {
            "tipo_cuento": "terror"
        }
    }
}

result = es.search(index=INDEX_NAME, body=query2)
print(f"Cuentos de terror encontrados: {result['hits']['total']['value']}")
for hit in result['hits']['hits']:
    print(f"- '{hit['_source']['texto'][:80]}...'")
    print(f"  Autor: {hit['_source']['autor']}\n")


EJERCICIO 2: B√∫squeda por tipo de cuento espec√≠fico
Cuentos de terror encontrados: 2
- 'La casa en la colina estaba abandonada desde hace d√©cadas. Los vecinos dec√≠an qu...'
  Autor: Carlos Ruiz

- 'El espejo antiguo apareci√≥ en el mercado de pulgas. Quien se miraba en √©l no ve√≠...'
  Autor: Carlos Ruiz



In [19]:
print("EJERCICIO 2.1: B√∫squeda por autor")
print("="*60)

query4 = {
    "query": {
        "term": {
            "autor": "Carlos Ruiz"
        }
    }
}

result = es.search(index=INDEX_NAME, body=query4)
print(f"Cuentos de Carlos Ruiz: {result['hits']['total']['value']}")
for hit in result['hits']['hits']:
    print(f"- {hit['_source']['tipo_cuento'].upper()}: {hit['_source']['texto'][:80]}...")

EJERCICIO 2.1: B√∫squeda por autor
Cuentos de Carlos Ruiz: 2
- TERROR: La casa en la colina estaba abandonada desde hace d√©cadas. Los vecinos dec√≠an qu...
- TERROR: El espejo antiguo apareci√≥ en el mercado de pulgas. Quien se miraba en √©l no ve√≠...


## 4.3_B√∫squeda de texto con match

In [18]:
print("\n" + "="*60)
print("EJERCICIO 3: B√∫squeda de texto con match")
print("="*60)

query3 = {
    "query": {
        "match": {
            "texto": "drag√≥n bosque m√°gico"
        }
    }
}

result = es.search(index=INDEX_NAME, body=query3)
print(f"Documentos que contienen 'drag√≥n', 'bosque' o 'm√°gico': {result['hits']['total']['value']}")
for hit in result['hits']['hits']:
    print(f"- Score: {hit['_score']:.2f} | Tipo: {hit['_source']['tipo_cuento']}")
    print(f"  Texto: {hit['_source']['texto'][:100]}...\n")


EJERCICIO 3: B√∫squeda de texto con match
Documentos que contienen 'drag√≥n', 'bosque' o 'm√°gico': 3
- Score: 2.98 | Tipo: infantil
  Texto: Hab√≠a una vez un peque√±o conejo llamado Tambor que viv√≠a en el bosque encantado. Un d√≠a decidi√≥ expl...

- Score: 1.82 | Tipo: fant√°stico
  Texto: En el reino de Eldoria, la princesa Luna pose√≠a el poder de controlar las estrellas. Cuando el drag√≥...

- Score: 1.36 | Tipo: infantil
  Texto: Pepito el elefante no pod√≠a volar como los p√°jaros, pero ten√≠a el coraz√≥n m√°s grande del bosque. Cua...



## 4.4_B√∫squeda con rango de fechas

In [20]:
print("\n" + "="*60)
print("EJERCICIO 4: B√∫squeda con rango de fechas")
print("="*60)

query5 = {
    "query": {
        "range": {
            "fecha_creacion": {
                "gte": "2024-04-01",
                "lte": "2024-07-31"
            }
        }
    }
}

result = es.search(index=INDEX_NAME, body=query5)
print(f"Cuentos entre abril y julio 2024: {result['hits']['total']['value']}")
for hit in result['hits']['hits']:
    print(f"- {hit['_source']['fecha_creacion']} | {hit['_source']['tipo_cuento']} | {hit['_source']['autor']}")



EJERCICIO 4: B√∫squeda con rango de fechas
Cuentos entre abril y julio 2024: 4
- 2024-04-05 | pol√≠tico | Roberto Silva
- 2024-05-12 | infantil | Laura Ram√≠rez
- 2024-06-18 | terror | Carlos Ruiz
- 2024-07-22 | fant√°stico | Ana Mart√≠nez


## 4.5_B√∫squeda booleana compuesta

In [21]:
print("\n" + "="*60)
print("EJERCICIO 6: B√∫squeda booleana compuesta")
print("="*60)

query6 = {
    "query": {
        "bool": {
            "must": [
                {"match": {"texto": "reino"}}
            ],
            "filter": [
                {"term": {"tipo_cuento": "fant√°stico"}}
            ]
        }
    }
}

result = es.search(index=INDEX_NAME, body=query6)
print(f"Cuentos fant√°sticos que mencionan 'reino': {result['hits']['total']['value']}")
for hit in result['hits']['hits']:
    print(f"- {hit['_source']['autor']}: {hit['_source']['texto'][:100]}...")


EJERCICIO 6: B√∫squeda booleana compuesta
Cuentos fant√°sticos que mencionan 'reino': 1
- Ana Mart√≠nez: En el reino de Eldoria, la princesa Luna pose√≠a el poder de controlar las estrellas. Cuando el drag√≥...


# PARTE 5: CONSULTAS CON AGREGACIONES

## 5.1_Contar cuentos por una columna

In [22]:
print("\n" + "="*60)
print("AGREGACI√ìN 1: Contar cuentos por tipo")
print("="*60)

agg1 = {
    "size": 0,
    "aggs": {
        "cuentos_por_tipo": {
            "terms": {
                "field": "tipo_cuento",
                "size": 10
            }
        }
    }
}

result = es.search(index=INDEX_NAME, body=agg1)
for bucket in result['aggregations']['cuentos_por_tipo']['buckets']:
    print(f"- {bucket['key']}: {bucket['doc_count']} cuentos")


AGREGACI√ìN 1: Contar cuentos por tipo
- fant√°stico: 2 cuentos
- infantil: 2 cuentos
- pol√≠tico: 2 cuentos
- terror: 2 cuentos


In [23]:
print("\n" + "="*60)
print("AGREGACI√ìN 2: Contar cuentos por autor")
print("="*60)

agg2 = {
    "size": 0,
    "aggs": {
        "cuentos_por_autor": {
            "terms": {
                "field": "autor",
                "size": 10
            }
        }
    }
}

result = es.search(index=INDEX_NAME, body=agg2)
for bucket in result['aggregations']['cuentos_por_autor']['buckets']:
    print(f"- {bucket['key']}: {bucket['doc_count']} cuentos")


AGREGACI√ìN 2: Contar cuentos por autor
- Ana Mart√≠nez: 2 cuentos
- Carlos Ruiz: 2 cuentos
- Roberto Silva: 2 cuentos
- Laura Ram√≠rez: 1 cuentos
- Mar√≠a Gonz√°lez: 1 cuentos


## 5.2_Histograma de fechas (por mes)

In [24]:
print("\n" + "="*60)
print("AGREGACI√ìN 3: Histograma de fechas (por mes)")
print("="*60)

agg3 = {
    "size": 0,
    "aggs": {
        "cuentos_por_mes": {
            "date_histogram": {
                "field": "fecha_creacion",
                "calendar_interval": "month"
            }
        }
    }
}

result = es.search(index=INDEX_NAME, body=agg3)
for bucket in result['aggregations']['cuentos_por_mes']['buckets']:
    fecha = bucket['key_as_string']
    print(f"- {fecha}: {bucket['doc_count']} cuentos")


AGREGACI√ìN 3: Histograma de fechas (por mes)
- 2024-01-01T00:00:00.000Z: 1 cuentos
- 2024-02-01T00:00:00.000Z: 1 cuentos
- 2024-03-01T00:00:00.000Z: 1 cuentos
- 2024-04-01T00:00:00.000Z: 1 cuentos
- 2024-05-01T00:00:00.000Z: 1 cuentos
- 2024-06-01T00:00:00.000Z: 1 cuentos
- 2024-07-01T00:00:00.000Z: 1 cuentos
- 2024-08-01T00:00:00.000Z: 1 cuentos


## 5.3_Estad√≠sticas de longitud de texto

In [25]:
print("\n" + "="*60)
print("AGREGACI√ìN 4: Estad√≠sticas de longitud de texto")
print("="*60)

agg4 = {
    "size": 0,
    "aggs": {
        "estadisticas_texto": {
            "stats": {
                "script": {
                    "source": "doc['texto.keyword'].value.length()"
                }
            }
        }
    }
}
# Nota: Esta agregaci√≥n requiere habilitar scripting
# Para simplificar, mostraremos otra agregaci√≥n

agg4_alternativa = {
    "size": 0,
    "aggs": {
        "tipos_por_autor": {
            "terms": {
                "field": "autor"
            },
            "aggs": {
                "tipos": {
                    "terms": {
                        "field": "tipo_cuento"
                    }
                }
            }
        }
    }
}

print("Tipos de cuentos por autor (agregaci√≥n anidada):")
result = es.search(index=INDEX_NAME, body=agg4_alternativa)
for bucket in result['aggregations']['tipos_por_autor']['buckets']:
    print(f"\n{bucket['key']} ({bucket['doc_count']} cuentos):")
    for tipo in bucket['tipos']['buckets']:
        print(f"  - {tipo['key']}: {tipo['doc_count']}")


AGREGACI√ìN 4: Estad√≠sticas de longitud de texto
Tipos de cuentos por autor (agregaci√≥n anidada):

Ana Mart√≠nez (2 cuentos):
  - fant√°stico: 2

Carlos Ruiz (2 cuentos):
  - terror: 2

Roberto Silva (2 cuentos):
  - pol√≠tico: 2

Laura Ram√≠rez (1 cuentos):
  - infantil: 1

Mar√≠a Gonz√°lez (1 cuentos):
  - infantil: 1
