## ELK

ELK es un conjunto de herramientas de análisis y visualización de datos compuesto por Elasticsearch, Logstash y Kibana. Vamos a dividir esto en tres secciones para cada componente y luego explorar cómo se integran.

### **1\. Elasticsearch**

**Descripción:** Elasticsearch es un motor de búsqueda y análisis distribuido. Se utiliza para indexar, buscar y analizar grandes volúmenes de datos rápidamente y en tiempo real.

**Características Clave:**

*   **Distribuido y Escalable:** Puede manejar grandes cantidades de datos distribuyéndolos en varios nodos.
*   **Búsqueda en Tiempo Real:** Ofrece resultados de búsqueda rápidos incluso en grandes volúmenes de datos.
*   **Flexible:** Permite búsquedas complejas y es altamente personalizable.

**Usos Comunes:**

*   Búsqueda de texto completo.
*   Análisis de registros.
*   Análisis de datos en tiempo real.

#### Nodos:

1.  **Definición de Nodo**:
    
    *   Un nodo es una única instancia de Elasticsearch en ejecución en un servidor.
    *   Cada nodo es parte de un clúster, y puede contener datos y participar en el índice y búsqueda de datos.
2.  **Roles de Nodos**:
    
    *   **Nodo Maestro**: Responsable de la gestión del clúster, incluyendo el mantenimiento del estado del clúster y el control de cuándo y dónde se crean o eliminan índices.
    *   **Nodo de Datos**: Almacena datos y ejecuta tareas relacionadas con los datos, como la búsqueda y la agregación.
    *   **Nodo Coordinador**: Redirige las operaciones a los nodos relevantes.
    *   **Nodo de Ingesta**: Preprocesa documentos antes de que sean indexados.
    *   **Nodo de Aprendizaje Automático**: Ejecuta tareas de aprendizaje automático en el clúster.
3.  **Escalabilidad y Tolerancia a Fallos**:
    
    *   El uso de múltiples nodos permite a Elasticsearch escalar horizontalmente. Se pueden añadir más nodos al clúster para aumentar su capacidad de almacenamiento y procesamiento.
    *   La arquitectura distribuida proporciona tolerancia a fallos. Los datos pueden replicarse en varios nodos, lo que asegura que en caso de fallo de un nodo, los datos sigan estando disponibles a través de los nodos restantes.
4.  **Balanceo de Carga y Rendimiento**:
    
    *   Los nodos trabajan juntos en un clúster para distribuir la carga de trabajo y los datos de manera eficiente.
    *   El rendimiento de las operaciones de búsqueda y análisis se puede mejorar distribuyendo la carga entre varios nodos.

En resumen, en ELK, específicamente en Elasticsearch, los nodos son fundamentales para su arquitectura distribuida. Permiten el almacenamiento, la búsqueda y el análisis de grandes cantidades de datos de manera eficiente, asegurando la escalabilidad y la alta disponibilidad del sistema.

####  Índices

Un **índice** en Elasticsearch es similar a una base de datos en los sistemas de gestión de bases de datos relacionales (RDBMS). Es la unidad de almacenamiento que aloja los documentos que tienen características similares. Aquí hay algunos detalles clave:

*   **Contenedor de Documentos**: Un índice almacena documentos que son de un tipo similar o relacionados de alguna manera. Por ejemplo, podrías tener un índice para datos de clientes, otro para productos, etc.
*   **Estructura Invertida**: Internamente, Elasticsearch utiliza una estructura de índice invertido para permitir búsquedas rápidas. Este índice invertido mapea términos a los documentos en los que aparecen.
*   **Configuración y Mapeo**: Puedes definir varios parámetros en un índice, como el número de réplicas y fragmentos, así como el mapeo (esquema) de los documentos que contiene.
*   **Escalabilidad**: Los índices se pueden dividir en fragmentos, y estos fragmentos se pueden distribuir a través de varios nodos en un clúster para balancear la carga y mejorar el rendimiento.

#### Documentos

Un **documento** es la unidad básica de información que se puede indexar en Elasticsearch. Cada documento está representado en formato JSON (JavaScript Object Notation) y es similar a una fila en una tabla de base de datos en RDBMS. Aspectos importantes:

*   **Estructura JSON**: Los documentos en Elasticsearch están en formato JSON, lo que los hace adecuados para almacenar datos complejos con estructuras anidadas.
*   **Identificador Único (ID)**: Cada documento tiene un ID único que lo identifica dentro de un índice. Este ID se puede asignar manualmente o generar automáticamente.
*   **Campo y Valor**: Un documento consta de campos (o claves) y sus valores correspondientes. Estos campos representan los atributos de los datos almacenados en el documento.
*   **Flexibilidad de Esquema**: A diferencia de las bases de datos relacionales, los documentos en un índice no necesitan tener un esquema fijo o uniforme.

#### Relación entre Índices y Documentos

*   **Organización**: Los documentos se almacenan en índices. Cada índice puede contener muchos documentos.
*   **Búsqueda y Recuperación**: Cuando realizas una búsqueda en Elasticsearch, especificas el índice o índices en los que deseas buscar, y Elasticsearch utiliza su índice invertido para encontrar rápidamente los documentos que coinciden con tu consulta.
*   **Indexación**: El proceso de añadir o actualizar un documento en un índice se conoce como indexación.

En resumen, en Elasticsearch, los índices son como contenedores o bases de datos que almacenan documentos, y estos documentos son como registros individuales que contienen los datos en formato JSON. Juntos, facilitan una manera eficiente y flexible de organizar, buscar y analizar grandes cantidades de datos.

#### Shards (Fragmentos)

Los **shards** o fragmentos son divisiones horizontales de un índice. Cada shard es en sí mismo un índice completo y funcional que puede residir en cualquier nodo del clúster de Elasticsearch. Los shards son importantes por varias razones:

*   **Escalabilidad**: Permiten dividir un índice grande en partes más pequeñas y distribuir estas partes a través de múltiples nodos. Esto facilita la gestión de índices que son más grandes que la capacidad de almacenamiento de un solo nodo.
*   **Distribución de Carga**: Al distribuir los shards entre varios nodos, se puede equilibrar la carga y mejorar el rendimiento en operaciones de búsqueda y indexación.
*   **Paralelismo**: Las operaciones de búsqueda pueden ejecutarse en paralelo sobre múltiples shards, lo que mejora la velocidad de las consultas.

#### Réplicas

Las **réplicas** son copias de los shards primarios. Cada shard primario puede tener cero o más réplicas. Las réplicas sirven varios propósitos clave:

*   **Tolerancia a Fallos**: Si un shard primario o el nodo que lo alberga falla, una réplica puede asumir su rol, garantizando así la disponibilidad y la integridad de los datos.
*   **Distribución de Carga en Lecturas**: Las búsquedas y consultas pueden distribuirse entre el shard primario y sus réplicas, balanceando la carga y mejorando el rendimiento de lectura.
*   **Redundancia de Datos**: Aseguran que los datos estén duplicados en varios nodos, protegiendo contra la pérdida de datos en caso de fallos de hardware o de otro tipo.

#### Configuración de Shards y Réplicas

*   Al crear un índice en Elasticsearch, puedes especificar el número de shards y réplicas. Esta configuración puede depender de varios factores, como el tamaño de los datos y los requisitos de rendimiento.
*   Es importante equilibrar adecuadamente el número de shards y réplicas. Demasiados shards pueden aumentar la sobrecarga de gestión y afectar negativamente el rendimiento, mientras que demasiadas réplicas pueden consumir recursos excesivos.

#### Ejemplo Práctico

Imagina un índice de Elasticsearch que contiene datos de ventas. Este índice podría dividirse en varios shards para distribuir los datos de manera uniforme en el clúster. Además, cada shard podría tener varias réplicas para garantizar que, en caso de fallo de un nodo, los datos sigan estando accesibles y las operaciones de lectura no se vean afectadas.

En resumen, los shards y réplicas en Elasticsearch son esenciales para el manejo eficiente de grandes volúmenes de datos, proporcionando escalabilidad, rendimiento y alta disponibilidad en el clúster.

### Términos clave

| **Término** | **Descripción** | **Función Principal** | **Importancia** |
| --- | --- | --- | --- |
| **Node (Nodo)** | Una instancia individual de Elasticsearch que forma parte de un clúster. | Almacenar datos, ejecutar operaciones de búsqueda y análisis. | Contribuye a la escalabilidad y redundancia del clúster. |
| **Cluster (Clúster)** | Conjunto de uno o más nodos que trabajan juntos y comparten la carga de trabajo. | Coordinar la distribución de datos y tareas a través de los nodos. | Facilita la gestión de grandes volúmenes de datos y alta disponibilidad. |
| **Index (Índice)** | Colección de documentos que tienen características similares. | Organizar y almacenar documentos en una estructura lógica. | Similar a una base de datos en RDBMS, permite la recuperación eficiente de datos. |
| **Document (Documento)** | Unidad de información en formato JSON, similar a un registro en una base de datos. | Almacenar y representar datos. | Elemento básico de información en Elasticsearch. |
| **Shard (Fragmento)** | Partición horizontal de un índice para distribuir la carga de datos. | Escalar datos y mejorar el rendimiento de búsqueda. | Clave para la escalabilidad y el rendimiento en grandes conjuntos de datos. |
| **Replica (Réplica)** | Copia de un shard para proporcionar redundancia y mejorar la lectura. | Asegurar la disponibilidad y balancear las cargas de lectura. | Importante para la tolerancia a fallos y la eficiencia de lectura. |
| **Mapping (Mapeo)** | Define cómo un documento y sus campos son almacenados e indexados. | Determinar el esquema de datos de los documentos en un índice. | Esencial para optimizar las búsquedas y la relevancia de los datos. |
| **Analyzer (Analizador)** | Procesa texto y lo convierte en términos o tokens. | Mejorar la búsqueda de texto completo. | Fundamental para procesar texto y facilitar búsquedas eficientes. |
| **Query (Consulta)** | Método para buscar y recuperar documentos del índice. | Realizar búsquedas y filtrar datos. | Clave para extraer información relevante de los datos almacenados. |
| **Aggregation (Agregación)** | Proporciona capacidades de análisis de datos, como sumarización. | Realizar análisis complejos y extraer insights. | Importante para análisis de datos y generación de informes. |

### **2\. Logstash**

**Descripción:** Logstash es un procesador de datos de código abierto que ingiere datos de diversas fuentes, los transforma y los envía a un "stash" como Elasticsearch.

**Características Clave:**

*   **Procesamiento de Datos:** Puede filtrar, analizar y transformar datos.
*   **Variedad de Entradas y Salidas:** Compatible con una amplia gama de fuentes de datos y destinos.
*   **Extensible:** Se puede ampliar con plugins personalizados.

**Usos Comunes:**

*   Recopilación y normalización de registros.
*   Enrutamiento de datos.
*   Enriquecimiento de datos.

### **3\. Kibana**

**Descripción:** Kibana es una plataforma de visualización de datos de código abierto para Elasticsearch. Proporciona capacidades de visualización y análisis de datos.

**Características Clave:**

*   **Visualización de Datos:** Permite crear gráficos y dashboards personalizados.
*   **Exploración de Datos:** Facilita la exploración y el descubrimiento de datos.
*   **Integración con Elasticsearch:** Diseñado para trabajar de manera óptima con Elasticsearch.

**Usos Comunes:**

*   Dashboards en tiempo real.
*   Análisis de datos.
*   Monitoreo de logs.

### Integración ELK: Cómo Funcionan Juntos

| Componente | Función | Conexión con Otros Componentes |
| --- | --- | --- |
| Logstash | Recolección y procesamiento de datos | Envía datos procesados a Elasticsearch |
| Elasticsearch | Almacenamiento y búsqueda de datos | Almacena datos para visualización en Kibana; Recibe datos procesados de Logstash |
| Kibana | Visualización y análisis de datos | Visualiza y analiza datos almacenados en Elasticsearch |

**Flujo de Datos:**

1.  **Logstash** recoge y procesa datos de varias fuentes.
2.  Estos datos procesados se envían a **Elasticsearch** para su almacenamiento y análisis.
3.  **Kibana** accede a estos datos para proporcionar visualizaciones y herramientas analíticas.

Esta integración facilita la recopilación, el análisis y la visualización de grandes volúmenes de datos, lo que es esencial para la gestión de información y la inteligencia empresarial.


## Bases de datos NoSQL
| **Tipo** | **Descripción** | **Ejemplos** | **Usos Comunes** |
| --- | --- | --- | --- |
| **Documentos** | Almacenan datos en documentos (generalmente en formato JSON, BSON, etc.). Cada documento es una entidad. | MongoDB, CouchDB | Almacenamiento de datos semi-estructurados, sistemas de gestión de contenido, catálogos de productos. |
| **Clave-Valor** | Almacenan datos como un conjunto de pares clave-valor. Son simples y rápidas para operaciones de lectura/escritura. | Redis, DynamoDB, Riak | Sesiones de usuario, carritos de compras, perfiles de usuario. |
| **Columnares** | Organizan los datos en columnas en lugar de filas, optimizando operaciones analíticas y de agregación. | Cassandra, HBase | Análisis de grandes volúmenes de datos, sistemas de reportes, data warehousing. |
| **Grafos** | Utilizan estructuras de grafos para almacenar relaciones entre datos. Son eficientes en operaciones de redes. | Neo4j, ArangoDB, Microsoft Azure Cosmos DB | Redes sociales, sistemas de recomendación, detección de fraude, análisis de redes. |
| **Búsqueda de Texto Completo** | Especializados en el almacenamiento e indexación de contenido para búsquedas de texto completo. | Elasticsearch, Solr | Motores de búsqueda, análisis de logs, aplicaciones de búsqueda de documentos. |
| **Multi-Modelo** | Combinan diferentes tipos de modelos de bases de datos NoSQL en una sola base de datos. | OrientDB, ArangoDB | Aplicaciones que requieren diferentes tipos de modelos de datos para diferentes tipos de consultas. |


## Hadoop

Hadoop es un framework de software de código abierto diseñado para almacenar y procesar grandes conjuntos de datos de manera distribuida y escalable. Fue desarrollado por la Apache Software Foundation y se ha convertido en una de las principales tecnologías en el campo del big data. A continuación, te explico sus componentes principales y características:

### Componentes Principales de Hadoop

1.  **Hadoop Distributed File System (HDFS)**:
    
    *   **Descripción**: Es un sistema de archivos distribuido que almacena datos en múltiples máquinas, garantizando alta disponibilidad y tolerancia a fallos.
    *   **Función**: Permite almacenar grandes volúmenes de datos de manera distribuida, dividiéndolos en bloques que se almacenan en diferentes nodos del clúster.
2.  **MapReduce**:
    
    *   **Descripción**: Es un modelo de programación y un framework de ejecución para procesar grandes conjuntos de datos.
    *   **Función**: Permite realizar cálculos distribuidos sobre los datos, dividiendo la tarea en pequeñas partes (Map) y luego combinando los resultados (Reduce).
3.  **YARN (Yet Another Resource Negotiator)**:
    
    *   **Descripción**: Es un gestor de recursos y un sistema de planificación de trabajos.
    *   **Función**: Administra y asigna recursos de computación en clústeres y programa trabajos de usuarios.
4.  **Hadoop Common**:
    
    *   **Descripción**: Conjunto de utilidades y bibliotecas comunes que soportan otros módulos de Hadoop.
    *   **Función**: Proporciona las herramientas necesarias para que los otros módulos de Hadoop funcionen correctamente.

### Características de Hadoop

*   **Escalabilidad**: Puede manejar petabytes de datos distribuyendo el almacenamiento y el procesamiento en cientos o miles de servidores.
*   **Flexibilidad**: Capaz de procesar datos no estructurados, semi-estructurados y estructurados.
*   **Resiliencia a Fallos**: Almacena múltiples copias de datos en diferentes nodos, lo que asegura que el sistema sea resistente a fallos.
*   **Eficiencia**: Permite procesar grandes volúmenes de datos de manera rápida y eficiente.
*   **Económico**: Utiliza hardware de propósito general, lo que reduce los costos en comparación con sistemas de almacenamiento y procesamiento tradicionales.

### Usos Comunes

*   **Procesamiento de Big Data**: Análisis de grandes volúmenes de datos, como registros de web, datos de redes sociales, datos de sensores, etc.
*   **Data Lakes**: Almacenamiento de grandes cantidades de datos en su forma bruta para su posterior análisis.
*   **Transformaciones de Datos**: Realizar procesamiento por lotes para transformar y preparar datos para análisis.

Hadoop ha jugado un papel crucial en la evolución del análisis de big data, siendo una pieza fundamental para muchas empresas que manejan grandes volúmenes de datos. Sin embargo, es importante destacar que Hadoop es solo una de las muchas herramientas disponibles en el ecosistema de big data, y su uso depende de las necesidades específicas de cada caso.