# **Bases de Datos para el Big Data (VIDAMA - E) - PER14059 OCT2025**

## **Evaluación**

1. Evaluación continua: **40% de la calificación final**:
    - Hasta **15 puntos disponibles**, que **saturan en 10**.
    - **13.8 son actividades prácticas** *(la primera en laboratorio)*
    - **1 punto** de **tests** de autoevaluación

2. Examen presencial: **60% de la calificación final**:
    - Imprescindible aprobarlo **(5/10)** para hacer media.
    - Formato todavía por determinar.
    - Podría incluir preguntas de **respuesta múltiple**.

```bash
# Entorno de la asignatura - Ingeniería para el Procesado Masivo de Datos
python3 -m venv $HOME/.envs/master/03_bases_datos
source $HOME/.envs/master/03_bases_datos/bin/activate
```

## **BLOQUE 1. Introducción al Big Data y la Importancia de las Bases de Datos**

### **Tema 1. Métodos de captura de información**
---

#### 1. **Introducción y objetivos**

- <mark>[**Doc: 01.1.metodos_captura_v01.pdf**](../resources/docs/01.block/01.1.metodos_captura_v01.pdf)

En tiempos pasados, la obtención de datos solía ser un proceso costoso y a menudo requería del trabajo humano para la digitalización de documentos físicos. El continuo avance de la tecnología permite que los métodos disponibles para la captura de datos sean cada vez **más diversos**. Esto, en adición a la disminución del **coste por unidad de almacenamient**o, ha resultado en la posibilidad de almacenar grandes cantidades de datos provenientes de distintas fuentes.

A raíz de esta diversidad, es necesario contar con tres elementos que conforman la base para capturar datos de forma eficiente y adecuada al uso que se le brindará a dichos datos:

- *El primer elemento es la definición y distinción de los términos dato, información y conocimiento.*
- *El segundo, las dimensiones o criterios de calidad que se analizan en un conjunto de datos.*
- *El último elemento es la experiencia de analizar casos verdaderos en los que ha sido necesario capturar datos y almacenarlos.*

![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

#### 2. **Origen y calidad de los datos**

**2.1. Datos, información y conocimiento**

**Dato**<br>
Puede definirse como un hecho concreto y discreto acerca de un evento. La característica de ser discreto significa que, semánticamente, es la unidad mínima que puede comunicarse o almacenarse. Por sí solos, los datos no brindan detalles significantes del entorno del que fueron obtenidos. Ejemplos de datos pueden ser:
- 2010.
- 443.
- DE.

**La información**<br>
Puede distinguirse simplemente como un **mensaje** formado por la **composición de varios datos**. Esto significa que, a diferencia del dato, la información sí posee un significado para un receptor u observador.<br>
***Por ejemplo,** utilizando los datos anteriores se podría obtener la siguiente información:*<br>
- El año de establecimiento de la empresa ACME fue el 2010.
- La altura del edificio Empire State es de 443 metros.
- DE es el código ISO que identifica al idioma alemán.

*Los datos deben ser transformados para añadirles valor y convertirlos en información. Estas transformaciones incluyen métodos como:*<br>
- **Contextualización:** conocer el propósito del dato obtenido.
- **Categorización:** conocer la unidad de medida y los componentes del dato.
- **Cálculo:** realizar una operación matemática sobre el dato.
- **Corrección:** eliminar errores del dato.
- **Agregación:** resumir o minimizar un dato de forma más concisa.

**Conocimiento**<br>
Implica una combinación de *experiencias, información contextual y relevancia* sobre cierta información. Así como la información se genera a partir de datos, el conocimiento surge de la agregación de información.<br>
*Ejemplos de métodos que generan esta transformación son:*<br>
- **Comparación:** relación entre información obtenida en distintas experiencias.
- **Repercusión:** implicación de la información en decisiones y acciones.
- **Conexión:** relación entre distintos tipos de información.
- **Conversación:** opinión de otras personas sobre la información.

![image.png](attachment:image.png)

*Distinguir estos conceptos básicos proporciona un nivel de abstracción útil para la separación de características en el proceso de análisis. El hecho de que un dato sea inválido o erróneo **debe distinguirse fácilmente** de que la **información que se obtiene** de dicho conjunto de datos **sea adecuada o no** al problema que se intenta resolver.*

Distinguir estos conceptos básicos proporciona un nivel de abstracción útil para la separación de características en el proceso de análisis. El hecho de que un dato sea inválido o erróneo debe distinguirse fácilmente de que la información que se obtiene de dicho conjunto de datos sea adecuada o no al problema que se intenta resolver.

**2.2. Dimensiones para Evaluar la Calidad de los Datos**

- Las métricas o dimensiones utilizadas para describir la calidad de un conjunto de datos pueden agruparse con base en los actores que interactúan con los datos. Los **diseñadores y administradores** de almacenes de datos tratan con métricas que afectan el diseño o esquema de los datos obtenidos y no con los datos directamente. Entre estas métricas se podría mencionar la **completitud** de los datos obtenidos y el minimalismo del conjunto de datos, el cual se interpreta como la eliminación de redundancias en el diseño del almacén de datos.
- Los **desarrolladores de software** tratan con métricas específicas de la producción de productos informáticos. Si bien en esta categoría entran métricas que no están relacionadas con los datos directamente, es importante tener en cuenta que estas métricas afectan al proceso de almacenaje, acceso y manipulación de los datos.
- El último actor que interactúa con los datos es el **usuario final**, es decir, quien utilizará los datos presentados para crear una conclusión y tomar una decisión acorde. Las métricas relevantes para este actor pueden ser el nivel de disponibilidad de los datos y el nivel de interpretación requerido para entender los datos presentados.

***A partir de estas perspectivas, Jarke et al. (1998) presentan un conjunto de dimensiones para evaluar las propiedades de un conjunto de datos:***

| **Dimensión**               | **Descripción**                                                                                                     | **Ejemplo**                                                                                                                                                                |
| --------------------------- | ------------------------------------------------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| **Completitud o Cobertura** | Indica el porcentaje de datos disponibles respecto a la población total. También se aplica a subconjuntos de datos. | Un conjunto con información de **90 de 100 tratamientos médicos** tiene una cobertura del **90 %**. Si el 5 % no incluye la fecha de finalización, la cobertura disminuye. |
| **Credibilidad**            | Representa la **fiabilidad** de la fuente o del organismo que proporciona los datos.                                | En un dataset de *postres*, valores como *tarta* o *helado* son coherentes, pero *pincho moruno* reduce la credibilidad.                                                   |
| **Precisión**               | Indica el **porcentaje de datos correctos** respecto al total disponible.                                           | Si **950 de 1 000 registros** son correctos, la precisión es del **95 %**.                                                                                                 |
| **Consistencia**            | Evalúa si los datos son **coherentes entre sí**.                                                                    | Si una entidad tiene *ciudad: París* y *país: México*, existe un **problema de consistencia**.                                                                             |
| **Interpretabilidad**       | Mide qué tan **entendibles** son los datos para una persona. Depende de la documentación y el formato.              | Un dataset con **nombres claros de columnas** y un **diccionario de datos** es más interpretable que uno con abreviaturas sin explicación.                                 |

![image-2.png](attachment:image-2.png)

***Si analizamos estos datos con respecto a los indicadores de calidad antes mencionados:***
- **Completitud:** 75 % respecto a los datos de consumo, o el mismo porcentaje con respecto a las revoluciones por minuto del motor del coche.
- **Credibilidad:** al tratarse de una fuente desconocida, la credibilidad es baja debido a que no se puede comprobar la fuente. Además, por defecto, se sabe que Ferrari solo hace motores de gasolina y que, por defecto, no existen motores diésel de ese caballaje.
- **Precisión:** es claro ver que los datos no son precisos, ya que el precio de un súper deportivo no puede ser de 15 000€ y las revoluciones de algunos coches son demasiado redondas. Además, un consumo «alto» no es una cifra de consumo.
- **Consistencia:** la consistencia de los datos es baja porque a poco que se entienda algo de coches, el modelo de Ferrari nunca puede pertenecer a la marca Audi, sino a Ferrari.
- **Interpretabilidad:** podría mejorarse, puesto que hay muchos datos que no incluyen unidades o que ofrecen un conjunto de números que si no se está familiarizado con el entorno no se conocerá su significado, como ocurre con los 3 valores de consumo.

**2.3. Fuentes de información**

*Los métodos para la captura de información se pueden clasificar con base en las características del elemento que genera el conjunto de datos. Las cinco categorías más utilizadas en la actualidad son:*

| **Categoría**                                     | **Descripción**                                                                                                                                | **Ejemplos y Observaciones**                                                                                                                                                                                                                  |
| ------------------------------------------------- | ---------------------------------------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| **1. Captura manual de datos**                    | Es el método más tradicional y común en investigaciones sociales y naturales. Implica la recolección de información directamente por personas. | - Uso de **encuestas**, **entrevistas** u **observaciones**.<br>- Aunque no depende de tecnologías de información, los datos deben **digitalizarse** manualmente o en un proceso posterior.                                                   |
| **2. Procesado de documentos estructurados**      | Consiste en extraer datos de documentos cuyo propósito original no es ser fuente de datos.                                                     | - **Web scraping**: obtención de datos de páginas HTML.<br>- **Análisis de logs o ficheros**: registros secuenciales de eventos creados como bitácoras, no para consulta directa.                                                             |
| **3. Salida de aplicaciones**                     | Involucra la obtención directa de datos desde sistemas o aplicaciones ya estructuradas.                                                        | - **Bases de datos relacionales** (SQL).<br>- **Ficheros CSV** u otros formatos tabulares exportados por software.                                                                                                                            |
| **4. Datos obtenidos por sensores**               | Recoge información del entorno físico o del cuerpo humano mediante dispositivos electrónicos.                                                  | - **Sensores meteorológicos**, de **ruido**, **luz**, **frecuencia cardíaca**, o de **movimiento** (acelerómetro, giroscopio).<br>- Este enfoque ha impulsado el movimiento ***quantified self***, centrado en el análisis personal de datos. |
| **5. Acceso a datos públicos (Open Data / APIs)** | Permite obtener información publicada por entidades gubernamentales o privadas para su análisis y reutilización.                               | - **Descarga de datasets abiertos** desde portales oficiales.<br>- **Acceso mediante APIs** que ofrecen datos en tiempo real.<br>- Promueve la **transparencia** y el desarrollo de **nuevas aplicaciones**.                                  |


La publicación de estos datos de carácter público suele realizarse en un portal dedicado, por ejemplo http://datos.gob.es en España, http://data.gov.uk en Reino Unido y http://data.gov en Estados Unidos. Por otro lado, algunas empresas brindan acceso a datos de forma pública, siendo uno de los fines el formar parte de una plataforma de desarrollo, como, por ejemplo, los servicios de redes sociales (Facebook o Twitter) que suelen brindar un API tanto para obtener información sobre un usuario en particular, como para alterar dicha información.

#### 3. **Organización de los datos**

**3.1. Ficheros planos**

Los **ficheros planos** son un mecanismo ampliamente utilizado para el intercambio de información entre sistemas.
Una de sus ventajas es que pueden abrirse y editarse con cualquier editor de texto.

Sin embargo, suelen ser más verbosos que los formatos binarios, lo que implica:

- Mayor tamaño en disco.
- Procesamiento más lento al leerlos desde un programa.

*Los formatos de fichero plano más comunes son CSV, JSON y XML.*

**3.2. Formatos Comunes**

| **Formato**                           | **Descripción**                                                                                                                                                                                                                                                                                 | **Ejemplo**                                                                                                                                                                                                                                                                                                    |
| ------------------------------------- | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| **CSV (Comma Separated Values)**      | Define datos tabulares separados por comas (RFC 4180).<br>- Cada registro termina con salto de línea (CR + LF).<br>- Todos los registros deben tener el mismo número de campos.<br>- Los valores pueden ir entre comillas dobles.<br>- Si un valor contiene comillas dobles, estas se duplican. | **Ejemplo:**<br>`csv<br>Nombre,Edad,Cargo<br>Juan,45,Director<br>Antonio,35,"Gestor de proyectos"<br>Pablo,34,"Analista"<br>Pedro,32,"Administrador de bases de datos"<br>`                                                                                                                                    |
| **JSON (JavaScript Object Notation)** | Basado en estructuras de **objetos** (pares nombre/valor) y **arrays** (listas ordenadas).<br>- Un objeto se delimita con `{ }`.<br>- Un array se delimita con `[ ]`.<br>- Los valores pueden ser texto, número, booleano, nulo, objeto o array.                                                | **Ejemplo:**<br>`json<br>[{ "Nombre": "Juan", "Edad": 45, "Cargo": "Director" },<br>{ "Nombre": "Antonio", "Edad": 35, "Cargo": "Gestor de proyectos" }]<br>`                                                                                                                                                  |
| **XML (eXtensible Markup Language)**  | Utiliza **etiquetas** para estructurar los datos.<br>- Debe iniciar con `<?xml version="1.0"?>`.<br>- Tiene un único elemento raíz.<br>- Cada etiqueta debe abrirse y cerrarse correctamente.<br>- Puede incluir **atributos** con valores entre comillas.                                      | **Ejemplo:**<br>`xml<br><empleados><br>  <empleado><br>    <Nombre>Juan</Nombre><br>    <Edad>45</Edad><br>    <Cargo>Director</Cargo><br>  </empleado><br>  <empleado><br>    <Nombre>Antonio</Nombre><br>    <Edad>35</Edad><br>    <Cargo>Gestor de proyectos</Cargo><br>  </empleado><br></empleados><br>` |

**3.3. Validación de Ficheros XML**

Un fichero XML bien formado cumple las siguientes reglas:

- Solo tiene un **elemento raíz**.
- Las etiquetas están **correctamente anidadas y cerradas**.
- Los atributos usan comillas **simples o dobles**.
- Es **sensible a mayúsculas y minúsculas**.

*Para validar su estructura y contenido, existen dos mecanismos:*

1. **DTD (Document Type Definition)**

*Define las **reglas** que debe cumplir el XML (estructura, etiquetas y tipos de datos).*

- ***Ejemplo de XML:***

```xml
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE mail SYSTEM "ruler.dtd">
<mail>
  <to>Pepe</to>
  <from>Boss</from>
  <subject>Empty Stock</subject>
  <body>Remember to buy supplies!</body>
</mail>
```

- ***Ejemplo de DTD (ruler.dtd):***

```dtd
<!DOCTYPE mail [
  <!ELEMENT mail (to,from,subject,body)>
  <!ELEMENT to (#PCDATA)>
  <!ELEMENT from (#PCDATA)>
  <!ELEMENT subject (#PCDATA)>
  <!ELEMENT body (#PCDATA)>
]>
```

**Interpretación:**
- El elemento raíz es mail.
- Contiene los elementos to, from, subject, body.
- Todos son de tipo texto (#PCDATA).

2. **SCHEMA (XSD)**

El XML Schema Definition (XSD) es una alternativa moderna al DTD.
A diferencia de este, el XSD es un XML en sí mismo y ofrece:

- Tipos de datos predefinidos y personalizados.
- Control de cardinalidad (cuántas veces puede aparecer un elemento).
- Soporte para espacios de nombres y vocabularios combinados.

- ***Ejemplo de Schema (ruler.xsd):***

```xsd
<xs:element name="mail">
  <xs:complexType>
    <xs:sequence>
      <xs:element name="to" type="xs:string"/>
      <xs:element name="from" type="xs:string"/>
      <xs:element name="subject" type="xs:string"/>
      <xs:element name="body" type="xs:string"/>
    </xs:sequence>
  </xs:complexType>
</xs:element>
```

**3.4. Bases de Datos**

Una base de datos es un conjunto de datos persistente utilizado por un sistema de software.
El sistema de base de datos se compone de los siguientes elementos:

| **Componente**      | **Descripción**                                                                                                                                                       |
| ------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| **Datos**           | Pueden ser **integrados** (acceso unificado) o **compartidos** (acceso distribuido con privilegios).                                                                  |
| **Hardware**        | Incluye volúmenes de almacenamiento, procesadores y memoria.                                                                                                          |
| **Software (DBMS)** | Sistema gestor de base de datos que permite la interacción entre el usuario y los datos.                                                                              |
| **Usuarios**        | - **Programadores:** desarrollan aplicaciones.<br>- **Usuarios finales:** interactúan con los datos.<br>- **Administrador (DBA):** gestiona estructura y rendimiento. |

**3.5. Entidades y Relaciones**

- Una entidad es un objeto que puede almacenarse (por ejemplo, producto, cliente).
- Una relación indica cómo se vinculan las entidades (por ejemplo, bodega–producto).

*Los datos se organizan de forma jerárquica:*

- **Campo:** unidad mínima (ej. nombre, precio).
- **Registro:** conjunto de campos relacionados.
- **Archivo:** conjunto de registros del mismo tipo.

**3.6. Bases de Datos Relacionales y SQL**

En un sistema relacional, los datos se almacenan en tablas:

- Cada columna representa un campo.
- Cada fila representa un registro.

*Ejemplo de tabla productos:*

| **ID** | **Nombre** | **Precio** | **Categoría** |
| ------ | ---------- | ---------- | ------------- |
| 1      | Teclado    | 20.00      | Periféricos   |
| 2      | Ratón      | 15.00      | Periféricos   |
| 3      | Monitor    | 150.00     | Pantallas     |

**3.7. Comandos SQL Básicos (CRUD)**

| **Comando**         | **Función** | **Descripción**                        |
| ------------------- | ----------- | -------------------------------------- |
| **CREATE / INSERT** | **Create**  | Agrega nuevos registros.               |
| **SELECT**          | **Read**    | Consulta datos de una o varias tablas. |
| **UPDATE**          | **Update**  | Modifica valores existentes.           |
| **DELETE**          | **Delete**  | Elimina registros.                     |

*Las operaciones básicas sobre bases de datos se resumen con el acrónimo CRUD (Create, Read, Update, Delete).*

#### 4. **Casos de estudio**

**4.1. Análisis de Logs de un Servidor Web**

En este caso se cuenta con un sitio web donde un equipo de trabajo puede descargar varios documentos.
Los usuarios se autentican en el servidor, pero no existe una aplicación web que mantenga un registro de los documentos descargados.

**Objetivo**

**Generar un informe que muestre:**
- Qué documentos se descargan con mayor frecuencia.
- Qué usuarios tienen más actividad.

**Solución**

Capturar los datos mediante el procesamiento de logs del servidor web y almacenarlos en una base de datos relacional.

- **Ejemplo de log (Servidor Apache)**

```log
192.168.1.101 - juan [21/Nov/2013:12:08:03 +0100] "GET /resource/152 HTTP/1.1" 200 1368023 "-" "Mozilla/5.0 (X11; Linux x86_64) Chrome/32.0.1700.107"
192.168.1.101 - juan [21/Nov/2013:12:10:22 +0100] "GET /resource/601 HTTP/1.1" 200 92349 "-" "Mozilla/5.0 (X11; Linux x86_64) Chrome/32.0.1700.107"
192.168.1.101 - juan [21/Nov/2013:16:36:19 +0100] "GET /resource/34 HTTP/1.1" 200 5928327 "-" "Mozilla/5.0 (X11; Linux x86_64) Chrome/32.0.1700.107"
```

**Campos identificables**
- Dirección IP
- Usuario autenticado
- Fecha y hora
- Recurso descargado
- Navegador o agente HTTP

**Estos datos pueden procesarse y almacenarse para generar informes de uso.**

**4.2. Web Scraping de Listado de Cursos Online**

El objetivo es capturar información de cursos MOOCs disponibles en el sitio [**Class Central**](https://www.classcentral.com/).

**Situación**

- La información se presenta en tablas HTML.
- No existe una API pública para acceder a los datos.

**Solución**

*Usar la herramienta Scraper (extensión de Google Chrome) para:*

1. Capturar datos estructurados directamente desde la página.
2. Exportarlos a una hoja de cálculo en Google Docs.

*En la lección “Captura de información a través de Web Scraping” se muestra un screencast con este proceso.*

**4.3. Acceso a Transacciones Bancarias mediante API**

El objetivo es visualizar patrones de compras en una ciudad, usando datos agregados de transacciones bancarias.

**Datos disponibles**

- Número total de compras.
- Suma total de las transacciones por código postal y tipo de establecimiento.
- Diez códigos postales más frecuentes asociados a las tarjetas.

**Características**

- Los datos se anonimizan (no incluyen información personal).
- Se agrupan por:
  - Código postal
  - Tipo de establecimiento (alimentación, ocio, etc.)
  - Día y hora de compra

**Solución**

- Acceso mediante API de datos públicos.
- Crear una cuenta en el portal de datos.
- Desarrollar scripts para extraer y procesar los datos según la documentación de la API.

**4.4. Productos en Formato CSV**

Este caso trata sobre el inventario de productos de una tienda.

**Requisitos**

- Incluir el nombre de los campos.
- Almacenar:
  - Identificador (numérico)
  - Nombre (texto)
  - Cantidad (numérico)

**Ejemplo de fichero CSV**

```csv
identificador, nombre, cantidad
1, Plato, 150
2, Sartén, 100
3, Jarra, 200
4, Vaso, 150
```

***Los valores no incluyen comillas porque no contienen caracteres especiales como comas o saltos de línea.***

**4.5. Información Geolocalizada en Formato JSON**

Se dispone de datos de actividad geolocalizada de varios usuarios.

**Requisitos**

- Incluir:
  - Identificador del usuario.
  - Ubicación (longitud y latitud).
  - Fecha y hora del registro.

**Ejemplo de fichero JSON**

```json
[
  {
    "usuario": 1,
    "ubicacion": { "longitud": 40, "latitud": -3 },
    "timestamp": "2012-12-01 13:00"
  },
  {
    "usuario": 2,
    "ubicacion": { "longitud": 40.1, "latitud": -3.2 },
    "timestamp": "2012-12-03 10:30"
  }
]
```

*La ubicación se define como un objeto dentro del registro principal, aprovechando la estructura jerárquica del formato JSON.*

**4.6. Información de Clientes en una Base de Datos Relacional**

Se almacena información de clientes en una base de datos relacional.

**Estructura de la información**

- Identificador de cliente
- Primer nombre
- Apellidos
- Fecha de suscripción

*Ejemplo de tabla clientes*

| id_cliente | nombre | apellidos    | fecha_suscripcion |
| ---------- | ------ | ------------ | ----------------- |
| 1          | Juan   | Pérez Gómez  | 2023-01-15        |
| 2          | María  | López Díaz   | 2023-02-02        |
| 3          | Pedro  | Sánchez Ruiz | 2023-02-10        |

#### 5. **Referencias bibliográficas**

- Davenport, T., y Prusak, L. (2000). Working knowledge: how organizations manage what they know. Harvard Business Review Press.
- Jarke, M., Jeusfeld, M. A., Quix, C., y Vassiliadis, P. (1998). Architecture and quality of data warehouses: an extended repository approach. Advanced Information Systems Engineering, Lecture Notes in Computer Science, 1413, 243-260.

### **Tema 2. NoSQL**
---

#### 1. **Introducción y objetivos**
---

- <mark>[**Doc: 02.1.NoSQL_v01.pdf**](../resources/docs/01.block/02.1.NoSQL_v01.pdf)

- Introducir las **bases de datos NoSQL**, explicando conceptos básicos y mostrando algunos de los motores más importantes.
- Proporcionar **conocimiento práctico** mediante ejercicios y exploración de los sistemas.

**Contexto**
- La literatura más completa suele estar en inglés.
- Se sugiere revisar la bibliografía de la sección "A fondo" solo si se desea profundizar.

**Motivación**
- La generación de grandes volúmenes de datos en diversas industrias ha dado lugar al fenómeno del **Big Data**.
- Esto ha aumentado la demanda de **sistemas de gestión de bases de datos** capaces de manejar datos a gran escala.
- La mejor manera de aprender sobre NoSQL es **practicando** y realizando ejercicios.

Los objetivos que se cubren con en este tema son los siguientes:
- **Comprender los conceptos básicos de NoSQL:** entender qué caracteriza a estas bases de datos y sus diferencias frente a las tradicionales.
- **Diferenciar NoSQL de SQL:** identificar cuándo es más adecuado usar cada tipo de base de datos.
- **Entender el teorema CAP:** aplicar este principio como criterio para elegir una base de datos NoSQL en soluciones concretas.
- **Clasificar las bases de datos NoSQL:** reconocer las distintas tipologías y sus usos principales.
- **Conocer las principales bases de datos NoSQL del mercado:** estar familiarizado con los motores más importantes y sus características.

#### 2. **Descripción y tipos de bases de datos NoSQL**
---

**Definición**
- **NoSQL:** término acuñado en 2009 para agrupar bases de datos no relacionales.
- **Significado:** “Not only SQL” → no solo SQL, haciendo referencia a métodos de almacenamiento no necesariamente estructurados y con consultas diferentes a SQL.

**Historia**
1. **1998:** Carlo Strozzi usó el término NoSQL para una base relacional con interfaz SQL (no forma parte del movimiento actual).
2. **2009:** Eric Evans lo retoma para referirse al auge de bases de datos no relacionales.
3. **Antecedentes históricos:**
  - **1965:** Bases de datos MultiValue (TRW).
  - **1966**: Bases jerárquicas en Hospital Mass General y IBM IMS (programa Apolo).
4. **2003-2006:** Google publica papers sobre infraestructura escalable → base de Hadoop y Hadoop MapReduce.
5. **2007:** Amazon lanza DynamoDB, modelo clave-valor de alta disponibilidad.
6. **2012:** Más de 120 bases NoSQL existentes, en constante crecimiento.

**Categorías de bases de datos NoSQL**
1. **Almacenes de clave-valor simples**
- Uso: almacenar y acceder a datos mediante una clave única.
- Valores: arrays de bytes, sin esquema definido.
- **Ejemplo:** memcached (caché en aplicaciones web).

2. **Almacenes de clave-valor sofisticados**
- Refinamiento de la categoría anterior.
- Soporte para operaciones más complejas y modelos de datos elaborados.
- **Ejemplos:** Cassandra, Dynamo, Voldemort, Riak.

3. **Almacenes de documentos**
- Permiten almacenar estructuras de datos complejas.
- **Ejemplos:** CouchDB, MongoDB.

4. **Almacenes de grafos**
- Información almacenada como nodos (datos) y aristas (relaciones).
- Permiten consultas basadas en teoría de grafos, optimizando recorridos.
- **Ejemplos:** InfoGrid, Virtuoso, Neo4j.

5. **Bases multimodelo**
- Combinan características de las cuatro categorías anteriores.
- Ofrecen mayor flexibilidad y funcionalidades extendidas.
- **Ejemplo:** Redis (búsquedas, mensajería, grafos, transmisión, etc.).

#### 3. **Teorema CAP**
---

**Contexto**

- Las bases de datos **NoSQL** son diseñadas para ser **escalables** y trabajar en **entornos distribuidos**.
- Para comprender sus limitaciones y capacidades se usa el **Teorema CAP (Brewer)**.

<br><br>
**Definición del Teorema CAP**
- Establece que ningún sistema distribuido puede garantizar simultáneamente:
  1. **Consistencia (C)**
    - Todos los nodos devuelven la misma información para cualquier consulta o inserción.
  2. **Disponibilidad (A)**
    - El sistema sigue permitiendo lecturas y escrituras aunque algunos nodos fallen.
  3. **Tolerancia a particiones (P)**
    - El sistema sigue funcionando aunque se divida en particiones debido a fallos o caídas parciales.
- **Ejemplo práctico:** Netflix, Amazon o Google reparten solicitudes geográficamente; si una región cae, el sistema global sigue operativo.

<br><br>
**Clasificación de bases de datos NoSQL según CAP**
- Las bases NoSQL adoptan mecanismos distintos para ser escalables y distribuidas, cumpliendo al menos dos de los tres criterios:
1. **CA (Consistencia + Disponibilidad)**
  - Garantizan consistencia y disponibilidad.
  - Limitación: baja tolerancia a particiones.
  - Solución: replicación de datos.
2. **AP (Disponibilidad + Tolerancia a particiones)**
  - Garantizan disponibilidad y tolerancia a particiones.
  - **Limitación:** consistencia débil o eventual.
  - **Solución:** replicación parcial y verificación de datos.
3. **CP (Consistencia + Tolerancia a particiones)**
  - Garantizan consistencia y tolerancia a particiones.
  - Limitación: sacrifican disponibilidad, replicando datos para mantener consistencia.

> ⚠️ La clasificación puede variar con las actualizaciones de cada base NoSQL, mejorando funcionalidades y adaptándose a distintos casos de negocio.

![image.png](attachment:image.png)

#### 4. **Elección de base de datos: NoSQL vs. SQL**
---

**Bases de datos SQL (relacionales)**
- Son tradicionales y estructuradas, con un lenguaje estandarizado (SQL).
- Fundamentadas en principios matemáticos y reglas ACID:
  - Atómica
  - Consistente
  - Isolada
  - Durable

- **Ventajas:**
  - Herramientas maduras para diseño y gestión.
  - Buen soporte y credibilidad empresarial (Oracle, IBM, Microsoft).
  - Estructura fija que minimiza errores de integridad.


**Bases de datos NoSQL (no relacionales)**
- No siguen el modelo relacional: sin esquema fijo, sin joins, escalabilidad horizontal.
- **Características principales:**
  - Flexibilidad en los modelos de datos (atributos opcionales o distintos tipos).
  - Mejor rendimiento en grandes volúmenes de datos y consultas masivas.
  - Uso intensivo de memoria principal para velocidad.
  - Escalabilidad horizontal sencilla.

**Ventajas de NoSQL:**
- Escalabilidad horizontal sencilla.
- Evitan cuellos de botella.
- Manejo de grandes volúmenes de datos.
- Diferentes bases NoSQL para distintos proyectos.
- Coste de implementación relativamente bajo.

**Desventajas de NoSQL:**
- Menor soporte y reputación frente a bases tradicionales.
- Madurez tecnológica limitada para algunas empresas.
- Limitaciones con herramientas de BI y consultas ad hoc.
- Falta de experiencia de desarrolladores y administradores capacitados.
- Problemas de compatibilidad entre distintas bases NoSQL (cada una con su API y peculiaridades).

**Resumen práctico**
- **SQL:** estructura rígida, confiable, estándar y ampliamente soportada.
- **NoSQL:** flexible, escalable, alto rendimiento, pero con menor madurez y soporte.
- La elección depende del tipo de datos, volumen, escalabilidad y necesidad de consistencia.

#### 5. **Bases de datos NoSQL**
---

1. **Cassandra**
- **Tipo:** Clave-valor distribuida.
- **Lenguaje:** Cassandra Query Language (CQL), similar a SQL.
- **Modelo de datos:**
  - **Esquema:** equivalente a base de datos, controla acceso.
  - **Tablas:** mapas de filas; columnas con tipos de datos variados.
  - **Filas:** clave de partición como primera columna.
  - **Columnas:** par clave-valor con timestamp.

**Características clave:**
  - Distribuida y **descentralizada** (no hay punto único de fallo).
  - Escalabilidad **lineal**: añadir nodos aumenta capacidad sin interrupciones.
  - **Tolerancia a fallos**: replicación automática, nodos fallidos reemplazables.
  - Alto rendimiento para lectura/escritura y gran volumen de datos.
  - Aplicaciones: Apple, Netflix, eBay, Instagram, Reddit, Hulu, entre otras.


2. **Neo4j**
- **Tipo:** Base de datos de grafos.
- **Lenguaje:** CRUD sobre modelo de grafos.
- **Modelo de datos:**
  - **Nodos:** representan entidades (persona, lugar, cosa).
  - **Relaciones:** representan asociaciones entre nodos.
- **Propiedades importantes:**
  - **Almacenamiento de grafos:** nativo o no nativo (latencia menor en nativo).
  - **Procesamiento de grafos:** eficiente mediante adyacencia directa.
- **Ventajas:**
  - Actuación constante incluso con alto volumen de relaciones.
  - Flexibilidad y agilidad en desarrollo de aplicaciones.
  - Ideal para datos altamente conectados.
- **Aplicaciones:** detección de fraude, motores de recomendación, MDM, IAM, operaciones de red.
- **Empresas que lo usan:** Walmart, eBay, Grupo Adidas, startups como Cobrain.

3. **MongoDB**
- **Tipo:** Orientada a documentos.
- **Lenguaje:** Operaciones CRUD, documentos en BSON (similar a JSON).
- **Modelo de datos:**
  - **Documento:** estructura clave-valor, con atributo _id único.
  - **Collection:** conjunto de documentos similares (equivalente a tabla SQL).
  - **Base de datos:** conjunto de collections.
- **Patrones de diseño:**
  - **Uno-a-uno** con documentos embebidos
  - **Uno-a-muchos** con documentos embebidos
  - **muchos-a-muchos** con documentos embebidos
  - **Uno-a-muchos** con documentos referidos
  - **Uno-a-uno** con documentos referidos
  - **Modelo árbol con referencia al nodo padre**
  - Modelo árbol con referencia al nodo hijo
- **Ventajas:**
  - Escalabilidad y rendimiento alto (lectura y escritura).
  - Replicación y tolerancia a fallos nativa.
  - Flexible frente a cambios en esquemas y aplicaciones web.
- **Aplicaciones:** desarrollo ágil, almacenamiento de datos heterogéneos, escalabilidad horizontal.

### **Tema 3.**
---