<a href="https://colab.research.google.com/github/financieras/big_data/blob/main/leccion_1_3_4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Lección 1.3.4: Conceptos de Bases de Datos (SQL vs NoSQL)

## 1\. Bases de Datos: Más Allá de Excel

Aunque Excel es el rey del análisis *ad-hoc*, no es una solución escalable. Las organizaciones manejan millones de transacciones, necesitan accesos simultáneos de cientos de usuarios y requieren una **integridad** y **seguridad** del dato garantizada. Ahí es donde entran las **Bases de Datos (DB)**.

> **Definición:** Una **Base de Datos** es una colección organizada y persistente de datos que se almacena y gestiona en un sistema informático. Su objetivo es garantizar la **consistencia** y la **disponibilidad** de la información.

-----

## 2\. SQL: El Mundo Relacional (Estructura y Tablas)

SQL (*Structured Query Language*) ha sido la columna vertebral de los sistemas empresariales desde su invención. Las bases de datos SQL (como Oracle, PostgreSQL o MySQL) se denominan **Relacionales** porque organizan los datos en **tablas** con relaciones definidas.

### 2.1. El Contrato de Consistencia (ACID)

El gran valor de SQL es la **integridad de los datos**. Esto se consigue con las propiedades **ACID** (Atomicidad, Consistencia, Aislamiento y Durabilidad), que actúan como un contrato de fiabilidad para cada transacción:

| Propiedad | Descripción | Ejemplo |
| :--- | :--- | :--- |
| **Atomicidad** | Una transacción debe completarse *por entero* o *no realizarse en absoluto*. | En una transferencia bancaria, el débito y el crédito deben ocurrir simultáneamente; si falla uno, falla la transferencia completa. |
| **Consistencia** | El sistema solo permite estados de datos válidos. | Si una cuenta debe tener saldo positivo, la DB no permitirá un retiro que lo haga negativo. |
| **Aislamiento** | Las transacciones que ocurren al mismo tiempo no se interfieren. | Dos usuarios comprando el último billete de avión: solo uno puede obtenerlo. |
| **Durabilidad** | Una vez que se confirma la transacción, el cambio es permanente, incluso si el sistema falla. | Una vez que guardas un registro, la DB lo garantiza. |

### 2.2. Claves y Relaciones: La Estructura Eficiente 🔑

La eficiencia de SQL radica en evitar la **redundancia de datos** separando la información en tablas temáticas (normalización) y volviéndolas a unir mediante **claves**.

  - **Clave Primaria (PK):** Identificador único de cada registro en una tabla (ej. `ProductID` en la tabla `Products`).
  - **Clave Foránea (FK):** Un campo que apunta a la Clave Primaria de **otra** tabla, creando un vínculo.

**Tipos de Relación Clave:**

| Tipo de Relación | Descripción | Ejemplo Práctico |
| :--- | :--- | :--- |
| **Uno a Varios (1:N)** | El más común. Un registro de la Tabla A se relaciona con *múltiples* registros de la Tabla B. | Un `Departamento` (1) tiene **varios** `Empleados` (N). |
| **Varios a Varios (N:M)** | Se resuelve creando una tabla intermedia (de *join*) que vincula las claves de ambas tablas. | Un `Estudiante` se inscribe en **varias** `Clases`, y una `Clase` tiene **varios** `Estudiantes`. |

> **Rol del Ingeniero de Datos:** Gestionar y optimizar estas uniones (`JOINs`) es fundamental para que las consultas sean rápidas.

-----

## 3\. NoSQL: La Flexibilidad para Big Data (Schema-less)

El auge de las bases de datos NoSQL se debe a dos grandes retos que SQL no resolvía bien: la **escalabilidad horizontal** (distribuir la carga en muchos servidores) y la necesidad de manejar datos **semi-estructurados** o que cambian muy rápido.

### 3.1. Tipos de Bases NoSQL y Flexibilidad

Las bases NoSQL (como MongoDB o Cassandra) sacrifican la estricta consistencia ACID por una mayor **disponibilidad** y **flexibilidad**.

  - **Sin Esquema Fijo (*Schema-less*):** Puedes almacenar un registro con 5 campos y el siguiente con 15, ideal para datos de *logs* de servidores, redes sociales o IoT.
  - **Tipos Comunes:**
      - **Documentales:** Almacenan documentos (ej. MongoDB).
      - **Clave-Valor:** Almacenan pares simples (ej. Redis).
      - **Orientadas a Grafos:** Para datos con relaciones complejas (ej. Neo4j).

### 3.2. JSON: El Lenguaje de los Documentos NoSQL

El formato predilecto para almacenar datos en las bases NoSQL Documentales es **JSON** (*JavaScript Object Notation*). Es un formato legible que almacena la información como pares **clave-valor** anidados.

**Ejemplo de un Documento JSON de Producto (MongoDB):**

```json
{
  "_id": "PROD_45",
  "nombre": "Laptop Ultraligera",
  "precio": 999.99,
  "proveedor": "TechCorp",
  "especificaciones": {
    "ram_gb": 16,
    "almacenamiento_gb": 512,
    "dimensiones_cm": "30x20x1.5"
  },
  "reviews_ids": [123, 124, 125]
}
```

> **Observa:** Toda la información del producto, incluidas sus especificaciones, está **embeñida** (anidada) en un solo documento, eliminando la necesidad de múltiples *JOINs*.

-----

## 4\. SQL vs NoSQL: El Debate del Ecosistema

| Característica | SQL (Relacional) | NoSQL (Documental/Clave-Valor) |
| :--- | :--- | :--- |
| **Estructura** | Estricta (esquema fijo), basada en **Tablas**. | Flexible (sin esquema fijo), basada en **Documentos/Objetos**. |
| **Consistencia** | Alta (garantía **ACID**). Prioriza la integridad. | Baja (**Consistencia Eventual**). Prioriza la velocidad y disponibilidad. |
| **Escalabilidad** | Vertical (mejorar un único servidor). | Horizontal (añadir más servidores, *sharding*). |
| **Uso Ideal** | Sistemas transaccionales críticos (Banca, Contabilidad), datos estructurados. | Big Data, datos en tiempo real, catálogos de productos, datos de usuario web. |

-----

## 5\. Resumen y Conclusiones

1.  **SQL** se basa en las **relaciones** entre tablas para mantener la **integridad (ACID)** y es ideal para datos estructurados donde la exactitud es primordial (ej. dinero).
2.  **NoSQL** utiliza formatos flexibles como **JSON** para almacenar documentos completos, priorizando la **velocidad** y la **escalabilidad horizontal** para entornos de Big Data.
3.  El profesional de datos moderno no elige uno sobre el otro; utiliza el modelo **SQL** o **NoSQL** que mejor se adapte a las necesidades del dato y del negocio.

-----

## 6\. Referencias

### Vídeos

  - [SQL vs NoSQL Explained in 100 Seconds](https://www.google.com/search?q=https://youtu.be/5prn8N80_f0%3Fsi%3Dp7pWl0S35G-h8-wH)
  - [Relational Databases in 6 Minutes](https://www.google.com/search?q=https://youtu.be/W8VfC8c5qQY%3Fsi%3D8Y9k4b8D1Dq_5_aN)
  - [What is JSON? In 5 Minutes](https://www.google.com/search?q=https://youtu.be/w-P99x9T7wI%3Fsi%3Dyv7Z6P6Q72oD0k1K)
  - [What are the ACID properties in databases?](https://www.google.com/search?q=https://youtu.be/M_qj2dG5d9I%3Fsi%3DW5v5jR0E8q0xPzS_)

### Lecturas

  - [SQL vs. NoSQL: What's the Difference? - MongoDB](https://www.google.com/search?q=https://www.mongodb.com/compare/sql-vs-nosql)
  - [ACID vs. BASE Explained - IBM](https://www.google.com/search?q=https://www.ibm.com/topics/acid-vs-base)
  - [Database Normalization Explained (Conceptos de Relaciones) - GeeksforGeeks](https://www.google.com/search?q=https://www.geeksforgeeks.org/database-normalization/)