<a href="https://colab.research.google.com/github/financieras/big_data/blob/main/leccion_1_1_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Lección 1.1.1: Definición y Características del Big Data

## **1. ¿Qué es Big Data?**

**Big Data** es el conjunto de tecnologías, metodologías y arquitecturas diseñadas para capturar, almacenar, procesar y analizar grandes volúmenes de datos que superan las capacidades de los sistemas tradicionales, con el objetivo de extraer valor y conocimiento para la toma de decisiones.

> **Lo importante:** Big Data no es solo "muchos datos", sino la **capacidad de extraer valor** de conjuntos de datos masivos, diversos y de alta velocidad que las herramientas convencionales no pueden manejar eficientemente.

**¿Cuándo hablamos de Big Data?**
- Datos medidos en **terabytes (TB), petabytes (PB) o exabytes (EB)**
- Datos de **múltiples fuentes y formatos** diferentes
- Datos que se generan y deben procesarse **a gran velocidad**
- Cuando Excel, bases de datos SQL tradicionales o herramientas convencionales **resultan insuficientes**

### Big Data vs. Datos Tradicionales

| Aspecto | Datos Tradicionales | Big Data |
|---------|-------------------|----------|
| **Volumen** | Gigabytes o terabytes | Petabytes o exabytes |
| **Estructura** | Estructurados (tablas SQL) | Estructurados, semi-estructurados y no estructurados |
| **Fuentes** | Una o pocas fuentes | Múltiples fuentes heterogéneas |
| **Actualización** | Periódica (batch) | Flujo continuo en tiempo real |
| **Procesamiento** | Un servidor | Clústeres distribuidos |
| **Análisis** | Retrospectivo | Tiempo real y predictivo |
| **Herramientas** | SQL, Excel, BI tradicional | Hadoop, Spark, Kafka, NoSQL |

---

## **2. ¿Por qué Big Data ahora?**

La confluencia de cuatro factores ha hecho posible y necesario el Big Data:

**Explosión de datos:** Redes sociales (Facebook genera 4+ PB diarios), IoT (sensores industriales, dispositivos conectados), transacciones digitales, datos científicos

**Costes reducidos:** El almacenamiento pasó de 10€/GB (año 2000) a menos de 0.02€/GB (2025)

**Mayor capacidad:** Procesadores más potentes, computación distribuida, GPUs para procesamiento masivo

**Nuevos modelos de negocio:** Empresas como Google, Amazon y Netflix basan su éxito en el análisis de datos masivos

---

## **3. Características del Big Data: Las "V's"**

Tradicionalmente se identifican **5 características fundamentales**:

- **Volumen:** Cantidad masiva de datos (escala de terabytes a exabytes)
- **Velocidad:** Rapidez de generación y procesamiento (tiempo real o near-real-time)
- **Variedad:** Múltiples formatos (estructurados, semi-estructurados, no estructurados)
- **Veracidad:** Calidad, confiabilidad y consistencia de los datos
- **Valor:** Capacidad de transformar datos en información útil y accionable

Algunas organizaciones añaden Variabilidad y Visualización como características adicionales.

### Tipos de datos en Big Data

- **Estructurados (20%):** Tablas con esquema fijo (bases de datos SQL, CSV)
- **Semi-estructurados:** Con cierta organización flexible (JSON, XML, logs)
- **No estructurados (80%):** Sin formato predefinido (textos, imágenes, videos, audios, emails)

---

## **4. Fuentes de datos Big Data**

**Datos generados por humanos**
- Redes sociales, correos electrónicos
- Transacciones de compra, búsquedas web
- Interacciones en aplicaciones móviles

**Datos generados por máquinas**
- Sensores IoT industriales y domésticos
- Logs de servidores y sistemas
- Telemetría de vehículos y maquinaria
- Ejemplo: un Tesla puede capturar hasta 40 terabytes de datos al año

**Datos públicos y científicos**
- Datos gubernamentales abiertos
- Información meteorológica
- Secuenciación genómica, observaciones astronómicas
- Ejemplo: El CERN genera un petabyte de datos de colisión por segundo en el Gran Colisionador de Hadrones (LHC)

---

## **5. Ejemplo: Netflix y Big Data**

Netflix procesa datos de más de 230 millones de suscriptores:
- **Volumen:** Millones de eventos diarios (reproducciones, pausas, búsquedas)
- **Velocidad:** Ajuste de calidad de streaming en tiempo real
- **Variedad:** Datos de visualización, calificaciones, metadatos de contenido, datos técnicos de red
- **Valor:** Sistema de recomendaciones que genera el 80% de las visualizaciones

Este ejemplo ilustra cómo Big Data no es solo almacenar datos, sino **extraer valor accionable** que impacta directamente en el negocio.

---

## **6. Importancia estratégica del Big Data**

**Ventaja competitiva**
- Decisiones basadas en datos (data-driven decisions)
- Personalización de productos y servicios
- Detección de patrones ocultos

**Transformación digital**
- Base para analítica avanzada e inteligencia artificial
- Automatización de procesos
- Innovación en modelos de negocio

**Impacto económico**
- Reducción de costes operativos
- Detección de fraudes en tiempo real
- Mantenimiento predictivo de equipos
- Optimización de cadenas de suministro

---

## **7. Retos del Big Data**

**Desafíos técnicos**
- Escalabilidad del almacenamiento y procesamiento
- Integración de datos de múltiples fuentes heterogéneas
- Procesamiento en tiempo real

**Desafíos organizacionales**
- Escasez de talento especializado
- Inversión en infraestructura y herramientas
- Transformación cultural hacia organizaciones data-driven

**Desafíos legales y éticos**
- Privacidad y protección de datos personales (GDPR, LOPD)
- Seguridad contra accesos no autorizados
- Uso responsable y evitar sesgos algorítmicos

---

## **Conceptos clave**

- **Big Data:** Tecnologías para manejar datos que superan capacidades tradicionales por volumen, velocidad o variedad
- **Las 5 V's:** Volumen, Velocidad, Variedad, Veracidad, Valor
- **Datos no estructurados:** Representan el 80% de todos los datos
- **Procesamiento distribuido:** Esencial para manejar Big Data (clústeres vs. servidores únicos)
- **Extracción de valor:** El objetivo final no es solo almacenar, sino generar conocimiento accionable

---

## **Resumen**

El Big Data no se trata simplemente de tener "muchos datos", sino de la **capacidad de extraer valor** de conjuntos de datos caracterizados por su volumen masivo, alta velocidad de generación y gran variedad de formatos, utilizando tecnologías especializadas de procesamiento distribuido.

Su surgimiento responde a la explosión digital de datos, la reducción de costes tecnológicos y la necesidad empresarial de tomar decisiones informadas en tiempo real. El verdadero desafío no es técnico únicamente, sino también organizacional y estratégico: **convertir datos en conocimiento que genere ventaja competitiva**.

## Referencias
- Vídeos
    1. [Big Data In 5 Minutes | What Is Big Data?](https://youtu.be/bAyrObl7TYE?si=88dBit3VmfAUs-cu)
    2. [How Modern Data Teams Work (Engineer, Analyst, Scientist, Architect, ML)](https://youtu.be/tyJ476aNCYU?si=nmoIZ1iRfpKbXk8i)
    3. [What Data Scientists Actually Do in 2025](https://youtu.be/MvV2xY_u1rw?si=5Hw_g8IOqSq_taBJ)
    4. [[2014] Big Data y Privacidad por Chema Alonso](https://youtu.be/_oeqjepFkEY?si=oXfJcQ5Eqzkp6WKh)
    5. [[2019] Big Data & AI for Bad Guys](https://youtu.be/PfM6xXkB78M?si=sC-OOr3SE3vlqRsR)
- Web
    1. [Data Analyst Roadmap](https://roadmap.sh/data-analyst)
- IA
    1. ["Big Data" ha mutado a "Data Science"](https://www.perplexity.ai/search/creo-que-hace-unos-anos-aproxi-GT0sHFnZQUuQgxWG2zeASQ#0)