# üìä Lab 01: Introducci√≥n a Big Data

## Objetivos de Aprendizaje
- Comprender qu√© es Big Data y por qu√© es importante
- Entender las 5 Vs del Big Data con ejemplos del mundo real
- Diferenciar entre datos estructurados, semi-estructurados y no estructurados
- Crear tu primera SparkSession y cargar datos
- Realizar operaciones b√°sicas de exploraci√≥n de datos

## Prerequisitos
- Lab 00: Setup del entorno completado
- Docker Desktop corriendo con el cluster de Spark activo
- Conocimientos b√°sicos de Python

## ‚è±Ô∏è Tiempo Estimado
**90-120 minutos**

## üìö M√≥dulo AWS Academy Relacionado
**M√≥dulo 3: Data Characteristics** - Las 5 Vs del Big Data, tipos de datos, ciclo de vida de los datos

---
# === SECCI√ìN 1: ¬øQU√â ES BIG DATA? ===

## 1. Introducci√≥n a Big Data

### Explicaci√≥n Conceptual

**Big Data** no es simplemente "muchos datos". Es un t√©rmino que describe conjuntos de datos tan grandes y complejos que las herramientas tradicionales (como Excel o bases de datos SQL simples) no pueden procesarlos eficientemente.

#### üåç Analog√≠a del Mundo Real

Imagina que tienes una biblioteca:
- **Datos tradicionales**: Una biblioteca peque√±a con 1,000 libros. Puedes buscar manualmente.
- **Big Data**: La Biblioteca del Congreso de EE.UU. con 170 millones de items. Necesitas sistemas automatizados.

#### üìà ¬øCu√°ntos datos se generan?

- **90% de los datos del mundo** se han creado en los √∫ltimos 2 a√±os
- Cada d√≠a se generan **2.5 quintillones de bytes** de datos
- Un carro aut√≥nomo genera **4 TB de datos por d√≠a**
- Netflix procesa **500 mil millones de eventos diarios**

In [1]:
# === CELDA DE CONFIGURACI√ìN INICIAL ===
# Esta celda configura el entorno y debe ejecutarse primero

# Importamos las librer√≠as necesarias para este laboratorio
import os                          # Para manejar rutas y variables de entorno
import sys                         # Para acceder a informaci√≥n del sistema
from datetime import datetime      # Para trabajar con fechas y horas
import random                      # Para generar datos aleatorios de muestra

# Agregamos la carpeta src al path para poder importar nuestros m√≥dulos
sys.path.insert(0, '/home/jovyan/src')  # Ruta dentro del contenedor Docker

# Mostramos mensaje de confirmaci√≥n
print("‚úÖ Librer√≠as b√°sicas importadas correctamente")
print(f"üìÖ Fecha de ejecuci√≥n: {datetime.now().strftime('%Y-%m-%d %H:%M')}")

# Output esperado:
# ‚úÖ Librer√≠as b√°sicas importadas correctamente
# üìÖ Fecha de ejecuci√≥n: 2026-01-28 10:30

‚úÖ Librer√≠as b√°sicas importadas correctamente
üìÖ Fecha de ejecuci√≥n: 2026-01-29 00:14


---
# === SECCI√ìN 2: LAS 5 Vs DEL BIG DATA ===

## 2. Las 5 Vs del Big Data

### Explicaci√≥n Conceptual

Las **5 Vs** son las caracter√≠sticas que definen Big Data. Son el "ADN" que diferencia Big Data de datos tradicionales.

| V | Significado | Ejemplo del Mundo Real |
|---|-------------|------------------------|
| **Volume** | Cantidad de datos | Facebook almacena 300 PB de datos |
| **Velocity** | Velocidad de generaci√≥n/procesamiento | Twitter: 500M tweets/d√≠a |
| **Variety** | Diferentes tipos y formatos | Texto, im√°genes, video, sensores |
| **Veracity** | Calidad y confiabilidad | ¬øLos datos son correctos? |
| **Value** | Utilidad para el negocio | Insights que generan dinero |

#### üöï Ejemplo con Taxis de NYC

Los datos de taxis de Nueva York son un excelente ejemplo de Big Data:

- **Volume**: 200+ millones de viajes por a√±o
- **Velocity**: Miles de viajes inici√°ndose cada minuto
- **Variety**: GPS, pagos, clima, tr√°fico
- **Veracity**: Errores de GPS, datos faltantes
- **Value**: Optimizar rutas, predecir demanda

In [2]:
# === VISUALIZACI√ìN DE LAS 5 Vs ===
# Creamos un diccionario que representa las 5 Vs con ejemplos concretos

# Definimos las 5 Vs como un diccionario de Python
cinco_vs = {
    "Volume": {
        "definicion": "Cantidad de datos generados y almacenados",
        "ejemplo_taxi": "1.5 millones de viajes en el dataset de entrenamiento",
        "unidades": "Terabytes (TB), Petabytes (PB), Exabytes (EB)"
    },
    "Velocity": {
        "definicion": "Velocidad a la que se generan y procesan los datos",
        "ejemplo_taxi": "~50,000 viajes por hora en hora pico",
        "unidades": "Eventos por segundo, registros por minuto"
    },
    "Variety": {
        "definicion": "Diferentes tipos y formatos de datos",
        "ejemplo_taxi": "GPS (coordenadas), texto (direcciones), n√∫meros (tarifas)",
        "unidades": "CSV, JSON, Parquet, im√°genes, video"
    },
    "Veracity": {
        "definicion": "Calidad, precisi√≥n y confiabilidad de los datos",
        "ejemplo_taxi": "Coordenadas GPS incorrectas, duraciones negativas",
        "unidades": "Porcentaje de datos v√°lidos, tasa de errores"
    },
    "Value": {
        "definicion": "Valor de negocio que se puede extraer",
        "ejemplo_taxi": "Predecir demanda, optimizar precios, reducir tiempos",
        "unidades": "ROI, ahorro de costos, incremento de ingresos"
    }
}

# Imprimimos cada V con formato legible
print("=" * 60)  # L√≠nea separadora de 60 caracteres
print("üìä LAS 5 Vs DEL BIG DATA")
print("=" * 60)

# Iteramos sobre cada V para mostrar su informaci√≥n
for v_nombre, v_info in cinco_vs.items():  # v_nombre es la clave, v_info es el valor
    print(f"\nüî∑ {v_nombre.upper()}")      # Mostramos el nombre en may√∫sculas
    print(f"   Definici√≥n: {v_info['definicion']}")
    print(f"   Ejemplo Taxi: {v_info['ejemplo_taxi']}")
    print(f"   Unidades: {v_info['unidades']}")

print("\n" + "=" * 60)

# Output esperado:
# ============================================================
# üìä LAS 5 Vs DEL BIG DATA
# ============================================================
# 
# üî∑ VOLUME
#    Definici√≥n: Cantidad de datos generados y almacenados
#    ...

üìä LAS 5 Vs DEL BIG DATA

üî∑ VOLUME
   Definici√≥n: Cantidad de datos generados y almacenados
   Ejemplo Taxi: 1.5 millones de viajes en el dataset de entrenamiento
   Unidades: Terabytes (TB), Petabytes (PB), Exabytes (EB)

üî∑ VELOCITY
   Definici√≥n: Velocidad a la que se generan y procesan los datos
   Ejemplo Taxi: ~50,000 viajes por hora en hora pico
   Unidades: Eventos por segundo, registros por minuto

üî∑ VARIETY
   Definici√≥n: Diferentes tipos y formatos de datos
   Ejemplo Taxi: GPS (coordenadas), texto (direcciones), n√∫meros (tarifas)
   Unidades: CSV, JSON, Parquet, im√°genes, video

üî∑ VERACITY
   Definici√≥n: Calidad, precisi√≥n y confiabilidad de los datos
   Ejemplo Taxi: Coordenadas GPS incorrectas, duraciones negativas
   Unidades: Porcentaje de datos v√°lidos, tasa de errores

üî∑ VALUE
   Definici√≥n: Valor de negocio que se puede extraer
   Ejemplo Taxi: Predecir demanda, optimizar precios, reducir tiempos
   Unidades: ROI, ahorro de costos, incremento

---
# === SECCI√ìN 3: TIPOS DE DATOS ===

## 3. Tipos de Datos en Big Data

### Explicaci√≥n Conceptual

Los datos se clasifican en tres categor√≠as principales seg√∫n su estructura:

#### üìã Datos Estructurados (~10-20% del total)
- Tienen un **esquema fijo** (columnas definidas)
- Se almacenan en **tablas** (filas y columnas)
- Ejemplos: bases de datos SQL, hojas de Excel
- **En AWS**: Amazon RDS, Amazon Redshift

#### üìÑ Datos Semi-estructurados (~5-10%)
- Tienen **alguna organizaci√≥n** pero no esquema r√≠gido
- Usan etiquetas o marcadores
- Ejemplos: JSON, XML, logs de servidores
- **En AWS**: Amazon DynamoDB, Amazon DocumentDB

#### üé≠ Datos No Estructurados (~80%+)
- **Sin formato predefinido**
- Dif√≠ciles de procesar con herramientas tradicionales
- Ejemplos: emails, videos, im√°genes, redes sociales
- **En AWS**: Amazon S3, Amazon Comprehend (NLP)

In [None]:
# === EJEMPLOS DE TIPOS DE DATOS ===
# Mostramos ejemplos concretos de cada tipo de datos

# 1. DATOS ESTRUCTURADOS - Como una tabla de Excel
print("üìã DATOS ESTRUCTURADOS")
print("-" * 50)

# Ejemplo: registro de un viaje de taxi (como fila de tabla)
viaje_estructurado = {
    "trip_id": "T001",                    # Identificador √∫nico del viaje
    "pickup_datetime": "2024-01-15 08:30", # Fecha/hora de recogida
    "pickup_latitude": 40.7589,            # Latitud del punto de recogida
    "pickup_longitude": -73.9851,          # Longitud del punto de recogida
    "passenger_count": 2,                  # N√∫mero de pasajeros
    "trip_duration_seconds": 1245          # Duraci√≥n en segundos
}

# Mostramos cada campo del registro estructurado
for campo, valor in viaje_estructurado.items():
    print(f"  {campo}: {valor}")

print("\n‚úÖ Caracter√≠sticas: esquema fijo, tipos de datos definidos, f√°cil de consultar con SQL")

In [None]:
# 2. DATOS SEMI-ESTRUCTURADOS - Como JSON o XML
print("üìÑ DATOS SEMI-ESTRUCTURADOS")
print("-" * 50)

# Ejemplo: evento de un viaje con datos anidados (JSON)
viaje_semi_estructurado = {
    "event_type": "trip_completed",        # Tipo de evento
    "timestamp": "2024-01-15T09:00:00Z",  # Marca de tiempo ISO 8601
    "trip": {                              # Objeto anidado con datos del viaje
        "id": "T001",
        "duration": 1245
    },
    "driver": {                            # Objeto anidado con datos del conductor
        "id": "D100",
        "rating": 4.8,
        "vehicle": {                       # Objeto anidado dentro de otro
            "make": "Toyota",
            "model": "Camry",
            "year": 2022
        }
    },
    "tags": ["airport", "business", "cash"]  # Array de etiquetas (flexible)
}

# Importamos json para mostrar con formato bonito
import json
print(json.dumps(viaje_semi_estructurado, indent=2))  # indent=2 para indentar con 2 espacios

print("\n‚úÖ Caracter√≠sticas: estructura flexible, campos opcionales, datos anidados")

In [None]:
# 3. DATOS NO ESTRUCTURADOS - Texto libre, sin formato
print("üé≠ DATOS NO ESTRUCTURADOS")
print("-" * 50)

# Ejemplo: comentario de un pasajero (texto libre)
comentario_pasajero = """
El conductor fue muy amable y conoc√≠a bien la ciudad. 
Llegamos 5 minutos antes de lo esperado a pesar del tr√°fico 
en la 5ta Avenida. El auto estaba limpio y ten√≠a aire acondicionado.
Definitivamente lo recomiendo! ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê
"""

print(f"Comentario del pasajero:{comentario_pasajero}")

# Mostramos estad√≠sticas b√°sicas del texto
num_palabras = len(comentario_pasajero.split())     # Contamos palabras
num_caracteres = len(comentario_pasajero)           # Contamos caracteres
tiene_emojis = "‚≠ê" in comentario_pasajero          # Verificamos si hay emojis

print(f"üìä Estad√≠sticas del texto:")
print(f"   Palabras: {num_palabras}")
print(f"   Caracteres: {num_caracteres}")
print(f"   Contiene emojis: {tiene_emojis}")

print("\n‚úÖ Caracter√≠sticas: sin esquema, dif√≠cil de procesar, requiere NLP para an√°lisis")

---
# === SECCI√ìN 4: INTRODUCCI√ìN A PYSPARK ===

## 4. Primeros Pasos con PySpark

### Explicaci√≥n Conceptual

**Apache Spark** es un motor de procesamiento distribuido para Big Data. **PySpark** es su interfaz para Python.

#### üåç Analog√≠a del Mundo Real

Imagina que necesitas contar todos los libros de una biblioteca gigante:
- **Sin Spark**: Una persona cuenta libro por libro (lento)
- **Con Spark**: 100 personas se dividen la biblioteca y cuentan en paralelo (r√°pido)

#### üîë Conceptos Clave

| Concepto | Descripci√≥n | Analog√≠a |
|----------|-------------|----------|
| **SparkSession** | Punto de entrada a Spark | La puerta de entrada al edificio |
| **DataFrame** | Tabla de datos distribuida | Una hoja de Excel gigante |
| **Transformaci√≥n** | Operaci√≥n que crea nuevo DataFrame | Filtrar o modificar datos |
| **Acci√≥n** | Operaci√≥n que devuelve resultado | Contar, mostrar, guardar |

#### üîó Conexi√≥n con AWS
- **Amazon EMR**: Servicio administrado para ejecutar Spark en la nube
- **AWS Glue**: ETL serverless que usa Spark internamente

In [None]:
# === CREAR SPARKSESSION ===
# SparkSession es el punto de entrada para usar PySpark
# Es como "encender" el motor de Spark

# Importamos SparkSession desde pyspark.sql
from pyspark.sql import SparkSession

# Creamos (o obtenemos si ya existe) una SparkSession
spark = SparkSession.builder \
    .appName("Lab01_BigData_Fundamentals") \
    .master("spark://spark-master:7077") \
    .config("spark.driver.memory", "1g") \
    .config("spark.executor.memory", "1g") \
    .getOrCreate()

# Explicaci√≥n de cada configuraci√≥n:
# .appName() -> Nombre de nuestra aplicaci√≥n (aparece en la UI de Spark)
# .master()  -> URL del cluster Spark (spark-master es el nombre del contenedor)
# .config()  -> Configuraciones adicionales (memoria asignada)
# .getOrCreate() -> Obtiene sesi√≥n existente o crea una nueva

# Verificamos que Spark est√° funcionando
print("‚úÖ SparkSession creada correctamente!")
print(f"üìå Versi√≥n de Spark: {spark.version}")
print(f"üìå App Name: {spark.sparkContext.appName}")
print(f"üìå Master: {spark.sparkContext.master}")

# Output esperado:
# ‚úÖ SparkSession creada correctamente!
# üìå Versi√≥n de Spark: 3.5.0
# üìå App Name: Lab01_BigData_Fundamentals
# üìå Master: spark://spark-master:7077

In [None]:
# === GENERAR DATOS DE MUESTRA ===
# Creamos un dataset peque√±o que simula viajes de taxi
# Esto nos permite practicar sin necesidad del dataset completo

import random                    # Para generar valores aleatorios
from datetime import datetime, timedelta  # Para manejar fechas

# Semilla para reproducibilidad (mismos resultados cada vez)
random.seed(42)

# Funci√≥n para generar un viaje de taxi aleatorio
def generar_viaje(trip_id):
    """
    Genera un registro de viaje de taxi con datos realistas.
    
    Par√°metros:
        trip_id: Identificador √∫nico del viaje
    
    Retorna:
        Diccionario con los datos del viaje
    """
    # Fecha base: 15 de enero 2024
    fecha_base = datetime(2024, 1, 15)
    
    # Generamos hora aleatoria (entre 0 y 23 horas)
    hora_pickup = random.randint(0, 23)
    
    # Minutos aleatorios (0-59)
    minutos_pickup = random.randint(0, 59)
    
    # Construimos la fecha/hora de recogida
    pickup_datetime = fecha_base.replace(hour=hora_pickup, minute=minutos_pickup)
    
    # Duraci√≥n del viaje: entre 3 y 60 minutos (en segundos)
    trip_duration = random.randint(180, 3600)
    
    # Coordenadas de NYC (Manhattan aproximado)
    # Latitud: 40.70 a 40.85
    pickup_lat = round(random.uniform(40.70, 40.85), 6)
    pickup_lon = round(random.uniform(-74.02, -73.93), 6)
    dropoff_lat = round(random.uniform(40.70, 40.85), 6)
    dropoff_lon = round(random.uniform(-74.02, -73.93), 6)
    
    # N√∫mero de pasajeros: entre 1 y 6
    passenger_count = random.randint(1, 6)
    
    # Vendor ID: 1 o 2 (dos compa√±√≠as de taxi)
    vendor_id = random.choice([1, 2])
    
    # Retornamos el viaje como diccionario
    return {
        "id": f"trip_{trip_id:05d}",  # Formato: trip_00001
        "vendor_id": vendor_id,
        "pickup_datetime": pickup_datetime.strftime("%Y-%m-%d %H:%M:%S"),
        "passenger_count": passenger_count,
        "pickup_longitude": pickup_lon,
        "pickup_latitude": pickup_lat,
        "dropoff_longitude": dropoff_lon,
        "dropoff_latitude": dropoff_lat,
        "trip_duration": trip_duration
    }

# Generamos 1000 viajes de muestra
num_viajes = 1000
datos_viajes = [generar_viaje(i) for i in range(1, num_viajes + 1)]

# Mostramos los primeros 3 viajes generados
print(f"‚úÖ Generados {num_viajes} viajes de muestra")
print("\nüìã Primeros 3 viajes:")
for viaje in datos_viajes[:3]:
    print(viaje)

# Output esperado:
# ‚úÖ Generados 1000 viajes de muestra
# 
# üìã Primeros 3 viajes:
# {'id': 'trip_00001', 'vendor_id': 1, 'pickup_datetime': '2024-01-15 06:24:00', ...}

In [None]:
# === CREAR DATAFRAME DE SPARK ===
# Convertimos nuestra lista de diccionarios a un DataFrame de Spark

# createDataFrame convierte datos de Python a formato distribuido de Spark
df_viajes = spark.createDataFrame(datos_viajes)

# Mostramos informaci√≥n b√°sica del DataFrame
print("‚úÖ DataFrame creado correctamente!")
print(f"\nüìä N√∫mero de registros: {df_viajes.count()}")
print(f"üìä N√∫mero de columnas: {len(df_viajes.columns)}")

# Mostramos el esquema (estructura) del DataFrame
print("\nüìã Esquema del DataFrame:")
df_viajes.printSchema()

# Output esperado:
# ‚úÖ DataFrame creado correctamente!
# 
# üìä N√∫mero de registros: 1000
# üìä N√∫mero de columnas: 9
# 
# üìã Esquema del DataFrame:
# root
#  |-- id: string (nullable = true)
#  |-- vendor_id: long (nullable = true)
#  ...

In [None]:
# === EXPLORACI√ìN B√ÅSICA DEL DATAFRAME ===
# Aprendemos las operaciones m√°s comunes para explorar datos

# 1. show() - Muestra las primeras filas (por defecto 20)
print("üìã Primeras 5 filas del DataFrame:")
df_viajes.show(5, truncate=False)  # truncate=False muestra valores completos

# 2. describe() - Estad√≠sticas descriptivas de columnas num√©ricas
print("\nüìä Estad√≠sticas descriptivas:")
df_viajes.describe().show()

# Output esperado:
# üìã Primeras 5 filas del DataFrame:
# +------------+---------+-------------------+---------------+...
# |id          |vendor_id|pickup_datetime    |passenger_count|...
# +------------+---------+-------------------+---------------+...
# |trip_00001  |1        |2024-01-15 06:24:00|4              |...
# ...

In [None]:
# === OPERACIONES B√ÅSICAS CON DATAFRAMES ===
# Aprendemos a filtrar, seleccionar y ordenar datos

# Importamos funciones de Spark SQL
from pyspark.sql.functions import col, avg, count, min, max

# 1. SELECT - Seleccionar columnas espec√≠ficas
print("üìã 1. Seleccionar columnas espec√≠ficas:")
df_viajes.select("id", "passenger_count", "trip_duration").show(5)

# 2. FILTER/WHERE - Filtrar filas seg√∫n condici√≥n
print("üìã 2. Viajes con m√°s de 3 pasajeros:")
df_viajes.filter(col("passenger_count") > 3).show(5)

# 3. ORDER BY - Ordenar por una columna
print("üìã 3. Top 5 viajes m√°s largos (por duraci√≥n):")
df_viajes.orderBy(col("trip_duration").desc()).show(5)

# 4. GROUP BY - Agrupar y agregar
print("üìã 4. Promedio de pasajeros por vendor:")
df_viajes.groupBy("vendor_id") \
    .agg(
        count("*").alias("total_viajes"),       # Contar viajes
        avg("passenger_count").alias("avg_pasajeros"),  # Promedio pasajeros
        avg("trip_duration").alias("avg_duracion")      # Promedio duraci√≥n
    ) \
    .show()

---
# === SECCI√ìN 5: AN√ÅLISIS DEL DATASET ===

## 5. An√°lisis Exploratorio de Datos (EDA)

### Explicaci√≥n Conceptual

El **An√°lisis Exploratorio de Datos (EDA)** es el primer paso en cualquier proyecto de datos. Nos ayuda a:

1. **Entender** la estructura y contenido de los datos
2. **Identificar** problemas de calidad (valores nulos, outliers)
3. **Descubrir** patrones y relaciones iniciales
4. **Formular** hip√≥tesis para an√°lisis posteriores

#### üîó Conexi√≥n con AWS
- **AWS Glue DataBrew**: Herramienta visual para EDA y limpieza de datos
- **Amazon Athena**: Consultas SQL para explorar datos en S3

In [None]:
# === AN√ÅLISIS DE CALIDAD DE DATOS ===
# Verificamos la calidad de nuestros datos (Veracity - una de las 5 Vs)

from pyspark.sql.functions import col, count, when, isnan, isnull

print("üìä AN√ÅLISIS DE CALIDAD DE DATOS")
print("=" * 50)

# 1. Contar valores nulos por columna
print("\n1Ô∏è‚É£ Valores nulos por columna:")

# Creamos expresiones para contar nulos en cada columna
null_counts = df_viajes.select(
    [count(when(col(c).isNull(), c)).alias(c) for c in df_viajes.columns]
)
null_counts.show()

# 2. Verificar valores fuera de rango (outliers)
print("2Ô∏è‚É£ Verificaci√≥n de rangos v√°lidos:")

# Viajes con duraci√≥n negativa o cero (error de datos)
viajes_invalidos = df_viajes.filter(col("trip_duration") <= 0).count()
print(f"   Viajes con duraci√≥n <= 0: {viajes_invalidos}")

# Viajes con m√°s de 6 pasajeros (m√°ximo t√≠pico de un taxi)
viajes_muchos_pasajeros = df_viajes.filter(col("passenger_count") > 6).count()
print(f"   Viajes con m√°s de 6 pasajeros: {viajes_muchos_pasajeros}")

# Viajes muy largos (m√°s de 2 horas = 7200 segundos)
viajes_muy_largos = df_viajes.filter(col("trip_duration") > 7200).count()
print(f"   Viajes de m√°s de 2 horas: {viajes_muy_largos}")

# 3. Resumen de calidad
total_viajes = df_viajes.count()
print(f"\n‚úÖ Resumen de calidad:")
print(f"   Total de registros: {total_viajes}")
print(f"   Registros v√°lidos: {total_viajes - viajes_invalidos}")
print(f"   Porcentaje v√°lido: {((total_viajes - viajes_invalidos) / total_viajes) * 100:.2f}%")

In [None]:
# === AN√ÅLISIS POR HORA DEL D√çA ===
# Extraemos insights sobre patrones temporales

from pyspark.sql.functions import hour, to_timestamp

print("üìä AN√ÅLISIS TEMPORAL")
print("=" * 50)

# Convertimos pickup_datetime a timestamp y extraemos la hora
df_con_hora = df_viajes.withColumn(
    "hora_pickup",                                    # Nombre de la nueva columna
    hour(to_timestamp(col("pickup_datetime")))        # Extraemos la hora (0-23)
)

# Agrupamos por hora y contamos viajes
print("\nüïê Viajes por hora del d√≠a:")
viajes_por_hora = df_con_hora.groupBy("hora_pickup") \
    .agg(
        count("*").alias("total_viajes"),
        avg("trip_duration").alias("duracion_promedio")
    ) \
    .orderBy("hora_pickup")

viajes_por_hora.show(24)  # Mostramos las 24 horas

# Identificamos horas pico
print("\nüîù Top 3 horas con m√°s viajes (hora pico):")
viajes_por_hora.orderBy(col("total_viajes").desc()).show(3)

In [None]:
# === VISUALIZACI√ìN B√ÅSICA ===
# Creamos gr√°ficos simples para entender los datos

import matplotlib.pyplot as plt  # Librer√≠a de visualizaci√≥n

# Convertimos datos de Spark a Pandas para graficar
# NOTA: Solo hacemos esto con datos peque√±os (nuestro resumen)
df_horas_pandas = viajes_por_hora.toPandas()  # Convertir a Pandas DataFrame

# Creamos figura con 2 gr√°ficos
fig, axes = plt.subplots(1, 2, figsize=(14, 5))  # 1 fila, 2 columnas

# Gr√°fico 1: Viajes por hora (barras)
axes[0].bar(
    df_horas_pandas['hora_pickup'],      # Eje X: horas
    df_horas_pandas['total_viajes'],     # Eje Y: cantidad de viajes
    color='steelblue'                    # Color de las barras
)
axes[0].set_xlabel('Hora del d√≠a')       # Etiqueta eje X
axes[0].set_ylabel('N√∫mero de viajes')   # Etiqueta eje Y
axes[0].set_title('üìä Viajes por Hora del D√≠a')  # T√≠tulo
axes[0].set_xticks(range(0, 24))         # Mostrar todas las horas

# Gr√°fico 2: Duraci√≥n promedio por hora (l√≠nea)
axes[1].plot(
    df_horas_pandas['hora_pickup'],           # Eje X: horas
    df_horas_pandas['duracion_promedio'],     # Eje Y: duraci√≥n promedio
    marker='o',                               # Marcador circular en cada punto
    color='coral',                            # Color de la l√≠nea
    linewidth=2                               # Grosor de l√≠nea
)
axes[1].set_xlabel('Hora del d√≠a')
axes[1].set_ylabel('Duraci√≥n promedio (segundos)')
axes[1].set_title('‚è±Ô∏è Duraci√≥n Promedio por Hora')
axes[1].set_xticks(range(0, 24))

# Ajustamos el layout y mostramos
plt.tight_layout()  # Evita que se superpongan los gr√°ficos
plt.show()

print("\nüí° Observaciones:")
print("   - Los datos de muestra est√°n distribuidos uniformemente (generados aleatoriamente)")
print("   - Con datos reales, ver√≠amos patrones de hora pico (8-9 AM, 5-7 PM)")

---
# === SECCI√ìN 6: EJERCICIOS PR√ÅCTICOS ===

## üéØ Ejercicios

Ahora es tu turno de practicar. Completa los siguientes ejercicios usando lo que aprendiste.

### üéØ Ejercicio 1: An√°lisis de Pasajeros

**Objetivo**: Analizar la distribuci√≥n de pasajeros por viaje.

**Instrucciones**:
1. Cuenta cu√°ntos viajes hay para cada cantidad de pasajeros (1, 2, 3, etc.)
2. Ordena el resultado de mayor a menor cantidad de viajes
3. Calcula el porcentaje de viajes para cada cantidad de pasajeros

**Pistas**:
- Usa `groupBy("passenger_count")` para agrupar
- Usa `count("*")` para contar
- Para calcular porcentaje, divide entre el total y multiplica por 100

In [None]:
# üéØ EJERCICIO 1: Tu c√≥digo aqu√≠
# Completa el c√≥digo para analizar la distribuci√≥n de pasajeros

# TODO: Agrupa por passenger_count y cuenta los viajes
# viajes_por_pasajeros = df_viajes.groupBy(...)

# TODO: Ordena de mayor a menor cantidad de viajes

# TODO: Muestra el resultado

print("Tu soluci√≥n aqu√≠...")

### ‚úÖ Soluci√≥n Ejercicio 1

In [None]:
# ‚úÖ SOLUCI√ìN EJERCICIO 1: An√°lisis de Pasajeros

from pyspark.sql.functions import col, count, round as spark_round

# Obtenemos el total de viajes para calcular porcentajes
total_viajes = df_viajes.count()  # Contamos todos los viajes

# Agrupamos por n√∫mero de pasajeros y contamos
viajes_por_pasajeros = df_viajes.groupBy("passenger_count") \
    .agg(
        count("*").alias("total_viajes")  # Contamos viajes en cada grupo
    ) \
    .withColumn(
        "porcentaje",  # Nueva columna con el porcentaje
        spark_round((col("total_viajes") / total_viajes) * 100, 2)  # Redondeamos a 2 decimales
    ) \
    .orderBy(col("total_viajes").desc())  # Ordenamos de mayor a menor

# Mostramos el resultado
print("üìä Distribuci√≥n de viajes por n√∫mero de pasajeros:")
print(f"   (Total de viajes: {total_viajes})\n")
viajes_por_pasajeros.show()

# Output esperado:
# üìä Distribuci√≥n de viajes por n√∫mero de pasajeros:
#    (Total de viajes: 1000)
# 
# +---------------+------------+----------+
# |passenger_count|total_viajes|porcentaje|
# +---------------+------------+----------+
# |              1|         178|     17.80|
# |              4|         174|     17.40|
# ...

### üéØ Ejercicio 2: Filtrado de Viajes Cortos y Largos

**Objetivo**: Identificar viajes cortos (menos de 5 minutos) y viajes largos (m√°s de 45 minutos).

**Instrucciones**:
1. Filtra los viajes con duraci√≥n menor a 300 segundos (5 minutos)
2. Filtra los viajes con duraci√≥n mayor a 2700 segundos (45 minutos)
3. Cuenta cu√°ntos hay de cada tipo
4. Muestra 3 ejemplos de cada categor√≠a

**Pistas**:
- Usa `filter(col("trip_duration") < 300)` para filtrar
- Recuerda que la duraci√≥n est√° en segundos

In [None]:
# üéØ EJERCICIO 2: Tu c√≥digo aqu√≠
# Completa el c√≥digo para identificar viajes cortos y largos

# TODO: Filtra viajes cortos (< 5 minutos = 300 segundos)
# viajes_cortos = df_viajes.filter(...)

# TODO: Filtra viajes largos (> 45 minutos = 2700 segundos)
# viajes_largos = df_viajes.filter(...)

# TODO: Cuenta y muestra resultados

print("Tu soluci√≥n aqu√≠...")

### ‚úÖ Soluci√≥n Ejercicio 2

In [None]:
# ‚úÖ SOLUCI√ìN EJERCICIO 2: Viajes Cortos y Largos

from pyspark.sql.functions import col

# Definimos los umbrales (en segundos)
UMBRAL_CORTO = 300    # 5 minutos = 300 segundos
UMBRAL_LARGO = 2700   # 45 minutos = 2700 segundos

# Filtramos viajes cortos (menos de 5 minutos)
viajes_cortos = df_viajes.filter(col("trip_duration") < UMBRAL_CORTO)

# Filtramos viajes largos (m√°s de 45 minutos)
viajes_largos = df_viajes.filter(col("trip_duration") > UMBRAL_LARGO)

# Contamos cada categor√≠a
num_cortos = viajes_cortos.count()  # Cantidad de viajes cortos
num_largos = viajes_largos.count()  # Cantidad de viajes largos
num_normales = df_viajes.count() - num_cortos - num_largos  # El resto

# Mostramos resumen
print("üìä CLASIFICACI√ìN DE VIAJES POR DURACI√ìN")
print("=" * 50)
print(f"\nüèÉ Viajes cortos (<5 min): {num_cortos}")
print(f"üö∂ Viajes normales (5-45 min): {num_normales}")
print(f"üê¢ Viajes largos (>45 min): {num_largos}")

# Mostramos ejemplos de cada categor√≠a
print("\nüìã Ejemplos de viajes CORTOS:")
viajes_cortos.select("id", "trip_duration", "passenger_count").show(3)

print("üìã Ejemplos de viajes LARGOS:")
viajes_largos.select("id", "trip_duration", "passenger_count").show(3)

# Output esperado:
# üìä CLASIFICACI√ìN DE VIAJES POR DURACI√ìN
# ==================================================
# 
# üèÉ Viajes cortos (<5 min): ~35
# üö∂ Viajes normales (5-45 min): ~900
# üê¢ Viajes largos (>45 min): ~65

### üéØ Ejercicio 3: Crear Nueva Columna Calculada

**Objetivo**: Calcular la distancia aproximada del viaje usando las coordenadas.

**Instrucciones**:
1. Crea una nueva columna `distancia_euclidiana` que calcule la distancia aproximada
2. La f√≥rmula simplificada es: `sqrt((lat2-lat1)^2 + (lon2-lon1)^2) * 111` km
3. Agrupa por vendor_id y calcula la distancia promedio

**Pistas**:
- Usa `withColumn()` para agregar columnas
- Importa `sqrt` y `pow` de `pyspark.sql.functions`
- 1 grado ‚âà 111 km (aproximaci√≥n para NYC)

In [None]:
# üéØ EJERCICIO 3: Tu c√≥digo aqu√≠
# Completa el c√≥digo para calcular la distancia aproximada

# TODO: Importar funciones necesarias (sqrt, pow)
# from pyspark.sql.functions import sqrt, pow

# TODO: Crear columna de distancia
# df_con_distancia = df_viajes.withColumn("distancia_km", ...)

# TODO: Mostrar estad√≠sticas de distancia por vendor

print("Tu soluci√≥n aqu√≠...")

### ‚úÖ Soluci√≥n Ejercicio 3

In [None]:
# ‚úÖ SOLUCI√ìN EJERCICIO 3: Distancia Aproximada

from pyspark.sql.functions import col, sqrt, pow as spark_pow, avg, round as spark_round

# Factor de conversi√≥n: 1 grado ‚âà 111 km (aproximaci√≥n para latitudes medias)
KM_POR_GRADO = 111

# Calculamos la diferencia de coordenadas
df_con_distancia = df_viajes.withColumn(
    "diff_lat",  # Diferencia de latitud
    col("dropoff_latitude") - col("pickup_latitude")
).withColumn(
    "diff_lon",  # Diferencia de longitud
    col("dropoff_longitude") - col("pickup_longitude")
).withColumn(
    "distancia_km",  # Distancia euclidiana en km
    spark_round(
        sqrt(
            spark_pow(col("diff_lat"), 2) +  # (lat2 - lat1)^2
            spark_pow(col("diff_lon"), 2)    # (lon2 - lon1)^2
        ) * KM_POR_GRADO,  # Multiplicamos por factor de conversi√≥n
        2  # Redondeamos a 2 decimales
    )
)

# Mostramos algunos ejemplos con la nueva columna
print("üìã Viajes con distancia calculada:")
df_con_distancia.select(
    "id", "pickup_latitude", "pickup_longitude",
    "dropoff_latitude", "dropoff_longitude", "distancia_km"
).show(5)

# Estad√≠sticas de distancia por vendor
print("\nüìä Distancia promedio por vendor:")
df_con_distancia.groupBy("vendor_id") \
    .agg(
        spark_round(avg("distancia_km"), 2).alias("distancia_promedio_km"),
        spark_round(avg("trip_duration") / 60, 2).alias("duracion_promedio_min")
    ) \
    .show()

# Estad√≠sticas generales de distancia
print("\nüìä Estad√≠sticas generales de distancia:")
df_con_distancia.select("distancia_km").describe().show()

# Output esperado:
# üìã Viajes con distancia calculada:
# +------------+---------------+----------------+----------------+-----------------+------------+
# |          id|pickup_latitude|pickup_longitude|dropoff_latitude|dropoff_longitude|distancia_km|
# +------------+---------------+----------------+----------------+-----------------+------------+
# |  trip_00001|       40.80...|        -73.96..|        40.74...|         -73.98..|        7.23|
# ...

---
# === RESUMEN FINAL ===

## üìù Resumen

### Conceptos Clave Aprendidos

| Concepto | Descripci√≥n |
|----------|-------------|
| **Big Data** | Datos tan grandes/complejos que requieren herramientas especiales |
| **5 Vs** | Volume, Velocity, Variety, Veracity, Value |
| **Datos Estructurados** | Formato fijo, tablas SQL (~10-20%) |
| **Datos Semi-estructurados** | JSON, XML, con alguna organizaci√≥n |
| **Datos No Estructurados** | Texto libre, im√°genes, video (~80%) |
| **SparkSession** | Punto de entrada a PySpark |
| **DataFrame** | Tabla distribuida en Spark |
| **EDA** | An√°lisis Exploratorio de Datos |

### üîó Conexi√≥n con AWS Academy

| Concepto Local | Servicio AWS |
|----------------|---------------|
| SparkSession | Amazon EMR, AWS Glue |
| DataFrame | Glue DynamicFrame |
| Datos estructurados | Amazon RDS, Redshift |
| Datos semi-estructurados | DynamoDB, DocumentDB |
| Datos no estructurados | Amazon S3 |
| EDA | AWS Glue DataBrew |

### ‚û°Ô∏è Siguiente Paso

Contin√∫a con: **`labs/02_etl_pipeline/01_etl_concepts.ipynb`**

En el pr√≥ximo laboratorio aprender√°s:
- Qu√© es ETL (Extract, Transform, Load)
- Diferencias entre ETL y ELT
- C√≥mo construir un pipeline de datos completo

In [None]:
# === LIMPIEZA FINAL ===
# Siempre es buena pr√°ctica cerrar la SparkSession al terminar

# Detenemos la SparkSession para liberar recursos
spark.stop()

print("‚úÖ SparkSession cerrada correctamente")
print("\nüéâ ¬°Felicitaciones! Has completado el Lab 01: Fundamentos de Big Data")
print("\nüìö Recuerda revisar los conceptos y practicar los ejercicios.")
print("‚û°Ô∏è Siguiente: Lab 02 - ETL Pipeline")