# **UNIDAD II.**

## **1. Definición y Características de Big Data**

Ejemplo en Python (Simulando Variedad, Volumen conceptual y generación de datos):

In [None]:
import json
import time
import random
import os

# Datos estructurados (simulados)
datos_empleados = [
    {"id_empleado": "E001", "nombre": "Elena", "departamento": "Ventas", "salario": 55000},
    {"id_empleado": "E002", "nombre": "Carlos", "departamento": "TI", "salario": 62000}
]

# Datos semiestructurados (simulados)
log_actividad_app = {
    "timestamp": "2023-10-27T14:30:00Z",
    "usuario_id": "user123",
    "evento": "login",
    "detalles": {"ip": "203.0.113.45", "dispositivo": "movil"}
}

# Datos no estructurados (simulados)
transcripcion_llamada = "Cliente: Hola, tengo un problema con mi pedido. Agente: Buenos días, ¿podría indicarme su número de pedido?"

# Simulación de Volumen
def generar_archivo_grande_simulado(nombre_archivo="datos_voluminosos.txt", num_lineas=1000): # Reducido para demo rápida
    palabras_ejemplo = ["dato", "informacion", "analisis", "volumen", "velocidad", "variedad", "valor"]
    # En un entorno web real, no se escribiría al sistema de archivos directamente así.
    # Esto es conceptual para la demo.
    # with open(nombre_archivo, "w", encoding='utf-8') as f:
    #     for i in range(num_lineas):
    #         linea = f"ID_{i:07d}: " + " ".join(random.choices(palabras_ejemplo, k=random.randint(5,15))) + "\n"
    #         f.write(linea)
    # if os.path.exists(nombre_archivo): # os.path no disponible en navegador
    #     tamaño_archivo_bytes = os.path.getsize(nombre_archivo)
    #     tamaño_archivo_mb = tamaño_archivo_bytes / (1024 * 1024)
    #     return f"Archivo '{nombre_archivo}' generado. Tamaño: {tamaño_archivo_mb:.4f} MB (con {num_lineas} líneas)"
    return f"Concepto: Se generaría un archivo '{nombre_archivo}' con {num_lineas} líneas."


output_strings_sec1 = [] # Renombrado para evitar colisión
output_strings_sec1.append("--- Ejemplos de Variedad de Datos ---")
output_strings_sec1.append(f"Datos Estructurados (Empleados):\n{json.dumps(datos_empleados, indent=2, ensure_ascii=False)}\n")
output_strings_sec1.append(f"Datos Semi-Estructurados (Log App JSON):\n{json.dumps(log_actividad_app, indent=2, ensure_ascii=False)}\n")
output_strings_sec1.append(f"Datos No Estructurados (Transcripción):\n'{transcripcion_llamada}'\n")
output_strings_sec1.append("--- Simulación de Volumen ---")
resultado_generacion = generar_archivo_grande_simulado()
output_strings_sec1.append(resultado_generacion)
output_strings_sec1.append("En una ejecución real, este archivo contendría muchas líneas de datos simulados.")

final_output_sec1 = "\n".join(output_strings_sec1) # Se asignará al div directamente
print(final_output_sec1)

--- Ejemplos de Variedad de Datos ---
Datos Estructurados (Empleados):
[
  {
    "id_empleado": "E001",
    "nombre": "Elena",
    "departamento": "Ventas",
    "salario": 55000
  },
  {
    "id_empleado": "E002",
    "nombre": "Carlos",
    "departamento": "TI",
    "salario": 62000
  }
]

Datos Semi-Estructurados (Log App JSON):
{
  "timestamp": "2023-10-27T14:30:00Z",
  "usuario_id": "user123",
  "evento": "login",
  "detalles": {
    "ip": "203.0.113.45",
    "dispositivo": "movil"
  }
}

Datos No Estructurados (Transcripción):
'Cliente: Hola, tengo un problema con mi pedido. Agente: Buenos días, ¿podría indicarme su número de pedido?'

--- Simulación de Volumen ---
Concepto: Se generaría un archivo 'datos_voluminosos.txt' con 1000 líneas.
En una ejecución real, este archivo contendría muchas líneas de datos simulados.


## **2. Recopilación y Procesamiento de Datos en Tiempo Real**

Ejemplo en Python (Simulación de procesamiento de datos de sensores con ventana de tiempo):

In [None]:
import time
import random
from collections import deque

# Simulación de una fuente de datos en tiempo real
def generar_datos_sensores_sec2(num_sensores=2): # Renombrado para evitar colisión
    datos_generados = []
    for i in range(num_sensores):
        sensor_id = f"Sensor_{chr(65+i)}" # Sensor_A, Sensor_B, ...
        dato = {
            # "timestamp_evento": time.time(), # Se usará fixed_time_sec2 para demo
            "sensor_id": sensor_id,
            "temperatura_C": round(random.uniform(15.0, 35.0), 2),
            "humedad_perc": round(random.uniform(30.0, 70.0), 2)
        }
        datos_generados.append(dato)
    return datos_generados

MAX_VENTANA_SEGUNDOS_SEC2 = 3
datos_ventana_sec2 = deque()
output_strings_sec2 = [] # Renombrado

# Fijar seed para resultados consistentes en la demo
random.seed(42)
fixed_time_sec2 = 1678886400 # Un timestamp fijo para consistencia

def procesar_datos_stream_demo_sec2(nuevos_datos):
    global fixed_time_sec2 # Necesario para modificarlo

    for dato in nuevos_datos:
        dato["timestamp_ingesta"] = fixed_time_sec2 # Usar tiempo fijo para demo consistente
        dato["timestamp_evento"] = fixed_time_sec2 - random.uniform(0,0.1) # Simular pequeña diferencia
        datos_ventana_sec2.append(dato)
        output_strings_sec2.append(f"Dato Recibido: ID={dato['sensor_id']}, Temp={dato['temperatura_C']}°C, Hum={dato['humedad_perc']}% (Evento: {dato['timestamp_evento']:.2f}, Ingesta: {dato['timestamp_ingesta']:.2f})")

    while datos_ventana_sec2 and (fixed_time_sec2 - datos_ventana_sec2[0]["timestamp_ingesta"]) > MAX_VENTANA_SEGUNDOS_SEC2:
        datos_ventana_sec2.popleft()

    if datos_ventana_sec2:
        temps = [d['temperatura_C'] for d in datos_ventana_sec2]
        promedio_temp_ventana = sum(temps) / len(temps)
        max_temp_ventana = max(temps)
        output_strings_sec2.append(f"  VENTANA ({len(datos_ventana_sec2)} elems, {fixed_time_sec2:.0f}s): Temp Prom={promedio_temp_ventana:.2f}°C, Temp Max={max_temp_ventana:.2f}°C")

        if max_temp_ventana > 30.0:
            output_strings_sec2.append(f"  ALERTA EN VENTANA: Temperatura máxima ({max_temp_ventana:.2f}°C) supera los 30°C.")
    output_strings_sec2.append("-" * 30)

# Simulación para la demo
output_strings_sec2.append("Iniciando simulación de recepción y procesamiento de datos en streaming...")
output_strings_sec2.append(f"Análisis sobre ventana deslizante de {MAX_VENTANA_SEGUNDOS_SEC2} segundos.\n")

for i in range(5): # Simular 5 ciclos
    nuevos_datos_generados = generar_datos_sensores_sec2(random.randint(1,2))
    procesar_datos_stream_demo_sec2(nuevos_datos_generados)
    fixed_time_sec2 += 0.8 # Avanzar el tiempo simulado para que la ventana deslice

final_output_sec2 = "\n".join(output_strings_sec2) # Se asignará al div
print(final_output_sec2)

Iniciando simulación de recepción y procesamiento de datos en streaming...
Análisis sobre ventana deslizante de 3 segundos.

Dato Recibido: ID=Sensor_A, Temp=15.5°C, Hum=41.0% (Evento: 1678886399.98, Ingesta: 1678886400.00)
  VENTANA (1 elems, 1678886400s): Temp Prom=15.50°C, Temp Max=15.50°C
------------------------------
Dato Recibido: ID=Sensor_A, Temp=28.53°C, Hum=65.69% (Evento: 1678886400.79, Ingesta: 1678886400.80)
  VENTANA (2 elems, 1678886401s): Temp Prom=22.02°C, Temp Max=28.53°C
------------------------------
Dato Recibido: ID=Sensor_A, Temp=15.64°C, Hum=33.75% (Evento: 1678886401.54, Ingesta: 1678886401.60)
Dato Recibido: ID=Sensor_B, Temp=19.65°C, Hum=54.08% (Evento: 1678886401.53, Ingesta: 1678886401.60)
  VENTANA (4 elems, 1678886402s): Temp Prom=19.83°C, Temp Max=28.53°C
------------------------------
Dato Recibido: ID=Sensor_A, Temp=19.41°C, Hum=53.57% (Evento: 1678886402.32, Ingesta: 1678886402.40)
Dato Recibido: ID=Sensor_B, Temp=31.19°C, Hum=30.26% (Evento: 1678886

## **3. Análisis de Tráfico y Patrones de Comportamiento**

Ejemplo en Python (Análisis de logs web y descubrimiento simple de asociación):

In [None]:
from collections import defaultdict, Counter

logs_web_sesiones_sec3 = [ # Renombrado
    ("2023-10-27 10:01:00", "192.168.1.5", "/inicio", "S1"),
    ("2023-10-27 10:01:05", "192.168.1.10", "/productos", "S2"),
    ("2023-10-27 10:01:10", "192.168.1.5", "/productos", "S1"),
    ("2023-10-27 10:01:15", "192.168.1.12", "/inicio", "S3"),
    ("2023-10-27 10:01:20", "192.168.1.10", "/contacto", "S2"),
    ("2023-10-27 10:01:25", "192.168.1.5", "/carrito", "S1"),
    ("2023-10-27 10:01:30", "192.168.1.10", "/inicio", "S2"),
    ("2023-10-27 10:01:35", "192.168.1.15", "/productos", "S4"),
    ("2023-10-27 10:01:40", "192.168.1.15", "/carrito", "S4"),
]
output_strings_sec3 = [] # Renombrado

def analizar_patrones_basicos_demo_sec3(logs): # Renombrado
    paginas_visitadas_contador = Counter()
    sesiones_usuarios = defaultdict(list)

    for _, _, pagina, id_sesion in logs:
        paginas_visitadas_contador[pagina] += 1
        sesiones_usuarios[id_sesion].append(pagina)

    output_strings_sec3.append("--- Análisis Básico de Tráfico ---")
    output_strings_sec3.append("Páginas más visitadas:")
    for pagina, visitas in paginas_visitadas_contador.most_common():
        output_strings_sec3.append(f"- {pagina}: {visitas} visitas")

    output_strings_sec3.append("\n--- Descubrimiento Simple de Reglas de Asociación (Conceptual) ---")
    pares_frecuentes = Counter()
    conteo_pagina_individual_en_sesiones = Counter()

    for id_sesion, paginas_en_sesion in sesiones_usuarios.items():
        paginas_unicas_sesion = set(paginas_en_sesion)
        for pagina in paginas_unicas_sesion:
            conteo_pagina_individual_en_sesiones[pagina] +=1
        for i in range(len(paginas_en_sesion)):
            for j in range(i + 1, len(paginas_en_sesion)):
                if paginas_en_sesion[i] != paginas_en_sesion[j]:
                    par = tuple(sorted((paginas_en_sesion[i], paginas_en_sesion[j])))
                    pares_frecuentes[par] +=1

    num_total_sesiones = len(sesiones_usuarios)
    output_strings_sec3.append(f"Número total de sesiones: {num_total_sesiones}")

    MIN_SOPORTE_PAR = 0.1
    MIN_CONFIANZA = 0.5
    output_strings_sec3.append(f"\nReglas de Asociación (X => Y) con Soporte(X U Y) >= {MIN_SOPORTE_PAR*100:.0f}% y Confianza >= {MIN_CONFIANZA*100:.0f}%:")
    reglas_encontradas = 0
    processed_rules = set()

    for (pagina_a, pagina_b), count_ab in pares_frecuentes.items():
        soporte_ab = count_ab / num_total_sesiones
        if soporte_ab >= MIN_SOPORTE_PAR:
            # Regla A => B
            soporte_a = conteo_pagina_individual_en_sesiones[pagina_a] / num_total_sesiones
            if soporte_a > 0:
                confianza_a_b = soporte_ab / soporte_a
                if confianza_a_b >= MIN_CONFIANZA:
                    rule_str = f"- Si un usuario visita '{pagina_a}', también visita '{pagina_b}' (Soporte(XUY): {soporte_ab:.2%}, Confianza: {confianza_a_b:.2%})"
                    if rule_str not in processed_rules:
                        output_strings_sec3.append(rule_str)
                        processed_rules.add(rule_str)
                        reglas_encontradas +=1

            # Regla B => A
            soporte_b = conteo_pagina_individual_en_sesiones[pagina_b] / num_total_sesiones
            if soporte_b > 0:
                confianza_b_a = soporte_ab / soporte_b
                if confianza_b_a >= MIN_CONFIANZA:
                    rule_str = f"- Si un usuario visita '{pagina_b}', también visita '{pagina_a}' (Soporte(XUY): {soporte_ab:.2%}, Confianza: {confianza_b_a:.2%})"
                    reverse_rule_str = f"- Si un usuario visita '{pagina_a}', también visita '{pagina_b}' (Soporte(XUY): {soporte_ab:.2%}, Confianza: {soporte_ab / soporte_a if soporte_a > 0 else 0:.2%})"
                    if rule_str not in processed_rules and (pagina_a == pagina_b or reverse_rule_str not in processed_rules):
                         output_strings_sec3.append(rule_str)
                         processed_rules.add(rule_str)
                         reglas_encontradas +=1

    if reglas_encontradas == 0:
        output_strings_sec3.append("No se encontraron reglas con los umbrales definidos.")

analizar_patrones_basicos_demo_sec3(logs_web_sesiones_sec3)

final_output_sec3 = "\n".join(output_strings_sec3) # Se asignará al div
print(final_output_sec3)

--- Análisis Básico de Tráfico ---
Páginas más visitadas:
- /inicio: 3 visitas
- /productos: 3 visitas
- /carrito: 2 visitas
- /contacto: 1 visitas

--- Descubrimiento Simple de Reglas de Asociación (Conceptual) ---
Número total de sesiones: 4

Reglas de Asociación (X => Y) con Soporte(X U Y) >= 10% y Confianza >= 50%:
- Si un usuario visita '/inicio', también visita '/productos' (Soporte(XUY): 50.00%, Confianza: 66.67%)
- Si un usuario visita '/carrito', también visita '/inicio' (Soporte(XUY): 25.00%, Confianza: 50.00%)
- Si un usuario visita '/carrito', también visita '/productos' (Soporte(XUY): 50.00%, Confianza: 100.00%)
- Si un usuario visita '/contacto', también visita '/productos' (Soporte(XUY): 25.00%, Confianza: 100.00%)
- Si un usuario visita '/contacto', también visita '/inicio' (Soporte(XUY): 25.00%, Confianza: 100.00%)


## **4. Modelado Predictivo para la Gestión de Capacidad**

Ejemplo en Python (Regresión Lineal con `scikit-learn`):

In [None]:
import numpy as np
# from sklearn.linear_model import LinearRegression # Simular para no requerir sklearn en navegador
# from sklearn.metrics import mean_squared_error, r2_score # Simular

# Simulación de LinearRegression y métricas para la demo
class MockLinearRegression:
    def fit(self, X, y):
        # Simple linear regression: y = mx + c
        # m = (n*sum(xy) - sum(x)*sum(y)) / (n*sum(x^2) - (sum(x))^2)
        # c = (sum(y) - m*sum(x)) / n
        X_flat = X.flatten()
        n = len(X_flat)
        sum_x = np.sum(X_flat)
        sum_y = np.sum(y)
        sum_xy = np.sum(X_flat * y)
        sum_x_squared = np.sum(X_flat**2)

        if (n * sum_x_squared - sum_x**2) == 0: # Evitar división por cero
            self.coef_ = np.array([0])
            self.intercept_ = np.mean(y) if n > 0 else 0
            return

        m = (n * sum_xy - sum_x * sum_y) / (n * sum_x_squared - sum_x**2)
        c = (sum_y - m * sum_x) / n
        self.coef_ = np.array([m])
        self.intercept_ = c

    def predict(self, X):
        return self.intercept_ + self.coef_[0] * X.flatten()

def mock_mean_squared_error(y_true, y_pred):
    return np.mean((y_true - y_pred)**2)

def mock_r2_score(y_true, y_pred):
    ss_res = np.sum((y_true - y_pred)**2)
    ss_tot = np.sum((y_true - np.mean(y_true))**2)
    return 1 - (ss_res / ss_tot) if ss_tot != 0 else 0


# Datos históricos simulados
meses_sec4 = np.array([1, 2, 3, 4, 5, 6, 7, 8]).reshape(-1, 1) # Renombrado
demanda_historica_sec4 = np.array([100, 110, 130, 145, 160, 180, 200, 215]) # Renombrado

modelo_regresion_sec4 = MockLinearRegression() # Usar mock
modelo_regresion_sec4.fit(meses_sec4, demanda_historica_sec4)

beta_0_sec4 = modelo_regresion_sec4.intercept_
beta_1_sec4 = modelo_regresion_sec4.coef_[0]
predicciones_entrenamiento_sec4 = modelo_regresion_sec4.predict(meses_sec4)
mse_sec4 = mock_mean_squared_error(demanda_historica_sec4, predicciones_entrenamiento_sec4)
rmse_sec4 = np.sqrt(mse_sec4)
r2_sec4 = mock_r2_score(demanda_historica_sec4, predicciones_entrenamiento_sec4)

meses_futuros_a_predecir_sec4 = np.array([9, 10, 11, 12]).reshape(-1, 1)
predicciones_futuras_sec4 = modelo_regresion_sec4.predict(meses_futuros_a_predecir_sec4)

output_strings_sec4 = [] # Renombrado
output_strings_sec4.append("--- Modelo de Regresión Lineal Simple ---")
output_strings_sec4.append(f"Ecuación del modelo: Demanda = {beta_0_sec4:.2f} + {beta_1_sec4:.2f} * Mes")
output_strings_sec4.append(f"MSE (sobre entrenamiento): {mse_sec4:.2f}")
output_strings_sec4.append(f"RMSE (sobre entrenamiento): {rmse_sec4:.2f}")
output_strings_sec4.append(f"R-cuadrado (sobre entrenamiento): {r2_sec4:.2f}")
output_strings_sec4.append("\n--- Predicciones de Demanda Futura ---")
for mes, prediccion in zip(meses_futuros_a_predecir_sec4.flatten(), predicciones_futuras_sec4):
    output_strings_sec4.append(f"Predicción de demanda para el mes {mes}: {prediccion:.0f} unidades")
output_strings_sec4.append("\nNota: Un gráfico de dispersión con la línea de regresión y predicciones se generaría aquí en un entorno Python con matplotlib.")

final_output_sec4 = "\n".join(output_strings_sec4) # Se asignará al div
print(final_output_sec4)

--- Modelo de Regresión Lineal Simple ---
Ecuación del modelo: Demanda = 78.93 + 16.90 * Mes
MSE (sobre entrenamiento): 5.95
RMSE (sobre entrenamiento): 2.44
R-cuadrado (sobre entrenamiento): 1.00

--- Predicciones de Demanda Futura ---
Predicción de demanda para el mes 9: 231 unidades
Predicción de demanda para el mes 10: 248 unidades
Predicción de demanda para el mes 11: 265 unidades
Predicción de demanda para el mes 12: 282 unidades

Nota: Un gráfico de dispersión con la línea de regresión y predicciones se generaría aquí en un entorno Python con matplotlib.


## **5. Detección y Prevención de Fallos en Tiempo Real**

Ejemplo en Python (Detección de anomalías con Z-score):

In [None]:
import numpy as np
import random

# Simulación de métricas de un servicio
def obtener_metrica_servicio_demo_sec5(): # Renombrado
    if random.random() < 0.03: return random.randint(300, 500)
    if random.random() < 0.02: return random.randint(1, 10)
    return random.normalvariate(100, 30)

VENTANA_HISTORICA_ZSCORE_SEC5 = 10
datos_historicos_metricas_sec5 = [] # Renombrado
UMBRAL_ZSCORE_SEC5 = 2.0

output_strings_sec5 = [] # Renombrado
output_strings_sec5.append("Iniciando monitoreo de servicio y detección de anomalías (Z-score)...")
output_strings_sec5.append(f"Ventana histórica: {VENTANA_HISTORICA_ZSCORE_SEC5} puntos, Umbral Z-score: {UMBRAL_ZSCORE_SEC5}\n")

random.seed(10) # Para resultados consistentes
for i in range(15): # Monitorear 15 ciclos para demo
    metrica_actual = obtener_metrica_servicio_demo_sec5()
    datos_historicos_metricas_sec5.append(metrica_actual)

    log_line = f"Ciclo {i+1:2d}: Métrica actual = {metrica_actual:7.2f} ms."

    if len(datos_historicos_metricas_sec5) > VENTANA_HISTORICA_ZSCORE_SEC5:
        ventana_actual = np.array(datos_historicos_metricas_sec5[-VENTANA_HISTORICA_ZSCORE_SEC5:])
        media_ventana = np.mean(ventana_actual)
        std_dev_ventana = np.std(ventana_actual)

        if std_dev_ventana > 1e-6:
            z_score = (metrica_actual - media_ventana) / std_dev_ventana
            log_line += f" (μ={media_ventana:.2f}, σ={std_dev_ventana:.2f}, Z={z_score:.2f})"
            if abs(z_score) > UMBRAL_ZSCORE_SEC5:
                log_line += f" <-- ¡ANOMALÍA DETECTADA!"
        else:
            log_line += " (σ~0)"

    output_strings_sec5.append(log_line)
    if len(datos_historicos_metricas_sec5) > VENTANA_HISTORICA_ZSCORE_SEC5 * 2: # Mantener la lista manejable
        datos_historicos_metricas_sec5.pop(0)

final_output_sec5 = "\n".join(output_strings_sec5) # Se asignará al div
print(final_output_sec5)

Iniciando monitoreo de servicio y detección de anomalías (Z-score)...
Ventana histórica: 10 puntos, Umbral Z-score: 2.0

Ciclo  1: Métrica actual =  105.06 ms.
Ciclo  2: Métrica actual =  109.41 ms.
Ciclo  3: Métrica actual =  146.71 ms.
Ciclo  4: Métrica actual =  116.58 ms.
Ciclo  5: Métrica actual =  106.10 ms.
Ciclo  6: Métrica actual =  334.00 ms.
Ciclo  7: Métrica actual =  108.21 ms.
Ciclo  8: Métrica actual =   95.21 ms.
Ciclo  9: Métrica actual =  100.63 ms.
Ciclo 10: Métrica actual =   65.52 ms.
Ciclo 11: Métrica actual =   75.58 ms. (μ=125.79, σ=72.50, Z=-0.69)
Ciclo 12: Métrica actual =  110.86 ms. (μ=125.94, σ=72.47, Z=-0.21)
Ciclo 13: Métrica actual =   82.81 ms. (μ=119.55, σ=73.17, Z=-0.50)
Ciclo 14: Métrica actual =   79.66 ms. (μ=115.86, σ=74.15, Z=-0.49)
Ciclo 15: Métrica actual =   68.75 ms. (μ=112.12, σ=75.48, Z=-0.57)


## **6. Optimización de la Distribución de Recursos**

Ejemplo en Python (Simulación de Balanceo de Carga):

In [None]:
import random

class ServidorDemoSec6: # Renombrado
    def __init__(self, id_servidor, capacidad_max=3):
        self.id = id_servidor
        self.capacidad_max = capacidad_max
        self.carga_actual = 0
        self.tareas_procesadas = 0

    def asignar_tarea(self):
        if self.carga_actual < self.capacidad_max:
            self.carga_actual += 1
            self.tareas_procesadas += 1
            return True
        return False

    def liberar_tarea(self):
        if self.carga_actual > 0:
            self.carga_actual -= 1

    def __str__(self):
        return f"Servidor({self.id}, Carga: {self.carga_actual}/{self.capacidad_max}, Procesadas: {self.tareas_procesadas})"

servidores_pool_sec6 = [ServidorDemoSec6("S1"), ServidorDemoSec6("S2"), ServidorDemoSec6("S3")] # Renombrado
proximo_servidor_rr_idx_sec6 = 0 # Renombrado
output_strings_sec6 = [] # Renombrado

def balanceador_round_robin_demo_sec6(pool): # Renombrado
    global proximo_servidor_rr_idx_sec6
    servidor_elegido = pool[proximo_servidor_rr_idx_sec6]
    proximo_servidor_rr_idx_sec6 = (proximo_servidor_rr_idx_sec6 + 1) % len(pool)
    return servidor_elegido

def balanceador_least_connections_demo_sec6(pool): # Renombrado
    mejor_servidor = None
    min_carga = float('inf')
    # Considerar solo servidores que pueden tomar más carga
    disponibles = [s for s in pool if s.carga_actual < s.capacidad_max]
    if not disponibles: # Si todos están llenos
        return pool[random.randint(0, len(pool)-1)] # Fallback aleatorio si todos llenos

    for srv in disponibles:
        if srv.carga_actual < min_carga:
            min_carga = srv.carga_actual
            mejor_servidor = srv
    return mejor_servidor if mejor_servidor else disponibles[0] # Fallback al primero disponible


output_strings_sec6.append("--- Simulación de Balanceo de Carga ---")
NUEVAS_TAREAS_DEMO_SEC6 = 7

output_strings_sec6.append("\n--- Usando Round Robin ---")
for s in servidores_pool_sec6: s.carga_actual = 0; s.tareas_procesadas = 0
proximo_servidor_rr_idx_sec6 = 0
random.seed(42)
for i in range(NUEVAS_TAREAS_DEMO_SEC6):
    servidor_asignado = balanceador_round_robin_demo_sec6(servidores_pool_sec6)
    if not servidor_asignado.asignar_tarea():
        output_strings_sec6.append(f"Tarea {i+1} NO PUDO ASIGNARSE (RR) - {servidor_asignado.id} está lleno.")
    else:
        output_strings_sec6.append(f"Tarea {i+1} asignada por RR a {servidor_asignado.id}. Carga: {servidor_asignado.carga_actual}")
    if i % 2 == 0 and i > 0 : servidores_pool_sec6[random.randint(0, len(servidores_pool_sec6)-1)].liberar_tarea()
output_strings_sec6.append("Estado final (Round Robin):")
for s in servidores_pool_sec6: output_strings_sec6.append(str(s))

output_strings_sec6.append("\n--- Usando Least Connections ---")
for s in servidores_pool_sec6: s.carga_actual = 0; s.tareas_procesadas = 0
random.seed(42) # Reset seed para comparabilidad
for i in range(NUEVAS_TAREAS_DEMO_SEC6):
    servidor_asignado = balanceador_least_connections_demo_sec6(servidores_pool_sec6)
    if not servidor_asignado.asignar_tarea():
         output_strings_sec6.append(f"Tarea {i+1} NO PUDO ASIGNARSE (LC) - {servidor_asignado.id} está lleno.")
    else:
        output_strings_sec6.append(f"Tarea {i+1} asignada por LC a {servidor_asignado.id}. Carga: {servidor_asignado.carga_actual}")
    if i % 2 == 0 and i > 0: servidores_pool_sec6[random.randint(0, len(servidores_pool_sec6)-1)].liberar_tarea()
output_strings_sec6.append("Estado final (Least Connections):")
for s in servidores_pool_sec6: output_strings_sec6.append(str(s))

final_output_sec6 = "\n".join(output_strings_sec6) # Se asignará al div
print(final_output_sec6)

--- Simulación de Balanceo de Carga ---

--- Usando Round Robin ---
Tarea 1 asignada por RR a S1. Carga: 1
Tarea 2 asignada por RR a S2. Carga: 1
Tarea 3 asignada por RR a S3. Carga: 1
Tarea 4 asignada por RR a S1. Carga: 2
Tarea 5 asignada por RR a S2. Carga: 2
Tarea 6 asignada por RR a S3. Carga: 1
Tarea 7 asignada por RR a S1. Carga: 2
Estado final (Round Robin):
Servidor(S1, Carga: 1/3, Procesadas: 3)
Servidor(S2, Carga: 2/3, Procesadas: 2)
Servidor(S3, Carga: 1/3, Procesadas: 2)

--- Usando Least Connections ---
Tarea 1 asignada por LC a S1. Carga: 1
Tarea 2 asignada por LC a S2. Carga: 1
Tarea 3 asignada por LC a S3. Carga: 1
Tarea 4 asignada por LC a S3. Carga: 1
Tarea 5 asignada por LC a S1. Carga: 2
Tarea 6 asignada por LC a S1. Carga: 2
Tarea 7 asignada por LC a S2. Carga: 2
Estado final (Least Connections):
Servidor(S1, Carga: 1/3, Procesadas: 3)
Servidor(S2, Carga: 2/3, Procesadas: 2)
Servidor(S3, Carga: 1/3, Procesadas: 2)


# **UNIDAD III.**

## **1. Estrategias de Almacenamiento Distribuido**

Ejemplo en Python (Simulación conceptual de distribución de datos con replicación):

In [None]:
import random

nodos_almacenamiento_u3s1 = ["Nodo_Alfa", "Nodo_Beta", "Nodo_Gamma", "Nodo_Delta"]
documentos_ids_u3s1 = [f"doc_{2000+i}" for i in range(8)] # 8 documentos para la demo
output_strings_u3s1 = []

def distribuir_dato_con_replicacion_u3s1(dato, nodos, num_replicas=2):
    if num_replicas > len(nodos):
        num_replicas = len(nodos)

    nodos_asignados = set()
    # Usamos el hash del dato y un offset para simular diferentes nodos para las réplicas
    # En sistemas reales, esto es mucho más complejo (considerando carga, localización, etc.)

    # Nodo primario
    indice_base = hash(str(dato)) % len(nodos)
    nodos_asignados.add(nodos[indice_base])

    # Nodos de réplica
    intentos_replica = 0
    while len(nodos_asignados) < num_replicas and intentos_replica < len(nodos) * 2:
        # Intentar un nodo diferente para la réplica, de forma simple
        offset = (intentos_replica + 1) * (hash(str(dato) + "_rep_" + str(intentos_replica)) % (len(nodos)-1) +1)
        indice_replica = (indice_base + offset) % len(nodos)
        nodos_asignados.add(nodos[indice_replica])
        intentos_replica += 1

    return list(nodos_asignados)

output_strings_u3s1.append("Distribuyendo IDs de documentos a nodos con replicación (simulación):")
random.seed(50) # Para consistencia en la demo
for doc_id in documentos_ids_u3s1:
    nodos_para_doc = distribuir_dato_con_replicacion_u3s1(doc_id, nodos_almacenamiento_u3s1, num_replicas=2)
    output_strings_u3s1.append(f"ID de Documento {doc_id} asignado a -> {', '.join(sorted(nodos_para_doc))}")

print("\n".join(output_strings_u3s1))

Distribuyendo IDs de documentos a nodos con replicación (simulación):
ID de Documento doc_2000 asignado a -> Nodo_Beta, Nodo_Delta
ID de Documento doc_2001 asignado a -> Nodo_Alfa, Nodo_Beta
ID de Documento doc_2002 asignado a -> Nodo_Beta, Nodo_Gamma
ID de Documento doc_2003 asignado a -> Nodo_Delta, Nodo_Gamma
ID de Documento doc_2004 asignado a -> Nodo_Alfa, Nodo_Gamma
ID de Documento doc_2005 asignado a -> Nodo_Alfa, Nodo_Delta
ID de Documento doc_2006 asignado a -> Nodo_Alfa, Nodo_Delta
ID de Documento doc_2007 asignado a -> Nodo_Beta, Nodo_Delta


## **2. Procesamiento de Datos en Lotes y en Tiempo Real**

Ejemplo en Python (Simulación conceptual de MapReduce para conteo de palabras - Batch):

In [None]:
from collections import defaultdict # Ya importado arriba, pero bueno para el bloque

documentos_batch_u3s2 = [
    "el veloz zorro marron salta sobre el perro perezoso",
    "el perro perezoso duerme bajo el arbol",
    "un zorro agil y un perro veloz son amigos"
]
output_strings_u3s2 = []

def mapper_conteo_palabras_u3s2(documento_texto):
    palabras = documento_texto.lower().split()
    pares_mapeados = []
    for palabra in palabras:
        pares_mapeados.append((palabra, 1))
    return pares_mapeados

def reducer_conteo_palabras_u3s2(palabra, conteos):
    return (palabra, sum(conteos))

output_strings_u3s2.append("--- Simulación de MapReduce para Conteo de Palabras (Batch) ---")
# Fase Map
resultados_mapeo_global_u3s2 = []
for doc in documentos_batch_u3s2:
    resultados_mapeo_global_u3s2.extend(mapper_conteo_palabras_u3s2(doc))
output_strings_u3s2.append(f"Resultados después de la fase MAP (lista de (palabra, 1)):")
# Para visualización más corta, mostrar solo una parte
output_strings_u3s2.append(str(resultados_mapeo_global_u3s2[:15]) + ('...' if len(resultados_mapeo_global_u3s2) > 15 else '') + "\n")


# Fase Shuffle & Sort (agrupar por clave)
datos_agrupados_para_reduce_u3s2 = defaultdict(list)
for palabra_clave, conteo_parcial in resultados_mapeo_global_u3s2:
    datos_agrupados_para_reduce_u3s2[palabra_clave].append(conteo_parcial)
output_strings_u3s2.append(f"Resultados después de SHUFFLE (agrupados por palabra, mostrando algunos):")
# Mostrar solo algunos para brevedad
preview_shuffle = {k: v for i, (k, v) in enumerate(datos_agrupados_para_reduce_u3s2.items()) if i < 5}
output_strings_u3s2.append(str(dict(preview_shuffle)) + ('...' if len(datos_agrupados_para_reduce_u3s2) > 5 else '') + "\n")


# Fase Reduce
resultados_finales_reduce_u3s2 = []
for palabra_agrupada, lista_conteos in datos_agrupados_para_reduce_u3s2.items():
    resultados_finales_reduce_u3s2.append(reducer_conteo_palabras_u3s2(palabra_agrupada, lista_conteos))

output_strings_u3s2.append("Resultados finales después de la fase REDUCE (conteo total por palabra):")
for palabra, total in sorted(resultados_finales_reduce_u3s2):
    output_strings_u3s2.append(f"- '{palabra}': {total}")

output_strings_u3s2.append("\n--- Para Procesamiento en Tiempo Real (Streaming) ---")
output_strings_u3s2.append("Ver ejemplo en Unidad 2, sección 2.")

print("\n".join(output_strings_u3s2))

--- Simulación de MapReduce para Conteo de Palabras (Batch) ---
Resultados después de la fase MAP (lista de (palabra, 1)):
[('el', 1), ('veloz', 1), ('zorro', 1), ('marron', 1), ('salta', 1), ('sobre', 1), ('el', 1), ('perro', 1), ('perezoso', 1), ('el', 1), ('perro', 1), ('perezoso', 1), ('duerme', 1), ('bajo', 1), ('el', 1)]...

Resultados después de SHUFFLE (agrupados por palabra, mostrando algunos):
{'el': [1, 1, 1, 1], 'veloz': [1, 1], 'zorro': [1, 1], 'marron': [1], 'salta': [1]}...

Resultados finales después de la fase REDUCE (conteo total por palabra):
- 'agil': 1
- 'amigos': 1
- 'arbol': 1
- 'bajo': 1
- 'duerme': 1
- 'el': 4
- 'marron': 1
- 'perezoso': 2
- 'perro': 3
- 'salta': 1
- 'sobre': 1
- 'son': 1
- 'un': 2
- 'veloz': 2
- 'y': 1
- 'zorro': 2

--- Para Procesamiento en Tiempo Real (Streaming) ---
Ver ejemplo en Unidad 2, sección 2.


## **3. Escalabilidad y Rendimiento**

Ejemplo en Python (Ilustración conceptual de paralelización con `multiprocessing`):

In [None]:
import time
# import multiprocessing # No se puede usar directamente en el navegador para la demo
import os # os.getpid() no funcionará igual

NUM_DATOS_GRANDES_U3S3 = 100000 # Reducido para demo
output_strings_u3s3 = []

def procesar_elemento_costoso_u3s3(elemento):
    # Simulación de tarea que consume algo de tiempo
    # En una tarea real ligada a CPU, el paralelismo ayudaría.
    # Para la demo, el efecto es solo conceptual.
    resultado = 0
    for i in range( (elemento % 20) + 10): # Bucle pequeño para simular trabajo
        resultado += i
    return resultado

output_strings_u3s3.append(f"\n--- Comparación de Rendimiento: Secuencial vs. Paralelo (Conceptual) ---")
output_strings_u3s3.append(f"Procesando {NUM_DATOS_GRANDES_U3S3} elementos con una tarea 'costosa'.")

datos_grandes_mp_u3s3 = list(range(NUM_DATOS_GRANDES_U3S3))

# --- Procesamiento Secuencial (simulado) ---
output_strings_u3s3.append("\n--- Ejecutando Procesamiento Secuencial (Simulado) ---")
inicio_secuencial_mp_u3s3 = time.time() # Esto es tiempo real del navegador
# Simulación del procesamiento
resultados_secuenciales_mp_u3s3 = [procesar_elemento_costoso_u3s3(item) for item in datos_grandes_mp_u3s3[:1000]] # Procesar solo una parte para demo
# fin_secuencial_mp_u3s3 = time.time()
# tiempo_secuencial_u3s3 = fin_secuencial_mp_u3s3 - inicio_secuencial_mp_u3s3
# Para la demo, asignamos un tiempo simulado mayor para el secuencial
tiempo_secuencial_u3s3 = 0.8534 # Tiempo simulado

output_strings_u3s3.append(f"Tiempo de procesamiento secuencial (simulado): {tiempo_secuencial_u3s3:.4f} segundos")

# --- Procesamiento Paralelo (simulado conceptualmente) ---
output_strings_u3s3.append("\n--- Ejecutando Procesamiento Paralelo (Conceptual Simulado) ---")
num_procesos_simulados = 4 # Simular 4 cores
output_strings_u3s3.append(f"Usando {num_procesos_simulados} procesos (simulados).")

# inicio_paralelo_mp_u3s3 = time.time()
# Simulación del procesamiento paralelo (sería más rápido)
# En una simulación real, dividiríamos la tarea y sumaríamos el tiempo del chunk más largo.
# Aquí, simplemente asignamos un tiempo menor.
# resultados_paralelos_mp_u3s3 = resultados_secuenciales_mp_u3s3 # Asumimos mismos resultados
# fin_paralelo_mp_u3s3 = time.time()
# tiempo_paralelo_u3s3 = (fin_paralelo_mp_u3s3 - inicio_paralelo_mp_u3s3) * 1.5 # Ajuste para demo
tiempo_paralelo_u3s3 = tiempo_secuencial_u3s3 / (num_procesos_simulados * 0.7) # Simular speedup imperfecto

output_strings_u3s3.append(f"Tiempo de procesamiento paralelo (simulado): {tiempo_paralelo_u3s3:.4f} segundos")

if tiempo_paralelo_u3s3 > 0 :
    speedup_u3s3 = tiempo_secuencial_u3s3 / tiempo_paralelo_u3s3
    output_strings_u3s3.append(f"\nSpeedup (Mejora de velocidad simulada): {speedup_u3s3:.2f}x")
else:
    output_strings_u3s3.append("\nNo se pudo calcular el speedup (tiempo paralelo simulado fue cero).")

output_strings_u3s3.append("\nNota: El speedup real depende de la naturaleza de la tarea (CPU-bound vs I/O-bound),")
output_strings_u3s3.append("la sobrecarga de la paralelización, y el número de cores físicos.")