# ¬øQU√â ES EL COSTO COMPUTACIONAL EN BIG DATA?

En **entornos de Big Data**, el **costo computacional** hace referencia a la cantidad de **recursos de procesamiento, memoria, almacenamiento y red** necesarios para mover, transformar y analizar grandes vol√∫menes de informaci√≥n. Este costo no solo impacta el **tiempo de ejecuci√≥n**, sino tambi√©n la **escalabilidad**, la **latencia de las aplicaciones** y los **gastos en infraestructura**, especialmente cuando se trabaja en la nube.

## Factores clave

* **Volumen de datos:** mientras m√°s grande sea el dataset (terabytes o petabytes), mayor ser√° el costo en c√≥mputo y almacenamiento.
* **Complejidad de los procesos:** transformaciones pesadas, uniones distribuidas o algoritmos de aprendizaje autom√°tico sobre millones de registros demandan muchos recursos.
* **Arquitectura y paralelizaci√≥n:** la elecci√≥n entre procesamiento en **lotes (batch)** o **tiempo real (streaming)**, y el uso de cl√∫steres distribuidos (Spark, Flink, Hadoop) influyen en el costo.
* **Optimizaci√≥n del pipeline:** √≠ndices, particiones, cach√©s y uso eficiente de memoria ayudan a reducir el consumo.

En este cuaderno, exploraremos:

- El concepto de eficiencia de algoritmos y la notaci√≥n Big O.
- C√≥mo medir el tiempo de ejecuci√≥n en Python.
- Casos de estudio comparando diferentes algoritmos.
- Visualizaci√≥n del tiempo de ejecuci√≥n versus el tama√±o del problema.
- Discusi√≥n sobre consideraciones de uso de memoria.

---


## Ejemplos

### Clasificaci√≥n en cl√∫sters

Al entrenar un modelo de **clasificaci√≥n en un cl√∫ster de Big Data**, como un **bosque aleatorio** o una **red neuronal profunda**, el costo computacional aumenta con:

* El **tama√±o del conjunto de entrenamiento** (m√°s nodos deben procesar datos en paralelo).
* La **complejidad del modelo** (m√°s √°rboles, capas o neuronas incrementan el tiempo y los recursos).
* La necesidad de **reentrenar frecuentemente** para datos en streaming, lo que exige mayor disponibilidad y tolerancia a fallos.

En este contexto, gestionar el costo computacional es clave para lograr **pipelines eficientes**, **sistemas escalables** y **anal√≠tica en tiempo razonable** sin sobrepasar los presupuestos de infraestructura.

### B√∫squeda de patrones en Big Data

La **b√∫squeda de patrones** es una tarea fundamental en procesos como el **an√°lisis de im√°genes, series temporales o textos masivos**.

* **Enfoque de fuerza bruta:** recorrer todos los datos de forma secuencial para identificar patrones puede resultar extremadamente costoso en t√©rminos de **tiempo de procesamiento, uso de CPU/GPU y memoria**, sobre todo cuando los vol√∫menes de informaci√≥n alcanzan terabytes o petabytes.

* **Enfoques avanzados:** t√©cnicas de **aprendizaje profundo (deep learning)** y **modelos distribuidos** permiten **paralelizar el an√°lisis** y **optimizar la b√∫squeda**. Esto reduce el costo computacional al aprovechar arquitecturas modernas como **GPUs, TPUs** y **cl√∫steres distribuidos** con frameworks (TensorFlow, PyTorch, Spark MLlib).

En un pipeline de Big Data que procesa millones de im√°genes m√©dicas, un enfoque de fuerza bruta para detectar anomal√≠as ser√≠a inviable. En cambio, un modelo de redes neuronales convolucionales (CNN) desplegado en un cl√∫ster distribuido puede **detectar patrones relevantes de manera m√°s r√°pida, escalable y eficiente en costos**.

## An√°lisis de grafos

El **an√°lisis de grafos** es clave para problemas como el **estudio de redes sociales**, la **detecci√≥n de comunidades**, la **identificaci√≥n de influenciadores**, o el **an√°lisis de relaciones en bases de datos y sistemas de conocimiento**.

* **Alta complejidad:** cuando la cantidad de **nodos** y **aristas** es muy grande (millones o incluso billones), el **costo computacional** crece de manera exponencial, ya que recorrer el grafo completo exige mucho tiempo y memoria.

* **Algoritmos eficientes:** para manejar estas escalas se utilizan **algoritmos distribuidos y optimizados** que permiten realizar operaciones como **PageRank, detecci√≥n de cliques, caminos m√°s cortos o clustering de grafos** sobre plataformas de Big Data. Frameworks como **Apache Spark GraphX, Neo4j, GraphFrames o Pregel** permiten paralelizar estas tareas.

En una red social global, al aplicar algoritmos distribuidos de grafos sobre un cl√∫ster, es posible **procesar billones de relaciones de manera escalable y en tiempos razonables**.

---


## ¬øPor qu√© es clave considerar el costo computacional en Big Data?

### 1. **Toma de decisiones estrat√©gicas**

En proyectos de **transformaci√≥n digital** y **anal√≠tica avanzada**, la direcci√≥n debe evaluar el **costo computacional** de cada tecnolog√≠a (IA, blockchain, big data, IoT) antes de adoptarla:

* **Priorizaci√≥n de proyectos:** ¬øvale la pena entrenar un modelo de machine learning complejo que consume semanas de GPUs y millones de d√≥lares?
* **Balance costo/beneficio:** en algunos casos, modelos **livianos (TinyML, MobileNet)** son m√°s sostenibles que arquitecturas pesadas.
* **Infraestructura:** decidir entre **on-premise** (inversi√≥n inicial alta) o **cloud computing** (flexibilidad, pero costos variables seg√∫n uso).

üí° *Ejemplo:* una empresa que implementa **vision por computador** para control de calidad en f√°bricas debe elegir entre:

* Un algoritmo muy preciso pero caro en GPUs.
* Un modelo m√°s eficiente (ej. **MobileNet en edge devices**) con menor costo.

### 2. **Optimizaci√≥n de recursos**

La ingenier√≠a de datos debe garantizar que el costo computacional no crezca sin control:

* **Escalabilidad:** un pipeline mal optimizado puede generar costos exponenciales con el aumento de usuarios (ej. apps que sobrecargan RAM).
* **Automatizaci√≥n:** **RPA (Robotic Process Automation)** y optimizaci√≥n de queries/ETL reducen costos frente a procesos manuales o ineficientes.
* **Monitorizaci√≥n en la nube:** servicios como **AWS Cost Explorer** o **Google Cloud Billing** permiten auditar en tiempo real.

üí° *Ejemplo:* **Netflix** reduce el costo de transmisi√≥n masiva aplicando c√≥decs de compresi√≥n m√°s eficientes (**AV1**), que disminuyen el ancho de banda sin perder calidad.

### 3. **Sostenibilidad y ESG**

El costo computacional no solo es econ√≥mico: tambi√©n afecta la **huella de carbono**.

* **Centros de datos verdes:** elegir proveedores que usan energ√≠as renovables (Google Cloud, AWS con energ√≠a solar/e√≥lica).
* **Green IT en IA:** aplicar t√©cnicas de **pruning** y **quantization** para reducir consumo energ√©tico.
* **KPIs ambientales:** medir indicadores como **PUE (Power Usage Effectiveness)** en data centers.

üìä *Dato:* Entrenar **GPT-3** gener√≥ unas **552 toneladas de CO‚ÇÇ**. Estrategias como **federated learning** reducen el costo energ√©tico al procesar datos localmente.

### 4. **Innovaci√≥n con restricciones**

No todas las empresas tienen el presupuesto de Google o Amazon. Las soluciones deben ser **eficientes y frugales**:

* **Serverless computing (AWS Lambda, GCP Functions):** pagar solo por uso.
* **Arquitecturas edge computing:** menor costo de transmisi√≥n y latencia frente a cloud centralizado.
* **Hardware adecuado:** balancear inversi√≥n en **GPUs para IA** vs. **CPUs optimizadas** para procesamiento masivo de datos.

üí° *Caso real:* startups de salud usan modelos como **EfficientNet** para diagn√≥stico de im√°genes m√©dicas con bajo costo computacional, evitando infraestructura cara.

### 5. **Riesgos y gobernanza**

El costo computacional tambi√©n implica riesgos financieros y regulatorios:

* **Ciberseguridad:** ataques DDoS pueden disparar costos de infraestructura por sobrecarga en servidores.
* **Cumplimiento normativo (GDPR, LGPD):** procesamiento local obligatorio incrementa costos frente a soluciones distribuidas en la nube.
* **Baja latencia vs. encriptaci√≥n:** procesar en tiempo real exige infraestructura costosa; a√±adir seguridad (encriptaci√≥n) eleva a√∫n m√°s la carga computacional.

üí° *Ejemplo:* un **banco** que procesa millones de transacciones por segundo debe balancear:

* **Velocidad** con infraestructura de baja latencia (costo alto).
* **Cumplimiento y seguridad**, que agregan cargas de c√≥mputo.

---


## ¬øC√ìMO SE CALCULA EL COSTO COMPUTACIONAL EN BIG DATA?

El **costo computacional** en proyectos de **ingenier√≠a de datos y anal√≠tica en gran escala** puede evaluarse desde diferentes √°ngulos. No existe una √∫nica m√©trica universal: depende del tipo de tarea, del volumen de datos y de la infraestructura. A continuaci√≥n, algunos de los enfoques m√°s utilizados:

### 1. **Tiempo de ejecuci√≥n (performance real)**

* Se mide cu√°nto tarda un pipeline, query o modelo en procesar un volumen de datos.
* Ejemplo: un job de **Spark** que procesa 1 TB en 3 minutos frente a otro que tarda 15 minutos. El primero es m√°s eficiente en costo temporal y probablemente en uso de recursos.
* En ambientes cloud, el **tiempo de ejecuci√≥n** est√° directamente ligado al **costo monetario**, ya que m√°s tiempo significa m√°s horas de c√≥mputo facturadas.

### 2. **Complejidad computacional (an√°lisis te√≥rico)**

* Se mide con **notaci√≥n Big-O**: O(n), O(n log n), O(n¬≤), etc.
* En Big Data, algoritmos con **O(n¬≤)** se vuelven inviables al crecer los datos (millones de registros).
* Ejemplo: un algoritmo de b√∫squeda secuencial O(n) sobre un grafo con mil millones de nodos puede ser reemplazado por un enfoque distribuido m√°s eficiente (ej. PageRank optimizado en GraphX).

### 3. **Uso de recursos (medici√≥n pr√°ctica)**

* Incluye **CPU, GPU, memoria RAM, disco, ancho de banda de red** y **costos de almacenamiento**.
* Ejemplo: un proceso de ETL que carga un dataset completo en memoria puede ser mucho m√°s costoso que uno que procesa en *streaming* por lotes peque√±os.
* Herramientas como **Spark UI, Kubernetes Metrics, AWS CloudWatch o GCP Stackdriver** permiten medir este consumo.

### 4. **Escalabilidad (capacidad de crecer con los datos)**

* Eval√∫a si el sistema mantiene eficiencia al aumentar volumen o usuarios.
* Ejemplo: un pipeline en **batch** que funciona con 10 GB pero falla con 10 TB no es escalable.
* La escalabilidad puede lograrse con **arquitecturas distribuidas** (Hadoop, Spark, Flink, Dask) que permiten dividir la carga entre m√∫ltiples nodos.


‚úÖ En **ingenier√≠a de datos y Big Data**, calcular el costo computacional implica combinar estas perspectivas:

* **Te√≥rica (complejidad)** ‚Üí para estimar crecimiento.
* **Pr√°ctica (tiempo y recursos)** ‚Üí para medir en producci√≥n.
* **Estrat√©gica (escalabilidad y costo econ√≥mico/energ√©tico)** ‚Üí para planificar a largo plazo.

## Complejidad Temporal y Notaci√≥n Big O

La **complejidad temporal** de un algoritmo es una medida te√≥rica que describe la cantidad de tiempo que un algoritmo tarda en ejecutarse en funci√≥n del tama√±o de la entrada. Es una herramienta fundamental en inform√°tica y matem√°ticas para analizar y comparar la eficiencia de diferentes algoritmos.

La **notaci√≥n Big O** es una notaci√≥n matem√°tica utilizada para describir el comportamiento asint√≥tico de funciones. En el contexto de algoritmos, se utiliza para clasificar el tiempo de ejecuci√≥n o uso de recursos en funci√≥n del tama√±o de la entrada.

---

### **Conceptos Clave**

#### **Comportamiento Asint√≥tico**

El comportamiento asint√≥tico se refiere al an√°lisis del rendimiento de un algoritmo cuando el tama√±o de la entrada tiende a infinito. Nos permite enfocarnos en la tendencia general y no en detalles espec√≠ficos para entradas peque√±as.

#### **Funciones de Complejidad Comunes**

- **O(1) - Tiempo Constante**: El tiempo de ejecuci√≥n no depende del tama√±o de la entrada.
- **O(log n) - Tiempo Logar√≠tmico**: El tiempo de ejecuci√≥n crece proporcionalmente al logaritmo del tama√±o de la entrada.
- **O(n) - Tiempo Lineal**: El tiempo de ejecuci√≥n crece linealmente con el tama√±o de la entrada.
- **O(n log n) - Tiempo Lineal-Logar√≠tmico**: Combinaci√≥n de lineal y logar√≠tmico, com√∫n en algoritmos de ordenamiento eficientes.
- **O(n¬≤) - Tiempo Cuadr√°tico**: El tiempo de ejecuci√≥n es proporcional al cuadrado del tama√±o de la entrada, t√≠pico en algoritmos con bucles anidados.
- **O(2‚Åø) - Tiempo Exponencial**: El tiempo de ejecuci√≥n se duplica con cada incremento en el tama√±o de la entrada; ineficiente para grandes n.

---

### **Notaci√≥n Big O**

La notaci√≥n Big O formaliza el l√≠mite superior del crecimiento de una funci√≥n. Decimos que una funci√≥n f(n) es O(g(n)) si existen constantes positivas **c** y **n‚ÇÄ** tales que:

$$
0 \leq f(n) \leq c \cdot g(n) \quad \text{para todo} \ n \geq n‚ÇÄ
$$

Esto implica que, para valores suficientemente grandes de n, f(n) no crece m√°s r√°pido que g(n), excepto por un factor constante.

---

### **Casos Detallados**

#### **Tiempo Constante - O(1)**

El tiempo de ejecuci√≥n es independiente del tama√±o de la entrada.

**Ejemplo:**

Acceder a un elemento espec√≠fico en un array.

```python
def obtener_elemento(array, √≠ndice):
    return array[√≠ndice]
```

**An√°lisis:**

La operaci√≥n de acceso directo en un array es constante, sin importar cu√°ntos elementos tenga el array.

---

#### **Tiempo Logar√≠tmico - O(log n)**

El tiempo de ejecuci√≥n aumenta logar√≠tmicamente con el tama√±o de la entrada. Cada paso reduce la cantidad de datos a la mitad.

**Ejemplo:**

B√∫squeda binaria en un array ordenado.

```python
def b√∫squeda_binaria(array, objetivo):
    izquierda = 0
    derecha = len(array) - 1
    while izquierda <= derecha:
        medio = (izquierda + derecha) // 2
        if array[medio] == objetivo:
            return medio
        elif array[medio] < objetivo:
            izquierda = medio + 1
        else:
            derecha = medio - 1
    return -1
```

**An√°lisis:**

En cada iteraci√≥n, el espacio de b√∫squeda se reduce a la mitad, resultando en un m√°ximo de log‚ÇÇ(n) iteraciones.

---

#### **Tiempo Lineal - O(n)**

El tiempo de ejecuci√≥n es directamente proporcional al tama√±o de la entrada.

**Ejemplo:**

Encontrar el elemento m√°ximo en una .

```python
def encontrar_m√°ximo(lista):
    m√°ximo = lista[0]
    for elemento en lista:
        if elemento > m√°ximo:
            m√°ximo = elemento
    return m√°ximo
```

**An√°lisis:**

Se recorre cada elemento una vez, realizando una comparaci√≥n por elemento.

---

#### **Tiempo Lineal-Logar√≠tmico - O(n log n)**

Combinaci√≥n de comportamiento lineal y logar√≠tmico. Com√∫n en algoritmos de ordenamiento eficientes.

**Ejemplo:**

Ordenamiento por mezcla (Merge Sort).

<p align="center">
<image src="amerge-sort-algorithm.png.webp" alt="Descripci√≥n de la imagen">
</p>

```python
def merge_sort(lista):
    if len(lista) > 1:
        medio = len(lista) // 2
        izquierda = lista[:medio]
        derecha = lista[medio:]
        merge_sort(izquierda)
        merge_sort(derecha)
        i = j = k = 0
        while i < len(izquierda) and j < len(derecha):
            if izquierda[i] < derecha[j]:
                lista[k] = izquierda[i]
                i += 1
            else:
                lista[k] = derecha[j]
                j += 1
            k += 1
            while i < len(izquierda):
                lista[k] = izquierda[i]
                i += 1
                k += 1
            while j < len(derecha):
                lista[k] = derecha[j]
                j += 1
                k += 1
```

**An√°lisis:**

Divide la lista repetidamente (log n) y combina las sublistas (n), resultando en O(n log n).

---

#### **Tiempo Cuadr√°tico - O(n¬≤)**

El tiempo de ejecuci√≥n es proporcional al cuadrado del tama√±o de la entrada.

**Ejemplo:**

Ordenamiento por burbuja.

```python

def ordenamiento_burbuja(lista):
    n = len(lista)
    for i in range(n):
        for j in range(0, n - i - 1):
            if lista[j] > lista[j + 1]:
                lista[j], lista[j + 1] = lista[j + 1], lista[j]
```

**An√°lisis:**

Dos bucles anidados que recorren la lista, resultando en n * n = n¬≤ iteraciones.

---

#### **Tiempo Exponencial - O(2‚Åø)**

El tiempo de ejecuci√≥n se duplica con cada incremento en el tama√±o de la entrada.

**Ejemplo:**

Resoluci√≥n de problemas combinatorios, como el c√°lculo de todos los subconjuntos de un conjunto.

```python
def generar_subconjuntos(conjunto):
    if not conjunto:
        return [[]]
    elemento = conjunto[0]
    sin_elemento = generar_subconjuntos(conjunto[1:])
    con_elemento = [ [elemento] + subconjunto for subconjunto in sin_elemento ]
    return sin_elemento + con_elemento
```

**An√°lisis:**

El n√∫mero de subconjuntos de un conjunto de tama√±o n es 2‚Åø.

---

### **Reglas para Calcular la Complejidad**

- **Regla de la Suma:** Si un algoritmo realiza una secuencia de pasos, la complejidad total es la suma de las complejidades de cada paso.

  $$
  O(f(n)) + O(g(n)) = O(\max(f(n), g(n)))
  $$

- **Regla del Producto:** Para bucles anidados, la complejidad es el producto de las complejidades de cada bucle.

  $$
  O(n) \times O(n) = O(n^2)
  $$

#### **Ignorar Constantes y T√©rminos de Menor Orden**

En notaci√≥n Big O, se omiten constantes multiplicativas y t√©rminos de menor grado porque el comportamiento asint√≥tico se centra en el crecimiento dominante.

- O(3n) se simplifica a O(n)
- O(n + log n) se simplifica a O(n)
- O(n¬≤ + n) se simplifica a O(n¬≤)

---

### Importancia

La complejidad temporal es crucial debido a:

- **Escalabilidad:** Al trabajar con grandes conjuntos de datos o matrices, un aumento en la complejidad puede hacer que un algoritmo sea impracticable.
- **Optimizaci√≥n:** Permite identificar partes del algoritmo que pueden mejorarse.
- **Comparaci√≥n de Algoritmos:** Facilita la elecci√≥n del algoritmo m√°s eficiente para un problema dado.

---

### **C√≥mo Realizar el An√°lisis de Complejidad**

1. **Identificar las Operaciones B√°sicas:**
   - Las que m√°s contribuyen al tiempo total.
2. **Contar el N√∫mero de Veces que se Ejecutan:**
   - En funci√≥n del tama√±o de la entrada n.
3. **Expresar el Tiempo Total:**
   - Como una funci√≥n matem√°tica de n.
4. **Simplificar Usando Notaci√≥n Big O:**
   - Mantener solo el t√©rmino de mayor grado.

---

### **Limitaciones de la Notaci√≥n Big O**

- **No Indica el Tiempo Exacto de Ejecuci√≥n:** Solo proporciona una cota superior.
- **No Considera Constantes Ocultas:** Las constantes pueden ser significativas en la pr√°ctica.
- **Asume que Todas las Operaciones Toman el Mismo Tiempo:** Lo cual puede no ser cierto en sistemas reales.

---

## Como Medir el Tiempo de Ejecuci√≥n en Python

Python proporciona los m√≥dulos `time` y `timeit` para medir el tiempo de ejecuci√≥n de fragmentos de c√≥digo.

### Ejemplo 1: 
Calcular el promedio de un conjunto de 10 millones de n√∫meros aleatorios utilizando un enfoque de fuerza bruta (sumando todos los valores y dividiendo entre el n√∫mero de elementos). Medir el tiempo de ejecuci√≥n del algoritmo.

In [None]:
import random
import time

# Generar 10 millones de n√∫meros aleatorios
data = [random.random() for _ in range(1000000000)]

# Calcular el promedio utilizando un enfoque de fuerza bruta
start_time = time.time()
total = sum(data)
average = total / len(data)
end_time = time.time()

# Medir el tiempo de ejecuci√≥n del algoritmo
execution_time = end_time - start_time

print(f"El promedio es: {average}")
print(f"Tiempo de ejecuci√≥n: {execution_time} segundos")


## Ejercicio 2: 

Ordenar un conjunto de 100.000 n√∫meros aleatorios utilizando el algoritmo de ordenamiento de selecci√≥n. Medir el tiempo de ejecuci√≥n del algoritmo.

In [1]:
import random
import time

# Generar 100,000 n√∫meros aleatorios
data = [random.randint(1, 100000) for _ in range(100000)]

# Implementar el algoritmo de ordenamiento de selecci√≥n
def selection_sort(data):
    n = len(data)
    for i in range(n):
        min_idx = i
        for j in range(i+1, n):
            if data[j] < data[min_idx]:
                min_idx = j
        data[i], data[min_idx] = data[min_idx], data[i]

# Ordenar el conjunto de datos utilizando el algoritmo de selecci√≥n
start_time = time.time()
selection_sort(data)
end_time = time.time()

# Medir el tiempo de ejecuci√≥n del algoritmo
execution_time = end_time - start_time

print(f"El conjunto de datos ordenado es: {data}")
print(f"Tiempo de ejecuci√≥n: {execution_time} segundos")


KeyboardInterrupt: 

### Ejemplo 3: 
Medir el tiempo de ejecucion de un bucle simple usando `timeit`

In [4]:
import timeit

# Definir una funci√≥n simple
def bucle_simple(n):
    total = 0
    for i in range(n):
        total += i
    return total

# Medir el tiempo de ejecuci√≥n
n = 10000
tiempo_ejecucion = timeit.timeit(lambda: bucle_simple(n), number=10)
print(f"Tiempo promedio de ejecuci√≥n en 10 ejecuciones: {tiempo_ejecucion / 10:.6f} segundos")

n = 100000
tiempo_ejecucion = timeit.timeit(lambda: bucle_simple(n), number=10)
print(f"Tiempo promedio de ejecuci√≥n en 10 ejecuciones: {tiempo_ejecucion / 10:.6f} segundos")

n = 1000000
tiempo_ejecucion = timeit.timeit(lambda: bucle_simple(n), number=10)
print(f"Tiempo promedio de ejecuci√≥n en 10 ejecuciones: {tiempo_ejecucion / 10:.6f} segundos")

Tiempo promedio de ejecuci√≥n en 10 ejecuciones: 0.000459 segundos
Tiempo promedio de ejecuci√≥n en 10 ejecuciones: 0.003394 segundos
Tiempo promedio de ejecuci√≥n en 10 ejecuciones: 0.036714 segundos


## Analisis de Complejidad Computacional:


Ejemplo 1:  Analizar la complejidad computacional de un algoritmo para calcular el m√°ximo de un conjunto de 10000 n√∫meros aleatorios utilizando un enfoque de fuerza bruta.


In [None]:
import random

# Generar 100 n√∫meros aleatorios
data = [random.randint(1, 10000) for _ in range(1000)]

# Calcular el m√°ximo utilizando un enfoque de fuerza bruta
max_num = data[0]
for num in data:
    if num > max_num:
        max_num = num
print(num)


En este caso la complejidad computacional es O(n)


Ejemplo 2: 

Contar el n√∫mero de elementos duplicados en un conjunto de 1000 n√∫meros aleatorios. Analizar la complejidad computacional del algoritmo.

In [None]:
import random

# Generar 1000 n√∫meros aleatorios
data = [random.randint(1, 1000) for _ in range(1000)]

# Contar el n√∫mero de elementos duplicados utilizando un enfoque de fuerza bruta
duplicates = set()
for i in range(len(data)):
    for j in range(i+1, len(data)):
        if data[i] == data[j]:
            duplicates.add(data[i])

# Contar el n√∫mero de elementos duplicados
num_duplicates = len(duplicates)
print(num_duplicates)

En este caso la complejidad computacional es O(n^2)

## Como Medir el Uso de Recursos:


### Ejemplo 1:
Ordenar un conjunto de 10.000 n√∫meros aleatorios en orden ascendente utilizando el algoritmo de ordenamiento por selecci√≥n. Medir el tiempo de ejecuci√≥n y la memoria utilizada por el algoritmo.

In [None]:
import random
import time
import sys

# Generar 10,000 n√∫meros aleatorios
data = [random.randint(1, 10000) for _ in range(10000)]

# Implementar el algoritmo de ordenamiento por selecci√≥n
start_time = time.time()

for i in range(len(data)):
    min_index = i
    for j in range(i+1, len(data)):
        if data[j] < data[min_index]:
            min_index = j
    data[i], data[min_index] = data[min_index], data[i]

end_time = time.time()
# Medir el tiempo de ejecuci√≥n y la memoria utilizada
time_elapsed = end_time - start_time
memory_used = sys.getsizeof(data)

print(f"Tiempo de ejecuci√≥n: {time_elapsed} segundos")
print(f"Memoria utilizada: {memory_used} bytes")

### Ejemplo 2: 

Calcular la suma de dos matrices de 100x100. Medir el tiempo de ejecuci√≥n y la memoria utilizada por el algoritmo.

In [None]:
import random
import time
import sys

# Generar dos matrices de 100x100 con n√∫meros aleatorios
matrix1 = [[random.randint(1, 100) for _ in range(100)] for _ in range(100)]
matrix2 = [[random.randint(1, 100) for _ in range(100)] for _ in range(100)]

# Implementar el algoritmo para sumar dos matrices
start_time = time.time()

result = [[0 for _ in range(100)] for _ in range(100)]
for i in range(100):
    for j in range(100):
        result[i][j] = matrix1[i][j] + matrix2[i][j]

end_time = time.time()

# Medir el tiempo de ejecuci√≥n y la memoria utilizada
time_elapsed = end_time - start_time
memory_used = sys.getsizeof(result)

print(f"Tiempo de ejecuci√≥n: {time_elapsed} segundos")
print(f"Memoria utilizada: {memory_used} bytes")

---

## Caso de Estudio: Resolviendo Sistemas Lineales

Consideremos resolver el sistema lineal **Ax = b**, donde **A** es una matriz **n x n**, y **b** es un vector de tama√±o **n**.

### 3.2 M√©todos:

- **Eliminaci√≥n Gaussiana**: M√©todo directo con complejidad temporal **O(n¬≥)**.
- **Descomposici√≥n LU**: Factoriza la matriz **A** en matrices **L** y **U**.
- **M√©todos Iterativos**: Como los m√©todos de Jacobi o Gauss-Seidel, √∫tiles para matrices grandes y dispersas.

### Implementaci√≥n y Comparaci√≥n:

In [2]:
import numpy as np
from scipy.linalg import lu_solve, lu_factor
from scipy.sparse import diags
from scipy.sparse.linalg import cg  # M√©todo del Gradiente Conjugado
import time

# Funci√≥n para resolver usando Eliminaci√≥n Gaussiana (np.linalg.solve)
def resolver_gaussiana(A, b):
    return np.linalg.solve(A, b)

# Funci√≥n para resolver usando Descomposici√≥n LU
def resolver_lu(A, b):
    lu, piv = lu_factor(A)
    return lu_solve((lu, piv), b)

# Funci√≥n para resolver usando M√©todo Iterativo (Gradiente Conjugado)
def resolver_iterativo(A, b):
    x, info = cg(A, b)
    return x

---

### 3.2 Grafica del Tiempo de Ejecuci√≥n vs. Tama√±o del Problema

Vamos a medir y graficar el tiempo de ejecuci√≥n de estos m√©todos para diferentes tama√±os de **n**.

### C√≥digo:

In [None]:
import matplotlib.pyplot as plt

# Tama√±os del problema
valores_n = [100, 200, 400, 800, 1600, 3200, 6400]

tiempos_gaussiana = []
tiempos_lu = []
tiempos_iterativo = []

for n in valores_n:
    # Crear una matriz y vector aleatorios
    A = np.random.rand(n, n)
    b = np.random.rand(n)

    # Medir tiempo de Eliminaci√≥n Gaussiana
    inicio = time.time()
    resolver_gaussiana(A, b)
    tiempos_gaussiana.append(time.time() - inicio)

    # Medir tiempo de Descomposici√≥n LU
    inicio = time.time()
    resolver_lu(A, b)
    tiempos_lu.append(time.time() - inicio)

    # Medir tiempo del M√©todo Iterativo (usando una matriz dispersa diagonal para eficiencia)
    diagonales = [np.ones(n-1), np.ones(n), np.ones(n-1)]
    A_dispersa = diags(diagonales, offsets=[-1, 0, 1])
    b_dispersa = np.ones(n)

    inicio = time.time()
    resolver_iterativo(A_dispersa, b_dispersa)
    tiempos_iterativo.append(time.time() - inicio)

# Graficando
plt.figure(figsize=(10, 6))
plt.plot(valores_n, tiempos_gaussiana, 'o-', label='Eliminaci√≥n Gaussiana')
plt.plot(valores_n, tiempos_lu, 's-', label='Descomposici√≥n LU')
plt.plot(valores_n, tiempos_iterativo, '^-', label='M√©todo Iterativo')
plt.xlabel('Tama√±o de la Matriz (n)')
plt.ylabel('Tiempo de Ejecuci√≥n (segundos)')
plt.title('Tiempo de Ejecuci√≥n vs. Tama√±o del Problema')
plt.legend()
plt.grid(True)
plt.show()

: 

### Interpretaci√≥n:

- La **Eliminaci√≥n Gaussiana** y la **Descomposici√≥n LU** tienen tiempos de ejecuci√≥n que aumentan r√°pidamente con **n**.
- Los **M√©todos Iterativos** escalan mejor para grandes valores de **n**, especialmente al tratar con matrices dispersas.

---

## ANEXO

### Algoritmo de Kahan

El **algoritmo de Kahan**, tambi√©n conocido como *suma compensada de Kahan*, es un m√©todo num√©rico dise√±ado para **reducir los errores de redondeo** al sumar una secuencia de n√∫meros en coma flotante. Fue propuesto por **William Kahan en 1965** y se utiliza ampliamente en **computaci√≥n cient√≠fica, estad√≠stica y procesamiento num√©rico**.

#### Idea principal

Cuando se suman n√∫meros muy grandes con n√∫meros muy peque√±os, los decimales de menor magnitud tienden a perderse debido a los l√≠mites de precisi√≥n de los n√∫meros de punto flotante. El algoritmo de Kahan introduce una **variable de compensaci√≥n** que rastrea y corrige estos errores acumulados.

#### Pasos b√°sicos

1. Inicializar una suma (`s`) y una correcci√≥n (`c`) en cero.
2. Para cada n√∫mero de la secuencia:

   * Ajustar el n√∫mero a sumar restando la correcci√≥n acumulada.
   * Agregarlo a la suma.
   * Actualizar la correcci√≥n con el error de redondeo detectado.

De esta manera, se evita que los errores de redondeo se propaguen a lo largo de la suma.

### Implementaci√≥n en Python

```python
def kahan_sum(numbers):
    """
    Implementaci√≥n del algoritmo de suma de Kahan.
    
    Args:
        numbers (list[float]): Secuencia de n√∫meros en coma flotante a sumar.
    
    Returns:
        float: Suma precisa con correcci√≥n de errores de redondeo.
    """
    s = 0.0   # Suma acumulada
    c = 0.0   # Correcci√≥n acumulada

    for x in numbers:
        y = x - c          # Ajuste con correcci√≥n previa
        t = s + y          # Nueva suma
        c = (t - s) - y    # Nuevo error de redondeo
        s = t              # Actualizar suma
    
    return s
```

El algoritmo de Kahan es especialmente √∫til al **sumar grandes vol√∫menes de datos con magnitudes muy diferentes** (por ejemplo, `1e10 + 1e-5 + 1e-10`), donde la suma convencional perder√≠a precisi√≥n significativa.


In [None]:
def kahan_sum(numbers):
    """
    Implementaci√≥n del algoritmo de suma de Kahan.
    """
    s = 0.0   # Suma acumulada
    c = 0.0   # Correcci√≥n acumulada

    for x in numbers:
        y = x - c          # Ajustar con correcci√≥n previa
        t = s + y          # Nueva suma
        c = (t - s) - y    # Nuevo error de redondeo
        s = t              # Actualizar suma
    
    return s


# Ejemplo: n√∫meros muy grandes con n√∫meros muy peque√±os
data = [1e10, 1.0, 1e-10, -1e10]

# Suma normal en Python
normal_sum = sum(data)

# Suma con algoritmo de Kahan
kahan_result = kahan_sum(data)

print("Suma normal   :", normal_sum)
print("Suma de Kahan :", kahan_result)


El arreglo data contiene un n√∫mero muy grande (1e10), un n√∫mero peque√±o (1.0), un n√∫mero diminuto (1e-10) y finalmente -1e10. La suma exacta deber√≠a ser aproximadamente 

1.0 + 1e-10 = 1.0000000001.

Con la suma est√°ndar (sum()), Python pierde precisi√≥n debido al redondeo. Con la suma de Kahan, se conserva la correcci√≥n y el resultado es m√°s preciso.