<a href="https://colab.research.google.com/github/sgevatschnaider/IA-Teoria-Practica/blob/main/notebooks/CUDA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
from IPython.display import display, HTML


In [None]:
html_content = """
<!DOCTYPE html>
<html lang="es">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Teoría de CUDA y Uso de GPUs para Computación Paralela</title>
    <style>
        body {
            font-family: Arial, sans-serif;
            line-height: 1.6;
            margin: 20px;
        }
        h1, h2, h3 {
            color: #2c3e50;
        }
        p {
            margin-bottom: 15px;
        }
        ul {
            margin-bottom: 20px;
        }
        strong {
            color: #e74c3c;
        }
        em {
            color: #3498db;
        }
    </style>
</head>
<body>

    <h1>Teoría de CUDA y Uso de GPUs para Computación Paralela</h1>
    <p>
        CUDA, que significa <em>Compute Unified Device Architecture</em>, es una plataforma y modelo de programación desarrollada por NVIDIA que permite a los desarrolladores utilizar la potencia de las GPUs (Unidades de Procesamiento Gráfico) para realizar cálculos paralelos. A diferencia de las CPUs tradicionales, que están optimizadas para tareas secuenciales, las GPUs están diseñadas para manejar múltiples operaciones en paralelo, lo que las hace ideales para aplicaciones que requieren un procesamiento masivo de datos, como simulaciones científicas, procesamiento de imágenes, aprendizaje automático, entre otros.
    </p>

    <h2>Arquitectura de CUDA</h2>
    <p>
        CUDA permite a los desarrolladores escribir código en C, C++, y Fortran que se ejecuta directamente en la GPU. A través de CUDA, los desarrolladores pueden definir funciones llamadas <em>kernels</em>, que se ejecutan en paralelo en miles de hilos (threads) dentro de la GPU. La arquitectura de una GPU CUDA se organiza en varios niveles de jerarquía:
    </p>
    <ul>
        <li><strong>Grid (Cuadrícula):</strong> Un grid es una colección de bloques que ejecutan instancias de un kernel. Un grid puede contener un número muy grande de bloques.</li>
        <li><strong>Block (Bloque):</strong> Un bloque es un conjunto de hilos que se ejecutan simultáneamente y pueden compartir memoria entre ellos. Los bloques se organizan en una cuadrícula (grid).</li>
        <li><strong>Thread (Hilo):</strong> Un hilo es la unidad básica de ejecución en CUDA. Cada hilo ejecuta una instancia del kernel y tiene su propio conjunto de registros y memoria local. Los hilos dentro de un bloque pueden sincronizarse y compartir datos a través de la memoria compartida.</li>
    </ul>

    <h2>Modelo de Programación CUDA</h2>
    <p>El modelo de programación de CUDA se basa en la ejecución masivamente paralela. El proceso típico para escribir un programa CUDA incluye los siguientes pasos:</p>
    <ul>
        <li><strong>Definición del Kernel:</strong> Se define una función kernel en el código, que es la función que se ejecutará en paralelo en la GPU. Esta función se indica con la palabra clave <code>__global__</code>.</li>
        <li><strong>Configuración de la Ejecución:</strong> Al invocar el kernel desde la CPU, se especifica cómo se organizarán los hilos y bloques en la GPU. Esto incluye definir la cantidad de bloques y la cantidad de hilos por bloque.</li>
        <li><strong>Transferencia de Datos:</strong> Los datos que deben ser procesados por el kernel son transferidos desde la memoria principal (CPU) a la memoria de la GPU.</li>
        <li><strong>Ejecución del Kernel:</strong> Se lanza el kernel en la GPU. Cada hilo en la GPU ejecuta el kernel de manera independiente, pero todos los hilos dentro de un bloque pueden comunicarse y sincronizarse usando la memoria compartida.</li>
        <li><strong>Recuperación de Resultados:</strong> Después de que el kernel ha completado su ejecución, los resultados se copian de vuelta desde la memoria de la GPU a la memoria principal (CPU).</li>
        <li><strong>Liberación de Recursos:</strong> Finalmente, se liberan los recursos de memoria en la GPU que ya no son necesarios.</li>
    </ul>

    <h2>Ventajas de CUDA y GPUs</h2>
    <ul>
        <li><strong>Paralelismo Masivo:</strong> Las GPUs contienen miles de núcleos de procesamiento, lo que permite que un programa ejecutado con CUDA pueda procesar grandes volúmenes de datos simultáneamente.</li>
        <li><strong>Aceleración de Cálculos:</strong> CUDA permite realizar tareas de computación intensiva mucho más rápido que una CPU tradicional, especialmente en aplicaciones como simulación, procesamiento de imágenes y modelos de inteligencia artificial.</li>
        <li><strong>Flexibilidad:</strong> CUDA es compatible con muchos lenguajes de programación y bibliotecas, lo que permite a los desarrolladores aprovechar la potencia de la GPU en una amplia variedad de aplicaciones.</li>
    </ul>

    <h2>Aplicaciones de CUDA</h2>
    <p>CUDA se utiliza en diversas áreas que requieren un alto rendimiento computacional:</p>
    <ul>
        <li><strong>Ciencia Computacional:</strong> Simulaciones de fenómenos físicos, modelado molecular, y análisis de datos científicos se benefician enormemente del procesamiento paralelo de CUDA.</li>
        <li><strong>Aprendizaje Automático y Deep Learning:</strong> Redes neuronales profundas y otros algoritmos de machine learning requieren gran capacidad de cómputo, que las GPUs aceleran significativamente.</li>
        <li><strong>Gráficos y Procesamiento de Imágenes:</strong> CUDA es utilizado para el procesamiento y la renderización de gráficos, así como para el análisis de imágenes, permitiendo aplicaciones en realidad virtual, juegos, y más.</li>
        <li><strong>Finanzas Cuantitativas:</strong> Modelos financieros complejos, como la valoración de opciones y simulaciones de Monte Carlo, son acelerados usando GPUs y CUDA.</li>
    </ul>

    <h2>Conclusión</h2>
    <p>
        CUDA es una tecnología poderosa que ha transformado la manera en que se realizan cálculos paralelos. Al permitir a los desarrolladores aprovechar la arquitectura de las GPUs para tareas más allá de los gráficos, CUDA ha abierto nuevas posibilidades en campos que requieren procesamiento intensivo de datos. Con el continuo avance de las GPUs y el desarrollo de herramientas como CUDA, se espera que la computación paralela se convierta en una piedra angular para muchas aplicaciones críticas en el futuro.
    </p>

</body>
</html>
"""


In [None]:
display(HTML(html_content))


In [None]:
html_content = """
<!DOCTYPE html>
<html lang="es">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>CUDA en Big Data</title>
    <style>
        body {
            font-family: Arial, sans-serif;
            line-height: 1.6;
            margin: 20px;
        }
        h1, h2, h3 {
            color: #2c3e50;
        }
        p {
            margin-bottom: 15px;
        }
        ul {
            margin-bottom: 20px;
        }
        strong {
            color: #e74c3c;
        }
        em {
            color: #3498db;
        }
    </style>
</head>
<body>

    <h1>CUDA y su Aplicación en Big Data</h1>
    <p>
        Sí, CUDA se utiliza en Big Data, especialmente en situaciones donde es necesario procesar grandes volúmenes de datos de manera rápida y eficiente. Aunque CUDA es más conocida por su aplicación en gráficos y cálculos científicos, su capacidad para realizar cálculos masivamente paralelos la convierte en una herramienta valiosa en el campo de Big Data.
    </p>

    <h2>Cómo CUDA se aplica a Big Data</h2>
    <ul>
        <li><strong>Aceleración de Procesamiento de Datos:</strong> En Big Data, el procesamiento de grandes volúmenes de datos puede ser extremadamente costoso en términos de tiempo y recursos si se realiza solo en CPUs. CUDA permite trasladar este procesamiento a GPUs, que pueden manejar múltiples operaciones de manera simultánea, reduciendo significativamente el tiempo necesario para procesar datos.</li>
        <li><strong>Aprendizaje Automático y Deep Learning:</strong> Una gran parte del análisis de Big Data hoy en día se realiza a través de algoritmos de aprendizaje automático y deep learning, que requieren una gran cantidad de cálculos. CUDA acelera estos cálculos permitiendo entrenar modelos en datasets muy grandes mucho más rápido que con CPUs convencionales.</li>
        <li><strong>Procesamiento en Tiempo Real:</strong> En aplicaciones de Big Data donde los datos deben procesarse en tiempo real, como en el análisis de flujos de datos o sistemas de recomendación, CUDA puede proporcionar la potencia de cálculo necesaria para analizar datos a medida que se generan, lo que es crucial para mantener la eficiencia y la relevancia de las decisiones basadas en datos.</li>
        <li><strong>Análisis de Datos Complejos:</strong> Algunas tareas de Big Data, como el análisis de grafos, la búsqueda de patrones en grandes datasets, o la simulación de escenarios en tiempo real, son inherentemente paralelas y se benefician del uso de GPUs. CUDA permite ejecutar estas tareas de manera más eficiente y rápida.</li>
    </ul>

    <h2>Ejemplos de Aplicación de CUDA en Big Data</h2>
    <ul>
        <li><strong>Bases de Datos Aceleradas por GPU:</strong> Existen bases de datos optimizadas para ejecutarse en GPUs, como MapD (ahora OmniSci), que utilizan CUDA para acelerar consultas SQL sobre grandes volúmenes de datos. Estas bases de datos pueden manejar consultas complejas en milisegundos, algo que podría tomar minutos o más en sistemas basados solo en CPU.</li>
        <li><strong>Frameworks de Deep Learning:</strong> Frameworks populares como TensorFlow, PyTorch, y Apache MXNet están optimizados para ejecutar operaciones en GPUs usando CUDA, lo que permite manejar y entrenar modelos en datasets masivos más eficientemente.</li>
        <li><strong>Procesamiento de Flujos de Datos (Stream Processing):</strong> Plataformas de procesamiento de flujos de datos como Apache Flink o Apache Spark pueden beneficiarse de CUDA al delegar operaciones costosas de cálculo a GPUs, mejorando el rendimiento en escenarios donde los datos llegan a gran velocidad.</li>
        <li><strong>Análisis de Redes Sociales y Grafos:</strong> Herramientas de análisis de grafos que manejan datos de redes sociales o relaciones complejas entre entidades (como la detección de comunidades o análisis de influencia) pueden usar CUDA para acelerar el procesamiento de grandes grafos, lo cual es común en Big Data.</li>
    </ul>

    <h2>Conclusión</h2>
    <p>
        CUDA juega un papel importante en el ecosistema de Big Data al permitir que grandes volúmenes de datos sean procesados de manera eficiente mediante la explotación del paralelismo masivo de las GPUs. Aunque no es la única tecnología en este campo, su capacidad para acelerar tareas intensivas en computación la convierte en un complemento poderoso para otras tecnologías de Big Data, especialmente en aplicaciones que requieren un procesamiento rápido y en tiempo real.
    </p>

</body>
</html>
"""
display(HTML(html_content))


In [None]:
# Paso 1: Escribir el código CUDA en un archivo llamado `suma_arrays.cu`
code = """
#include <cuda_runtime.h>
#include <iostream>

// Kernel CUDA que suma dos arrays
__global__ void sumaArrays(int *a, int *b, int *c, int n) {
    int idx = threadIdx.x + blockIdx.x * blockDim.x;
    if (idx < n) {
        c[idx] = a[idx] + b[idx];
    }
}

int main() {
    int n = 1000;
    int size = n * sizeof(int);

    int *a, *b, *c;
    int *d_a, *d_b, *d_c;

    // Reservar memoria en el host (CPU)
    a = (int*)malloc(size);
    b = (int*)malloc(size);
    c = (int*)malloc(size);

    // Inicializar arrays en el host
    for (int i = 0; i < n; i++) {
        a[i] = i;
        b[i] = i * 2;
    }

    // Reservar memoria en el device (GPU)
    cudaMalloc(&d_a, size);
    cudaMalloc(&d_b, size);
    cudaMalloc(&d_c, size);

    // Copiar datos desde el host a la GPU
    cudaMemcpy(d_a, a, size, cudaMemcpyHostToDevice);
    cudaMemcpy(d_b, b, size, cudaMemcpyHostToDevice);

    // Lanzar el kernel con 1000 hilos organizados en bloques de 256 hilos
    sumaArrays<<<(n+255)/256, 256>>>(d_a, d_b, d_c, n);

    // Copiar el resultado desde la GPU al host
    cudaMemcpy(c, d_c, size, cudaMemcpyDeviceToHost);

    // Mostrar los primeros 10 resultados
    for (int i = 0; i < 10; i++) {
        std::cout << c[i] << " ";
    }
    std::cout << std::endl;

    // Liberar memoria
    cudaFree(d_a);
    cudaFree(d_b);
    cudaFree(d_c);
    free(a);
    free(b);
    free(c);

    return 0;
}
"""

with open('suma_arrays.cu', 'w') as f:
    f.write(code)

# Paso 2: Compilar el código CUDA
!nvcc -o suma_arrays suma_arrays.cu

# Paso 3: Ejecutar el archivo compilado
!./suma_arrays


0 3 6 9 12 15 18 21 24 27 


In [None]:
# Paso 1: Escribir el código CUDA en un archivo llamado `suma_arrays.cu`
code = """
#include <cuda_runtime.h>
#include <iostream>

// Kernel CUDA que suma dos arrays
__global__ void sumaArrays(int *a, int *b, int *c, int n) {
    int idx = threadIdx.x + blockIdx.x * blockDim.x;
    if (idx < n) {
        c[idx] = a[idx] + b[idx];
    }
}

int main() {
    int n = 1000;
    int size = n * sizeof(int);

    int *a, *b, *c;
    int *d_a, *d_b, *d_c;

    // Reservar memoria en el host (CPU)
    a = (int*)malloc(size);
    b = (int*)malloc(size);
    c = (int*)malloc(size);

    // Inicializar arrays en el host
    for (int i = 0; i < n; i++) {
        a[i] = i * 3;  // Multiplicamos por 3 para obtener 0, 3, 6, 9, ...
        b[i] = i * 2;  // Por ejemplo: 0, 2, 4, 6, 8, ...
    }

    // Reservar memoria en el device (GPU)
    cudaMalloc(&d_a, size);
    cudaMalloc(&d_b, size);
    cudaMalloc(&d_c, size);

    // Copiar datos desde el host a la GPU
    cudaMemcpy(d_a, a, size, cudaMemcpyHostToDevice);
    cudaMemcpy(d_b, b, size, cudaMemcpyHostToDevice);

    // Lanzar el kernel con 1000 hilos organizados en bloques de 256 hilos
    sumaArrays<<<(n+255)/256, 256>>>(d_a, d_b, d_c, n);

    // Copiar el resultado desde la GPU al host
    cudaMemcpy(c, d_c, size, cudaMemcpyDeviceToHost);

    // Mostrar los primeros 10 resultados de los arrays `a`, `b`, y `c`
    std::cout << "Array a: ";
    for (int i = 0; i < 10; i++) {
        std::cout << a[i] << " ";
    }
    std::cout << std::endl;

    std::cout << "Array b: ";
    for (int i = 0; i < 10; i++) {
        std::cout << b[i] << " ";
    }
    std::cout << std::endl;

    std::cout << "Array c (a + b): ";
    for (int i = 0; i < 10; i++) {
        std::cout << c[i] << " ";
    }
    std::cout << std::endl;

    // Liberar memoria
    cudaFree(d_a);
    cudaFree(d_b);
    cudaFree(d_c);
    free(a);
    free(b);
    free(c);

    return 0;
}
"""

with open('suma_arrays.cu', 'w') as f:
    f.write(code)

# Paso 2: Compilar el código CUDA
!nvcc -o suma_arrays suma_arrays.cu

# Paso 3: Ejecutar el archivo compilado
!./suma_arrays


Array a: 0 3 6 9 12 15 18 21 24 27 
Array b: 0 2 4 6 8 10 12 14 16 18 
Array c (a + b): 0 5 10 15 20 25 30 35 40 45 


In [None]:
# Paso 1: Escribir el código CUDA en un archivo llamado `suma_arrays.cu`
code = """
#include <cuda_runtime.h>
#include <iostream>

// Kernel CUDA que suma dos arrays
__global__ void sumaArrays(int *a, int *b, int *c, int n) {
    int idx = threadIdx.x + blockIdx.x * blockDim.x;
    if (idx < n) {
        c[idx] = a[idx] + b[idx];
    }
}

int main() {
    int n = 1000;
    int size = n * sizeof(int);

    int *a, *b, *c;
    int *d_a, *d_b, *d_c;

    // Reservar memoria en el host (CPU)
    a = (int*)malloc(size);
    b = (int*)malloc(size);
    c = (int*)malloc(size);

    // Inicializar arrays en el host
    for (int i = 0; i < n; i++) {
        a[i] = i * 3;  // Multiplicamos por 3 para obtener 0, 3, 6, 9, ...
        b[i] = i * 2;  // Por ejemplo: 0, 2, 4, 6, 8, ...
    }

    // Reservar memoria en el device (GPU)
    cudaMalloc(&d_a, size);
    cudaMalloc(&d_b, size);
    cudaMalloc(&d_c, size);

    // Copiar datos desde el host a la GPU
    cudaMemcpy(d_a, a, size, cudaMemcpyHostToDevice);
    cudaMemcpy(d_b, b, size, cudaMemcpyHostToDevice);

    // Lanzar el kernel con 1000 hilos organizados en bloques de 256 hilos
    sumaArrays<<<(n+255)/256, 256>>>(d_a, d_b, d_c, n);

    // Copiar el resultado desde la GPU al host
    cudaMemcpy(c, d_c, size, cudaMemcpyDeviceToHost);

    // Mostrar los primeros 10 resultados de los arrays `a`, `b`, y `c`
    std::cout << "Array a: ";
    for (int i = 0; i < 10; i++) {
        std::cout << a[i] << " ";
    }
    std::cout << std::endl;

    std::cout << "Array b: ";
    for (int i = 0; i < 10; i++) {
        std::cout << b[i] << " ";
    }
    std::cout << std::endl;

    std::cout << "Array c (a + b): ";
    for (int i = 0; i < 10; i++) {
        std::cout << c[i] << " ";
    }
    std::cout << std::endl;

    // Liberar memoria
    cudaFree(d_a);
    cudaFree(d_b);
    cudaFree(d_c);
    free(a);
    free(b);
    free(c);

    return 0;
}
"""

# Escribir el código CUDA en un archivo
with open('suma_arrays.cu', 'w') as f:
    f.write(code)

# Compilar el código CUDA
!nvcc -o suma_arrays suma_arrays.cu

# Ejecutar el archivo compilado y capturar la salida
output = !./suma_arrays

# Mostrar el resultado en formato HTML
from IPython.display import display, HTML

html_output = "<h2>Resultado de la ejecución CUDA</h2>"
html_output += "<p><strong>Array a:</strong> " + output[0][8:] + "</p>"
html_output += "<p><strong>Array b:</strong> " + output[1][8:] + "</p>"
html_output += "<p><strong>Array c (a + b):</strong> " + output[2][16:] + "</p>"

display(HTML(html_output))
