<a href="https://colab.research.google.com/github/jugernaut/MACTI-programacionparalelo/blob/main/03_CUDA/01_CUDA_SCP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<font color="Teal" face="Comic Sans MS,arial">
  <h1 align="center"><i>Cuda (Programación con GPU's)</i></h1>
  </font>
  <font color="Black" face="Comic Sans MS,arial">
  <h5 align="center"><i>Profesor: M. en C. Miguel Angel Pérez León</i></h5>
  <h5 align="center"><i>Ayudante: Lucía Martínez Rivas</i></h5>
  <h5 align="center"><i>Ayudante: Erick Jesús Rios Gonzalez</i></h5>
  <h5 align="center"><i>Materia: Seminario de programación en paralelo</i></h5>
  </font>

# Introducción

Ademas de las herramientas previamente vistas para programación en paralelo (*OpenMP* y *MPI*), otra forma de realizar cómputo en paralelo es mediante *CUDA*.

*CUDA* debe su nombre al acrónimo en ingles de Arquitectura Unificada de Dispositivos de Computo (*Compute Unified of Device Arquitecture*).

De manera similar a *OpenMP* y *MPI*, *CUDA* es un *API* que en conjunto con el lenguaje *C/C++*, permite realizar cómputo en paralelo empleando los *GPU's* que se tengan disponibles.

Existen diferentes wrappers (envoltorios) para utilizar *CUDA* en otros lenguajes como *Python*, *Fortran* o incluso *Java*, sin embargo en esta presentación veremos las instrucciones básicas para el lenguaje *C/C++*.

Vale la pena mencionar que el desarrollo de este *API* (*CUDA*) es llevado a cabo por la empresa *Nvidia*.

Inicialmente los *GPU's* (unidades de procesamiento gráfico) fueron diseñadas para procesamiento de imágenes, sin embargo se ha probado que muestran un gran desempeño no solo en esta área.

La forma en la que trabaja *CUDA* es enviando la información a procesar directamente a la tarjeta gráfica, ahí es procesada y finalmente devuelta al *CPU*.

<center>
<img src="https://github.com/jugernaut/Numerico2021/blob/master/Imagenes/Cuda/menycore.png?raw=1" width="600">
</center>

<center>
<img src="https://github.com/jugernaut/Numerico2021/blob/master/Imagenes/Cuda/cuda.png?raw=1" width="900">
</center>



# Desempeño

El desempeño de *CUDA* difiere un poco de los *API's* revisados con anterioridad en el hecho de que *CUDA* hace uso de la tarjeta gráfica *(GPU)* para el procesamiento en paralelo.

Dentro de la tarjeta gráfica, la unidad central de procesamiento, es conocida como *GPU* (*Graphic Procesing Unit*), que como su nombre lo indica, es la unidad de procesamiento gráfico y por lo tanto califica como un dispositivo de cómputo de propósito especifico.

Además de los *CPU's* y *GPU's* existen algunos otros tipos de dispositivos de cómputo, como los *TPU's* o los *FPGA's* sin embargo estos 2 últimos escapan a los alcances de este curso.

<center>
<img src="https://github.com/jugernaut/Numerico2021/blob/master/Imagenes/Cuda/gpucpu.jpg?raw=1" width="600">
</center>

## ¿Cómo funciona?

La forma tradicional de la programación en paralelo empleando *CUDA* es la siguiente:

*   En un determinado momento en que se ejecuta un programa, se envía desde la memoria *RAM* la información que sera procesada por los GPU's.
*   Una vez que la información se ubica en la tarjeta gráfica se generan los thread (a nivel *GPU*) que se vayan a ocupar.
*   Se realizan los cálculos necesarios en paralelo.
*   Se devuelve un el resultado del procesamiento al *CPU*.

<center>
<img src="https://github.com/jugernaut/Numerico2021/blob/master/Imagenes/Cuda/gpuwork.jpg?raw=1" width="800">
</center>

## Ventajas

La principal diferencia entre *MPI*, *OpenMP* y *CUDA*, es que este ultimo realiza todos los cálculos empleando *GPU's* (dispositivos de cómputo de propósito específico) en lugar de los *CPU's* (dispositivos de cómputo de propósito general) que utilizan *MPI* y *OpenMP*.

La ventaja más evidente de *CUDA* es la de utilizar *GPU's*, mismos que están **optimizados para operaciones matriciales y vectoriales**.

La memoria constante, como su propio nombre indica, se usa para albergar datos que no cambian durante el transcurso de ejecución de un *Kernel* (función que se ejecuta mediante *GPU*), el uso de memoria constante en lugar de la memoria global puede reducir considerablemente el tiempo de procesamiento.

Se tiene soporte a nivel hardware para **operaciones con enteros y con bits**.

*CUDA* ha mostrado gran desempeño para labores de inteligencia artificial tales como **deep learning y machine learning**.



## Desventajas

No todo es miel sobre hojuelas al emplear *CUDA* y aquí algunas de sus desventajas:

*   La transferencia de información entre el *CPU* y la tarjeta gráfica genera un cuello de botella, revisar **ley de Amdhal**.
*   No es posible ejecutar algoritmos recursivos.
*   La unidad mínima de bloques debe ser de 32 threads.

# *CUDA*

*CUDA* al igual que *OpenMP* y *MPI* es un *API* escrito para el lenguaje *C/C++*, lo que significa que es un conjunto de funciones y directivas que permiten procesar los datos haciendo uso de los *GPU's* disponibles.

Debido a la naturaleza de *CUDA* y sobretodo a que es desarrollada por la empresa *Nvidia*, la instalación de *CUDA* requiere unos cuantos pasos adicionales, que de manera resumida se listan a continuación:

1.   **Identificar el modelo de la tarjeta gráfica**: este paso es muy importante ya que de esto depende el resto del procedimiento.
2.   **Descargar e instalar los controladores**: una vez que se conoce el modelo de la tarjeta gráfica es necesario descargar del sitio de [*Nvidia*](https://www.nvidia.com/Download/Find.aspx?lang=es) los controladores compatibles con el modelo de tarjeta.
3.   **Descargar e instalar *CUDA***: con base en la versión de los controladores de Nvidia instalados, es necesario identificar la versión compatible de [*CUDA*](https://developer.nvidia.com/cuda-downloads), descargar e instalar la misma.

Una vez que se instaló *CUDA*, ya es posible compilar y ejecutar código escrito mediante este *API*.

## Funcionamiento de *CUDA*

A diferencia de los *API's* anteriores (*OmpenMP, MPI*) *CUDA* se maneja un poco diferente.

En *CUDA* toda sección de código en paralelo se ejecuta mediante un ***Kernel***, es decir *Kernel* = Función.

Un *Kernel* se ejecuta en paralelo mediante *threads* (hilos) de *GPU*.

Cada *Kernel* esta dividido en ***Blocks*** de una, dos o tres dimensiones de *threads*.

Finalmente un ***Grid*** puede ser una arreglo de una, dos o tres dimensiones de *blocks*.

<center>
<img src="https://github.com/jugernaut/Numerico2021/blob/master/Imagenes/Cuda/total.png?raw=1" width="600">
</center>



# Jerarquía de memoria

Dadas los elementos del funcionamiento de *CUDA*, se tienen diferentes tipos de memoria y acceso a la misma, veamos.

<center>
<img src="https://github.com/jugernaut/Numerico2021/blob/master/Imagenes/Cuda/memtotal.png?raw=1" width="600">
</center>

# *API CUDA*

Los identificadores de funciones más importantes que se tienen en *CUDA* son los siguientes.

1. __global__: indica que una función es de tipo *kernel*, es decir que sera ejecutada en un dispositivo (*GPU*) y solo puede ser llamada desde el host. Al momento de ser invocada se genera un *grid* de bloques con un número fijo e igual de *threads*.

2. __device__: es una función que solo puede ser llamada desde un dispositivo, es decir que esta función solo puede ser invocada desde un *kernel* o desde otra función de tipo *device*.

3. __host__: indica que esta función pertenece al host es decir que esta función solo puede ser ejecutada en el *host*. En otras palabras es una función de *C/C++* tradicional.

Algunas de las variables reservadas de *CUDA* y que son de gran utilidad son las siguientes:

*   **gridDim**: indica las dimensiones del *grid*.
*   **blockIdx**: indica el identificador del Bloque de un *grid*.
*   **blockDim**: contiene las dimensiones de un *block*.
*   **threadIdx**: contiene el identificador del *thread* dentro del *block*.

Es importante notar que todas estas variables contienen componentes en $X, Y$ y $Z$. Los *grids* y los *bloques* pueden ser de 1, 2 o 3 dimensiones.

# Compilación y Ejecución

Una vez instaladas las herramientas necesarias, solo es necesario usar las banderas (*flags*) correctas al momento de compilar y ejecutar algún programa escrito usando *CUDA*.

La manera en la que se compila (revisión sintáctica) y se ejecuta un programa codificado mediante *CUDA*, es muy similar a como se compila y se ejecuta cualquier programa escrito en *C/C++*.

Veamos como se compila y ejecuta tanto en *google colab*, como en un equipo local.

## *CUDA* en *Google Colab*

Normalmente una vez iniciada la sesión de *google colab*, esta ya cuenta con todo lo necesario para compilar y ejecutar un programa usando *CUDA*, unicamente se tiene que habilitar el uso de los *GPU's*.

Para habilitar el uso del *GPU*, es necesario dar click en *Entorno de ejecución -> Cambiar tipo de entorno de ejecución*.

<center>
<img src="https://github.com/jugernaut/ProgramacionEnParalelo/blob/desarrollo/Imagenes/CUDA/seleccion.png?raw=1" width="400">
</center>

Finalmente seleccionar *GPU*.

<center>
<img src="https://github.com/jugernaut/ProgramacionEnParalelo/blob/desarrollo/Imagenes/CUDA/gpu.png?raw=1" width="500">
</center>


Para poder usar directamente *CUDA* en *google colab* es necesario hacer un *downgrade* de la versión actual de *CUDA* (desinstalar versión actual e instalar versión anterior), eso lo hacemos con la siguiente celda de código.

In [1]:
!wget https://developer.nvidia.com/compute/cuda/9.2/Prod/local_installers/cuda-repo-ubuntu1604-9-2-local_9.2.88-1_amd64 -O cuda-repo-ubuntu1604-9-2-local_9.2.88-1_amd64.deb
!dpkg -i cuda-repo-ubuntu1604-9-2-local_9.2.88-1_amd64.deb
!apt-key add /var/cuda-repo-9-2-local/7fa2af80.pub
!apt-get update
!apt-get install cuda-9.2

--2025-10-21 20:26:48--  https://developer.nvidia.com/compute/cuda/9.2/Prod/local_installers/cuda-repo-ubuntu1604-9-2-local_9.2.88-1_amd64
Resolving developer.nvidia.com (developer.nvidia.com)... 23.59.88.34, 23.59.88.42
Connecting to developer.nvidia.com (developer.nvidia.com)|23.59.88.34|:443... connected.
HTTP request sent, awaiting response... 302 Moved Temporarily
Location: https://developer.nvidia.com/downloads/compute/cuda/9.2/prod/local_installers/cuda-repo-ubuntu1604-9-2-local_9.2.88-1_amd64 [following]
--2025-10-21 20:26:48--  https://developer.nvidia.com/downloads/compute/cuda/9.2/prod/local_installers/cuda-repo-ubuntu1604-9-2-local_9.2.88-1_amd64
Reusing existing connection to developer.nvidia.com:443.
HTTP request sent, awaiting response... 302 Moved Temporarily
Location: https://developer.download.nvidia.com/compute/cuda/9.2/secure/Prod/local_installers/cuda-repo-ubuntu1604-9-2-local_9.2.88-1_amd64.deb?__token__=exp=1761080208~hmac=a79f5a750f1819554a3d2b3e76d7ca35494fef12

Una vez que se actualizo el entorno de ejecución, lo siguiente es instalar el *plugin* neceario para compilar y ejecutar código de *CUDA* en *google colab*.

In [2]:
!pip install git+https://github.com/andreinechaev/nvcc4jupyter.git

Collecting git+https://github.com/andreinechaev/nvcc4jupyter.git
  Cloning https://github.com/andreinechaev/nvcc4jupyter.git to /tmp/pip-req-build-jgugmywi
  Running command git clone --filter=blob:none --quiet https://github.com/andreinechaev/nvcc4jupyter.git /tmp/pip-req-build-jgugmywi
  Resolved https://github.com/andreinechaev/nvcc4jupyter.git to commit 28f872a2f99a1b201bcd0db14fdbc5a496b9bfd7
  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Building wheels for collected packages: nvcc4jupyter
  Building wheel for nvcc4jupyter (pyproject.toml) ... [?25l[?25hdone
  Created wheel for nvcc4jupyter: filename=nvcc4jupyter-1.2.1-py3-none-any.whl size=10742 sha256=fdb30b442a03a2b978d94f242f4f3839c3b517111d4c5bcc31496f40b5aacbba
  Stored in directory: /tmp/pip-ephem-wheel-cache-diou9wsc/wheels/7d/b9/66/459b9938664e6a93d1a85323ec52f7e51cd7265d253410a7d8
Successfully bu

Ya con el *plugin* instalado, se carga este plugin en la sesión actual.

In [3]:
%load_ext nvcc4jupyter

Detected platform "Colab". Running its setup...
Source files will be saved in "/tmp/tmpdrsqe1b_".


Antes de escribir el código solo resta agregar *%%cu* en el encabezado de cualquier celda de código que contenga *CUDA* para que esta sea ejecutada como si fuera cualquier celda de código común.

In [5]:
# necesario para compilar codigo de CUDA
%%cuda

// Biblioteca de entrada/salida
#include <stdio.h>
// Definicion de un kernel
__global__ void helloFromGPU(void){
        printf("Hola mundo desde el GPU! threadIdx.x=%d\n", threadIdx.x);
}

// Funcion principal
int main(void){
   // Hola desde el CPU
   printf("Hola mundo desde el CPU!\n");

   // Llamada al kernel que se ejecuta en el GPU
   helloFromGPU <<<1, 10>>>();
   // Se liberan los recursos utilizados
   cudaDeviceReset();
   return(0);
}

In file included from /usr/local/cuda/bin/../targets/x86_64-linux/include/host_config.h:50,
                 from /usr/local/cuda/bin/../targets/x86_64-linux/include/cuda_runtime.h:78,
                 from <command-line>:
/usr/local/cuda/bin/../targets/x86_64-linux/include/crt/host_config.h:119:2: error: #error -- unsupported GNU version! gcc versions later than 7 are not supported!
  119 | #error -- unsupported GNU version! gcc versions later than 7 are not supported!
      |  ^~~~~



## *CUDA* en equipo local

Una vez instalado el *API* de *CUDA* para el respectivo hardware la forma de compilar y ejecutar código de *CUDA* es muy similar al lenguaje *C/C++*.

Supongamos que ya se cuenta con el código fuente de "hola mundo" para *CUDA* (helloCUDA.cu)

*   Para compilar: *\$nvcc helloCUDA.cu -o (helloCUDA.o) codigo*

El comando anterior compila (y en caso de no haber errores) y genera un archivo ejecutable (binario) que puede ser ejecutado de la siguiente manera:

*   Para ejecutar: *\$./codigo*

# Glosario

Dispositivo: En el contexto de *CUDA* un dispositivo hace referencia a un *GPU*.

Asíncrono: En computación un evento (proceso) asíncrono es aquel no tiene correspondencia temporal con otro evento.

# Referencias

1. Tolga Soyata: GPU Parallel Program Development Using Cuda.
2. https://fisica.cab.cnea.gov.ar/gpgpu/images/clases/clase_1_cuda.pdf
3. Dongarra Foster: Source Book of parallel computing.