<a href="https://colab.research.google.com/github/jugernaut/ProgramacionEnParalelo/blob/desarrollo/Envoltorios/01_Envoltorios_SCP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<font color="Teal" face="Comic Sans MS,arial">
  <h1 align="center"><i>Envoltorios (Wrappers)</i></h1>
  </font>
  <font color="Black" face="Comic Sans MS,arial">
  <h5 align="center"><i>Profesor: M. en C. Miguel Angel Pérez León</i></h5>
    <h5 align="center"><i>Ayudante: Jesús Iván Coss Calderón</i></h5>
    <h5 align="center"><i>Ayudante: Mario Arturo Nieto Butron</i></h5>
  <h5 align="center"><i>Materia: Seminario de programación en paralelo</i></h5>
  </font>

# Introducción

Una vez que ya se conocen las principales *API's* para programar en paralelo como *OpenMP*, *MPI* o *CUDA*, así como sus ventajas y desventajas podemos comenzar a utilizar alternativas como lo son los ***wrappers*** (envoltorios).

Un *wrapper* es un conjunto de librerías y herramientas (en otro lenguaje diferente a *C/C++*) que actúa como puente y oculta muchos de los detalles de este tipo de *API's*.

Existe una infinidad de lenguajes de alto nivel que permiten hacer uso de estos *wrappers*, como lo son *JAVA*, *Python*, *R*, etc.

Para esta presentación nos enfocaremos en el lenguaje *Python* y algunos de los *wrappers* que existen en este lenguaje ya que las ventajas que ofrece este lenguaje lo hacen ideal para su uso en este curso.

Dos de los envoltorios más populares para *Python* son *Numba* y *TensorFlow*.

A pesar de la gran cantidad de *wrappers* que existen actualmente, debido a los alcances del curso, solo podremos revisar *Numba* y *TensorFlow*.

Aquí podemos ver las diferentes capas que se construyen con *Python*.

<center>
<img src="https://github.com/jugernaut/Numerico2021/blob/master/Imagenes/Wrappers/wrapper.png?raw=1" width="600"> 
</center>

Los 2 diferentes enfoques que se les puede dar a los envoltorios.

<center>
<img src="https://github.com/jugernaut/Numerico2021/blob/master/Imagenes/Wrappers/arribabajo.png?raw=1" width="600"> 
</center>

Flujo de *Numba*, ¿cómo es que se optimiza el código?.

<center>
<img src="https://github.com/jugernaut/Numerico2021/blob/master/Imagenes/Wrappers/numba.png?raw=1" width="600"> 
</center>

<center>
<img src="https://github.com/jugernaut/Numerico2021/blob/master/Imagenes/Wrappers/numba-arch.png?raw=1" width="600"> 
</center>

Relación entre *TensorFlow* y *Nvidia*.

<center>
<img src="https://github.com/jugernaut/Numerico2021/blob/master/Imagenes/Wrappers/tensor2.png?raw=1" width="600"> 
</center>

<center>
<img src="https://github.com/jugernaut/Numerico2021/blob/master/Imagenes/Wrappers/tensor1.png?raw=1" width="600"> 
</center>

Capas en el desarrollo de *software*.

<center>
<img src="https://github.com/jugernaut/Numerico2021/blob/master/Imagenes/Wrappers/tensordevice.jpg?raw=1" width="600"> 
</center>

# *Numba*

*Numba* es uno de los envoltorios más conocidos y empleados actualmete debido a que su funcionamiento es muy sencillo así como su instalación.

## ¿Cómo funciona?

*Numba* tiene multiples formás de optimizar codigo y lograr que este muestre un mejor desempeño, esto lo realiza mediante alguna de las siguientes variantes:

• Convierte código *Python* en código de máquina: al compilar código empleando *Numba*, este convierte el código en código de máquina y la segunda vez que sea ejecutado este se ejecuta en lenguaje de muy bajo nivel que se traduce en una ejecución más rápida.

• Es posible utilizar una capa (*layer*) para acceder a características de *OpenMP*.

• Es posible paralelizar código empleando utilidades de *MPI*.

• Tiene soporte para el uso de *GPU's* utilizando *CUDA* como *background*.


## Ventajas

*Numba* posee múltiples ventajas, aunque una de las más importantes es poder decidir como optimizar el código escrito en *Python*.

Es muy sencillo de instalar mediante *pip* e igual de fácil de usar que *Python*.

Se tiene una gran capacidad de acoplamiento con *Numpy* (biblioteca para cómputo científico).

Además de ser posible optar por un mecanismo para optimizar el código, *Numba* permite escribir código híbrido que combine lo mejor de las diferentes formás de optimizar el desempeño.

Emplear *Numba* es tan sencillo como importar la biblioteca y hacer uso de sus **decoradores** para optimizar el código.


## Desventajas

*Numba* tiene en realidad muy pocas desventajas.

La más evidente de estas es que **encapsula mucho de su funcionamiento**, es decir que en realidad funciona como caja negra.



### Decoradores

Un decorador en *Numba* es una forma de modificar funciones de manera tal que pueda ser optimizada empleando alguna de las técnicas previamente mencionadas.

Se puede pensar en un decorador en una función que recibe una función como parámetro y devuelve otra función optimizada como salida.

Una función de *Python* es envuelta por uno o más decoradores, una vez que se define esta función el decorador es evaluado y *Numba* devuelve una función optimizada que puede ser invocada desde *Python*.

El alcance del ó de los decoradores se limita al alcance de la función definida a la cual se le aplique dichos decoradores.



### `nopython`

Un decorador se utiliza mediante la sentencia `@jit(parametros)`.

La forma más básica en la cual se puede usar *Numba*, es mediante el decorador `@jit(nopython=True)`.

Esta sentencia lo que le indica a *Numba* es que el código en el cual esta envuelta la función, debe ser compilado y ejecutado sin utilizar el entono de *Python*. Lo que significa que una vez que ha sido compilada esta función se ejecutara de manera más eficiente que empleando el interprete de *Python*. 

Existe otro modo de compilación conocido como *object mode*, y se accede a este cuando no se hace uso del parámetro `nopython=True`, es decir `@jit` sin parámetros. Sin embargo este modo se limita a optimizar unicamente los ciclos y no todo el código definido en la función.



### `parallel`

Otro parámetro muy útil pero a la vez 'obscuro' es, `@njit(parrallel=True)`.

Este decorador va de la mano de la palabra reservada `prange` y en conjunto permiten ejecutar en paralelo ciclos dentro de la función definida.

Este decorador oculta mucho del proceso que se realiza al ejecutar un algoritmo en paralelo. Sin embargo ya que a esta altura del curso se conoce cual es el transfondo (*OpenMP, MPI, CUDA*), podemos obviar el mismo.

La parlabra reservada `prange` se emplea para especificar el ciclo que se quiere realizar en paralelo y no solo eso, también realiza la operación conocida como *reduction* de alguna variable.

## *Numba* + *CUDA*

*Numba* ofrece soporte para programación de *GPU* mediante *CUDA*, permitiendo compilar un subconjunto restringido de código escrito en *Python* que se traduce en funciones tipo *Kernel* y tipo *Device*.

Una característica importante de *Numba*, es que al definir funciones de tipo *Kernel*, *Numba* hace parecer que esa función tiene acceso directo a arreglos de tipo *Numpy*. Los arreglos de tipo *Numpy* que se pasan como parámetro a las funciones de tipo kernel se transfieren de forma automática entre la memoria del *CPU* y del *GPU*, digamos que **oculta el proceso de *paso por referencia* y el reservar memoria con `malloc`**.

*Numba* no tiene una implementación directa para todo el *API* de *CUDA*, de tal forma que algunas características de *CUDA* no son accesibles desde *Numba*. Sin embargo las funciones definidas en *Numba* son suficientes para comenzar a desarrollar algoritmos que hagan uso del o de los *GPU's* del dispositivo de cómputo.



### Declaración y uso de un *Kernel*

La misma terminología empleada en el desarrollo de código usando *CUDA*, se aplica para el desarrollo de código mediante *Numba*.

*   Una función de tipo *Kernel* no puede devolver un tipo de manera explicita; cualquier resultado de la función *kernel* debe ser almacenado en el arreglo de tipo *Numpy* que se pasa coma parámetro a esta función (paso por referencia).
*   Cuando se ejecuta un *Kernel* se debe declarar de manera explícita la jerarquía de hilos, es decir; el número de bloques de hilos y el número de hilos por bloque.
*   Es importante notar que un *Kernel* se compila una sola vez, pero puede ser llamado con diferentes tamaños de bloque o de *grid*.
*   En caso de tener acceso a una tarjeta *Nvidia*, es posible emplear el simulador de [CUDA](https://nyu-cds.github.io/python-numba/05-cuda/).

### Observaciones y Recomendaciones

Por default la ejecución del *Kernel* se realiza de manera síncrona; la función termina cuando el *Kernel* ha terminado su ejecución y los datos son persistentes.
 
Para elegir el tamaño del bloque, es decir el número de hilos por bloque hay que considerar 2 cosas: 

1.   Del lado del software: el tamaño del bloque determina **cuantos hilos comparten memoria**.
2.   Del lado del hardware: el tamaño del bloque debe ser suficientemente grande para **ocupar todas las unidades de ejecución**.

Sugerencias para identificar el tamaño del bloque pueden encontrarse en este [sitio](https://docs.nvidia.com/cuda/cuda-c-programming-guide/) 

## Instalación en equipo local

Dado que a partir de este punto del curso es posible emplear diferentes versiones de *Python* o de sus bibliotecas, se recomienda crear un **entorno virtual** y en este entorno instalar *numba*.

Supongamos que ya se cuenta *virtualenv*, *Python* 2.7 y *pip*.

1.   Crear entorno virtual: 

`\$mkdir numba`

`\$virtualenv numba`

2.   Activar entorno virtual:

`\$source numba/bin/activate`

3.   Instalar *Numba*:

`(numba)\$pip install numba`


## *Numba* en *Google Colab*

Para utilizar *Numba* en *Google Colab*, es tan sencillo como importar la biblioteca y utilizar sus decoradores, a continuación se muestra el ejemplo de la aproximación de $pi$ optimizado mediante *Numba*.

In [2]:
import random
from timeit import default_timer as timer
# biblioteca de Numba
from numba import jit

#¡¡¡descomentar para optimizar, te vas a sorprender!!!
#@jit(nopython=True)
def mc_pi_aprox(n=100000000):
    dentro_circulo = 0 
    for i in range(n):
      x = random.random()
      y = random.random()
      # valores dentro de la circunferencia
      if (x**2+y**2 < 1):
         dentro_circulo += 1
    return 4*dentro_circulo / n

# inicial
inicio = timer()
# algoritmo
print(mc_pi_aprox())
# final
final = timer()

# tiempo
print('Tomo:',final - inicio, 'segundos')

3.1415458
Tomo: 45.764992242000005 segundos


# *TensorFlow*

*TensorFlow* es un conjunto de herramientas que proporciona *Google* para el desarrollo de algoritmos de aprendizaje automático, algunas de sus características son:

*   Cuenta con diferentes versiones de su *API* para lenguajes tales como: *C++, Haskell, Java* y *Go* entre algunos, aunque la versión más usada es la de *Python*.
*   Existen versiones optimizadas de *TensorFlow* que hacen uso de programación mediante *GPU's* o incluso mediante *TPU's*.
*   Una de sus aplicaciones más comunes es en el desarrollo de **redes neuronales e inteligencia artificial**.
*   El desarrollo de *TensorFlow* es mediante licencia de código abierto, lo que significa que no hace falta pagar una licencia para hacer uso del mismo.

## Aplicaciones

*TensorFlow* tiene bastas aplicaciones, algunas de ellas son:




*   I.A. detrás de las fotografiás en *smarthphones*: recientemente se ha empleado técnicas de i.a. para mejorar la captura de imágenes en un *smartphone*, detrás de esta i.a podemos encontrar bibliotecas como *TensorfFlow*.
*   Diagnostico médico: *TensorFlow* ya está mejorando las herramientas que utilizan los médicos, por ejemplo ayudando a analizar radiografías o fotografiás de pacientes y sugiriendo un diagnostico casi de inmediato.
*   Procesamiento de imágenes: una de las aplicaciones más conocidas de *TensorFlow* es el *software* automatizado de procesamiento de imágenes, ***DeepDream*** es de los ejemplos mas conocidos al respecto. 
*   El desarrollo de *TensorFlow* es mediante licencia de código abierto, lo que significa que no hace falta pagar una licencia para hacer uso del mismo.


## ¿Cómo funciona?

La idea de *TensorFlow 1.x* es definir el cómputo de datos como una gráfica conformada por **tensores** (nodos) y **datos** (aristas).

*   **Grafo**: un grafo es un conjunto de nodos y aristas que representan el cómputo de información que se recibe como entrada.
*   **Nodo**: es una agrupación de datos que puede tomar diferentes formas dependiendo del rango; rango 0 es un escalar, rango 1 es un vector, rango 2 una matriz, etc.
*   **Tensor**: en el contexto de *TensorFlow*, un tensor es conocido como una operación (op), la cual recibe uno o más datos o incluso la salida de otro tensor y realiza la operación indicada.
*   **Sesión**: para poder realizar los cálculos definidos en el grafo, se debe llevar a cabo mediante una sesión que representa el cálculo que se desea realizar.

##Visualización

Podemos pensar en un grafo de la siguiente forma.

<center>
<img src="https://github.com/jugernaut/Numerico2021/blob/master/Imagenes/Wrappers/op1.png?raw=1" width="450"> 
</center>

Un perceptrón simple se ve así.

<center>
<img src="https://github.com/jugernaut/Numerico2021/blob/master/Imagenes/Wrappers/op2.png?raw=1" width="600"> 
</center>

Una capa de una red neuronal se ve de esta manera.

<center>
<img src="https://github.com/jugernaut/Numerico2021/blob/master/Imagenes/Wrappers/opn.png?raw=1" width="600"> 
</center>

Finalmente una red neuronal (*SOM*), la podemos pensar así.

<center>
<img src="https://github.com/jugernaut/Numerico2021/blob/master/Imagenes/Wrappers/som.gif?raw=1" width="600"> 
</center>



##  Instalación en equipo local

Supongamos que ya se cuenta *virtualenv, python 2.7 y pip*.

1.   Crear entorno virtual: 

`\$mkdir tensorflow`

`\$virtualenv tensorflow`

2.   Activar entorno virtual:

`\$source tensorflow/bin/activate`

3.   Instalar *tensorflow*:

`(tensorflow)\$pip install tensorflow==1.0`


## *Tensorflow* 1.x en *Google Colab*

En caso de usar la versión más reciente de *TensorFlow*, sucede igual que con *Numba*, solo es necesario importar la biblioteca y hacer uso de la misma, en otro caso es necesario desintalar la versión actual e instalar la versión necesaria.

In [None]:
# se le indica a python la version de tensorflow
%tensorflow_version 1.x
# importamos tensorflow
import tensorflow as tf

# se genera una operacion
a = tf.add(3, 5)
# se muestran las caracteristicas de esta operacion
print(a)

# es solo hasta el momento de iniciar una sesion que se puede ver un resultado
sess = tf.Session()
# esta forma de definir el flujo de datos esta relacionado con ml
print(sess.run(a))
sess.close()

TensorFlow 1.x selected.
Tensor("Add:0", shape=(), dtype=int32)
8


# Otros envoltorios

Existe una gran variedad de envoltorios para multiples lenguajes, por ejemplo la clase *Thread* o la interfaz *Runnable* del lenguaje *Java*.

Un ejemplo de lo que se puede realizar con este tipo de envoltorios es el entorno de [*NetLogo*](http://www.netlogoweb.org/launch#http://www.netlogoweb.org/assets/modelslib/Sample%20Models/Art/Follower.nlogo), herramienta/lenguaje de simulación de modelos basados en agentes.

En *Python* existe una cantidad enorme de envoltorios como: *PyThorch, Keras, PyCuda*, etc. De igual manera para otros lenguajes existen sus respectivas versiones de envoltorios que tienen sus fundamentos en *OpenMP, MPI* y *CUDA*.

# Glosario

*Layer*: Capa informática, nivel o capa que se oculta una parte del *software*.

*Background*: En computación entorno que da soporte a un determinado software. 

# Referencias

1. https://numba.pydata.org/numba-doc/latest/user/5minguide.html

2. https://nyu-cds.github.io/python-numba/01-jit/

3. https://christophdeil.com/download/2019-07-11_Christoph_Deil_Numba.pdf

4. https://numba.pydata.org/numba-doc/dev/cuda/kernels.html

5. Tolga Soyata:\newblock GPU Parallel Program Development Using CUDA.