<img src="https://assets.fontsinuse.com/static/use-media-items/140/139698/full-1242x678/60acff7f/Logo.png" width="200">

# 01MIAR - Actividad WhitePapers
### Alumno: Mikel Escobar de Carlos

## Artículo 01

### The NumPy array: a structure for efficient numerical computation
Van Der Walt, S., Colbert, S. C., &amp; Varoquaux, G. (2011). The NumPy array: A
structure for efficient numerical computation. Computing in Science and
Engineering, 13(2), 22-30.

In [1]:
import numpy as np

# Broadcasting

**Se hace una breve introducción al Broadcasting como técnica que usa NumPy para realizar operaciones artiméticas sobre dos o más arrays con distintas dimensiones.**

**Actividad 01.01 - Ampliar dicha explicación, aportando posibles restricciones o limitaciones a dicho sistema y ejemplos propios de los casos de uso.**

Como bien dice el enunciado, el **broadcasting** es la estrategia que sigue Numpy para permitirnos realizar operaciones entre arrays de distintas dimensiones. Esto además posibilita vectorizar las operaciones entre matrices y que los bucles se ejecuten en C en vez de en Python, lo cual reduce considerablemente el tiempo de computación como muestra el artículo.

El ejemplo de broadcasting más sencillo sería el multiplicar un escalar por un vector:

In [2]:
a = np.array([1,2,3,4])
b = 5
b * a 

array([ 5, 10, 15, 20])

Estamos conceptualmente "estirando" b a un vector de forma (1,4) tal que [5,5,5,5] de manera que las dimensiones coincidan.

**Para que esto sea posible necesitamos que las dimensiones finales de nuestros arrays coincidan, aunque no tengan el mismo número, o en su defecto que una de ellas sea 1.** Es decir, podemos hacer operaciones entre:

In [3]:
c = np.random.randint(low=1, high=10, size=(3,2,2))
d = np.random.randint(low=1, high=10, size=(2,2))
d * c

array([[[14, 32],
        [30, 28]],

       [[28, 24],
        [10, 36]],

       [[42, 56],
        [45, 28]]])

En este caso tenemos las dos dimensiones (2,2) que son las finales de c y coinciden con las de d, por lo que se hace broadcasting a la tercera dimensión. Sin embargo **NO** podemos operar entre:

In [4]:
c = np.random.randint(low=1,high=10,size=(2,2,3))
d = np.random.randint(low=1,high=10,size=(2,2))
d * c

ValueError: operands could not be broadcast together with shapes (2,2) (2,2,3) 

Como vemos obtenemos el error de broadcasting entre estas dimensiones. Esto puede resultar poco intuitivo ya que tenemos un array muy similar, pero la regla es que deben coincidir las dimensiones finales (por la derecha), o ser 1. Si tuviésemos:

In [5]:
c = np.random.randint(low=1,high=10,size=(2,2,3))
d = np.random.randint(low=1,high=10,size=(2,2,1))
d * c

array([[[ 6,  2,  9],
        [21,  7, 35]],

       [[14, 14, 12],
        [ 2,  6, 16]]])

Ahora si que podemos hacerlo porque tenemos la tercera dimensión 1. Esto nos permite operar con arrays de formas muy dispares como:

` e = (3,6,5,1,7)
 f =   (6,1,4,7)`

resultado -> array dim(6,5,4,7)

Ya que vemos que las dimensiones finales o coinciden o donde no coinciden hay un 1.

In [6]:
c = np.random.randint(low=1,high=10,size=(3,6,5,1,7))
d = np.random.randint(low=1,high=10,size=(6,1,4,7))
d * c

array([[[[[32, 64,  8, ..., 21, 14, 40],
          [32, 16, 56, ..., 28,  2,  8],
          [ 8, 24, 48, ..., 35, 14, 40],
          [40, 32,  8, ..., 42, 14, 24]],

         [[32, 24,  9, ..., 12, 49, 25],
          [32,  6, 63, ..., 16,  7,  5],
          [ 8,  9, 54, ..., 20, 49, 25],
          [40, 12,  9, ..., 24, 49, 15]],

         [[28,  8,  7, ..., 27, 63, 10],
          [28,  2, 49, ..., 36,  9,  2],
          [ 7,  3, 42, ..., 45, 63, 10],
          [35,  4,  7, ..., 54, 63,  6]],

         [[36, 32,  3, ..., 12, 42, 35],
          [36,  8, 21, ..., 16,  6,  7],
          [ 9, 12, 18, ..., 20, 42, 35],
          [45, 16,  3, ..., 24, 42, 21]],

         [[ 8, 72,  5, ...,  6,  7, 45],
          [ 8, 18, 35, ...,  8,  1,  9],
          [ 2, 27, 30, ..., 10,  7, 45],
          [10, 36,  5, ..., 12,  7, 27]]],


        [[[ 8, 25, 35, ..., 18, 32, 81],
          [24, 45, 28, ..., 81, 72, 27],
          [16,  5, 56, ..., 36, 32, 81],
          [28,  5, 49, ..., 18, 32,  9]],

  

Con estos ejemplos podemos ver claramente en que ocasiones podemos echar mano del bradcasting para operar entre arrays de distintas dimensiones y cuáles son las limitaciones que tenemos. Decir que he empleado la multiplicación, pero es aplicable al resto de operadores.

# Memory mapping

**También se introduce el trabajo con ficheros usando memoria mapeada.**

**Actividad 01.02 - Verificar la eficacia y mejora posible de rendimiento del uso de dicha técnica sobre ndarrays de tamaños grandes.**

En general los archivos mapeados en memoria proporcionan un mecanismo para que un proceso acceda a estos incorporando directamente los datos del mismo en el espacio de direcciones del proceso. Esto puede reducir significativamente el movimiento de datos, ya que los archivos no han de copiarse en búferes de datos del proceso. Además, cuando más de un proceso mapea el mismo archivo, los contenidos se comparten entre ellos de modo que las regiones de memoria mapeada sirven para intercambiar datos entre ellos.

En el caso de NumPy, las arrays mapeadas en memoria poseen la misma interfaz que cualquier otra. Para hacer uso de esta técnica empleamos el método **memmap**. Veamos un ejemplo:

Creamos el array inicial, vacío, esto no contiene datos pero ya crea un archivo en nuestro directorio de trabajo.

In [7]:
a = np.memmap("memmap_array.dat", dtype=np.float32, mode="w+", shape=(1000,1000))

Ahora podemos asignar valores aleatorios a nuestro array, esto llena el archivo.

In [8]:
a[:] = np.random.rand(1000,1000)[:]
a

memmap([[0.91677284, 0.15255958, 0.51872706, ..., 0.43141705, 0.37831804,
         0.4944074 ],
        [0.916267  , 0.4093709 , 0.323286  , ..., 0.79335165, 0.72298396,
         0.57794434],
        [0.98423177, 0.7301213 , 0.48469272, ..., 0.11599375, 0.8226113 ,
         0.1345069 ],
        ...,
        [0.84471554, 0.221938  , 0.31719226, ..., 0.37937158, 0.29242367,
         0.7217762 ],
        [0.6019815 , 0.34193718, 0.15841645, ..., 0.41270277, 0.968449  ,
         0.08948222],
        [0.05232425, 0.51544625, 0.7041866 , ..., 0.7352469 , 0.28613192,
         0.56419766]], dtype=float32)

Debemos hacer un delete para que haga el flush de todos los datos a memoria antes de borrar la variable

In [9]:
del a

Obiamente hemos borrado a, luego ya no está definida. Sin embargo, tenemos los datos en disco y podemos recuperarlos con la misma función en modo lectura:

In [10]:
new_a = np.memmap("memmap_array.dat", dtype=np.float32, mode="r+", shape=(1000,1000))
new_a

memmap([[0.91677284, 0.15255958, 0.51872706, ..., 0.43141705, 0.37831804,
         0.4944074 ],
        [0.916267  , 0.4093709 , 0.323286  , ..., 0.79335165, 0.72298396,
         0.57794434],
        [0.98423177, 0.7301213 , 0.48469272, ..., 0.11599375, 0.8226113 ,
         0.1345069 ],
        ...,
        [0.84471554, 0.221938  , 0.31719226, ..., 0.37937158, 0.29242367,
         0.7217762 ],
        [0.6019815 , 0.34193718, 0.15841645, ..., 0.41270277, 0.968449  ,
         0.08948222],
        [0.05232425, 0.51544625, 0.7041866 , ..., 0.7352469 , 0.28613192,
         0.56419766]], dtype=float32)

Observamos como efectivamente hemos recuperado los mismos valores aleatorios. Esto es claramente muy útil cuando debamos trabajar con arrays muy grandes que ocupen gran parte nuestra memoria o incluso no entren en ella.

Probemos a hacer  operaciones con arrays grandes y medir tanto su uso de memoria como el tiempo empleado en realizar las operaciones:

In [12]:
import sys
import time
# Vamos a crear un array grande de valores aleatorios
size = (17000,17000)
m = np.memmap("memmap_array_2.dat", dtype=np.float64, mode="w+", shape=size)
x = np.random.random(size=size)
print(f"MB ocupados: {sys.getsizeof(x)/1048576}") # El método getsizeof devuelve el tamaño en bytes
# Asignamos los valores aleatorios a nuestra array mapeada en memoria y la volcamos
m[:] = x[:]

MB ocupados: 2204.895133972168


Vemos que una matriz de este tamaño ya ocupa sobre 2 GB. Como hemos creado 2 mi memoria RAM tiene un pico de 4.4 GB. Probemos a hacer alguna operación con x y con m. Contienen la misma información pero x está entera en nuestra RAM mientras que m la podemos borrar y leer por bloques del disco:

In [13]:
start = time.time()
xs = [x[i].mean() for i in range(size[0])]
fin = time.time() - start

print(np.mean(xs), 'Tiempo total con x en RAM: %.2fs ' % (fin))
del x # Monitorizando la memoria del ordenador puedo ver como al borrar x se liberan unos 2GB de memoria RAM
del m

0.5000044047222755 Tiempo total con x en RAM: 0.52s 


Ya se han liberado los 4.4 GB que habíamos ocupado anteriormente.

In [14]:
m_memmap = np.memmap("memmap_array_2.dat", dtype=np.float64, mode='r', shape=size)

# En este caso solo traemos un bloque de memoria a la vez
start = time.time()
xs = [m_memmap[i].mean() for i in range(size[0])]
fin = time.time() - start

print(np.mean(xs), 'Tiempo total con m en disco: %.2fs ' % (fin)) # La media coincide obviamente

0.5000044047222755 Tiempo total con m en disco: 1.55s 


Podemos ver como es más lento (3 veces más en este caso) ya que debemos ir a buscar los datos al disco en vez de leerlos directamente de la RAM. También he observado que los 2.2GB vuelven a almacenarse en RAM, ya que Windows 10 almacenará los datos ahí mientras estos entren. Si nos pasamos irá liberando esa memoria RAM ya que tenemos la info en el disco. De modo que, aunque memmap nos permitiría trabajar con arrays de mayor tamaño que la memoria de nuestro ordenador, no tiene mucho sentido usarlo para arrays pequeñas o mientras no veamos como un problema la falta de memoria.

Esto es algo a tener muy en cuenta es si pretendemos emplear este tipo de técnicas en producción durante algún tipo de microservicio, API, etc. ya que para este tipo de aplicaciones las latencias son muy importantes. Imaginemos que queremos construir un sistema de recomendación que debe consultar u operar matrices de numpy de gran tamaño, si bien es cierto que el mapeado en memoria nos permitiría trabajar cómodamente con estas matrices grandes, también vemos que añade un importante tiempo de lectura y operación, lo cual podría afectar seriamente a nuestro servicio. Para este tipo de aplicaciones deberíamos de recurrir a otro tipo de tecnologías de big data como Apache Spark que nos permita distribuir la carga de trabajo.

En conclusión, esta es una herramienta muy útil a la hora de trabajar con grandes arrays y probablemente sea muy apropiada en entornos de desarrollo o investigación con grandes volúmenes de datos (por ejemplo en ciencia). Sin embargo tiene sus contraindicaciones en cuanto al tiempo de lectura, lo que puede hacer de su uso una pega en otras aplicaciones.

## Artículo 02

### Data Structures for Statistical Computing in Python
McKinney, W. (2010). Data Structures for Statistical Computing in Python.
Proceedings of the 9th Python in Science Conference, December, 56-61.

# Pandas
**Actividad 02.01 - Desarrollar una opinión razonada del estado actual de las herramientas de análisis de datos estadísticos en contraposición a como se muestran en el artículo, R vs Python vs SQL vs Others...**

Bueno, lo primero que debemos observar es que el artículo fue escrito en 2010, el mismo año que se presentó el iPhone 4 y Windows 7 era el OS de Microsoft más reciente, habiéndose lanzado un año antes. Con este contexto en mente vemos que el paper constituye una presentación de Pandas como una herramienta para el análisis de datos estadísticos que aprovecha NumPy y extiende sus funcionalidades. Vemos como hay grandes referencias a R, como a la hora de elegir nombres para los objetos DataFrame y que ya en las primeras versiones obteníamos mejoras y nuevas features respecto a este. 

Tal y como comenta en el artículo, hace una década todavía R o MATLAB eran la opción por defecto para el análisis estadístico, Python fue ganando adopción por parte de los desarrolladores y analistas de datos con la aparición de nuevas herramientas como NumPy y adaptaciones de otros frameworks como Matplotlib. Es curioso que R sea un lenguaje más nuevo que Python y que sin embargo fuese la opción por defecto por muchos años hasta que este recibió este tipo de atención por parte de la comunidad. Al ser ambos lenguajes de código abierto supongo que dependen en gran medida de las "modas" y los intereses de la comunidad que los respalda. MATLAB por ejemplo aparte de ser más viejo sigue los intereses económicos de Mathworks y lo que sus clientes demandan. 

Una de las razones por las que creo que Python, Pandas, NumPy... y en general todo este stack de herramientas dedicadas al análisis estadístico de datos han tomado tanta fuerza y se han impuesto a sus predecesoras es su simplicidad. Python es uno de los lenguajes más sencillos de aprender y además es muy polivalente, hoy en día puedes usarlo para casi cualquier cosa, desde seguridad informática o desarrollo de aplicaciones web hasta el campo que nos interesa, el análisis de datos y el aprendizaje automático. Esto de la mano de la enorme comunidad que ha ido construyendo y se muestra activa en foros dando soporte hace que la situación haya dado un cambio radical respecto a lo expuesto en el artículo. Este crecimiento en popularidad lo podemos ver fácilmente en índices como TIOBE O PYPL: 

* https://www.tiobe.com/tiobe-index/ 

* https://pypl.github.io/PYPL.html 

Donde a fecha de hoy Python se coloca en primer puesto en ambos. Y esto no es simplemente por su uso en ciencia de datos sino por el gran número de usuarios que tiene para sus distintos propósitos. 

Relacionarlo con otras herramientas ya es algo más complicado ya que por así decirlo no son "competidores directos". Por ejemplo, aunque es verdad que con Pandas podemos realizar transformaciones y consultas equivalentes a sentencias SQL, este lenguaje no puede ser sustituido enteramente por estas herramientas. Como hablábamos antes sobre NumPy, aplica algo similar para Pandas, podemos realizar la mayoría de trabajos con Pandas y NumPy cuando estamos en un entorno de desarrollo, investigación, académico... Pero cuando llega la hora de plasmar todo en un sistema productivo, o un resultado final, es muy probable que acabemos necesitando de sistemas más fiables para almacenar y consultar nuestros datos, en cuyo caso acabaremos usando SQL muy probablemente. La parte positiva es que es muy sencillo integrar nuestros códigos y herramientas de Python en los sistemas de ETL de cualquier tipo. Un conector a una base de datos SQL o un índice de ElasticSearch toma unas pocas líneas y nos permite ejecutar queries y traernos datos para trabajar con Pandas en nuestros scripts de Python con mucha facilidad.

Podemos concluir que esta compatibilidad y versatilidad es lo que ha conseguido que se imponga como herramienta principal en el sector, y que Wes McKinney estaba muy en lo cierto al vaticinar que en los años venideros muchos usuarios iban a ser atraídos al stack científico de Python. 

 