# Aplicación de Numpy en el Análisis de Datos

## Situación inicial

Para esta tarea, nos pondremos en el rol de un analista de datos que busca optimizar los procedimientos de procesamiento de datos de una empresa de análisis financiero, la cual actualmente trabaja con datos en formatos dispersos y estructuras poco optimizadas.

Para realizar dicha optimización, se decide usar Numpy, que está optimizado para realizar operaciones de álgebra lineal y estadísticas, entre otras.


## Descripción del Caso

En el rol de analista de datos descrito anteriormente, se debe utilizar Numpy para mejorar la eficiencia de los cálculos financieros, facilitando la toma de decisiones en base a métricas clave.

Se deberá trabajar con matrices y arreglos de Numpy para operaciones como:
- Creación y manipulación de arrays multidimensionales.
- Aplicación de funciones matemáticas y estadísticas sobre datos.
- Indexación y selección eficiente de elementos dentro de los arrays.
- Optimización del rendimiento computacional a través del uso de **broadcasting** y operaciones vectorizadas.

En particular se nos solicita:
1. **Carga y estructuración de datos:**
    - Crear un **array Numpy** con datos financieros simulados.
    - Dichos datos se deben organizar en una matriz de 5 x 5 donde cada fila representa una acción y cada columna un día de cotización.
2. **Análisis y transformación de datos:**
    - Obtener el **promedio, valor máximo y mínimo** de cada acción a lo largo del tiempo.
    - Calcular la **variación porcentual diaria** de cada acción.
    - Aplicar funciones matemáticas como logaritmo, exponencial o normalización sobre los datos.
3. **Optimización y selección de datos:**
    - Utilizar **indexación avanzada** para extraer información específica, como el rendimiento de una acción en un día determinado.
    - Aplicar **broadcasting** para realizar operaciones sin necesidad de bucles.
4. **Comparación con otros métodos:**
    - Analizar como se podrían realizar estas tareas sin Numpy y comparar la eficiencia en términos de código y rendimiento computacional.

## Desarrollo

Para iniciar el ejercicio, primero se debe importar la librería Numpy, lo cual se realiza a continuación

In [1]:
import numpy as np

Posteriormente, se crea una matriz de 5 x 5 según lo solicitado. Para ello, se inicializará una matriz con valores aleatorios entre 0 y 10.000, inicializando la semilla aleatoria de Numpy para obtener un comportamiento replicable. Asumiendo que las acciones están valoradas en CLP, podemos asumir que los valores erán de tipo entero. Dado el tamaño de los valores a manipular, utilizar datos de tipo int16 será suficiente.

In [2]:
np.random.seed(42)

acciones = np.random.randint(1, 10_000, (5, 5), dtype=np.int16)
acciones

array([[7271, 8162, 3051,  861, 5391],
       [5192, 1946, 6466, 6348, 5735],
       [6266,  467, 6552, 4427, 3807],
       [5579, 7614, 5486, 6627, 9363],
       [8323, 9889, 1686, 1350, 3697]], dtype=int16)

Ahora procedemos al análisis y transformación de los datos. Primero, oara obtener la media, valor máximo y mínimo, podemos usar los métodos mean, max y min de numpy, respectivamente. Como queremos obtener dichos valores para cada acción a lo largo del tiempo, debemos ingresar el argumento axis=1, pues el de esta forma los métodos calcularán los valores a lo largo de las columnas, que representan los días en que se toma el valor de cada acción.

In [3]:
media = acciones.mean(axis=1)
media

array([4947.2, 5137.4, 4303.8, 6933.8, 4989. ])

In [4]:
maximo = acciones.max(axis=1)
maximo

array([8162, 6466, 6552, 9363, 9889], dtype=int16)

In [5]:
minimo = acciones.min(axis=1)
minimo

array([ 861, 1946,  467, 5486, 1350], dtype=int16)

Para obtener la variación porcentual diaria de cada acción, se debe calcular la diferencia entre el día actual y el día anterior, y el resultado de dicha operación dividirlo por el valor del día anterior. Para obtener la diferencia, se puede utilizar el método diff con argumento axis=1 para calcular la diferencia entre días consecutivos, y después indexar el array acciones de forma conservar las observaciones para cada día excepto el último.

In [6]:
variacion_porcentual = np.diff(acciones, axis=1) / acciones[:, :-1]
variacion_porcentual

array([[ 0.1225416 , -0.62619456, -0.71779744,  5.26132404],
       [-0.6251926 ,  2.32271326, -0.0182493 , -0.09656585],
       [-0.92547079, 13.02997859, -0.32432845, -0.1400497 ],
       [ 0.36476071, -0.27948516,  0.20798396,  0.4128565 ],
       [ 0.18815331, -0.82950753, -0.19928826,  1.73851852]])

Para calcular el logaritmo y la exponencial de los valores en el array acciones, podemos simplemente utilizar las funciones log y exp de numpy, respectivamente. En el caso de la exponencial, dividiremos por el máximo valor en el array acciones para evitar que se produzca un overflow en los cálculos, es decir, que el resultado sea más grande de lo que se puede almacenar en memoria.

In [7]:
logaritmo = np.log(acciones)
logaritmo

array([[8.891649 , 9.007244 , 8.023225 , 6.7580943, 8.592486 ],
       [8.554874 , 7.573531 , 8.774313 , 8.755895 , 8.654343 ],
       [8.742893 , 6.1463294, 8.787525 , 8.395477 , 8.2445965],
       [8.626765 , 8.937744 , 8.609955 , 8.798907 , 9.144521 ],
       [9.026778 , 9.199179 , 7.4301143, 7.20786  , 8.215277 ]],
      dtype=float32)

In [8]:
exponencial = np.exp(acciones / acciones.max())
exponencial

array([[2.08602721, 2.28270584, 1.36141503, 1.09096916, 1.72486913],
       [1.69050586, 1.21748141, 1.92294492, 1.90013583, 1.78592646],
       [1.88444497, 1.04835701, 1.93974079, 1.56466091, 1.46957494],
       [1.75797434, 2.1596505 , 1.74151916, 1.95450808, 2.57747332],
       [2.32017411, 2.71828183, 1.18588872, 1.14627244, 1.45331875]])

En el caso de la normalización, podemos restar a acciones su mínimo valor, y dividir por la diferencia entre su máximo y su mínimo.

In [9]:
acciones_normalizadas = (acciones - acciones.min()) / (acciones.max() - acciones.min())
acciones_normalizadas

array([[0.72213967, 0.81670558, 0.27425175, 0.04181702, 0.52260667],
       [0.50148588, 0.15697304, 0.63670134, 0.62417746, 0.55911696],
       [0.61547442, 0.        , 0.64582891, 0.42029293, 0.35448949],
       [0.54255997, 0.75854383, 0.53268945, 0.653789  , 0.94417321],
       [0.83379325, 1.        , 0.12937805, 0.09371683, 0.34281469]])

Dado que Numpy usa operaciones vectorizadas, los cálculos realizados son mucho más rápidos que con funciones estándar de Python, dado que Numpy realiza dichas operaciones por bloques, mientras que Python estándar realiza dichas operaciones de manera desorganizada a través de bucles. Si juntamos todo el código anterior escrito con Numpy, obtenemos la siguiente celda de código.

In [10]:
def operaciones_numpy(n_filas, n_columnas):
    """Realiza diversas operaciones matriciales usando la librería Numpy."""
    acciones = np.random.randint(1, 10_000, (n_filas, n_columnas), dtype=np.int16)
    media = acciones.mean(axis=1)
    maximo = acciones.max(axis=1)
    minimo = acciones.min(axis=1)
    variacion_porcentual = np.diff(acciones, axis=1) / acciones[:, :-1]
    logaritmo = np.log(acciones)
    exponencial = np.exp(acciones / acciones.max())
    acciones_normalizadas = (acciones - acciones.min()) / (acciones.max() - acciones.min())

In [11]:
%%timeit -r 100

operaciones_numpy(5, 5)

37.9 μs ± 498 ns per loop (mean ± std. dev. of 100 runs, 10,000 loops each)


El código anterior usa solo 8 líneas de código, y se demora alrededor de 40 microsegundos en ejecutarse, con una desviación estándar de 1.96 microsegundos. Por otro lado, el equivalente en Python sería como en la siguiente celda de código.

In [12]:
import random
import math
random.seed(42)

In [13]:
def operaciones_python(n_filas, n_columnas):
    """Realiza diversas operaciones matriciales usando las librerías estándar de Python."""
    acciones = [[random.randint(1, 10_000) for j in range(n_columnas)] for i in range(n_filas)]
    media = [sum(acciones[i]) / len(acciones[i]) for i in range(n_filas)]
    maximo = [max(acciones[i]) for i in range(n_filas)]
    minimo = [min(acciones[i]) for i in range(n_filas)]
    variacion_porcentual = [[(acciones[i][j + 1] - acciones[i][j]) / acciones[i][j] for j in range(n_columnas - 1)] for i in range(n_filas)]
    logaritmo = [[math.log(acciones[i][j]) for j in range(n_columnas)] for i in range(n_filas)]
    maximo_acciones = max(maximo)
    exponencial = [[math.exp(acciones[i][j] - maximo_acciones) for j in range(n_columnas)] for i in range(n_filas)]
    minimo_acciones = min(minimo)
    rango = maximo_acciones - minimo_acciones
    acciones_normalizadas = [[(acciones[i][j] - minimo_acciones) / rango for j in range(n_columnas)] for i in range(n_filas)]

In [14]:
%%timeit -r 100

operaciones_python(5, 5)

25.9 μs ± 276 ns per loop (mean ± std. dev. of 100 runs, 10,000 loops each)


En este caso particular, las librerías estándar de Python resultan ser un poco más rápidas que Numpy, pues estamos trabajando con una cantidad pequeña de datos. Sin embargo, podemos notar que, a pesar de que las operaciones realizadas son relativamente simples, Python introduce mucha más verbosidad que Numpy, lo cual hace el código más difícil de mantener y propenso a errores.

Si aumentamos la cantidad de datos a procesar, por ejemplo 1.000 filas y 10 columnas, Numpy debería ser mucho más rápido que Python.

In [15]:
%%timeit -r 10

operaciones_numpy(1_000, 10)

264 μs ± 1.48 μs per loop (mean ± std. dev. of 10 runs, 1,000 loops each)


In [16]:
%%timeit -r 10

operaciones_python(1_000, 10)

9.39 ms ± 49.4 μs per loop (mean ± std. dev. of 10 runs, 100 loops each)


Ahora es mucho más clara la diferencia de rendimiento. De hecho, Numpy en este caso es casi 5.000 veces más rápido que Python estándar, evidenciando claramente que Numpy es mucho más eficiente a medida que aumenta la cantidad de datos a procesar.

## Conclusión

A través del uso de Numpy, es posible optimizar nuestro código de Python, tanto en eficiencia de procesamiento como en cantidad de código escrito, permitiendo un desarrollo más rápido sencillo de operaciones matemáticas en Python. Visto lo anterior, debería usarse Numpy en vez de las librerías estándar de Python siempre que sea posible.