# CLASE 1.1: INTRODUCCIÓN A NUMPY.
---
## ¿Qué es Numpy?
**Numpy** (acrónimo de Numerical Python) es una librería de código abierto desarrollada en Python y que es comúnmente utilizada en prácticamente todos los campos de la computación científica y la ingeniería, siendo el estándar casi universal para el análisis eficiente de datos numéricos en Python y el pilar fundamental de un montón de otras librerías científicas de gran poder, aptas para tareas tan diversas que todo ser humano que desee realizar análisis de datos mediante el uso del lenguaje Python debe, como paso cero, tener esta librería como primera opción dentro de su caja de herramientas.

La librería **Numpy** es utilizada extensivamente como base para otras librerías famosas y de uso masivo en Python, tales como **Pandas** (especializada en el análisis de datos estructurados), **Matplotlib** (especializada en la graficación y reportabilidad mediante una API de bajo nivel, pero sencilla y muy robusta), **Scipy** (la librería científica de Python, especializada en el modelamiento analítico de fenómenos, procesos y sistemas de gran complejidad), **Scikit-Learn** (la librería clásica de Machine Learning de Python) o **Tensorflow** (una de las librerías de Deep Learning más utilizadas en el mercado). Por esta razón, **Numpy** suele representar el primer acercamiento de los usuarios interesados en aprender tópicos de ciencia de datos desde una perspectiva práctica y es esencial en cualquier asignatura relativa a la toma de decisiones basadas en datos usando el lenguaje de programación Python.

El elemento central de **Numpy** es una estructura de datos conocida como arreglo y que, en términos *pythonicos*, corresponde a un objeto conocido como `ndarray`. Dicho nombre hace referencia a un arreglo de valores (comúnmente numéricos) de dimensión ${n\times d}$, que suele ser imaginado como una estructura de datos de tipo matricial, que idealmente vive en el conjunto $\mathbb{R}^{n\times d}$ (que representa al conjunto de todas las matrices con ${n}$ filas y ${d}$ columnas). Sin embargo, **Numpy** no suele limitarse a arreglos matriciales, sino que a cualquier conjunto de elementos que puedan ser utilizados para operaciones vectorizadas, lo que incluye por supuesto a objetos de mayor dimensión, como tensores, y a otros de menor dimensión, como vectores. Todas estas estructuras de datos se representan en **Numpy** mediante el objeto `ndarray`.

Dado lo anterior, **Numpy** provee soporte para todo tipo de operaciones vectorizadas que son típicas en el álgebra matricial y tensorial, desde sumas y productos de matrices, hasta descomposiciones en valores singulares, factorizaciones de tipo QR e incluso ortogonalización de arreglos matriciales. Lo mejor de todo esto, es que tales operaciones se realizan en **Numpy** con un alto grado de eficiencia en lo que respecta al tiempo de ejecución.

## Instalación de Numpy.
**Numpy** se incluye siempre como librería base en el framework de Anaconda Python. Sin embargo, siempre es posible instalar esta librería de manera separada mediante el gestor de paquetes de conda usando una terminal de Anaconda como sigue:

`conda install numpy`

También es posible usar el índice de paquetes de Python (PyPI) mediante el gestor `pip` para la instalación de **Numpy**:

`pip install numpy`

La importación de la librería **Numpy** en Python suele seguir una especie de estándar en términos de su prefijo. De esta manera, **Numpy** suele importarse mediante el alias `np`, por lo que, una vez instalado, accederemos a todas funciones como sigue:

In [1]:
import numpy as np

## El Concepto de Arreglo.
Ya habíamos comentado que los arreglos son estructuras de datos que permiten la realización de operaciones vectorizadas sobre ellos, pero es justo que ahondemos un poco más en estos objetos y los conozcamos a fondo, simbólicamente, antes de comenzar a hacer operaciones con ellos.

Como ya dijimos, el arreglo es el elemento central de **Numpy**. Corresponde a una grilla de valores que viene provista con la correspondiente información relativa a la data almacenada en dicha grilla, y formas que permiten localizar dicha información en la grilla y cómo interpretar tal información. La única restricción es que dicha grilla **sólo puede contener información de un único tipo**.

Un ejemplo de arreglo es el *vector*. En términos más bien rigurosos, un vector es un arreglo unidimensional, en el sentido de que, si bien un vector es un objeto cuya dimensión, matemáticamente, es equivalente al número de elementos que lo constituyen, en términos geométricos, tales elementos se ordenan en una única fila o columna, razón por la cual, en la terminología computacional, los vectores constituyen arreglos de una sola dimensión.

Vamos a ejemplificar esto e ilustrarlo para que podamos entenderlo mejor. En Numpy, la creación de un arreglo puede hacerse siempre mediante la función `np.array()` (o simplemente `array()`, si nos abstraemos de usar el correspondiente alias `np`). Si queremos escribir el vector $\mathbf{x} =( -1,1,5,-8,2)  \in \mathbb{R}^{5} $, es posible considerar una representación mediante una matriz fila o una matriz columna, ya que, equivalentemente, podemos escribir $\mathbf{x}$ simbólicamente como

<p style="text-align: center;">$\mathbf{x} =\left( \begin{matrix}-1&1&5&-8&2\end{matrix} \right)  \in \mathbb{R}^{1\times 5} \  \vee \  \mathbf{x} =\left( \begin{array}{r}-1\\ 1\\ 5\\ -8\\ 2\end{array} \right)  \in \mathbb{R}^{5\times 1}$</p>

En **Numpy**, todo arreglo puede escribirse considerando que, en términos matriciales, las filas se definen como listas de Python. Si queremos escribir una matriz con ${n}$ filas, bastará siempre con especificar un total de ${n}$ listas separadas por comas, donde el número de elementos dentro de cada lista (que es el mismo, por supuesto, para todas ellas) define el número de columnas de la matriz, usando la función `np.array()`.

Como queremos representar, en este caso, al vector 𝐱 definido previamente, debemos considerar el tipo de representación: Si $\mathbf{x}$ se representa por medio de una matriz fila (es decir, $\mathbf{x} \in \mathbb{R}^{1\times 5}$), bastará con escribir, conforme el esquema anteriormente descrito:

In [2]:
x = np.array([-1, 1, 5, -8, 2]) # Definimos el arreglo x.
print(x) # Imprimimos en pantalla el valor de x.

[-1  1  5 -8  2]


Por otro lado, si queremos escribir $\mathbf{x}$ como un vector columna, entonces cada una de las entradas de $\mathbf{x}$ debe ser una lista por sí sola, ya que, como dijimos, cada fila de un arreglo se especifica mediante listas, separadas por comas. Por lo tanto, si $\mathbf{x} \in \mathbb{R}^{5\times 1}$, entonces imputaremos 5 listas separadas por comas. De este modo, debemos tener:

In [3]:
x = np.array([[-1], [1], [5], [-8], [2]]) # Definimos el arreglo x.
print(x) # Imprimimos en pantalla el valor de x.

[[-1]
 [ 1]
 [ 5]
 [-8]
 [ 2]]


Extender esta idea a matrices resulta, por supuesto, natural. Consideremos entonces la matriz $\mathbf{A} \in \mathbb{R}^{4\times 4} $, definida como

<p style="text-align: center;">$\mathbf{A} =\left( \begin{array}{rrrr}-2&1&-7&6\\ 1&3&1&-4\\ -5&-5&0&4\\ -9&2&-8&9\end{array} \right)  \in \mathbb{R}^{4\times 4} $</p>

Construir una estructura de este tipo en **Numpy** resulta muy sencillo. Como dijimos previamente, usamos la función `np.array()` para la generación de este arreglo, definiendo cada una de las filas mediante listas y separándolas mediante comas. Por lo tanto, para el caso de la matriz $\mathbf{A}$, bastará con escribir:

In [4]:
# Definimos la matriz A.
A = np.array([
    [-2, 1, 7, 6],
    [1, 3, 1, -4],
    [-5, -5, 0, 4],
    [-9, 2, -8, 9]
])
print(A) # Imprimimos en pantalla el valor de A.

[[-2  1  7  6]
 [ 1  3  1 -4]
 [-5 -5  0  4]
 [-9  2 -8  9]]


Como vemos, construir matrices con **Numpy** resulta sencillo y, sobretodo, natural, debido principalmente al estándar de imputación de los elementos que componen un arreglo conforme la función `np.array()`. Las matrices, desde una perspectiva geométrica, corresponden a arreglos bidimensionales, en el sentido de que su morfología queda completamente determinada por dos parámetros, que son, correspondientemente, el número de filas y columnas que caracterizan al arreglo. Por lo tanto, la matriz `A` que construimos previamente, es un arreglo bidimensional con geometría o forma `(4, 4)`, debido a que ésta posee 4 filas y 4 columnas.

**Numpy**, como ya comentamos en un principio, no se limita a vectores y matrices. También es posible construir estructuras más generales, como es el caso de los tensores. Al igual que las matrices, los tensores son objetos algebraicos que describen relaciones lineales entre otros objetos que, a su vez, son elementos de determinados espacios vectoriales. Tales elementos pueden ser vectores, matrices e incluso otros tensores. En términos geométricos, los tensores suelen representarse en **Numpy** como arreglos tridimensionales, debido a que un tensor puede imaginarse como un conjunto de matrices de la misma dimensión apiladas unas encimas de las otras. De este modo, los tres parámetros que definen la geometría del tensor corresponden al número de filas, número de columnas y número de apilamientos, respectivamente.

Un ejemplo de tensor es el siguiente:

In [5]:
# Definimos el tensor T.
T = np.array([
    [
        [2, -1, -1, 4, -5],
        [0, -3, 3, -2, -7],
        [-1, 1, 6, -9, 1],
        [-8, -8, 1, -1, 6],
    ],
    [
        [5, -5, 1, -1, 3],
        [-4, 9, 8, 1, 0],
        [0, -1, -5, -7, 2],
        [5, -7, -6, -8, 1],
    ],
    [
        [2, -2, 5, 1, 0],
        [3, -3, -4, 1, 0],
        [-2, -8, -1, 0, 5],
        [-8, 1, -5, 0, 6],
    ]
])
print(T) # Imprimimos en pantalla el valor de T.

[[[ 2 -1 -1  4 -5]
  [ 0 -3  3 -2 -7]
  [-1  1  6 -9  1]
  [-8 -8  1 -1  6]]

 [[ 5 -5  1 -1  3]
  [-4  9  8  1  0]
  [ 0 -1 -5 -7  2]
  [ 5 -7 -6 -8  1]]

 [[ 2 -2  5  1  0]
  [ 3 -3 -4  1  0]
  [-2 -8 -1  0  5]
  [-8  1 -5  0  6]]]


Vemos pues que el tensor `T` tiene un total de tres dimensiones morfológicas (tensor de orden 3). La primera especifica el sub-arreglo de interés; la segunda, la fila de dicho sub-arreglo; y la tercera, la columna de dicho sub-arreglo. Ya ahondaremos más en la selección de elementos en un arreglo de **Numpy**. Pero vale la pena mencionar que, bajo esta convención, el elemento en la posición `[2, 1, 2]` del tensor `T` sería el número -4. Considerando que Python siempre cuenta a partir de la posición 0, vemos que el sub-arreglo en la posición 2 (el último) tiene, en la posición `[1, 2]`, al elemento -4. En un lenguaje más algebraico, este tensor podría especificarse como $\mathbf{T} =\left\{ t_{ijk}\right\}  \in \mathbb{R}^{4\times 5\times 3}$, y el elemento previamente señalado sería $t_{212}=-4$.

La Fig. (1.1) esquematiza el concepto de arreglo en términos geométricos, conforme lo que hemos revisado hasta ahora.

![alt text](https://github.com/rquezadac/udd_data_analytics_lectures/blob/main/seccion_01_numpy/fig_1_1.png?raw=true "Logo Title Text 1")
<p style="text-align: center;">Fig. (1.1): Geometrías asociadas a arreglos de Numpy de diferentes dimensiones</p>

## Geometría de un arreglo.
Observemos que, en el esquema de la Fig. (1.1), hemos dibujado flechas a modo de ejes geométricos que definen las posiciones en los distintos tipos de arreglos según su dimensión. Tales ejes corresponden a una referencia universal utilizada por **Numpy** para especificar la posición de un elemento dentro de un arreglo, y en primera instancia suele ser un tanto confusa, por lo que vale la pena discutirla brevemente.

Partamos siendo honestos: Los ejes referenciales de los arreglos de **Numpy** pueden ser difíciles de entender. De hecho, su conocimiento adecuado puede volverse un verdadero dolor de cabeza para cualquier entusiasta novato en análisis o ciencia de datos. Sin embargo, son importantes para poder caracterizar cualquier estructura de datos en **Numpy**. Así que, para familiarizarnos con ellos, comenzaremos ejemplificando su uso en un arreglo bidimensional, que suele ser el caso más sencillo de entender.

En un arreglo bidimensional, que es el símil de una matriz, digamos de 𝑛 filas y 𝑑 columnas, los ejes corresponden a las direcciones que definen las filas y columnas del arreglo. Conforme la Fig. (1.1), el eje 0 (que, en **Numpy** se especifica como `axis=0`) corresponde a la dirección a lo largo de las filas del arreglo, y a su vez es el primer eje en este sistema de referencia. Por otro lado, el eje 1 (que, en **Numpy** se especifica como `axis=1`) corresponde a la dirección a lo largo de las columnas de un arreglo. Estos ejes permiten especificar cómo operar con los elementos del arreglo cuando estamos interesados en construir agregaciones. Veremos esto en detalle más adelante, pero las agregaciones son operaciones que involucran el uso de los elementos a lo largo de estos ejes, como podrían ser sumas de los elementos situados en una determinada fila o columna. Tomemos, por ejemplo, el arreglo `A`, que construimos unas líneas más atrás. La operación `A.sum(axis=1)` nos permite obtener la suma de todos los elementos de cada fila del arreglo `A`, ya que el argumento `axis=1` utilizado para el método `sum()` indica a **Numpy** que la suma se realice a lo largo (o en la dirección) del eje 1. Y, si bien el eje 1 recorre todas las columnas de un arreglo 2D (y permite identificar cuantas columnas tiene nuestro arreglo), ello implica que, al mismo tiempo, dicho recorrido se hace por las filas del mismo. De esta manera, al escribir

In [6]:
# Suma a lo largo del eje 1 (es decir, por filas).
A.sum(axis=1)

array([12,  1, -6, -6])

obtenemos, en efecto, la suma de todas las filas de todo el arreglo `A`. Notemos que el resultado de esta operación es otro arreglo que contiene las sumas respectivas de cada fila. Esto es algo típico de **Numpy**: *Toda operación con arreglos devuelve, como resultado, otro arreglo.*

Podemos obtener la suma de todas las columnas del arreglo `A` si usamos como argumento del método `sum()` la instrucción `axis=0`. De esta manera, le estamos diciendo a **Numpy**: *“Suma todos los elementos conforme la dirección del eje 0”* (es decir, en la dirección de las columnas de `A`). Por lo tanto, tendremos que

In [7]:
# Suma a lo largo del eje 0 (es decir, por columnas).
A.sum(axis=0)

array([-15,   1,   0,  15])

La lógica previa se preserva para cualquier operación de agregación en **Numpy**. Veremos más adelante otro tipo de operaciones de este tipo. Sin embargo, es bueno tener en consideración que estas operaciones toman, literalmente, al argumento `axis` en su sentido geométrico. De este modo, podemos imaginar que la operación `A.sum(axis=0)` es pensada en **Numpy** como: *“Sumar todos los elementos de `A`, como si hubiéramos apretado o colapsado el arreglo en la dirección del eje 0”*. No es la forma más didáctica de explicarlo, pero es como está pensado el funcionamiento de este tipo de operaciones en **Numpy**.

No obstante lo anterior, las operaciones de agregación no son las únicas que podemos hacer en **Numpy**. Existen otras operaciones que no son de este tipo y que también usan como argumento a axis. Un ejemplo típico es la unión (o concatenación) de arreglos, la cual se realiza mediante la función `np.concatenate()` (en verdad, también es posible generar uniones más eficientes mediante otro tipo de funciones, pero eso lo veremos más adelante). Para ejemplificar como funciona, definamos un nuevo arreglo `B` como sigue:

In [8]:
# Construimos un arreglo B, de 2 filas y 4 columnas.
B = np.array([
    [-1, 4, 5, -8],
    [0, -5, 6, -9]
])
print(B)

[[-1  4  5 -8]
 [ 0 -5  6 -9]]


Definido entonces `B`, podemos querer unir este arreglo con otro, digamos `A`. Para ello, debemos chequear primeramente la compatibilidad que tienen estos arreglos para poder construir dicha unión. Vemos pues que `A` es un arreglo con geometría `(4, 4)`, mientras que `B` tiene geometría `(2, 4)`. Por lo tanto, `A` y `B` tienen el mismo número de columnas y, de este modo, la única unión que podemos hacer entre ellos es conforme las columnas de ambos. Conforme el esquema de la Fig. (1.1), tal unión se debe realizar conforme el eje 0. De esta manera, tenemos que

In [9]:
np.concatenate([A, B], axis=0)

array([[-2,  1,  7,  6],
       [ 1,  3,  1, -4],
       [-5, -5,  0,  4],
       [-9,  2, -8,  9],
       [-1,  4,  5, -8],
       [ 0, -5,  6, -9]])

Naturalmente, si quisiéramos unir arreglos en la dirección que toman las filas (es decir, conforme el eje 1), bastaría con escribir `np.concatenate([A, B], axis=0)`. Para ello, hace falta que los arreglos `A` y `B` tengan el mismo número de filas. Como este no es el caso, realizar esta operación generará que **Numpy** levante un error de valor:

In [10]:
try:
    np.concatenate([A, B], axis=1)
except ValueError as e:
    print(e)

all the input array dimensions for the concatenation axis must match exactly, but along dimension 0, the array at index 0 has size 4 and the array at index 1 has size 2


El mensaje de error es claro: Las dimensiones de ambos arreglos deben empatar de manera exacta para esta operación. Pero esto no se cumple para el caso de la unión, conforme el eje 1, en los arreglos `A` y `B`.

En la Fig. (1.2), se ilustra la operación de concatenación para el caso de arreglos bidimensionales totalmente compatibles. 