# CLASE 1.1: INTRODUCCI√ìN A NUMPY.
---
## ¬øQu√© es Numpy?
**Numpy** (acr√≥nimo de Numerical Python) es una librer√≠a de c√≥digo abierto desarrollada en Python y que es com√∫nmente utilizada en pr√°cticamente todos los campos de la computaci√≥n cient√≠fica y la ingenier√≠a, siendo el est√°ndar casi universal para el an√°lisis eficiente de datos num√©ricos en Python y el pilar fundamental de un mont√≥n de otras librer√≠as cient√≠ficas de gran poder, aptas para tareas tan diversas que todo ser humano que desee realizar an√°lisis de datos mediante el uso del lenguaje Python debe, como paso cero, tener esta librer√≠a como primera opci√≥n dentro de su caja de herramientas.

La librer√≠a **Numpy** es utilizada extensivamente como base para otras librer√≠as famosas y de uso masivo en Python, tales como **Pandas** (especializada en el an√°lisis de datos estructurados), **Matplotlib** (especializada en la graficaci√≥n y reportabilidad mediante una API de bajo nivel, pero sencilla y muy robusta), **Scipy** (la librer√≠a cient√≠fica de Python, especializada en el modelamiento anal√≠tico de fen√≥menos, procesos y sistemas de gran complejidad), **Scikit-Learn** (la librer√≠a cl√°sica de Machine Learning de Python) o **Tensorflow** (una de las librer√≠as de Deep Learning m√°s utilizadas en el mercado). Por esta raz√≥n, **Numpy** suele representar el primer acercamiento de los usuarios interesados en aprender t√≥picos de ciencia de datos desde una perspectiva pr√°ctica y es esencial en cualquier asignatura relativa a la toma de decisiones basadas en datos usando el lenguaje de programaci√≥n Python.

El elemento central de **Numpy** es una estructura de datos conocida como arreglo y que, en t√©rminos *pythonicos*, corresponde a un objeto conocido como `ndarray`. Dicho nombre hace referencia a un arreglo de valores (com√∫nmente num√©ricos) de dimensi√≥n ${n\times d}$, que suele ser imaginado como una estructura de datos de tipo matricial, que idealmente vive en el conjunto $\mathbb{R}^{n\times d}$ (que representa al conjunto de todas las matrices con ${n}$ filas y ${d}$ columnas). Sin embargo, **Numpy** no suele limitarse a arreglos matriciales, sino que a cualquier conjunto de elementos que puedan ser utilizados para operaciones vectorizadas, lo que incluye por supuesto a objetos de mayor dimensi√≥n, como tensores, y a otros de menor dimensi√≥n, como vectores. Todas estas estructuras de datos se representan en **Numpy** mediante el objeto `ndarray`.

Dado lo anterior, **Numpy** provee soporte para todo tipo de operaciones vectorizadas que son t√≠picas en el √°lgebra matricial y tensorial, desde sumas y productos de matrices, hasta descomposiciones en valores singulares, factorizaciones de tipo QR e incluso ortogonalizaci√≥n de arreglos matriciales. Lo mejor de todo esto, es que tales operaciones se realizan en **Numpy** con un alto grado de eficiencia en lo que respecta al tiempo de ejecuci√≥n.

## Instalaci√≥n de Numpy.
**Numpy** se incluye siempre como librer√≠a base en el framework de Anaconda Python. Sin embargo, siempre es posible instalar esta librer√≠a de manera separada mediante el gestor de paquetes de conda usando una terminal de Anaconda como sigue:

`conda install numpy`

Tambi√©n es posible usar el √≠ndice de paquetes de Python (PyPI) mediante el gestor `pip` para la instalaci√≥n de **Numpy**:

`pip install numpy`

La importaci√≥n de la librer√≠a **Numpy** en Python suele seguir una especie de est√°ndar en t√©rminos de su prefijo. De esta manera, **Numpy** suele importarse mediante el alias `np`, por lo que, una vez instalado, accederemos a todas funciones como sigue:

In [1]:
import numpy as np

## El Concepto de Arreglo.
Ya hab√≠amos comentado que los arreglos son estructuras de datos que permiten la realizaci√≥n de operaciones vectorizadas sobre ellos, pero es justo que ahondemos un poco m√°s en estos objetos y los conozcamos a fondo, simb√≥licamente, antes de comenzar a hacer operaciones con ellos.

Como ya dijimos, el arreglo es el elemento central de **Numpy**. Corresponde a una grilla de valores que viene provista con la correspondiente informaci√≥n relativa a la data almacenada en dicha grilla, y formas que permiten localizar dicha informaci√≥n en la grilla y c√≥mo interpretar tal informaci√≥n. La √∫nica restricci√≥n es que dicha grilla **s√≥lo puede contener informaci√≥n de un √∫nico tipo**.

Un ejemplo de arreglo es el *vector*. En t√©rminos m√°s bien rigurosos, un vector es un arreglo unidimensional, en el sentido de que, si bien un vector es un objeto cuya dimensi√≥n, matem√°ticamente, es equivalente al n√∫mero de elementos que lo constituyen, en t√©rminos geom√©tricos, tales elementos se ordenan en una √∫nica fila o columna, raz√≥n por la cual, en la terminolog√≠a computacional, los vectores constituyen arreglos de una sola dimensi√≥n.

Vamos a ejemplificar esto e ilustrarlo para que podamos entenderlo mejor. En Numpy, la creaci√≥n de un arreglo puede hacerse siempre mediante la funci√≥n `np.array()` (o simplemente `array()`, si nos abstraemos de usar el correspondiente alias `np`). Si queremos escribir el vector $\mathbf{x} =( -1,1,5,-8,2)  \in \mathbb{R}^{5} $, es posible considerar una representaci√≥n mediante una matriz fila o una matriz columna, ya que, equivalentemente, podemos escribir $\mathbf{x}$ simb√≥licamente como

<p style="text-align: center;">$\mathbf{x} =\left( \begin{matrix}-1&1&5&-8&2\end{matrix} \right)  \in \mathbb{R}^{1\times 5} \  \vee \  \mathbf{x} =\left( \begin{array}{r}-1\\ 1\\ 5\\ -8\\ 2\end{array} \right)  \in \mathbb{R}^{5\times 1}$</p>

En **Numpy**, todo arreglo puede escribirse considerando que, en t√©rminos matriciales, las filas se definen como listas de Python. Si queremos escribir una matriz con ${n}$ filas, bastar√° siempre con especificar un total de ${n}$ listas separadas por comas, donde el n√∫mero de elementos dentro de cada lista (que es el mismo, por supuesto, para todas ellas) define el n√∫mero de columnas de la matriz, usando la funci√≥n `np.array()`.

Como queremos representar, en este caso, al vector ùê± definido previamente, debemos considerar el tipo de representaci√≥n: Si $\mathbf{x}$ se representa por medio de una matriz fila (es decir, $\mathbf{x} \in \mathbb{R}^{1\times 5}$), bastar√° con escribir, conforme el esquema anteriormente descrito:

In [2]:
x = np.array([-1, 1, 5, -8, 2]) # Definimos el arreglo x.
print(x) # Imprimimos en pantalla el valor de x.

[-1  1  5 -8  2]


Por otro lado, si queremos escribir $\mathbf{x}$ como un vector columna, entonces cada una de las entradas de $\mathbf{x}$ debe ser una lista por s√≠ sola, ya que, como dijimos, cada fila de un arreglo se especifica mediante listas, separadas por comas. Por lo tanto, si $\mathbf{x} \in \mathbb{R}^{5\times 1}$, entonces imputaremos 5 listas separadas por comas. De este modo, debemos tener:

In [3]:
x = np.array([[-1], [1], [5], [-8], [2]]) # Definimos el arreglo x.
print(x) # Imprimimos en pantalla el valor de x.

[[-1]
 [ 1]
 [ 5]
 [-8]
 [ 2]]


Extender esta idea a matrices resulta, por supuesto, natural. Consideremos entonces la matriz $\mathbf{A} \in \mathbb{R}^{4\times 4} $, definida como

<p style="text-align: center;">$\mathbf{A} =\left( \begin{array}{rrrr}-2&1&-7&6\\ 1&3&1&-4\\ -5&-5&0&4\\ -9&2&-8&9\end{array} \right)  \in \mathbb{R}^{4\times 4} $</p>

Construir una estructura de este tipo en **Numpy** resulta muy sencillo. Como dijimos previamente, usamos la funci√≥n `np.array()` para la generaci√≥n de este arreglo, definiendo cada una de las filas mediante listas y separ√°ndolas mediante comas. Por lo tanto, para el caso de la matriz $\mathbf{A}$, bastar√° con escribir:

In [4]:
# Definimos la matriz A.
A = np.array([
    [-2, 1, 7, 6],
    [1, 3, 1, -4],
    [-5, -5, 0, 4],
    [-9, 2, -8, 9]
])
print(A) # Imprimimos en pantalla el valor de A.

[[-2  1  7  6]
 [ 1  3  1 -4]
 [-5 -5  0  4]
 [-9  2 -8  9]]


Como vemos, construir matrices con **Numpy** resulta sencillo y, sobretodo, natural, debido principalmente al est√°ndar de imputaci√≥n de los elementos que componen un arreglo conforme la funci√≥n `np.array()`. Las matrices, desde una perspectiva geom√©trica, corresponden a arreglos bidimensionales, en el sentido de que su morfolog√≠a queda completamente determinada por dos par√°metros, que son, correspondientemente, el n√∫mero de filas y columnas que caracterizan al arreglo. Por lo tanto, la matriz `A` que construimos previamente, es un arreglo bidimensional con geometr√≠a o forma `(4, 4)`, debido a que √©sta posee 4 filas y 4 columnas.

**Numpy**, como ya comentamos en un principio, no se limita a vectores y matrices. Tambi√©n es posible construir estructuras m√°s generales, como es el caso de los tensores. Al igual que las matrices, los tensores son objetos algebraicos que describen relaciones lineales entre otros objetos que, a su vez, son elementos de determinados espacios vectoriales. Tales elementos pueden ser vectores, matrices e incluso otros tensores. En t√©rminos geom√©tricos, los tensores suelen representarse en **Numpy** como arreglos tridimensionales, debido a que un tensor puede imaginarse como un conjunto de matrices de la misma dimensi√≥n apiladas unas encimas de las otras. De este modo, los tres par√°metros que definen la geometr√≠a del tensor corresponden al n√∫mero de filas, n√∫mero de columnas y n√∫mero de apilamientos, respectivamente.

Un ejemplo de tensor es el siguiente:

In [5]:
# Definimos el tensor T.
T = np.array([
    [
        [2, -1, -1, 4, -5],
        [0, -3, 3, -2, -7],
        [-1, 1, 6, -9, 1],
        [-8, -8, 1, -1, 6],
    ],
    [
        [5, -5, 1, -1, 3],
        [-4, 9, 8, 1, 0],
        [0, -1, -5, -7, 2],
        [5, -7, -6, -8, 1],
    ],
    [
        [2, -2, 5, 1, 0],
        [3, -3, -4, 1, 0],
        [-2, -8, -1, 0, 5],
        [-8, 1, -5, 0, 6],
    ]
])
print(T) # Imprimimos en pantalla el valor de T.

[[[ 2 -1 -1  4 -5]
  [ 0 -3  3 -2 -7]
  [-1  1  6 -9  1]
  [-8 -8  1 -1  6]]

 [[ 5 -5  1 -1  3]
  [-4  9  8  1  0]
  [ 0 -1 -5 -7  2]
  [ 5 -7 -6 -8  1]]

 [[ 2 -2  5  1  0]
  [ 3 -3 -4  1  0]
  [-2 -8 -1  0  5]
  [-8  1 -5  0  6]]]


Vemos pues que el tensor `T` tiene un total de tres dimensiones morfol√≥gicas (tensor de orden 3). La primera especifica el sub-arreglo de inter√©s; la segunda, la fila de dicho sub-arreglo; y la tercera, la columna de dicho sub-arreglo. Ya ahondaremos m√°s en la selecci√≥n de elementos en un arreglo de **Numpy**. Pero vale la pena mencionar que, bajo esta convenci√≥n, el elemento en la posici√≥n `[2, 1, 2]` del tensor `T` ser√≠a el n√∫mero -4. Considerando que Python siempre cuenta a partir de la posici√≥n 0, vemos que el sub-arreglo en la posici√≥n 2 (el √∫ltimo) tiene, en la posici√≥n `[1, 2]`, al elemento -4. En un lenguaje m√°s algebraico, este tensor podr√≠a especificarse como $\mathbf{T} =\left\{ t_{ijk}\right\}  \in \mathbb{R}^{4\times 5\times 3}$, y el elemento previamente se√±alado ser√≠a $t_{212}=-4$.

La Fig. (1.1) esquematiza el concepto de arreglo en t√©rminos geom√©tricos, conforme lo que hemos revisado hasta ahora.

![alt text](https://github.com/rquezadac/udd_data_analytics_lectures/blob/main/seccion_01_numpy/fig_1_1.png?raw=true "Logo Title Text 1")
<p style="text-align: center;">Fig. (1.1): Geometr√≠as asociadas a arreglos de Numpy de diferentes dimensiones</p>

## Geometr√≠a de un arreglo.
Observemos que, en el esquema de la Fig. (1.1), hemos dibujado flechas a modo de ejes geom√©tricos que definen las posiciones en los distintos tipos de arreglos seg√∫n su dimensi√≥n. Tales ejes corresponden a una referencia universal utilizada por **Numpy** para especificar la posici√≥n de un elemento dentro de un arreglo, y en primera instancia suele ser un tanto confusa, por lo que vale la pena discutirla brevemente.

Partamos siendo honestos: Los ejes referenciales de los arreglos de **Numpy** pueden ser dif√≠ciles de entender. De hecho, su conocimiento adecuado puede volverse un verdadero dolor de cabeza para cualquier entusiasta novato en an√°lisis o ciencia de datos. Sin embargo, son importantes para poder caracterizar cualquier estructura de datos en **Numpy**. As√≠ que, para familiarizarnos con ellos, comenzaremos ejemplificando su uso en un arreglo bidimensional, que suele ser el caso m√°s sencillo de entender.

En un arreglo bidimensional, que es el s√≠mil de una matriz, digamos de ùëõ filas y ùëë columnas, los ejes corresponden a las direcciones que definen las filas y columnas del arreglo. Conforme la Fig. (1.1), el eje 0 (que, en **Numpy** se especifica como `axis=0`) corresponde a la direcci√≥n a lo largo de las filas del arreglo, y a su vez es el primer eje en este sistema de referencia. Por otro lado, el eje 1 (que, en **Numpy** se especifica como `axis=1`) corresponde a la direcci√≥n a lo largo de las columnas de un arreglo. Estos ejes permiten especificar c√≥mo operar con los elementos del arreglo cuando estamos interesados en construir agregaciones. Veremos esto en detalle m√°s adelante, pero las agregaciones son operaciones que involucran el uso de los elementos a lo largo de estos ejes, como podr√≠an ser sumas de los elementos situados en una determinada fila o columna. Tomemos, por ejemplo, el arreglo `A`, que construimos unas l√≠neas m√°s atr√°s. La operaci√≥n `A.sum(axis=1)` nos permite obtener la suma de todos los elementos de cada fila del arreglo `A`, ya que el argumento `axis=1` utilizado para el m√©todo `sum()` indica a **Numpy** que la suma se realice a lo largo (o en la direcci√≥n) del eje 1. Y, si bien el eje 1 recorre todas las columnas de un arreglo 2D (y permite identificar cuantas columnas tiene nuestro arreglo), ello implica que, al mismo tiempo, dicho recorrido se hace por las filas del mismo. De esta manera, al escribir

In [6]:
# Suma a lo largo del eje 1 (es decir, por filas).
A.sum(axis=1)

array([12,  1, -6, -6])

obtenemos, en efecto, la suma de todas las filas de todo el arreglo `A`. Notemos que el resultado de esta operaci√≥n es otro arreglo que contiene las sumas respectivas de cada fila. Esto es algo t√≠pico de **Numpy**: *Toda operaci√≥n con arreglos devuelve, como resultado, otro arreglo.*

Podemos obtener la suma de todas las columnas del arreglo `A` si usamos como argumento del m√©todo `sum()` la instrucci√≥n `axis=0`. De esta manera, le estamos diciendo a **Numpy**: *‚ÄúSuma todos los elementos conforme la direcci√≥n del eje 0‚Äù* (es decir, en la direcci√≥n de las columnas de `A`). Por lo tanto, tendremos que

In [7]:
# Suma a lo largo del eje 0 (es decir, por columnas).
A.sum(axis=0)

array([-15,   1,   0,  15])

La l√≥gica previa se preserva para cualquier operaci√≥n de agregaci√≥n en **Numpy**. Veremos m√°s adelante otro tipo de operaciones de este tipo. Sin embargo, es bueno tener en consideraci√≥n que estas operaciones toman, literalmente, al argumento `axis` en su sentido geom√©trico. De este modo, podemos imaginar que la operaci√≥n `A.sum(axis=0)` es pensada en **Numpy** como: *‚ÄúSumar todos los elementos de `A`, como si hubi√©ramos apretado o colapsado el arreglo en la direcci√≥n del eje 0‚Äù*. No es la forma m√°s did√°ctica de explicarlo, pero es como est√° pensado el funcionamiento de este tipo de operaciones en **Numpy**.

No obstante lo anterior, las operaciones de agregaci√≥n no son las √∫nicas que podemos hacer en **Numpy**. Existen otras operaciones que no son de este tipo y que tambi√©n usan como argumento a axis. Un ejemplo t√≠pico es la uni√≥n (o concatenaci√≥n) de arreglos, la cual se realiza mediante la funci√≥n `np.concatenate()` (en verdad, tambi√©n es posible generar uniones m√°s eficientes mediante otro tipo de funciones, pero eso lo veremos m√°s adelante). Para ejemplificar como funciona, definamos un nuevo arreglo `B` como sigue:

In [8]:
# Construimos un arreglo B, de 2 filas y 4 columnas.
B = np.array([
    [-1, 4, 5, -8],
    [0, -5, 6, -9]
])
print(B)

[[-1  4  5 -8]
 [ 0 -5  6 -9]]


Definido entonces `B`, podemos querer unir este arreglo con otro, digamos `A`. Para ello, debemos chequear primeramente la compatibilidad que tienen estos arreglos para poder construir dicha uni√≥n. Vemos pues que `A` es un arreglo con geometr√≠a `(4, 4)`, mientras que `B` tiene geometr√≠a `(2, 4)`. Por lo tanto, `A` y `B` tienen el mismo n√∫mero de columnas y, de este modo, la √∫nica uni√≥n que podemos hacer entre ellos es conforme las columnas de ambos. Conforme el esquema de la Fig. (1.1), tal uni√≥n se debe realizar conforme el eje 0. De esta manera, tenemos que

In [9]:
np.concatenate([A, B], axis=0)

array([[-2,  1,  7,  6],
       [ 1,  3,  1, -4],
       [-5, -5,  0,  4],
       [-9,  2, -8,  9],
       [-1,  4,  5, -8],
       [ 0, -5,  6, -9]])

Naturalmente, si quisi√©ramos unir arreglos en la direcci√≥n que toman las filas (es decir, conforme el eje 1), bastar√≠a con escribir `np.concatenate([A, B], axis=0)`. Para ello, hace falta que los arreglos `A` y `B` tengan el mismo n√∫mero de filas. Como este no es el caso, realizar esta operaci√≥n generar√° que **Numpy** levante un error de valor:

In [10]:
try:
    np.concatenate([A, B], axis=1)
except ValueError as e:
    print(e)

all the input array dimensions for the concatenation axis must match exactly, but along dimension 0, the array at index 0 has size 4 and the array at index 1 has size 2


El mensaje de error es claro: Las dimensiones de ambos arreglos deben empatar de manera exacta para esta operaci√≥n. Pero esto no se cumple para el caso de la uni√≥n, conforme el eje 1, en los arreglos `A` y `B`.

En la Fig. (1.2), se ilustra la operaci√≥n de concatenaci√≥n para el caso de arreglos bidimensionales totalmente compatibles. 