# CLASE 1.1: INTRODUCCI√ìN A NUMPY.
---
## ¬øQu√© es Numpy?
**Numpy** (acr√≥nimo de Numerical Python) es una librer√≠a de c√≥digo abierto desarrollada en Python y que es com√∫nmente utilizada en pr√°cticamente todos los campos de la computaci√≥n cient√≠fica y la ingenier√≠a, siendo el est√°ndar casi universal para el an√°lisis eficiente de datos num√©ricos en Python y el pilar fundamental de un mont√≥n de otras librer√≠as cient√≠ficas de gran poder, aptas para tareas tan diversas que todo ser humano que desee realizar an√°lisis de datos mediante el uso del lenguaje Python debe, como paso cero, tener esta librer√≠a como primera opci√≥n dentro de su caja de herramientas.

La librer√≠a **Numpy** es utilizada extensivamente como base para otras librer√≠as famosas y de uso masivo en Python, tales como **Pandas** (especializada en el an√°lisis de datos estructurados), **Matplotlib** (especializada en la graficaci√≥n y reportabilidad mediante una API de bajo nivel, pero sencilla y muy robusta), **Scipy** (la librer√≠a cient√≠fica de Python, especializada en el modelamiento anal√≠tico de fen√≥menos, procesos y sistemas de gran complejidad), **Scikit-Learn** (la librer√≠a cl√°sica de Machine Learning de Python) o **Tensorflow** (una de las librer√≠as de Deep Learning m√°s utilizadas en el mercado). Por esta raz√≥n, **Numpy** suele representar el primer acercamiento de los usuarios interesados en aprender t√≥picos de ciencia de datos desde una perspectiva pr√°ctica y es esencial en cualquier asignatura relativa a la toma de decisiones basadas en datos usando el lenguaje de programaci√≥n Python.

El elemento central de **Numpy** es una estructura de datos conocida como arreglo y que, en t√©rminos *pythonicos*, corresponde a un objeto conocido como `ndarray`. Dicho nombre hace referencia a un arreglo de valores (com√∫nmente num√©ricos) de dimensi√≥n ${n\times d}$, que suele ser imaginado como una estructura de datos de tipo matricial, que idealmente vive en el conjunto $\mathbb{R}^{n\times d}$ (que representa al conjunto de todas las matrices con ${n}$ filas y ${d}$ columnas). Sin embargo, **Numpy** no suele limitarse a arreglos matriciales, sino que a cualquier conjunto de elementos que puedan ser utilizados para operaciones vectorizadas, lo que incluye por supuesto a objetos de mayor dimensi√≥n, como tensores, y a otros de menor dimensi√≥n, como vectores. Todas estas estructuras de datos se representan en **Numpy** mediante el objeto `ndarray`.

Dado lo anterior, **Numpy** provee soporte para todo tipo de operaciones vectorizadas que son t√≠picas en el √°lgebra matricial y tensorial, desde sumas y productos de matrices, hasta descomposiciones en valores singulares, factorizaciones de tipo QR e incluso ortogonalizaci√≥n de arreglos matriciales. Lo mejor de todo esto, es que tales operaciones se realizan en **Numpy** con un alto grado de eficiencia en lo que respecta al tiempo de ejecuci√≥n.

## Instalaci√≥n de Numpy.
**Numpy** se incluye siempre como librer√≠a base en el framework de Anaconda Python. Sin embargo, siempre es posible instalar esta librer√≠a de manera separada mediante el gestor de paquetes de conda usando una terminal de Anaconda como sigue:

`conda install numpy`

Tambi√©n es posible usar el √≠ndice de paquetes de Python (PyPI) mediante el gestor `pip` para la instalaci√≥n de **Numpy**:

`pip install numpy`

La importaci√≥n de la librer√≠a **Numpy** en Python suele seguir una especie de est√°ndar en t√©rminos de su prefijo. De esta manera, **Numpy** suele importarse mediante el alias `np`, por lo que, una vez instalado, accederemos a todas funciones como sigue:

In [1]:
import numpy as np

## El Concepto de Arreglo.
Ya hab√≠amos comentado que los arreglos son estructuras de datos que permiten la realizaci√≥n de operaciones vectorizadas sobre ellos, pero es justo que ahondemos un poco m√°s en estos objetos y los conozcamos a fondo, simb√≥licamente, antes de comenzar a hacer operaciones con ellos.

Como ya dijimos, el arreglo es el elemento central de **Numpy**. Corresponde a una grilla de valores que viene provista con la correspondiente informaci√≥n relativa a la data almacenada en dicha grilla, y formas que permiten localizar dicha informaci√≥n en la grilla y c√≥mo interpretar tal informaci√≥n. La √∫nica restricci√≥n es que dicha grilla **s√≥lo puede contener informaci√≥n de un √∫nico tipo**.

Un ejemplo de arreglo es el *vector*. En t√©rminos m√°s bien rigurosos, un vector es un arreglo unidimensional, en el sentido de que, si bien un vector es un objeto cuya dimensi√≥n, matem√°ticamente, es equivalente al n√∫mero de elementos que lo constituyen, en t√©rminos geom√©tricos, tales elementos se ordenan en una √∫nica fila o columna, raz√≥n por la cual, en la terminolog√≠a computacional, los vectores constituyen arreglos de una sola dimensi√≥n.

Vamos a ejemplificar esto e ilustrarlo para que podamos entenderlo mejor. En Numpy, la creaci√≥n de un arreglo puede hacerse siempre mediante la funci√≥n `np.array()` (o simplemente `array()`, si nos abstraemos de usar el correspondiente alias `np`). Si queremos escribir el vector $\mathbf{x} =( -1,1,5,-8,2)  \in \mathbb{R}^{5} $, es posible considerar una representaci√≥n mediante una matriz fila o una matriz columna, ya que, equivalentemente, podemos escribir $\mathbf{x}$ simb√≥licamente como

<p style="text-align: center;">$\mathbf{x} =\left( \begin{matrix}-1&1&5&-8&2\end{matrix} \right)  \in \mathbb{R}^{1\times 5} \  \vee \  \mathbf{x} =\left( \begin{array}{r}-1\\ 1\\ 5\\ -8\\ 2\end{array} \right)  \in \mathbb{R}^{5\times 1}$</p>

En **Numpy**, todo arreglo puede escribirse considerando que, en t√©rminos matriciales, las filas se definen como listas de Python. Si queremos escribir una matriz con ${n}$ filas, bastar√° siempre con especificar un total de ${n}$ listas separadas por comas, donde el n√∫mero de elementos dentro de cada lista (que es el mismo, por supuesto, para todas ellas) define el n√∫mero de columnas de la matriz, usando la funci√≥n `np.array()`.

Como queremos representar, en este caso, al vector ùê± definido previamente, debemos considerar el tipo de representaci√≥n: Si $\mathbf{x}$ se representa por medio de una matriz fila (es decir, $\mathbf{x} \in \mathbb{R}^{1\times 5}$), bastar√° con escribir, conforme el esquema anteriormente descrito:

In [2]:
x = np.array([-1, 1, 5, -8, 2]) # Definimos el arreglo x.
print(x) # Imprimimos en pantalla el valor de x.

[-1  1  5 -8  2]


Por otro lado, si queremos escribir $\mathbf{x}$ como un vector columna, entonces cada una de las entradas de $\mathbf{x}$ debe ser una lista por s√≠ sola, ya que, como dijimos, cada fila de un arreglo se especifica mediante listas, separadas por comas. Por lo tanto, si $\mathbf{x} \in \mathbb{R}^{5\times 1}$, entonces imputaremos 5 listas separadas por comas. De este modo, debemos tener:

In [3]:
x = np.array([[-1], [1], [5], [-8], [2]]) # Definimos el arreglo x.
print(x) # Imprimimos en pantalla el valor de x.

[[-1]
 [ 1]
 [ 5]
 [-8]
 [ 2]]


Extender esta idea a matrices resulta, por supuesto, natural. Consideremos entonces la matriz $\mathbf{A} \in \mathbb{R}^{4\times 4} $, definida como

<p style="text-align: center;">$\mathbf{A} =\left( \begin{array}{rrrr}-2&1&-7&6\\ 1&3&1&-4\\ -5&-5&0&4\\ -9&2&-8&9\end{array} \right)  \in \mathbb{R}^{4\times 4} $</p>

Construir una estructura de este tipo en **Numpy** resulta muy sencillo. Como dijimos previamente, usamos la funci√≥n `np.array()` para la generaci√≥n de este arreglo, definiendo cada una de las filas mediante listas y separ√°ndolas mediante comas. Por lo tanto, para el caso de la matriz $\mathbf{A}$, bastar√° con escribir:

In [4]:
# Definimos la matriz A.
A = np.array([
    [-2, 1, 7, 6],
    [1, 3, 1, -4],
    [-5, -5, 0, 4],
    [-9, 2, -8, 9]
])
print(A) # Imprimimos en pantalla el valor de A.

[[-2  1  7  6]
 [ 1  3  1 -4]
 [-5 -5  0  4]
 [-9  2 -8  9]]


Como vemos, construir matrices con **Numpy** resulta sencillo y, sobretodo, natural, debido principalmente al est√°ndar de imputaci√≥n de los elementos que componen un arreglo conforme la funci√≥n `np.array()`. Las matrices, desde una perspectiva geom√©trica, corresponden a arreglos bidimensionales, en el sentido de que su morfolog√≠a queda completamente determinada por dos par√°metros, que son, correspondientemente, el n√∫mero de filas y columnas que caracterizan al arreglo. Por lo tanto, la matriz `A` que construimos previamente, es un arreglo bidimensional con geometr√≠a o forma `(4, 4)`, debido a que √©sta posee 4 filas y 4 columnas.

**Numpy**, como ya comentamos en un principio, no se limita a vectores y matrices. Tambi√©n es posible construir estructuras m√°s generales, como es el caso de los tensores. Al igual que las matrices, los tensores son objetos algebraicos que describen relaciones lineales entre otros objetos que, a su vez, son elementos de determinados espacios vectoriales. Tales elementos pueden ser vectores, matrices e incluso otros tensores. En t√©rminos geom√©tricos, los tensores suelen representarse en **Numpy** como arreglos tridimensionales, debido a que un tensor puede imaginarse como un conjunto de matrices de la misma dimensi√≥n apiladas unas encimas de las otras. De este modo, los tres par√°metros que definen la geometr√≠a del tensor corresponden al n√∫mero de filas, n√∫mero de columnas y n√∫mero de apilamientos, respectivamente.

Un ejemplo de tensor es el siguiente:

In [5]:
# Definimos el tensor T.
T = np.array([
    [
        [2, -1, -1, 4, -5],
        [0, -3, 3, -2, -7],
        [-1, 1, 6, -9, 1],
        [-8, -8, 1, -1, 6],
    ],
    [
        [5, -5, 1, -1, 3],
        [-4, 9, 8, 1, 0],
        [0, -1, -5, -7, 2],
        [5, -7, -6, -8, 1],
    ],
    [
        [2, -2, 5, 1, 0],
        [3, -3, -4, 1, 0],
        [-2, -8, -1, 0, 5],
        [-8, 1, -5, 0, 6],
    ]
])
print(T) # Imprimimos en pantalla el valor de T.

[[[ 2 -1 -1  4 -5]
  [ 0 -3  3 -2 -7]
  [-1  1  6 -9  1]
  [-8 -8  1 -1  6]]

 [[ 5 -5  1 -1  3]
  [-4  9  8  1  0]
  [ 0 -1 -5 -7  2]
  [ 5 -7 -6 -8  1]]

 [[ 2 -2  5  1  0]
  [ 3 -3 -4  1  0]
  [-2 -8 -1  0  5]
  [-8  1 -5  0  6]]]


Vemos pues que el tensor `T` tiene un total de tres dimensiones morfol√≥gicas (tensor de orden 3). La primera especifica el sub-arreglo de inter√©s; la segunda, la fila de dicho sub-arreglo; y la tercera, la columna de dicho sub-arreglo. Ya ahondaremos m√°s en la selecci√≥n de elementos en un arreglo de **Numpy**. Pero vale la pena mencionar que, bajo esta convenci√≥n, el elemento en la posici√≥n `[2, 1, 2]` del tensor `T` ser√≠a el n√∫mero -4. Considerando que Python siempre cuenta a partir de la posici√≥n 0, vemos que el sub-arreglo en la posici√≥n 2 (el √∫ltimo) tiene, en la posici√≥n `[1, 2]`, al elemento -4. En un lenguaje m√°s algebraico, este tensor podr√≠a especificarse como $\mathbf{T} =\left\{ t_{ijk}\right\}  \in \mathbb{R}^{4\times 5\times 3}$, y el elemento previamente se√±alado ser√≠a $t_{212}=-4$.

La Fig. (1.1) esquematiza el concepto de arreglo en t√©rminos geom√©tricos, conforme lo que hemos revisado hasta ahora.

![alt text](https://github.com/rquezadac/udd_data_analytics_lectures/blob/main/seccion_01_numpy/figures/fig_1_1.png?raw=true "Logo Title Text 1")
<p style="text-align: center;">Fig. (1.1): Geometr√≠as asociadas a arreglos de Numpy de diferentes dimensiones</p>

## Geometr√≠a de un arreglo.
Observemos que, en el esquema de la Fig. (1.1), hemos dibujado flechas a modo de ejes geom√©tricos que definen las posiciones en los distintos tipos de arreglos seg√∫n su dimensi√≥n. Tales ejes corresponden a una referencia universal utilizada por **Numpy** para especificar la posici√≥n de un elemento dentro de un arreglo, y en primera instancia suele ser un tanto confusa, por lo que vale la pena discutirla brevemente.

Partamos siendo honestos: Los ejes referenciales de los arreglos de **Numpy** pueden ser dif√≠ciles de entender. De hecho, su conocimiento adecuado puede volverse un verdadero dolor de cabeza para cualquier entusiasta novato en an√°lisis o ciencia de datos. Sin embargo, son importantes para poder caracterizar cualquier estructura de datos en **Numpy**. As√≠ que, para familiarizarnos con ellos, comenzaremos ejemplificando su uso en un arreglo bidimensional, que suele ser el caso m√°s sencillo de entender.

En un arreglo bidimensional, que es el s√≠mil de una matriz, digamos de ùëõ filas y ùëë columnas, los ejes corresponden a las direcciones que definen las filas y columnas del arreglo. Conforme la Fig. (1.1), el eje 0 (que, en **Numpy** se especifica como `axis=0`) corresponde a la direcci√≥n a lo largo de las filas del arreglo, y a su vez es el primer eje en este sistema de referencia. Por otro lado, el eje 1 (que, en **Numpy** se especifica como `axis=1`) corresponde a la direcci√≥n a lo largo de las columnas de un arreglo. Estos ejes permiten especificar c√≥mo operar con los elementos del arreglo cuando estamos interesados en construir agregaciones. Veremos esto en detalle m√°s adelante, pero las agregaciones son operaciones que involucran el uso de los elementos a lo largo de estos ejes, como podr√≠an ser sumas de los elementos situados en una determinada fila o columna. Tomemos, por ejemplo, el arreglo `A`, que construimos unas l√≠neas m√°s atr√°s. La operaci√≥n `A.sum(axis=1)` nos permite obtener la suma de todos los elementos de cada fila del arreglo `A`, ya que el argumento `axis=1` utilizado para el m√©todo `sum()` indica a **Numpy** que la suma se realice a lo largo (o en la direcci√≥n) del eje 1. Y, si bien el eje 1 recorre todas las columnas de un arreglo 2D (y permite identificar cuantas columnas tiene nuestro arreglo), ello implica que, al mismo tiempo, dicho recorrido se hace por las filas del mismo. De esta manera, al escribir

In [6]:
# Suma a lo largo del eje 1 (es decir, por filas).
A.sum(axis=1)

array([12,  1, -6, -6])

obtenemos, en efecto, la suma de todas las filas de todo el arreglo `A`. Notemos que el resultado de esta operaci√≥n es otro arreglo que contiene las sumas respectivas de cada fila. Esto es algo t√≠pico de **Numpy**: *Toda operaci√≥n con arreglos devuelve, como resultado, otro arreglo.*

Podemos obtener la suma de todas las columnas del arreglo `A` si usamos como argumento del m√©todo `sum()` la instrucci√≥n `axis=0`. De esta manera, le estamos diciendo a **Numpy**: *‚ÄúSuma todos los elementos conforme la direcci√≥n del eje 0‚Äù* (es decir, en la direcci√≥n de las columnas de `A`). Por lo tanto, tendremos que

In [7]:
# Suma a lo largo del eje 0 (es decir, por columnas).
A.sum(axis=0)

array([-15,   1,   0,  15])

La l√≥gica previa se preserva para cualquier operaci√≥n de agregaci√≥n en **Numpy**. Veremos m√°s adelante otro tipo de operaciones de este tipo. Sin embargo, es bueno tener en consideraci√≥n que estas operaciones toman, literalmente, al argumento `axis` en su sentido geom√©trico. De este modo, podemos imaginar que la operaci√≥n `A.sum(axis=0)` es pensada en **Numpy** como: *‚ÄúSumar todos los elementos de `A`, como si hubi√©ramos apretado o colapsado el arreglo en la direcci√≥n del eje 0‚Äù*. No es la forma m√°s did√°ctica de explicarlo, pero es como est√° pensado el funcionamiento de este tipo de operaciones en **Numpy**.

No obstante lo anterior, las operaciones de agregaci√≥n no son las √∫nicas que podemos hacer en **Numpy**. Existen otras operaciones que no son de este tipo y que tambi√©n usan como argumento a axis. Un ejemplo t√≠pico es la uni√≥n (o concatenaci√≥n) de arreglos, la cual se realiza mediante la funci√≥n `np.concatenate()` (en verdad, tambi√©n es posible generar uniones m√°s eficientes mediante otro tipo de funciones, pero eso lo veremos m√°s adelante). Para ejemplificar como funciona, definamos un nuevo arreglo `B` como sigue:

In [8]:
# Construimos un arreglo B, de 2 filas y 4 columnas.
B = np.array([
    [-1, 4, 5, -8],
    [0, -5, 6, -9]
])
print(B)

[[-1  4  5 -8]
 [ 0 -5  6 -9]]


Definido entonces `B`, podemos querer unir este arreglo con otro, digamos `A`. Para ello, debemos chequear primeramente la compatibilidad que tienen estos arreglos para poder construir dicha uni√≥n. Vemos pues que `A` es un arreglo con geometr√≠a `(4, 4)`, mientras que `B` tiene geometr√≠a `(2, 4)`. Por lo tanto, `A` y `B` tienen el mismo n√∫mero de columnas y, de este modo, la √∫nica uni√≥n que podemos hacer entre ellos es conforme las columnas de ambos. Conforme el esquema de la Fig. (1.1), tal uni√≥n se debe realizar conforme el eje 0. De esta manera, tenemos que

In [9]:
np.concatenate([A, B], axis=0)

array([[-2,  1,  7,  6],
       [ 1,  3,  1, -4],
       [-5, -5,  0,  4],
       [-9,  2, -8,  9],
       [-1,  4,  5, -8],
       [ 0, -5,  6, -9]])

Naturalmente, si quisi√©ramos unir arreglos en la direcci√≥n que toman las filas (es decir, conforme el eje 1), bastar√≠a con escribir `np.concatenate([A, B], axis=0)`. Para ello, hace falta que los arreglos `A` y `B` tengan el mismo n√∫mero de filas. Como este no es el caso, realizar esta operaci√≥n generar√° que **Numpy** levante un error de valor:

In [10]:
try:
    np.concatenate([A, B], axis=1)
except ValueError as e:
    print(e)

all the input array dimensions for the concatenation axis must match exactly, but along dimension 0, the array at index 0 has size 4 and the array at index 1 has size 2


El mensaje de error es claro: Las dimensiones de ambos arreglos deben empatar de manera exacta para esta operaci√≥n. Pero esto no se cumple para el caso de la uni√≥n, conforme el eje 1, en los arreglos `A` y `B`.

En la Fig. (1.2), se ilustra la operaci√≥n de concatenaci√≥n para el caso de arreglos bidimensionales totalmente compatibles. 

![alt text](https://github.com/rquezadac/udd_data_analytics_lectures/blob/main/seccion_01_numpy/figures/fig_1_2.png?raw=true "Logo Title Text 1")
<p style="text-align: center;">Fig. (1.2): Posibles resultados en la concatenaci√≥n de arreglos bidimensionales</p>

El asunto es un tanto diferente para el caso de arreglos unidimensionales. En el caso de arreglos 1D, existe √∫nicamente un eje de referencia, que siempre es el eje 0. Sin embargo, la geometr√≠a de estos arreglos puede variar dependiendo de nuestras necesidades. Por ejemplo, consideremos el arreglo unidimensional `v`, definido como

In [11]:
v = np.array([1, -1, 3, 6, -8])
print(v)

[ 1 -1  3  6 -8]


Todos los arreglos en **Numpy** cuentan con ciertos atributos, que ya veremos en detalle un poco m√°s adelante. Uno de ellos es `shape`, que permite imprimir en pantalla la geometr√≠a de un arreglo determinado. Por ejemplo, si introducimos el c√≥digo `A.shape`, el resultado ser√° `(4, 4)`, que es sin duda la geometr√≠a del arreglo `A`. Sin embargo, si tratamos de hacer lo mismo con `v`:

In [12]:
v.shape

(5,)

Vemos pues que la geometr√≠a del arreglo `v` es `(5,)`. Es decir, fiel a su representaci√≥n gr√°fica, un arreglo 1D tiene una √∫nica dimensi√≥n. Sin embargo, pareciera que esto es cierto √∫nicamente para los arreglos que representan una √∫nica fila. Si construimos una matriz columna, digamos

In [13]:
w = np.array([
    [1],
    [-1],
    [3],
    [6],
    [-8]
])
print(w)

[[ 1]
 [-1]
 [ 3]
 [ 6]
 [-8]]


Entonces notaremos que este arreglo no es realmente unidimensional, ya que al consultar su atributo `shape`, obtenemos

In [14]:
w.shape

(5, 1)

¬øPor qu√© ocurre esto? Bueno, si consultamos nuevamente el esquema de la Fig. (1.1), nos daremos cuenta que todo arreglo que tenga al menos una columna con m√°s de un valor, ser√° tal que el eje 0 se trazar√° en la direcci√≥n de dicha columna. Por lo tanto, una matriz columna en **Numpy** es, de hecho, un arreglo bidimensional. En el caso de `w`, la geometr√≠a de este arreglo es `(5, 1)`, y no √∫nicamente `(5,)` (o `(, 5)`, como podr√≠amos llegar a concluir a partir de simple l√≥gica), lo que reafirma este hecho.

Un arreglo unidimensional, por tanto, no tiene filas ni columnas. Simplemente es una secuencia de elementos, uno tras otro, conforme el eje 0. Lo curioso de esto es que un arreglo unidimensional, en realidad, no es en realidad una matriz fila‚Ä¶ Una matriz fila debiera tener una √∫nica fila y tantas columnas como elementos en dicha fila. Por tanto, tambi√©n debiera ser un arreglo bidimensional. Si definimos

In [15]:
u = np.array([[1, -1, 3, 6, -8]])
print(u)

[[ 1 -1  3  6 -8]]


Si consultamos por la geometr√≠a de `u`, obtendremos

In [16]:
u.shape

(1, 5)

Es decir, `u` es tambi√©n bidimensional. A nivel de sintaxis, hay claras diferencias entre como construimos estos arreglos. En el siguiente bloque de c√≥digo, dejaremos escritas las imputaciones de cada uno de estos arreglos a fin de entender c√≥mo se diferencian. No obstante, es importante recordar que los arreglos unidimensionales no son matrices fila ni matrices columna. Son simplemente eso, arreglos unidimensionales. Con sus propias reglas, ventajas y limitaciones.

In [17]:
x = np.array([-1, 1, 5, -8, 2]) # Un arreglo unidimensional.
w = np.array([[1], [-1], [3], [6], [-8]]) # Una arreglo bidimensional (matriz columna).
u = np.array([[1, -1, 3, 6, -8]]) # Una arreglo bidimensional (matriz fila).

## Rutinas de creaci√≥n de arreglos.
Ya sabemos que, para crear un arreglo desde cero, basta con utilizar la funci√≥n `np.array()`. Conocemos tambi√©n la geometr√≠a intr√≠nseca a los arreglos y c√≥mo estos pueden almacenar informaci√≥n en t√©rminos de una estructura de datos que puede ser de una, dos o tres dimensiones, las que son homologables a objetos matem√°ticos tales como vectores, matrices y tensores. Sin embargo, la creaci√≥n de arreglos no es una propiedad exclusiva de la funci√≥n `np.array()`, ya que existen muchas estructuras, tanto vectoriales como matriciales y tensoriales, que es posible construir desde cero. Tales estructuras se engloban en las llamadas *rutinas de creaci√≥n de arreglos*.

Estas rutinas permiten construir estructuras prefabricadas, que se acoplar√°n a la geometr√≠a que deseemos. Ejemplos de ello son arreglos con todos sus elementos nulos; arreglos con todos sus elementos iguales a uno; vectores, matrices o tensores identidad; arreglos con diagonales unitarias (que, en √°lgebra lineal, se asemejan a matrices triangulares o escalonadas).

En los siguientes ejemplos, revisaremos estas rutinas.

**Ejemplo 1.1 ‚Äì Creaci√≥n de arreglos con entradas nulas:** Para crear un arreglo con todas sus entradas nulas, podemos utilizar la funci√≥n `np.zeros()`. Esta funci√≥n requiere de, al menos, un argumento, y que corresponde a la geometr√≠a del arreglo que queremos construir. Si imputamos √∫nicamente un n√∫mero entero, **Numpy** asumir√° que deseamos construir un arreglo bidimensional con tantos elementos como valor tenga dicha entrada:

In [18]:
# Creaci√≥n de un arreglo unidimensional con 8 elementos iguales a cero.
np.zeros(8)

array([0., 0., 0., 0., 0., 0., 0., 0.])

Si, en vez de un √∫nico n√∫mero entero, imputamos una tupla con dos o m√°s enteros (digamos `(i, j, k, ‚Ä¶)`) como argumento en la funci√≥n `np.zeros()`, lo que obtendremos como resultado ser√° un arreglo multidimensional (de dimensi√≥n `(i, j, k, ‚Ä¶)`). Luego tendremos,

In [19]:
# Creaci√≥n de un arreglo de 5 filas y 4 columnas (matriz), con todos sus elementos iguales a cero.
np.zeros((5, 4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [20]:
# Creaci√≥n de un arreglo de 2 apilamientos, 5 filas y 4 columnas (tensor de rango 3), con todos 
# sus elementos iguales a cero.
np.zeros((2, 5, 4))

array([[[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

Toda rutina de creaci√≥n de arreglos permite especificar el tipo de dato que caracteriza a sus entradas. Los arreglos de **Numpy** siempre tienen el mismo tipo de dato, y podemos especificarlo siempre mediante el argumento `dtype` en este tipo de rutinas:

In [21]:
# Creaci√≥n de un arreglo de geometr√≠a (5, 4) con entradas nulas, todas del tipo entero (int).
np.zeros((5, 4), dtype=int)

array([[0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0]])

Vemos pues que lo que hemos obtenido mediante la imputaci√≥n del argumento `dtype=int` es un arreglo cuyos elementos son del tipo entero, el cual es un tipo de dato nativo de Python. **Numpy** maneja sus propios tipos de datos, los que veremos m√°s adelante. Dentro de tales tipos, incluso podemos construir arreglos con entradas cuyos valores sean n√∫meros complejos, siendo este tipo de dato especificable mediante la variable `np.complex128` (que hace referencia a n√∫meros complejos compuestos por dos n√∫meros de punto flotante, cada uno de 64 bits):

In [22]:
# Creaci√≥n de un arreglo de geometr√≠a (5, 4) con entradas nulas, todas del tipo complejo (np.complex128).
np.zeros((5, 4), dtype=np.complex128)

array([[0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j],
       [0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j],
       [0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j],
       [0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j],
       [0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j]])

En el bloque anterior, el valor `0.+0.j` equivale, matem√°ticamente, al n√∫mero complejo $(0,0)=0+0i\in\mathbb{C}$, que por supuesto es el elemento nulo del cuerpo $\mathbb{C}$ de los n√∫meros complejos. El uso de la letra `j`, en vez de la `i`, para especificar la componente imaginaria de un n√∫mero complejo en **Numpy** es heredada de la F√≠sica, donde se usa la `j` fundamentalmente porque la `i` es utilizada para denotar la intensidad de corriente el√©ctrica. ‚óºÔ∏é

**Ejemplo 1.2 ‚Äì Creaci√≥n de un arreglo con todas sus entradas iguales a 1:** Para crear arreglos cuyas entradas sean todas iguales a 1, podemos usar la funci√≥n `np.ones()`. Los argumentos de esta funci√≥n son exactamente los mismos que los usados para el caso de la funci√≥n `np.zeros()`, por lo que su uso es completamente an√°logo:

In [23]:
# Creaci√≥n de un arreglo de geometr√≠a (4, 6) con entradas enteras iguales a 1.
np.ones((4, 6), dtype=int)

array([[1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1]])

‚óºÔ∏é

**Ejemplo 1.3 ‚Äì Creaci√≥n de un arreglo con elementos iguales a un determinado valor:** No solamente podemos construir arreglos llenos de 0s y de 1s. Tambi√©n podemos construir arreglos cuyos elementos sean iguales al valor que nosotros queramos. Para ello, podemos utilizar la funci√≥n `np.full()`, la cual trabaja de la misma forma que las funciones `np.zeros()` y `np.ones()`, con la diferencia de que, adem√°s de la geometr√≠a del arreglo de inter√©s, tambi√©n debemos imputar el valor que se repetir√° en las entradas de nuestro arreglo mediante el argumento `fill_value`. Luego tenemos

In [24]:
# Creaci√≥n de un arreglo de geometr√≠a (5, 5) con entradas enteras iguales a 9.
np.full((5, 5), fill_value=9)

array([[9, 9, 9, 9, 9],
       [9, 9, 9, 9, 9],
       [9, 9, 9, 9, 9],
       [9, 9, 9, 9, 9],
       [9, 9, 9, 9, 9]])

‚óºÔ∏é

**Ejemplo 1.4 ‚Äì Creaci√≥n de matrices diagonales:** En el campo del √°lgebra lineal, una matriz diagonal es una matriz que tiene √∫nicamente valores no nulos a lo largo de una direcci√≥n diagonal. Tales valores no nulos pueden ser arbitrarios, pero en general, estaremos interesados en matrices diagonales reducidas. Tales matrices tienen elementos iguales a 1 en la diagonal no nula. Por ejemplo, para una matriz $\mathbf{D}={ d_{ij}}\in\mathbb{R}^{4\times 6} $:

<p style="text-align: center;">$\mathbf{D} =\left( \begin{matrix}0&1&0&0&0&0\\ 0&0&1&0&0&0\\ 0&0&0&1&0&0\\ 0&0&0&0&1&0\end{matrix} \right)  \in \mathbb{R}^{4\times 6} $</p>

La matriz $\mathbf{D}$ anteriormente definida tiene elementos diagonales no nulos a partir de la segunda posici√≥n en la primera fila. Tal posici√≥n se denota como $k$. Luego, podemos definir una matriz diagonal reducida, indexada desde $k$, como

<p style="text-align: center;">$\mathbf{D} =\left\{ d_{ij}\right\}  \in \mathbb{R}^{n\times m} \  ;\  \mathrm{d} \mathrm{o} \mathrm{n} \mathrm{d} \mathrm{e} \  d_{ij}=\begin{cases}1&;\  \forall i=j+k\\ 0&;\  \forall i\neq j+k\end{cases}$</p>

Un caso particular es aquel para el cual $n=m$ y $k=0$, el cual se denomina como matriz identidad, y que es una matriz $\mathbf{I}_{n} =\left\{ r_{ij}\right\}  \in \mathbb{R}^{n\times n}$, tal que $r_{ij}=1$ para todo $i=j$ y $r_{ij}=0$ para todo $i\neq j$. Es decir, es una matriz con √∫nicamente 1s en su diagonal principal, y ceros en el resto de las posiciones:

<p style="text-align: center;">$\mathbf{I}_{n} =\left( \begin{matrix}1&0&\cdots &0\\ 0&1&\cdots &0\\ \vdots &\vdots &\ddots &\vdots \\ 0&0&\cdots &1\end{matrix} \right)  \in \mathbb{R}^{n\times n} $</p>

Construir una matriz diagonal reducida en **Numpy** es sencillo. Basta con utilizar la funci√≥n `np.eye()`. Esta funci√≥n, a diferencia de las anteriores, requiere especificar el n√∫mero de filas y columnas de nuestro arreglo de manera expl√≠cita, mediante los argumentos `N` y `M`, respectivamente. Adem√°s, podemos imputar el argumento `k` para especificar la posici√≥n a partir de la cual los elementos diagonales ser√°n no nulos:

In [25]:
# Arreglo diagonal reducido de geometr√≠a (5, 6), indexado en la posici√≥n 0.
np.eye(N=5, M=6, k=0)

array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 1., 0.]])

In [26]:
# Arreglo diagonal reducido de geometr√≠a (4, 8), indexado en la posici√≥n 1. 
np.eye(N=4, M=8, k=1)

array([[0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0.]])

Por otro lado, la construcci√≥n de arreglos que emulan una matriz identidad tambi√©n es sencilla. Para ello, bastar√° con utilizar la funci√≥n `np.identity()`, la cual tiene un √∫nico argumento obligatorio, que corresponde a `n`, y que representa el n√∫mero de filas y columnas que tendr√° este arreglo (recordemos que la matriz identidad es cuadrada, tiene el mismo n√∫mero de filas y columnas):

In [27]:
np.identity(n=6)

array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1.]])

Como en los ejemplos anteriores, las funciones `np.eye()` y `np.identity()` tambi√©n permiten especificar el tipo de dato que poblar√° nuestro arreglo mediante el argumento dtype. Ya veremos en detalle los tipos de datos que se permiten en **Numpy**. ‚óºÔ∏é

**Ejemplo 1.5 ‚Äì Arreglos definidos mediante rangos o intervalos:** Es posible construir arreglos unidimensionales en **Numpy** mediante la especificaci√≥n de un valor inicial y un valor final, a modo de rango o intervalo. Tales construcciones son muy similares a las que podemos replicar mediante la funci√≥n nativa `range()` de Python, pero con un alcance menos limitado y que tambi√©n dan como resultado iterables.

Un primer ejemplo de funci√≥n de este tipo es `np.arange()`, la cual permite construir un arreglo unidimensional de valores equiespaciados que parten de un determinado valor, terminan en otro, y est√°n separados mediante un determinado paso. Tales par√°metros se especifican mediante los argumentos `start`, `stop` y `step`, respectivamente:

In [28]:
# Rango de valores desde 1 a 20, con un paso de 2.
np.arange(start=1, stop=20, step=2)

array([ 1,  3,  5,  7,  9, 11, 13, 15, 17, 19])

La funci√≥n `np.arange()`, por cierto, s√≥lo crea arreglos con n√∫meros enteros.

No estamos limitados a construir arreglos crecientes (es decir, no necesariamente `start` < `stop`). Construir rangos decrecientes con `np.arange()` tambi√©n es posible, siempre que el valor del paso (`step`) sea negativo:

In [29]:
# Rango decreciente de valores desde 100 a 0, con un paso de -10.
np.arange(start=100, stop=0, step=-10)

array([100,  90,  80,  70,  60,  50,  40,  30,  20,  10])

Notemos que `np.arange()` debe leerse de la siguiente manera: *‚ÄúConstruir un rango desde start hasta antes de stop, de paso* `step`‚Äù. Por esa raz√≥n es que los arreglos resultantes del uso de esta funci√≥n no contemplan la inclusi√≥n del valor `stop`, sino que el valor anterior anterior a √©l, conforme el paso que hemos definido previamente:

In [30]:
# Creaci√≥n de rango creciente desde 0 a 10 (notemos que esto no contempla al n√∫mero 10).
np.arange(start=0, stop=10, step=1)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Otra funci√≥n √∫til para la construcci√≥n de arreglos es `np.linspace()`. Esta funci√≥n es similar a `np.arange()`, pero adem√°s de los valores inicial y final del rango a construir, requiere como argumento el n√∫mero de valores dentro del arreglo en vez del paso entre cada uno de los elementos del arreglo, el cual se define mediante el argumento `num`:

In [31]:
# Creaci√≥n de rango creciente desde 0 a 1, con 5 elementos.
np.linspace(start=0, stop=1, num=5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

Notemos que, en el caso de `np.linspace()`, s√≠ se incluye el valor de `stop` dentro del arreglo resultante. La construcci√≥n de rangos decrecientes es igualmente sencilla:

In [32]:
# Creaci√≥n de rango creciente desde 1 a 0, con 9 elementos.
np.linspace(start=1, stop=0, num=9)

array([1.   , 0.875, 0.75 , 0.625, 0.5  , 0.375, 0.25 , 0.125, 0.   ])

‚óºÔ∏é

**Ejemplo 1.6 ‚Äì Creaci√≥n de grillas:** Los intervalos son ejemplos de subconjunto de la recta real. Para casos de mayor dimensi√≥n, es posible considerar el producto cartesiano de dos intervalos lo que da como resultado una grilla o rect√°ngulo. Esta idea es replicable para cualquier n√∫mero de dimensiones, lo que da como resultado lo que en matem√°ticas se conoce como hiper-celda o hiper-intervalo: El producto cartesiano de $n$ intervalos $\left[ a_{1},b_{1}\right]  \times \left[ a_{2},b_{2}\right]  \times \cdots \times \left[ a_{n},b_{n}\right]$. En **Numpy**, podemos construir grillas de cualquier dimensi√≥n mediante el uso de la funci√≥n `np.meshgrid()`, la cual requiere como entrada dos arreglos undimensionales que representen rangos o intervalos (por ejemplo, construidos ya sea mediante `np.arange()` o `np.linspace()`). El resultado de la funci√≥n `np.meshgrid()` es una lista con dos arreglos, cada uno de los cuales replica el arreglo original respectivo tantas veces como elementos tenga dicho arreglo. Esto se ilustra en la Fig. (1.3).

![alt text](https://github.com/rquezadac/udd_data_analytics_lectures/blob/main/seccion_01_numpy/figures/fig_1_3.png?raw=true "Logo Title Text 1")
<p style="text-align: center;">Fig. (1.3): Esquema de la construcci√≥n de grillas bidimensionales</p>

A nivel de c√≥digo, podemos escribir:

In [33]:
# Definici√≥n de los l√≠mites de la gilla.
x = np.linspace(start=-3, stop=3, num=100)
y = np.linspace(start=-3, stop=3, num=100)

# Creaci√≥n de la grilla.
X, Y = np.meshgrid(x, y, indexing="ij")

Repasemos el bloque de c√≥digo anterior, a fin de entender lo que acabamos de hacer:

- Primero, construimos los l√≠mites de nuestra grilla, que ser√°n los arreglos `x` e `y`, y que son rangos que van de -3 a 3, con 100 elementos cada uno. Cada uno de ellos fue construido mediante la funci√≥n `np.linspace()`.

- La salida de la funci√≥n `np.meshgrid()` es una lista con dos arreglos, cada uno de los cuales se asigna a las variables `X` e `Y`. Estos arreglos corresponden a los arreglos originales, replicados conforme un determinado eje (0 o 1), respetando la indexaci√≥n especificada mediante el argumento `indexing`. En el c√≥digo anterior, hemos puesto `indexing="ij"`, lo que significa que el primer arreglo que compone la grilla se replica conforme la direcci√≥n del eje 0, y el segundo se replica conforme la direcci√≥n del eje 1. Aquello se ilustra en la Fig. (1.3).

La funci√≥n `np.meshgrid()` es ampliamente utilizada para evaluar funciones de varias variables para luego obtener visualizaciones adecuadas. Ya profundizaremos m√°s en las funciones num√©ricas que podemos evaluar mediante **Numpy** (las que son llamadas funciones universales o ufuncs). Pero, por ahora, es bueno que sepamos que podemos utilizar el resultado de la funci√≥n `np.meshgrid()` para obtener un arreglo que contenga los resultados de cualquier operaci√≥n sobre tal resultado. Por ejemplo, dado que la grilla que construimos es resultado del producto cartesiano $\left[ -3,3\right]  \times \left[ -3,3\right]$, entonces podemos perfectamente obtener el resultado de la funci√≥n $f(x,y)=e^{-( x^{2}+y^{2})}$:

In [34]:
# Evaluaci√≥n de una funci√≥n sobre la grilla X, Y.
Z = np.exp(-(X**2 + Y**2))

En el siguiente bloque de c√≥digo se construye una gr√°fica de la funci√≥n anterior mediante funciones de la librer√≠a **Matplotlib**. Abordaremos lo relativo a la graficaci√≥n en Python m√°s adelante, pero es bueno que sepamos que √©sta es una de las tantas cosas que podremos ser capaces de hacer en t√©rminos de visualizaci√≥n de informaci√≥n (en conjunci√≥n, en este caso, con **Numpy**).

In [35]:
#¬†La librer√≠a Matplotlib permite construir gr√°ficos en Python.
import matplotlib.pyplot as plt

# Algunos ajustes para que nuestras figuras queden bien bonitas.
plt.rcParams["figure.dpi"] = 100
plt.style.use("seaborn-white")

  plt.style.use("seaborn-white")


In [36]:
%matplotlib notebook

In [37]:
# Gr√°fico de nuestra funci√≥n de dos variables.
fig = plt.figure(figsize=(10, 8))
ax = fig.add_subplot(projection="3d")
ax.plot_surface(X, Y, Z, cmap="cividis")
ax.set_xlabel(r"$x$", fontsize=14)
ax.set_ylabel(r"$y$", fontsize=14)
ax.set_zlabel(r"$z$", fontsize=14)
ax.set_title(r"Gr√°fico de la funci√≥n $f(x,y)=e^{-(x^{2}+y^{2})}$", fontsize=14);

<IPython.core.display.Javascript object>

‚óºÔ∏é

**Ejemplo 1.7 ‚Äì Acceso a informaci√≥n en formato** `ndarray`**:** Una actividad importante que haremos una y otra vez cuando ya estemos ejerciendo, es acceder a nueva informaci√≥n. Dada su estructura, una primera aproximaci√≥n es representar esa informaci√≥n por medio de arreglos de **Numpy**.

La funci√≥n `np.genfromtxt()` permite acceder a informaci√≥n guardada en nuestro computador, tales como archivo de texto (`.txt`) o separados por comas (`.csv`), aunque con ciertas limitaciones. Dicha informaci√≥n debe estar codificada en un formato de tipo Unicode de 8 bits (`UTF-8`). Desde Microsoft Excel¬Æ, los libros de c√°lculo, al guardarse como `.csv`, quedan separados por puntos y comas (`;`) en vez de por comas, por lo cual, si abrimos un archivo `.csv` guardado desde Excel¬Æ (digamos, `sag_record_01_2020.csv`), deber√≠amos escribir:

In [38]:
# Apertura de archivo .csv.
np.genfromtxt("datasets/sag_record_01_2020.csv", delimiter=";")

array([[        nan,         nan,         nan],
       [        nan, 2822.040527, 2035.64563 ],
       [        nan, 2788.006348, 2092.776367],
       ...,
       [        nan, 2949.046387, 1720.419922],
       [        nan, 2893.948242, 1929.532715],
       [        nan, 2946.970947, 1975.310547]])

El archivo `sag_record_01_2020.csv` contiene informaci√≥n relativa a un mes de procesamiento de mineral en dos molinos SAG de una planta concentradora, siendo cada observaci√≥n (fila) una hora de data. La primera fila del arreglo resultante corresponde a los r√≥tulos de cada columna, los cuales no son legibles desde **Numpy**. La primera columna tampoco es legible, ya que contiene informaci√≥n de cada una de las estampas de tiempo (timestamps) horarias asignadas a cada observaci√≥n. **Numpy** es capaz de manejar datos de tiempo, pero debido a que la opci√≥n por defecto al abrir archivos mediante la funci√≥n `np.genfromtxt()` es transformar toda la data a n√∫meros de punto flotante, solamente los tratamientos horarios son legibles en el arreglo resultante. Notemos adem√°s que toda la data no legible se pasa a un valor denominado `nan`, que significa **‚Äùnot a number‚Äù** (literalmente, no es un n√∫mero). Esta es una convenci√≥n usada en varias librer√≠as de Python para especificar que la data asociada a alguna observaci√≥n no es legible de alguna manera, o simplemente no existe o no est√° definida.

No ahondaremos mucho m√°s en la lectura de archivos externos desde **Numpy**, ya que, m√°s adelante, veremos otra librer√≠a que es m√°s id√≥nea para acceder a informaci√≥n de este tipo, cuyo nombre es **Pandas**, y permite la manipulaci√≥n de arreglos rectangulares de datos mediante objetos m√°s especializados que los que podemos encontrar en **Numpy**, conocidos como Series y DataFrames. ‚óºÔ∏é

## Tipos de datos en Numpy.
Como comentamos previamente, uno de los aspectos m√°s importantes de los arreglos de **Numpy** es que s√≥lo pueden contener elementos de un √∫nico tipo, por lo que es importante tener un conocimiento adecuado de tales tipos y sus limitaciones.

Debido a que **Numpy** fue originalmente construido en C, los tipos de datos de **Numpy** resultan familiares para los usuarios de ese lenguaje (o FORTRAN, entre otros). Tales tipos son tambi√©n muy s√≠miles a los que podemos encontrar, parcialmente, en el backend nativo de Python, y se detallan en la Tabla (1.1).

<p style="text-align: center;">Tabla (1.1): Tipos de datos propios de Numpy</p>

| Tipo         | Descripci√≥n |
| :----------- | :---------- |
| `bool`       | Booleano (True o False), almacenado como un bit |
| `int8`       | Bit (-128 a 127) |
| `int16`      | Entero (-32768 a 32767) |
| `int32`      | Entero (-2147483648 a 2147483647) |
| `int64`      | Entero (-9223372036854775808 a 9223372036854775807) |
| `uint8`      | Entero no negativo (0 a 255) |
| `uint16`     | Entero no negativo (0 a 65535) |
| `uint32`     | Entero no negativo (0 a 4294967295) |
| `uint64`     | Entero no negativo (0 a 18446744073709551615) |
| `float16`    | N√∫mero flotante de precisi√≥n media |
| `float32`    | N√∫mero flotante de precisi√≥n √∫nica |
| `float64`    | N√∫mero flotante de precisi√≥n doble |
| `complex64`  | N√∫mero complejo, representado por dos n√∫meros flotantes de 32 bits |
| `complex128` | N√∫mero complejo, representado por dos n√∫meros flotantes de 64 bits |


En general, salvo ciertas excepciones, la mayor parte de los arreglos que podemos construir desde cero en **Numpy** est√°n seteados de manera tal que, por defecto, el tipo de dato asociado a sus elementos es del tipo flotante (y que, en **Numpy**, se puede escribir como `np.float32` o `np.float64`, dependiendo del nivel de precisi√≥n que deseemos en nuestros c√°lculos).

## Generaci√≥n de n√∫meros pseudo-aleatorios.
Numpy cuenta con algunas rutinas que permiten construir arreglos cuyos elementos sean n√∫meros pseudo-aleatorios. Decimos *‚Äúpseudo-aleatorios‚Äù*, y no *‚Äúaleatorios‚Äù*, por cuanto el generador de tales n√∫meros igualmente est√° controlado por ciertos par√°metros que permiten asegurar la reproducibilidad de los resultados que dependan del arreglo en cuesti√≥n, mediante la fijaci√≥n de la semilla generadora de estos n√∫meros.

En **Numpy**, la generaci√≥n de arreglos pseudo-aleatorios es controlada mediante el subm√≥dulo `numpy.random`. El primer elemento importante a revisar de este subm√≥dulo corresponde a **semilla generadora** de los elementos respectivos de un arreglo de este tipo. Dicha semilla puede fijarse mediante el uso de la funci√≥n `np.random.default_rng()`, cuyo √∫nico argumento es un n√∫mero entero positivo, denominado `seed`, que se corresponde con esa semilla:

In [39]:
# Semilla fija, generadora de n√∫meros aleatorios.
rng = np.random.default_rng(seed=42)
rng

Generator(PCG64) at 0x7FEAE8E9B3C0

Vemos que la semilla as√≠ definida es un objeto de tipo `numpy.random.Generator`. Como su nombre lo indica, cualquier generaci√≥n de n√∫meros aleatorios se realizar√° tomando este valor de semilla (42, en nuestro ejemplo) como hiperpar√°metro inicial (es decir, controlado por nosotros).

**Ejemplo 1.8 ‚Äì Muestreo desde distribuciones de probabilidad:** Ya definido un valor de semilla, es posible construir un arreglo, de las dimensiones que queramos, cuyos elementos sean todos muestreados a partir de una distribuci√≥n uniforme, en el rango $[0,  1]$. Para ello, podemos utilizar el m√©todo `random()`, donde el argumento a utilizar ser√° la geometr√≠a del arreglo que queremos construir:

In [40]:
# Creaci√≥n de un arreglo de 3x3 con elementos aleatorios uniformemente distribuidos entre 0 y 1.
rng.random(size=(3, 3))

array([[0.77395605, 0.43887844, 0.85859792],
       [0.69736803, 0.09417735, 0.97562235],
       [0.7611397 , 0.78606431, 0.12811363]])

Tambi√©n podemos obtener muestreos de datos a partir de una distribuci√≥n normal, con media y desviaci√≥n est√°ndar definida. En **Numpy**, podemos lograr aquello mediante el uso del m√©todo `normal()` sobre nuestro generador `rng`, donde la media y la desviaci√≥n se definen por medio de los argumentos `loc` y `scale`, respectivamente:

In [41]:
# Creaci√≥n de un arreglo de 3x3 con elementos aleatorios normalmente distribuidos, con 
# media 0 y desviaci√≥n est√°ndar 1.
rng.normal(size=(3, 3), loc=0, scale=1)

array([[-0.85304393,  0.87939797,  0.77779194],
       [ 0.0660307 ,  1.12724121,  0.46750934],
       [-0.85929246,  0.36875078, -0.9588826 ]])

**Numpy** cuenta con much√≠simas alternativas de distribuciones para poder muestrear data de manera aleatoria. Un ejemplo com√∫n de distribuci√≥n discreta que podemos encontrar en varios procesos y fen√≥menos corresponde a la **distribuci√≥n de Poisson**, la que se define como sigue: Sea $X$ una variable aleatoria con realizaci√≥n $x\in \mathbb{N}$. Decimos que $X$ es una variable aleatoria de Poisson si su distribuci√≥n de probabilidad puede expresarse como

<p style="text-align: center;">$f(x|\lambda)  =\frac{\displaystyle \lambda^{k}e^{-\lambda }}{\displaystyle k!}$</p>

La distribuci√≥n de Poisson se utiliza para representar ciertos eventos con una separaci√≥n entre sus respectivas ocurrencias aproximadamente igual a $\lambda \in \mathbb{R}$ (par√°metro que se denomina tasa de ocurrencia de eventos), donde $f(x|\lambda)$ describe la probabilidad de que un total de $x$ eventos ocurran dentro del intervalo observado $\lambda$. En **Numpy**, podemos muestrear data pseudo-aleatoria que sigue una distribuci√≥n de Poisson mediante el m√©todo `poisson()` aplicado sobre nuestro generador `rng`, siendo `lam` la tasa de ocurrencia respectiva:

In [42]:
# Creaci√≥n de un arreglo de 4x4 con elementos aleatorios con distribuci√≥n de Poisson, con tasa de ocurrencia igual a 1.
rng.poisson(lam=1.0, size=(4, 4))

array([[3, 3, 1, 0],
       [3, 1, 0, 0],
       [1, 1, 2, 2],
       [0, 1, 0, 0]])

Vemos que el muestreo anterior devuelve un arreglo compuesto √∫nicamente por n√∫meros enteros. Esto es un resultado esperado, ya que, como comentamos previamente, la distribuci√≥n de Poisson es de tipo discreta: Est√° definida √∫nicamente para variables aleatorias cuya realizaci√≥n sean n√∫meros enteros.

Un ejemplo de distribuci√≥n continua es la **distribuci√≥n Beta**, la cual se define para una variable aleatoria continua $X$, con realizaci√≥n $x\in \mathbb{R}$, como

<p style="text-align: center;">$f(x|\alpha ,\beta)=\frac{\displaystyle x^{\alpha -1}(1-x)^{\beta -1}}{\displaystyle \mathrm{B}(\alpha ,\beta)}$</p>

Donde $\mathrm{B}(\alpha ,\beta)$ es la funci√≥n Beta, definida como

<p style="text-align: center;">$\mathrm{B}(\alpha ,\beta)  ={\displaystyle \int^{1}_{0} t^{\alpha -1}(1-t)^{\beta -1}dt}$</p>

La distribuci√≥n Beta es frecuentemente utilizada para modelar el comportamiento de proporciones y porcentajes, y tambi√©n en estad√≠stica Bayesiana, como la distribuci√≥n conjugada de varias distribuciones de inter√©s (como la distribuci√≥n binomial). Tambi√©n se utiliza para modelar eventos que est√°n restringidos a ocurrir dentro de intervalos definidos por un valor m√°ximo y m√≠nimo de tiempo, t√≠picos de problemas de planificaci√≥n de ruta cr√≠tica (PERT). En **Numpy**, es sencillo obtener un muestreo de valores que siguen esta distribuci√≥n mediante el m√©todo beta(), aplicado a nuestro generador `rng`:

In [43]:
# Creaci√≥n de un arreglo de 4x4 con elementos aleatorios con distribuci√≥n Beta, con par√°metros ùõº=0.1 y ùõΩ=1.2.
rng.beta(a=0.1, b=1.2, size=(4, 4))

array([[4.89927924e-01, 6.52110904e-04, 2.46498464e-01, 6.16163373e-03],
       [3.99152041e-16, 4.39250439e-01, 9.03509415e-06, 1.21123765e-02],
       [2.25390714e-16, 8.52705101e-09, 5.90073438e-04, 2.96941781e-05],
       [3.06645800e-06, 1.34651222e-03, 2.89184439e-04, 3.18478511e-08]])

## Aspectos fundamentales de los arreglos de Numpy.
La manipulaci√≥n de datos en Python es, en muchos aspectos, un sin√≥nimo del concepto de manipulaci√≥n de arreglos de **Numpy**: Incluso herramientas m√°s sofisticadas como **Pandas** (que estudiaremos m√°s adelante) o **Scikit-Learn** est√°n construidas sobre arreglos de **Numpy**. En esta subsecci√≥n presentaremos varios ejemplos usando la manipulaci√≥n de arreglos en **Numpy** para acceder a la data almacenada en tales arreglos y para separar, redimensionar y combinar arreglos. Cubriremos algunas categor√≠as b√°sicas, a saber:

- Atributos de los arreglos: Determinaci√≥n del tama√±o, geometr√≠a, consumo de memoria y tipos de datos que conforman los elementos de un arreglo.
- Indexaci√≥n de arreglos: Setting y obtenci√≥n de los valores individuales de un arreglo.
- Slicing de arreglos: Setting y obtenci√≥n de sub-arreglos a partir de un arreglo.
- Redimensionamiento de arreglos: Cambio en la geometr√≠a de un arreglo.
- Uni√≥n y separaci√≥n de arreglos: Combinaci√≥n de m√∫ltiples arreglos en uno, o splits de un arreglo en dos o m√°s sub-arreglos.

### Atributos de un arreglo.
Primero discutiremos algunos de los atributos √∫tiles de los arreglos de **Numpy**. Partiremos definiendo tres arreglos a partir de un muestreo pseudo-aleatorio, del tipo unidimensional (vector), bidimensional (matriz) y tridimensional (tensor de orden 3). Usaremos un generador para estos n√∫meros, a fin de asegurar la reproducibilidad de los resultados, considerando una distribuci√≥n uniforme entera, usando el m√©todo `integers()` sobre nuestro generador:

In [44]:
# Construcci√≥n de nuestros arreglos.
x1 = rng.integers(low=0, high=10, size=6) # Arreglo unidimensional.
x2 = rng.integers(low=0, high=10, size=(3, 4)) # Arreglo bidimensional.
x3 = rng.integers(low=0, high=10, size=(3, 4, 5)) # Arreglo tridimensional.

Todo arreglo cuenta con los atributos `ndim` (que calcula el n√∫mero de dimensiones del arreglo), `shape` (que calcula el tama√±o de cada dimensi√≥n en el arreglo; es decir, su geometr√≠a) y `size` (que calcula el tama√±o total del arreglo):

In [45]:
# Atributos ndim, shape y size para el arreglo x2.
print(f"x2.ndim = {x2.ndim}")
print(f"x2.shape = {x2.shape}")
print(f"x2.size = {x2.size}")

x2.ndim = 2
x2.shape = (3, 4)
x2.size = 12


Otros atributos son `itemsize`, que lista el tama√±o (en bits) de cada uno de los elementos que conforman el arreglo, y `nbytes`, que lista el tama√±o total (en bits) del arreglo:

In [46]:
# Atributos ndim, shape y size para el arreglo x2.
print(f"x2.itemsize = {x2.itemsize}")
print(f"x2.nbytes = {x2.nbytes}")

x2.itemsize = 8
x2.nbytes = 96


En general, como cabr√≠a esperar, se debe tener que `nbytes = itemsize`${\times}$`size`.

### Indexaci√≥n de arreglos.
De la misma forma que ocurre con las listas y tuplas, que son arreglos y/o contenedores de informaci√≥n nativos de Python, es posible acceder a la informaci√≥n contenida en los arreglos de **Numpy** mediante la especificaci√≥n de las posiciones relativas a dichos elementos por medio de corchetes, siempre teniendo en cuenta que Python comienza a contar desde cero. De esta manera:

- En un arreglo unidimensional, digamos `x`, podemos acceder al elemento en la posici√≥n `j`, mediante la notaci√≥n `x[j]`.
- En un arreglo bidimensional, digamos `X`, podemos acceder al elemento ubicado en la fila `i` y en la columna `j`, mediante la notaci√≥n `X[i, j]`.
- En un arreglo tridimensional, digamos `T`, podemos acceder al elemento ubicado en la fila `j` y en la columna `k` del sub-arreglo `i`, mediante la notaci√≥n `T[i, j, k]`.

La selecci√≥n de elementos de un arreglos se hace, pues, por medio de una **notaci√≥n indexada**. Consideremos, por ejemplo, al arreglo `x1` que construimos previamente, definido como

In [47]:
x1

array([6, 4, 3, 6, 1, 5])

Vemos que este arreglo contiene 6 elementos, los que se ubican en las posiciones 0 a 5. Si queremos recuperar el elemento en la posici√≥n 2, podemos escribir `x1[2]`, con lo cual obtenemos directamente ese valor:

In [48]:
x1[2] # Recuperamos el tercer elemento del arreglo.

3

Para seleccionar el elemento en la posici√≥n 0, escribimos `x1[0]`:

In [49]:
x1[0] # Recuperamos el primer elemento del arreglo.

6

Este tipo de selecci√≥n considera pues una indexaci√≥n tal que las posiciones se cuentan de izquierda a derecha, desde cero. Sin embargo, es posible igualmente contarlas de derecha a izquierda, en cuyo caso la √∫ltima posici√≥n se representa por medio del valor -1, la pen√∫ltima por medio de -2, y as√≠ sucesivamente. Por ejemplo, siguiendo con el arreglo `x1`:

In [50]:
x1[-1] # Recuperamos el primer elemento del arreglo, de derecha a izquierda.

5

In [51]:
x1[-2] # Recuperamos el segundo elemento del arreglo, de derecha a izquierda.

1

Para el caso de arreglos bidimensionales, la selecci√≥n es igualmente sencilla (y sigue las mismas convenciones):

In [52]:
x2[2, 3] # Recuperamos el elemento en la fila 2 y columna 3.

3

In [53]:
x2[-1, -2] # Recuperamos el elemento en √∫ltima fila y en la pen√∫ltima columna (equivalente a x2[2, 2]).

1

Finalmente, para el caso de arreglos tridimensionales, la selecci√≥n es tal que el primer elemento definido entre los corchetes se√±ala el sub-arreglo de inter√©s. Para ejemplificar esto, centremos nuestra atenci√≥n en el arreglo `x3` que definimos previamente:

In [54]:
x3 # El arreglo x3 tiene una estructura tensorial de orden 3.

array([[[6, 1, 6, 1, 1],
        [5, 7, 1, 2, 9],
        [9, 5, 4, 3, 6],
        [5, 2, 0, 1, 9]],

       [[4, 4, 4, 7, 0],
        [0, 2, 4, 6, 4],
        [4, 9, 1, 5, 5],
        [4, 8, 2, 9, 3]],

       [[5, 5, 8, 4, 2],
        [0, 3, 8, 0, 8],
        [5, 1, 3, 5, 3],
        [1, 6, 6, 1, 2]]])

Habiendo establecido el arreglo anterior, y como tambi√©n comentamos en un principio, el primer elemento entre corchetes para el caso de la indexaci√≥n en un arreglo tridimensional, se corresponde con el sub-arreglo respectivo. De hecho, es f√°cil darnos cuenta de ello: Si √∫nicamente especificamos la primera posici√≥n de inter√©s para el caso de `x3` (digamos, la posici√≥n 0), recuperaremos el primer sub-arreglo que conforma `x3`:

In [55]:
x3[0] # El primer sub-arreglo del arreglo tridimensional x3.

array([[6, 1, 6, 1, 1],
       [5, 7, 1, 2, 9],
       [9, 5, 4, 3, 6],
       [5, 2, 0, 1, 9]])

De este modo, los siguientes elementos entre corchetes nos especifican la fila y columna relativa al sub-arreglo seleccionado. Por ejemplo, si escribimos `x3[0, 0, 0]`, estamos seleccionando el elemento ubicado en la primera fila y la primera columna del primer sub-arreglo:

In [56]:
x3[0, 0, 0] # Elemento en la posici√≥n (0, 0) del primer sub-arreglo de x3.

6

La selecci√≥n de un elemento mediante esta notaci√≥n indexada permite, adem√°s, realizar modificaciones sobre la marcha. Por ejemplo:

In [57]:
x2[1, 2] = 20 # Asignamos el valor 20 al elemento en la posici√≥n (1, 2) en el arreglo x2.
x2

array([[ 0,  6,  6,  0],
       [ 7,  4, 20,  0],
       [ 1,  4,  1,  3]])

Debemos tener en consideraci√≥n que, a diferencia de las listas de Python, los arreglos de **Numpy** siempre son de tipo fijo. Esto significa, por ejemplo, que si intentamos insertar un valor de punto flotante en un arreglo cuyos elementos son enteros, el valor insertado ser√° truncado de forma silenciosa por **Numpy**, a fin de mantener esa caracter√≠stica:

In [58]:
x1[4] = 3.141592654 # ¬°Esto ser√° truncado!
x1

array([6, 4, 3, 6, 3, 5])

### Slicing.
De la misma forma en que usamos corchetes para acceder a los elementos individuales de un arreglo, tambi√©n podemos usarlos para acceder a sub-arreglos del mismo mediante la conocida notaci√≥n de slicing v√≠a el uso del s√≠mbolo `:`. La sintaxis de slicing de **Numpy** tambi√©n sigue la notaci√≥n de indexaci√≥n est√°ndar de las listas de Python; para acceder a un slice (sub-arreglo) de un arreglo de **Numpy**, digamos `x`, usamos la sintaxis `x[inicio: final: paso]`.

Si cualquiera, `inicio`, `final` o `paso`, no se especifica, los valores por defecto ser√°n `inicio = 0`, `final = x.shape` y `paso = 1`. 

**a) Arreglos unidimensionales:** Veamos esto por medio de ejemplos:

In [59]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [60]:
x[:5] # Primeros cinco elementos del arreglo.

array([0, 1, 2, 3, 4])

In [61]:
x[5:] # Todos los elementos despu√©s del √≠ndice 5.

array([5, 6, 7, 8, 9])

In [62]:
x[4:7] # Sub-arreglo (slice) de elementos entre los √≠ndices 4 y 6.

array([4, 5, 6])

Es posible realizar selecciones m√°s sofisticadas. Por ejemplo, si escribimos `x[::2]`, seleccionaremos todos los elementos del arreglo `x`, partiendo desde el primero, avanzando siempre de a dos posiciones:

In [63]:
x[::2] # Elecci√≥n de elementos desde la posici√≥n 0, de dos en dos.

array([0, 2, 4, 6, 8])

Como regla general, siempre podremos realizar selecciones de elementos en un arreglo unidimensional, digamos `x`, equiespaciados cada `k` posiciones, mediante una sintaxis del tipo `x[inicio::k]`:

In [64]:
x[1::2] # Elecci√≥n de elementos desde la posici√≥n 1, de dos en dos.

array([1, 3, 5, 7, 9])

Un caso potencialmente confuso es cuando el valor del paso del slicing es negativo. En este caso, los valores para inicio y final son intercambiados. Esto permite, convenientemente, revertir el orden de los elementos de un arreglo. Por ejemplo:

In [65]:
x[::-1] # Todos los elementos del arreglo en orden inverso.

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

In [66]:
x[5::-2] # Elementos en orden inverso, a partir de la posici√≥n 5.

array([5, 3, 1])

**b) Arreglos multidimensionales:** Las selecciones m√∫ltiples (slices) en arreglos de mayor dimensi√≥n trabajan del mismo modo, con slices m√∫ltiples separados por comas (indicando la referencia del eje que nos interesa indexar). Por ejemplo, en el caso del arreglo bidimensional `x2` que construimos previamente (y que, de hecho, modificamos ejercitando estos conceptos de indexaci√≥n):

In [67]:
x2 # El arreglo x2.

array([[ 0,  6,  6,  0],
       [ 7,  4, 20,  0],
       [ 1,  4,  1,  3]])

In [68]:
x2[:2, :3] # Elegimos los elementos hasta la fila 1, y la columna 2.

array([[ 0,  6,  6],
       [ 7,  4, 20]])

In [69]:
x2[:3, ::2] # Elegimos los elementos hasta la fila 2, y las columnas en las posiciones 0 y 2.

array([[ 0,  6],
       [ 7, 20],
       [ 1,  1]])

In [70]:
x2[::-1, ::-1] # Invertimos el orden de los elementos del arreglo.

array([[ 3,  1,  4,  1],
       [ 0, 20,  4,  7],
       [ 0,  6,  6,  0]])

Una acci√≥n frecuente a la hora de trabajar con arreglos bidimensionales de **Numpy** corresponde a la selecci√≥n de filas o columnas completas. Por supuesto, no es necesario que, para ello, detallemos las posici√≥n inicial y final relativas a la longitud de una fila o columna, debido a que, en muchos casos, ni siquiera sabremos de primera mano cu√°nto es dicha longitud. Podemos usar el s√≠mbolo `:` para especificar que queremos todos los elementos relativos a un eje del arreglo que estemos manipulando. De esta manera, si escribimos `x2[:, 1]`, estamos seleccionando todos los elementos de la segunda columna del arreglo `x2`:

In [71]:
x2[:, 1] # Todos los elementos de la columna en la posici√≥n 1 del arreglo x2.

array([6, 4, 4])

Correspondientemente, al escribir `x2[1, :]`, estamos seleccionando todos los elementos de la segunda fila del arreglo `x2`:

Algo importante, y extremadamente √∫til, de saber es que los slices que hagamos de un arreglo retornan vistas del mismo y no copias de √©l. Esta es una de las grandes diferencias entre el slicing de arreglos de **Numpy** y el slicing de listas de Python, ya que en el caso de √©stas √∫ltimas, los slices s√≠ devuelven copias. Para ilustrar esto, consideremos nuestro arreglo bidimensional `x2`:

In [72]:
print(x2)

[[ 0  6  6  0]
 [ 7  4 20  0]
 [ 1  4  1  3]]


Extraigamos un sub-arreglo de `2√ó2` a partir de `x2`:

In [73]:
x2_sub = x2[:2, :2]
print(x2_sub)

[[0 6]
 [7 4]]


Ahora, si modificamos este sub-arreglo, veremos que **el arreglo original tambi√©n cambia**:

In [74]:
x2_sub[0, 0] = 99
print(x2_sub)

[[99  6]
 [ 7  4]]


In [75]:
print(x2)

[[99  6  6  0]
 [ 7  4 20  0]
 [ 1  4  1  3]]


Este comportamiento por defecto es, de hecho, bastante √∫til. Significa que, cuando trabajemos con conjuntos de datos de gran envergadura representados por arreglos, podemos acceder a √©stos y procesar fragmentos de dichos conjuntos sin necesidad de copiarlos en su totalidad, ahorrando memoria.

### Redimensionamiento de arreglos.
Otro tipo de operaci√≥n que utilizamos con frecuencia corresponde al redimensionamiento de arreglos, la cual permite cambiar la estructura de un arreglo, siempre que el n√∫mero total de elementos del arreglo original se conserve. Esta es una regla general que permite definir un determinado n√∫mero de operaciones de este tipo. Por ejemplo:

- Transposici√≥n: Intercambio de los elementos que pueblan el eje de un arreglo.
- Aplanamiento o flattening: Transformaci√≥n de un arreglo multidimensional en uno del tipo unidimensional.
- Remodelamiento o reshaping: Cambio en la geometr√≠a (shape) de un arreglo, de manera tal que el n√∫mero total de elementos que lo conforma (`size`) se mantenga constante.

La transposici√≥n es un atributo propio del objeto `ndarray` de **Numpy**, y que se corresponde con `T`. Por ejemplo, si escribimos `x2.T`, el resultado ser√° otro arreglo con las filas y columnas de `x2` intercambiadas:

In [76]:
x2.T # Calculamos el arreglo transpuesto de x2.

array([[99,  7,  1],
       [ 6,  4,  4],
       [ 6, 20,  1],
       [ 0,  0,  3]])

La operaci√≥n anterior es equivalente a la transposici√≥n de matrices, en la cual, dada una matriz $\mathbf{A} =\left\{ a_{ij}\right\}  \in \mathbb{R}^{n\times d} $, existe otra matriz, llamada matriz transpuesta de $\mathbf{A}$, denotada como $\mathbf{A}^{\top}$, y que se define como $\mathbf{A}^{\top } =\left\{ a_{ji}\right\}  \in \mathbb{R}^{d\times n} $.

Si bien la transposici√≥n, en t√©rminos algebraicos, tiene sentido para vectores, la transposici√≥n en **Numpy** pierde sentido para el caso de arreglos unidimensionales. Al escribir `x1.T`, podemos notar que el resultado de dicha operaci√≥n retorna el mismo arreglo `x1`:

In [77]:
x1 # El arreglo x1.

array([6, 4, 3, 6, 3, 5])

In [78]:
x1.T # El arreglo transpuesto de x1 es el mismo arreglo x1.

array([6, 4, 3, 6, 3, 5])

Para el caso de arreglos tridimensionales, la transposici√≥n intercambia las dimensiones de los ejes 1 y 2. Para ejemplificar esto, consideremos el arreglo `x3`:

In [79]:
x3 # El arreglo x3.

array([[[6, 1, 6, 1, 1],
        [5, 7, 1, 2, 9],
        [9, 5, 4, 3, 6],
        [5, 2, 0, 1, 9]],

       [[4, 4, 4, 7, 0],
        [0, 2, 4, 6, 4],
        [4, 9, 1, 5, 5],
        [4, 8, 2, 9, 3]],

       [[5, 5, 8, 4, 2],
        [0, 3, 8, 0, 8],
        [5, 1, 3, 5, 3],
        [1, 6, 6, 1, 2]]])

Al aplicar una transposici√≥n sobre `x3`, lo que hacemos es intercambiar los ejes 1 y 2, como se observa en el esquema de la Fig. (1.4):

In [80]:
x3.T # El resultado de transponer x3.

array([[[6, 4, 5],
        [5, 0, 0],
        [9, 4, 5],
        [5, 4, 1]],

       [[1, 4, 5],
        [7, 2, 3],
        [5, 9, 1],
        [2, 8, 6]],

       [[6, 4, 8],
        [1, 4, 8],
        [4, 1, 3],
        [0, 2, 6]],

       [[1, 7, 4],
        [2, 6, 0],
        [3, 5, 5],
        [1, 9, 1]],

       [[1, 0, 2],
        [9, 4, 8],
        [6, 5, 3],
        [9, 3, 2]]])

![alt text](https://github.com/rquezadac/udd_data_analytics_lectures/blob/main/seccion_01_numpy/figures/fig_1_4.png?raw=true "Logo Title Text 1")
<p style="text-align: center;">Fig. (1.4): Esquema de la transposici√≥n de nuestro arreglo tridimensional</p>

Por otro lado, el aplanamiento o flattening es una operaci√≥n que permite reordenar todos los elementos de un arreglo multidimensional en otro arreglo de tipo unidimensional. Se trata de una operaci√≥n com√∫n en el an√°lisis de datos con **Numpy**, y que se implementa mediante el m√©todo `ravel()`:

In [81]:
x2.ravel() # Aplanamos el arreglo x2.

array([99,  6,  6,  0,  7,  4, 20,  0,  1,  4,  1,  3])

Finalmente, el remodelamiento de arreglos corresponde al cambio en la geometr√≠a de los mismos, de tal forma que el n√∫mero de elementos (`size`) de √©stos permanezca inalterado. Estos redimensionamientos son muy comunes en el an√°lisis de datos con **Numpy**, y pueden implementarse mediante el uso del m√©todo `reshape()`, directamente sobre el arreglo de inter√©s. Dicho m√©todo requiere como input una tupla de Python que representa la nueva geometr√≠a del arreglo que queremos obtener como resultado del redimensionamiento. Por ejemplo, para el caso de `x2`:

In [82]:
x2.reshape(6, -1) # Numpy inferir√° que el n√∫mero de columnas ser√° igual a 2.

array([[99,  6],
       [ 6,  0],
       [ 7,  4],
       [20,  0],
       [ 1,  4],
       [ 1,  3]])

### Uni√≥n de arreglos.
Las rutinas que hemos trabajado hasta ahora permiten operar sobre un √∫nico arreglo a fin de poder verificar sus atributos, seleccionar parte de la informaci√≥n que nos interesa de √©l, o bien, cambiar su geometr√≠a a otra que nos acomode. No obstante, una operaci√≥n interesante de considerar y que, a diferencia de las anteriores, involucra a m√°s de un arreglo, corresponde a la uni√≥n de este tipo de estructuras de datos.

La uni√≥n (o concatenaci√≥n) de varios arreglos en **Numpy**, se consigue principalmente mediante las siguientes funciones: `np.concatenate()`, `np.hstack()` y `np.vstack()`. La funci√≥n `np.concatenate()` toma una tupla o lista de arreglos como primer argumento, y retorna la uni√≥n de los mismos. Esta funci√≥n ya la hab√≠amos comentado previamente, y hab√≠amos mencionado que, para poder aplicarla, los arreglos de inter√©s deben tener geometr√≠as compatibles. De esta manera, si definimos los arreglos `a` y `b`:

In [83]:
# Construimos los arreglos a y b.
a = rng.normal(loc=0, scale=1, size=(4, 4))
b = rng.normal(loc=1, scale=2, size=(2, 4))

In [84]:
a

array([[ 0.28068677,  1.76792991,  0.13027452,  0.98273951],
       [-0.4992956 , -1.18494377, -0.96511676, -0.72522606],
       [ 2.12846973, -0.82138668,  0.8384892 , -0.90292718],
       [ 0.93157301,  0.38495097, -0.1566379 , -0.04076253]])

In [85]:
b

array([[-0.30957539,  1.8921444 ,  0.09003304, -1.45121153],
       [-1.55587515,  1.34517584,  4.15818251,  1.31998323]])

Entonces la uni√≥n entre ambos s√≥lo puede hacerse conforme la direcci√≥n del eje 0. Dicha uni√≥n puede entonces implementarse como sigue:

In [86]:
np.concatenate([a, b], axis=0) # Los arreglos a unirse se especifican por medio de una lista.

array([[ 0.28068677,  1.76792991,  0.13027452,  0.98273951],
       [-0.4992956 , -1.18494377, -0.96511676, -0.72522606],
       [ 2.12846973, -0.82138668,  0.8384892 , -0.90292718],
       [ 0.93157301,  0.38495097, -0.1566379 , -0.04076253],
       [-0.30957539,  1.8921444 ,  0.09003304, -1.45121153],
       [-1.55587515,  1.34517584,  4.15818251,  1.31998323]])

Evidentemente, la uni√≥n conforme el eje 1 es imposible, ya que los arreglos `a` y `b` no tienen el mismo n√∫mero de filas. Por lo tanto, intentar implementar una uni√≥n conforme dicho eje dar√° como resultado un error:

In [87]:
# Esta uni√≥n es imposible, puesto que las geometr√≠as de a y b son incompatibles.
try:
    np.concatenate([a, b], axis=1)
except ValueError as e:
    print(e)

all the input array dimensions for the concatenation axis must match exactly, but along dimension 0, the array at index 0 has size 4 and the array at index 1 has size 2


La funci√≥n `np.concatenate()`, por supuesto, no est√° limitada a √∫nicamente dos arreglos. Podemos unir todos los arreglos que queramos, siempre que √©stos sean compatibles:

In [88]:
# Creamos dos arreglos nuevos.
c = rng.normal(loc=3, scale=2, size=(2, 4))
d = rng.normal(loc=-3, scale=1, size=(2, 4))

In [89]:
c

array([[2.76272335, 3.57165228, 5.61200348, 3.438765  ],
       [2.17814554, 5.21257742, 3.85751288, 6.07151198]])

In [90]:
d

array([[-2.81676556, -4.22446903, -4.3681592 , -1.34907207],
       [-1.27633428, -3.17951921, -3.38318732, -1.53855571]])

In [91]:
# Uni√≥n, conforme el eje 0, de los arreglos b, c y d.
np.concatenate([b, c, d], axis=0)

array([[-0.30957539,  1.8921444 ,  0.09003304, -1.45121153],
       [-1.55587515,  1.34517584,  4.15818251,  1.31998323],
       [ 2.76272335,  3.57165228,  5.61200348,  3.438765  ],
       [ 2.17814554,  5.21257742,  3.85751288,  6.07151198],
       [-2.81676556, -4.22446903, -4.3681592 , -1.34907207],
       [-1.27633428, -3.17951921, -3.38318732, -1.53855571]])

Si tenemos totalmente claro que deseamos construir uniones conforme un eje determinado, o bien, queremos evitar ciertas ambig√ºedades en nuestro c√≥digo, podemos utilizar las funciones `np.hstack()` y `np.vstack()`, siempre que los arreglos involucrados sean geom√©tricamente compatibles:

In [92]:
# La funci√≥n np.hstack() permite √∫nicamente construir uniones horizontales.
np.hstack([b, c])

array([[-0.30957539,  1.8921444 ,  0.09003304, -1.45121153,  2.76272335,
         3.57165228,  5.61200348,  3.438765  ],
       [-1.55587515,  1.34517584,  4.15818251,  1.31998323,  2.17814554,
         5.21257742,  3.85751288,  6.07151198]])

In [93]:
# La funci√≥n np.vstack() permite √∫nicamente construir uniones verticales.
np.vstack([b, c])

array([[-0.30957539,  1.8921444 ,  0.09003304, -1.45121153],
       [-1.55587515,  1.34517584,  4.15818251,  1.31998323],
       [ 2.76272335,  3.57165228,  5.61200348,  3.438765  ],
       [ 2.17814554,  5.21257742,  3.85751288,  6.07151198]])

**Numpy** tambi√©n nos provee con la funci√≥n `np.dstack()`, que nos permite unir arreglos conforme el eje que asegure aumentar en 1 el n√∫mero de dimensiones del arreglo resultante. De este modo, para arreglos bidimensionales, `np.dstack()` generar√° una uni√≥n conforme el eje 2:

In [94]:
# La funci√≥n np.dstack() permite √∫nicamente construir uniones conforme el eje de profundidad (el eje 2, en este caso).
np.dstack([b, c])

array([[[-0.30957539,  2.76272335],
        [ 1.8921444 ,  3.57165228],
        [ 0.09003304,  5.61200348],
        [-1.45121153,  3.438765  ]],

       [[-1.55587515,  2.17814554],
        [ 1.34517584,  5.21257742],
        [ 4.15818251,  3.85751288],
        [ 1.31998323,  6.07151198]]])

### Divisi√≥n de arreglos.
De la misma forma que **Numpy** permite la uni√≥n de dos o m√°s arreglos en otro, es igualmente posible dividir arreglos existentes, a fin de obtener como resultado otros arreglos. Para ello, existen funciones an√°logas a las de uni√≥n: `np.split()` para el caso general, y `np.hsplit()`, `np.vsplit()` y `np.dsplit()` para cuando queremos explicitar, por medio de estas funciones, que las uniones autom√°ticamente se realizar√°n conforme cierto eje.

Para usar las funciones anteriores, adem√°s del arreglo que queremos dividir, es necesario que especifiquemos cu√°les ser√°n las posiciones que servir√°n como referencias de la respectiva divisi√≥n. Estos puntos de separaci√≥n pueden imputarse a estas funciones en un formato de listas de manera sencilla:

In [95]:
# Creamos un arreglo unidimensional.
p = np.linspace(1, 10, 10)

# Dividimos este arreglo en tres sub-arreglos distintos, con respecto a las posiciones 3 y 7.
# Es decir, el primer sub-arreglo contiene los n√∫meros entre las posiciones 0 y 2 (inclusive), 
# el segundo contiene los elementos entre las posiciones 3 y 6, y el tercero contiene los 
# elementos entre las posiciones 7 y 9.
p1, p2, p3 = np.split(p, [3, 7])
print(p1, p2, p3)

[1. 2. 3.] [4. 5. 6. 7.] [ 8.  9. 10.]


Notemos que $N$ puntos de divisi√≥n generan $N+1$ sub-arreglos. Las funciones `np.hsplit()` y `np.vsplit()` tienen un funcionamiento similar, dependiendo de si queremos una divisi√≥n conforme el eje 1 o 0, respectivamente:

In [96]:
B = rng.integers(low=0, high=10, size=(6, 6)) # Construimos un arreglo bidimensional B.
B

array([[7, 8, 0, 1, 2, 3],
       [9, 7, 3, 9, 4, 5],
       [4, 1, 9, 0, 1, 2],
       [2, 1, 0, 6, 9, 1],
       [2, 5, 9, 6, 7, 5],
       [4, 1, 8, 8, 0, 7]])

In [97]:
# Dividimos el arreglo B conforme el eje 0, tomando como referencia la cuarta fila.
B_lower, B_upper = np.vsplit(B, [3])
B_lower

array([[7, 8, 0, 1, 2, 3],
       [9, 7, 3, 9, 4, 5],
       [4, 1, 9, 0, 1, 2]])

In [98]:
B_upper

array([[2, 1, 0, 6, 9, 1],
       [2, 5, 9, 6, 7, 5],
       [4, 1, 8, 8, 0, 7]])

In [99]:
# Dividimos el arreglo B conforme el eje 1, tomando como referencia la cuarta columna.
B_left, B_right = np.hsplit(B, [3])
B_left

array([[7, 8, 0],
       [9, 7, 3],
       [4, 1, 9],
       [2, 1, 0],
       [2, 5, 9],
       [4, 1, 8]])

In [100]:
B_right

array([[1, 2, 3],
       [9, 4, 5],
       [0, 1, 2],
       [6, 9, 1],
       [6, 7, 5],
       [8, 0, 7]])

## Comentarios finales.
En esta primera secci√≥n hemos aprendido a crear estructuras de datos caracter√≠sticas de **Numpy**, que son los arreglos. Hemos aprendido a hacer selecciones de datos almacenados en estos arreglos mediante diferentes esquemas de indexaci√≥n, y hemos aprendido a hacer algunas operaciones b√°sicas entre arreglos para obtener nuevos arreglos.

En la pr√≥xima secci√≥n, profundizaremos en la operatoria entre arreglos considerando algunas funciones elementales de **Numpy** conocidas como funciones universales o `ufuncs`, las que nos permitir√°n generar c√°lculos de mayor complejidad sobre estas estructuras de datos, teniendo consideraci√≥n con los tiempos de ejecuci√≥n propios de tales operaciones.