# CLASE 1.1: INTRODUCCIÓN A NUMPY.
---
## ¿Qué es Numpy?
**Numpy** (acrónimo de Numerical Python) es una librería de código abierto desarrollada en Python y que es comúnmente utilizada en prácticamente todos los campos de la computación científica y la ingeniería, siendo el estándar casi universal para el análisis eficiente de datos numéricos en Python y el pilar fundamental de un montón de otras librerías científicas de gran poder, aptas para tareas tan diversas que todo ser humano que desee realizar análisis de datos mediante el uso del lenguaje Python debe, como paso cero, tener esta librería como primera opción dentro de su caja de herramientas.

La librería **Numpy** es utilizada extensivamente como base para otras librerías famosas y de uso masivo en Python, tales como **Pandas** (especializada en el análisis de datos estructurados), **Matplotlib** (especializada en la graficación y reportabilidad mediante una API de bajo nivel, pero sencilla y muy robusta), **Scipy** (la librería científica de Python, especializada en el modelamiento analítico de fenómenos, procesos y sistemas de gran complejidad), **Scikit-Learn** (la librería clásica de Machine Learning de Python) o **Tensorflow** (una de las librerías de Deep Learning más utilizadas en el mercado). Por esta razón, **Numpy** suele representar el primer acercamiento de los usuarios interesados en aprender tópicos de ciencia de datos desde una perspectiva práctica y es esencial en cualquier asignatura relativa a la toma de decisiones basadas en datos usando el lenguaje de programación Python.

El elemento central de **Numpy** es una estructura de datos conocida como arreglo y que, en términos *pythonicos*, corresponde a un objeto conocido como `ndarray`. Dicho nombre hace referencia a un arreglo de valores (comúnmente numéricos) de dimensión ${n\times d}$, que suele ser imaginado como una estructura de datos de tipo matricial, que idealmente vive en el conjunto $\mathbb{R}^{n\times d}$ (que representa al conjunto de todas las matrices con ${n}$ filas y ${d}$ columnas). Sin embargo, **Numpy** no suele limitarse a arreglos matriciales, sino que a cualquier conjunto de elementos que puedan ser utilizados para operaciones vectorizadas, lo que incluye por supuesto a objetos de mayor dimensión, como tensores, y a otros de menor dimensión, como vectores. Todas estas estructuras de datos se representan en **Numpy** mediante el objeto `ndarray`.

Dado lo anterior, **Numpy** provee soporte para todo tipo de operaciones vectorizadas que son típicas en el álgebra matricial y tensorial, desde sumas y productos de matrices, hasta descomposiciones en valores singulares, factorizaciones de tipo QR e incluso ortogonalización de arreglos matriciales. Lo mejor de todo esto, es que tales operaciones se realizan en **Numpy** con un alto grado de eficiencia en lo que respecta al tiempo de ejecución.

## Instalación de Numpy.
**Numpy** se incluye siempre como librería base en el framework de Anaconda Python. Sin embargo, siempre es posible instalar esta librería de manera separada mediante el gestor de paquetes de conda usando una terminal de Anaconda como sigue:

`conda install numpy`

También es posible usar el índice de paquetes de Python (PyPI) mediante el gestor `pip` para la instalación de **Numpy**:

`pip install numpy`

La importación de la librería **Numpy** en Python suele seguir una especie de estándar en términos de su prefijo. De esta manera, **Numpy** suele importarse mediante el alias `np`, por lo que, una vez instalado, accederemos a todas funciones como sigue:

In [1]:
import numpy as np

## El Concepto de Arreglo.
Ya habíamos comentado que los arreglos son estructuras de datos que permiten la realización de operaciones vectorizadas sobre ellos, pero es justo que ahondemos un poco más en estos objetos y los conozcamos a fondo, simbólicamente, antes de comenzar a hacer operaciones con ellos.

Como ya dijimos, el arreglo es el elemento central de **Numpy**. Corresponde a una grilla de valores que viene provista con la correspondiente información relativa a la data almacenada en dicha grilla, y formas que permiten localizar dicha información en la grilla y cómo interpretar tal información. La única restricción es que dicha grilla **sólo puede contener información de un único tipo**.

Un ejemplo de arreglo es el *vector*. En términos más bien rigurosos, un vector es un arreglo unidimensional, en el sentido de que, si bien un vector es un objeto cuya dimensión, matemáticamente, es equivalente al número de elementos que lo constituyen, en términos geométricos, tales elementos se ordenan en una única fila o columna, razón por la cual, en la terminología computacional, los vectores constituyen arreglos de una sola dimensión.

Vamos a ejemplificar esto e ilustrarlo para que podamos entenderlo mejor. En Numpy, la creación de un arreglo puede hacerse siempre mediante la función `np.array()` (o simplemente `array()`, si nos abstraemos de usar el correspondiente alias `np`). Si queremos escribir el vector $\mathbf{x} =( -1,1,5,-8,2)  \in \mathbb{R}^{5} $, es posible considerar una representación mediante una matriz fila o una matriz columna, ya que, equivalentemente, podemos escribir $\mathbf{x}$ simbólicamente como

<p style="text-align: center;">$\mathbf{x} =\left( \begin{matrix}-1&1&5&-8&2\end{matrix} \right)  \in \mathbb{R}^{1\times 5} \  \vee \  \mathbf{x} =\left( \begin{array}{r}-1\\ 1\\ 5\\ -8\\ 2\end{array} \right)  \in \mathbb{R}^{5\times 1}$</p>

En **Numpy**, todo arreglo puede escribirse considerando que, en términos matriciales, las filas se definen como listas de Python. Si queremos escribir una matriz con ${n}$ filas, bastará siempre con especificar un total de ${n}$ listas separadas por comas, donde el número de elementos dentro de cada lista (que es el mismo, por supuesto, para todas ellas) define el número de columnas de la matriz, usando la función `np.array()`.

Como queremos representar, en este caso, al vector 𝐱 definido previamente, debemos considerar el tipo de representación: Si $\mathbf{x}$ se representa por medio de una matriz fila (es decir, $\mathbf{x} \in \mathbb{R}^{1\times 5}$), bastará con escribir, conforme el esquema anteriormente descrito:

In [2]:
x = np.array([-1, 1, 5, -8, 2]) # Definimos el arreglo x.
print(x) # Imprimimos en pantalla el valor de x.

[-1  1  5 -8  2]


Por otro lado, si queremos escribir $\mathbf{x}$ como un vector columna, entonces cada una de las entradas de $\mathbf{x}$ debe ser una lista por sí sola, ya que, como dijimos, cada fila de un arreglo se especifica mediante listas, separadas por comas. Por lo tanto, si $\mathbf{x} \in \mathbb{R}^{5\times 1}$, entonces imputaremos 5 listas separadas por comas. De este modo, debemos tener:

In [3]:
x = np.array([[-1], [1], [5], [-8], [2]]) # Definimos el arreglo x.
print(x) # Imprimimos en pantalla el valor de x.

[[-1]
 [ 1]
 [ 5]
 [-8]
 [ 2]]


Extender esta idea a matrices resulta, por supuesto, natural. Consideremos entonces la matriz $\mathbf{A} \in \mathbb{R}^{4\times 4} $, definida como

<p style="text-align: center;">$\mathbf{A} =\left( \begin{array}{rrrr}-2&1&-7&6\\ 1&3&1&-4\\ -5&-5&0&4\\ -9&2&-8&9\end{array} \right)  \in \mathbb{R}^{4\times 4} $</p>

Construir una estructura de este tipo en **Numpy** resulta muy sencillo. Como dijimos previamente, usamos la función `np.array()` para la generación de este arreglo, definiendo cada una de las filas mediante listas y separándolas mediante comas. Por lo tanto, para el caso de la matriz $\mathbf{A}$, bastará con escribir:

In [4]:
# Definimos la matriz A.
A = np.array([
    [-2, 1, 7, 6],
    [1, 3, 1, -4],
    [-5, -5, 0, 4],
    [-9, 2, -8, 9]
])
print(A) # Imprimimos en pantalla el valor de A.

[[-2  1  7  6]
 [ 1  3  1 -4]
 [-5 -5  0  4]
 [-9  2 -8  9]]


Como vemos, construir matrices con **Numpy** resulta sencillo y, sobretodo, natural, debido principalmente al estándar de imputación de los elementos que componen un arreglo conforme la función `np.array()`. Las matrices, desde una perspectiva geométrica, corresponden a arreglos bidimensionales, en el sentido de que su morfología queda completamente determinada por dos parámetros, que son, correspondientemente, el número de filas y columnas que caracterizan al arreglo. Por lo tanto, la matriz `A` que construimos previamente, es un arreglo bidimensional con geometría o forma `(4, 4)`, debido a que ésta posee 4 filas y 4 columnas.

**Numpy**, como ya comentamos en un principio, no se limita a vectores y matrices. También es posible construir estructuras más generales, como es el caso de los tensores. Al igual que las matrices, los tensores son objetos algebraicos que describen relaciones lineales entre otros objetos que, a su vez, son elementos de determinados espacios vectoriales. Tales elementos pueden ser vectores, matrices e incluso otros tensores. En términos geométricos, los tensores suelen representarse en **Numpy** como arreglos tridimensionales, debido a que un tensor puede imaginarse como un conjunto de matrices de la misma dimensión apiladas unas encimas de las otras. De este modo, los tres parámetros que definen la geometría del tensor corresponden al número de filas, número de columnas y número de apilamientos, respectivamente.

Un ejemplo de tensor es el siguiente:

In [5]:
# Definimos el tensor T.
T = np.array([
    [
        [2, -1, -1, 4, -5],
        [0, -3, 3, -2, -7],
        [-1, 1, 6, -9, 1],
        [-8, -8, 1, -1, 6],
    ],
    [
        [5, -5, 1, -1, 3],
        [-4, 9, 8, 1, 0],
        [0, -1, -5, -7, 2],
        [5, -7, -6, -8, 1],
    ],
    [
        [2, -2, 5, 1, 0],
        [3, -3, -4, 1, 0],
        [-2, -8, -1, 0, 5],
        [-8, 1, -5, 0, 6],
    ]
])
print(T) # Imprimimos en pantalla el valor de T.

[[[ 2 -1 -1  4 -5]
  [ 0 -3  3 -2 -7]
  [-1  1  6 -9  1]
  [-8 -8  1 -1  6]]

 [[ 5 -5  1 -1  3]
  [-4  9  8  1  0]
  [ 0 -1 -5 -7  2]
  [ 5 -7 -6 -8  1]]

 [[ 2 -2  5  1  0]
  [ 3 -3 -4  1  0]
  [-2 -8 -1  0  5]
  [-8  1 -5  0  6]]]


Vemos pues que el tensor `T` tiene un total de tres dimensiones morfológicas (tensor de orden 3). La primera especifica el sub-arreglo de interés; la segunda, la fila de dicho sub-arreglo; y la tercera, la columna de dicho sub-arreglo. Ya ahondaremos más en la selección de elementos en un arreglo de **Numpy**. Pero vale la pena mencionar que, bajo esta convención, el elemento en la posición `[2, 1, 2]` del tensor `T` sería el número -4. Considerando que Python siempre cuenta a partir de la posición 0, vemos que el sub-arreglo en la posición 2 (el último) tiene, en la posición `[1, 2]`, al elemento -4. En un lenguaje más algebraico, este tensor podría especificarse como $\mathbf{T} =\left\{ t_{ijk}\right\}  \in \mathbb{R}^{4\times 5\times 3}$, y el elemento previamente señalado sería $t_{212}=-4$.

La Fig. (1.1) esquematiza el concepto de arreglo en términos geométricos, conforme lo que hemos revisado hasta ahora.

![alt text](https://github.com/rquezadac/udd_data_analytics_lectures/blob/main/seccion_01_numpy/fig_1_1.png?raw=true "Logo Title Text 1")
<p style="text-align: center;">Fig. (1.1): Geometrías asociadas a arreglos de Numpy de diferentes dimensiones</p>

## Geometría de un arreglo.
Observemos que, en el esquema de la Fig. (1.1), hemos dibujado flechas a modo de ejes geométricos que definen las posiciones en los distintos tipos de arreglos según su dimensión. Tales ejes corresponden a una referencia universal utilizada por **Numpy** para especificar la posición de un elemento dentro de un arreglo, y en primera instancia suele ser un tanto confusa, por lo que vale la pena discutirla brevemente.

Partamos siendo honestos: Los ejes referenciales de los arreglos de **Numpy** pueden ser difíciles de entender. De hecho, su conocimiento adecuado puede volverse un verdadero dolor de cabeza para cualquier entusiasta novato en análisis o ciencia de datos. Sin embargo, son importantes para poder caracterizar cualquier estructura de datos en **Numpy**. Así que, para familiarizarnos con ellos, comenzaremos ejemplificando su uso en un arreglo bidimensional, que suele ser el caso más sencillo de entender.

En un arreglo bidimensional, que es el símil de una matriz, digamos de 𝑛 filas y 𝑑 columnas, los ejes corresponden a las direcciones que definen las filas y columnas del arreglo. Conforme la Fig. (1.1), el eje 0 (que, en **Numpy** se especifica como `axis=0`) corresponde a la dirección a lo largo de las filas del arreglo, y a su vez es el primer eje en este sistema de referencia. Por otro lado, el eje 1 (que, en **Numpy** se especifica como `axis=1`) corresponde a la dirección a lo largo de las columnas de un arreglo. Estos ejes permiten especificar cómo operar con los elementos del arreglo cuando estamos interesados en construir agregaciones. Veremos esto en detalle más adelante, pero las agregaciones son operaciones que involucran el uso de los elementos a lo largo de estos ejes, como podrían ser sumas de los elementos situados en una determinada fila o columna. Tomemos, por ejemplo, el arreglo `A`, que construimos unas líneas más atrás. La operación `A.sum(axis=1)` nos permite obtener la suma de todos los elementos de cada fila del arreglo `A`, ya que el argumento `axis=1` utilizado para el método `sum()` indica a **Numpy** que la suma se realice a lo largo (o en la dirección) del eje 1. Y, si bien el eje 1 recorre todas las columnas de un arreglo 2D (y permite identificar cuantas columnas tiene nuestro arreglo), ello implica que, al mismo tiempo, dicho recorrido se hace por las filas del mismo. De esta manera, al escribir

In [6]:
# Suma a lo largo del eje 1 (es decir, por filas).
A.sum(axis=1)

array([12,  1, -6, -6])

obtenemos, en efecto, la suma de todas las filas de todo el arreglo `A`. Notemos que el resultado de esta operación es otro arreglo que contiene las sumas respectivas de cada fila. Esto es algo típico de **Numpy**: *Toda operación con arreglos devuelve, como resultado, otro arreglo.*

Podemos obtener la suma de todas las columnas del arreglo `A` si usamos como argumento del método `sum()` la instrucción `axis=0`. De esta manera, le estamos diciendo a **Numpy**: *“Suma todos los elementos conforme la dirección del eje 0”* (es decir, en la dirección de las columnas de `A`). Por lo tanto, tendremos que

In [7]:
# Suma a lo largo del eje 0 (es decir, por columnas).
A.sum(axis=0)

array([-15,   1,   0,  15])

La lógica previa se preserva para cualquier operación de agregación en **Numpy**. Veremos más adelante otro tipo de operaciones de este tipo. Sin embargo, es bueno tener en consideración que estas operaciones toman, literalmente, al argumento `axis` en su sentido geométrico. De este modo, podemos imaginar que la operación `A.sum(axis=0)` es pensada en **Numpy** como: *“Sumar todos los elementos de `A`, como si hubiéramos apretado o colapsado el arreglo en la dirección del eje 0”*. No es la forma más didáctica de explicarlo, pero es como está pensado el funcionamiento de este tipo de operaciones en **Numpy**.

No obstante lo anterior, las operaciones de agregación no son las únicas que podemos hacer en **Numpy**. Existen otras operaciones que no son de este tipo y que también usan como argumento a axis. Un ejemplo típico es la unión (o concatenación) de arreglos, la cual se realiza mediante la función `np.concatenate()` (en verdad, también es posible generar uniones más eficientes mediante otro tipo de funciones, pero eso lo veremos más adelante). Para ejemplificar como funciona, definamos un nuevo arreglo `B` como sigue:

In [8]:
# Construimos un arreglo B, de 2 filas y 4 columnas.
B = np.array([
    [-1, 4, 5, -8],
    [0, -5, 6, -9]
])
print(B)

[[-1  4  5 -8]
 [ 0 -5  6 -9]]


Definido entonces `B`, podemos querer unir este arreglo con otro, digamos `A`. Para ello, debemos chequear primeramente la compatibilidad que tienen estos arreglos para poder construir dicha unión. Vemos pues que `A` es un arreglo con geometría `(4, 4)`, mientras que `B` tiene geometría `(2, 4)`. Por lo tanto, `A` y `B` tienen el mismo número de columnas y, de este modo, la única unión que podemos hacer entre ellos es conforme las columnas de ambos. Conforme el esquema de la Fig. (1.1), tal unión se debe realizar conforme el eje 0. De esta manera, tenemos que

In [9]:
np.concatenate([A, B], axis=0)

array([[-2,  1,  7,  6],
       [ 1,  3,  1, -4],
       [-5, -5,  0,  4],
       [-9,  2, -8,  9],
       [-1,  4,  5, -8],
       [ 0, -5,  6, -9]])

Naturalmente, si quisiéramos unir arreglos en la dirección que toman las filas (es decir, conforme el eje 1), bastaría con escribir `np.concatenate([A, B], axis=0)`. Para ello, hace falta que los arreglos `A` y `B` tengan el mismo número de filas. Como este no es el caso, realizar esta operación generará que **Numpy** levante un error de valor:

In [10]:
try:
    np.concatenate([A, B], axis=1)
except ValueError as e:
    print(e)

all the input array dimensions for the concatenation axis must match exactly, but along dimension 0, the array at index 0 has size 4 and the array at index 1 has size 2


El mensaje de error es claro: Las dimensiones de ambos arreglos deben empatar de manera exacta para esta operación. Pero esto no se cumple para el caso de la unión, conforme el eje 1, en los arreglos `A` y `B`.

En la Fig. (1.2), se ilustra la operación de concatenación para el caso de arreglos bidimensionales totalmente compatibles. 

![alt text](https://github.com/rquezadac/udd_data_analytics_lectures/blob/main/seccion_01_numpy/fig_1_2.png?raw=true "Logo Title Text 1")
<p style="text-align: center;">Fig. (1.2): Posibles resultados en la concatenación de arreglos bidimensionales</p>

El asunto es un tanto diferente para el caso de arreglos unidimensionales. En el caso de arreglos 1D, existe únicamente un eje de referencia, que siempre es el eje 0. Sin embargo, la geometría de estos arreglos puede variar dependiendo de nuestras necesidades. Por ejemplo, consideremos el arreglo unidimensional `v`, definido como

In [11]:
v = np.array([1, -1, 3, 6, -8])
print(v)

[ 1 -1  3  6 -8]


Todos los arreglos en **Numpy** cuentan con ciertos atributos, que ya veremos en detalle un poco más adelante. Uno de ellos es `shape`, que permite imprimir en pantalla la geometría de un arreglo determinado. Por ejemplo, si introducimos el código `A.shape`, el resultado será `(4, 4)`, que es sin duda la geometría del arreglo `A`. Sin embargo, si tratamos de hacer lo mismo con `v`:

In [12]:
v.shape

(5,)

Vemos pues que la geometría del arreglo `v` es `(5,)`. Es decir, fiel a su representación gráfica, un arreglo 1D tiene una única dimensión. Sin embargo, pareciera que esto es cierto únicamente para los arreglos que representan una única fila. Si construimos una matriz columna, digamos

In [13]:
w = np.array([
    [1],
    [-1],
    [3],
    [6],
    [-8]
])
print(w)

[[ 1]
 [-1]
 [ 3]
 [ 6]
 [-8]]


Entonces notaremos que este arreglo no es realmente unidimensional, ya que al consultar su atributo `shape`, obtenemos

In [14]:
w.shape

(5, 1)

¿Por qué ocurre esto? Bueno, si consultamos nuevamente el esquema de la Fig. (1.1), nos daremos cuenta que todo arreglo que tenga al menos una columna con más de un valor, será tal que el eje 0 se trazará en la dirección de dicha columna. Por lo tanto, una matriz columna en **Numpy** es, de hecho, un arreglo bidimensional. En el caso de `w`, la geometría de este arreglo es `(5, 1)`, y no únicamente `(5,)` (o `(, 5)`, como podríamos llegar a concluir a partir de simple lógica), lo que reafirma este hecho.

Un arreglo unidimensional, por tanto, no tiene filas ni columnas. Simplemente es una secuencia de elementos, uno tras otro, conforme el eje 0. Lo curioso de esto es que un arreglo unidimensional, en realidad, no es en realidad una matriz fila… Una matriz fila debiera tener una única fila y tantas columnas como elementos en dicha fila. Por tanto, también debiera ser un arreglo bidimensional. Si definimos

In [15]:
u = np.array([[1, -1, 3, 6, -8]])
print(u)

[[ 1 -1  3  6 -8]]


Si consultamos por la geometría de `u`, obtendremos

In [16]:
u.shape

(1, 5)

Es decir, `u` es también bidimensional. A nivel de sintaxis, hay claras diferencias entre como construimos estos arreglos. En el siguiente bloque de código, dejaremos escritas las imputaciones de cada uno de estos arreglos a fin de entender cómo se diferencian. No obstante, es importante recordar que los arreglos unidimensionales no son matrices fila ni matrices columna. Son simplemente eso, arreglos unidimensionales. Con sus propias reglas, ventajas y limitaciones.

In [17]:
x = np.array([-1, 1, 5, -8, 2]) # Un arreglo unidimensional.
w = np.array([[1], [-1], [3], [6], [-8]]) # Una arreglo bidimensional (matriz columna).
u = np.array([[1, -1, 3, 6, -8]]) # Una arreglo bidimensional (matriz fila).

## Rutinas de creación de arreglos.
Ya sabemos que, para crear un arreglo desde cero, basta con utilizar la función `np.array()`. Conocemos también la geometría intrínseca a los arreglos y cómo estos pueden almacenar información en términos de una estructura de datos que puede ser de una, dos o tres dimensiones, las que son homologables a objetos matemáticos tales como vectores, matrices y tensores. Sin embargo, la creación de arreglos no es una propiedad exclusiva de la función `np.array()`, ya que existen muchas estructuras, tanto vectoriales como matriciales y tensoriales, que es posible construir desde cero. Tales estructuras se engloban en las llamadas *rutinas de creación de arreglos*.

Estas rutinas permiten construir estructuras prefabricadas, que se acoplarán a la geometría que deseemos. Ejemplos de ello son arreglos con todos sus elementos nulos; arreglos con todos sus elementos iguales a uno; vectores, matrices o tensores identidad; arreglos con diagonales unitarias (que, en álgebra lineal, se asemejan a matrices triangulares o escalonadas).

En los siguientes ejemplos, revisaremos estas rutinas.

**Ejemplo 1.1 – Creación de arreglos con entradas nulas:** Para crear un arreglo con todas sus entradas nulas, podemos utilizar la función `np.zeros()`. Esta función requiere de, al menos, un argumento, y que corresponde a la geometría del arreglo que queremos construir. Si imputamos únicamente un número entero, **Numpy** asumirá que deseamos construir un arreglo bidimensional con tantos elementos como valor tenga dicha entrada:

In [18]:
# Creación de un arreglo unidimensional con 8 elementos iguales a cero.
np.zeros(8)

array([0., 0., 0., 0., 0., 0., 0., 0.])

Si, en vez de un único número entero, imputamos una tupla con dos o más enteros (digamos `(i, j, k, …)`) como argumento en la función `np.zeros()`, lo que obtendremos como resultado será un arreglo multidimensional (de dimensión `(i, j, k, …)`). Luego tendremos,

In [19]:
# Creación de un arreglo de 5 filas y 4 columnas (matriz), con todos sus elementos iguales a cero.
np.zeros((5, 4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [20]:
# Creación de un arreglo de 2 apilamientos, 5 filas y 4 columnas (tensor de rango 3), con todos 
# sus elementos iguales a cero.
np.zeros((2, 5, 4))

array([[[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

Toda rutina de creación de arreglos permite especificar el tipo de dato que caracteriza a sus entradas. Los arreglos de **Numpy** siempre tienen el mismo tipo de dato, y podemos especificarlo siempre mediante el argumento `dtype` en este tipo de rutinas:

In [21]:
# Creación de un arreglo de geometría (5, 4) con entradas nulas, todas del tipo entero (int).
np.zeros((5, 4), dtype=int)

array([[0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0]])

Vemos pues que lo que hemos obtenido mediante la imputación del argumento `dtype=int` es un arreglo cuyos elementos son del tipo entero, el cual es un tipo de dato nativo de Python. **Numpy** maneja sus propios tipos de datos, los que veremos más adelante. Dentro de tales tipos, incluso podemos construir arreglos con entradas cuyos valores sean números complejos, siendo este tipo de dato especificable mediante la variable `np.complex128` (que hace referencia a números complejos compuestos por dos números de punto flotante, cada uno de 64 bits):

In [22]:
# Creación de un arreglo de geometría (5, 4) con entradas nulas, todas del tipo complejo (np.complex128).
np.zeros((5, 4), dtype=np.complex128)

array([[0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j],
       [0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j],
       [0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j],
       [0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j],
       [0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j]])

En el bloque anterior, el valor `0.+0.j` equivale, matemáticamente, al número complejo $(0,0)=0+0i\in\mathbb{C}$, que por supuesto es el elemento nulo del cuerpo $\mathbb{C}$ de los números complejos. El uso de la letra `j`, en vez de la `i`, para especificar la componente imaginaria de un número complejo en **Numpy** es heredada de la Física, donde se usa la `j` fundamentalmente porque la `i` es utilizada para denotar la intensidad de corriente eléctrica. ◼︎

**Ejemplo 1.2 – Creación de un arreglo con todas sus entradas iguales a 1:** Para crear arreglos cuyas entradas sean todas iguales a 1, podemos usar la función `np.ones()`. Los argumentos de esta función son exactamente los mismos que los usados para el caso de la función `np.zeros()`, por lo que su uso es completamente análogo:

In [23]:
# Creación de un arreglo de geometría (4, 6) con entradas enteras iguales a 1.
np.ones((4, 6), dtype=int)

array([[1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1]])

◼︎

**Ejemplo 1.3 – Creación de un arreglo con elementos iguales a un determinado valor:** No solamente podemos construir arreglos llenos de 0s y de 1s. También podemos construir arreglos cuyos elementos sean iguales al valor que nosotros queramos. Para ello, podemos utilizar la función `np.full()`, la cual trabaja de la misma forma que las funciones `np.zeros()` y `np.ones()`, con la diferencia de que, además de la geometría del arreglo de interés, también debemos imputar el valor que se repetirá en las entradas de nuestro arreglo mediante el argumento `fill_value`. Luego tenemos

In [24]:
# Creación de un arreglo de geometría (5, 5) con entradas enteras iguales a 9.
np.full((5, 5), fill_value=9)

array([[9, 9, 9, 9, 9],
       [9, 9, 9, 9, 9],
       [9, 9, 9, 9, 9],
       [9, 9, 9, 9, 9],
       [9, 9, 9, 9, 9]])

◼︎

**Ejemplo 1.4 – Creación de matrices diagonales:** En el campo del álgebra lineal, una matriz diagonal es una matriz que tiene únicamente valores no nulos a lo largo de una dirección diagonal. Tales valores no nulos pueden ser arbitrarios, pero en general, estaremos interesados en matrices diagonales reducidas. Tales matrices tienen elementos iguales a 1 en la diagonal no nula. Por ejemplo, para una matriz $\mathbf{D}={ d_{ij}}\in\mathbb{R}^{4\times 6} $:

<p style="text-align: center;">$\mathbf{D} =\left( \begin{matrix}0&1&0&0&0&0\\ 0&0&1&0&0&0\\ 0&0&0&1&0&0\\ 0&0&0&0&1&0\end{matrix} \right)  \in \mathbb{R}^{4\times 6} $</p>

La matriz $\mathbf{D}$ anteriormente definida tiene elementos diagonales no nulos a partir de la segunda posición en la primera fila. Tal posición se denota como $k$. Luego, podemos definir una matriz diagonal reducida, indexada desde $k$, como

<p style="text-align: center;">$\mathbf{D} =\left\{ d_{ij}\right\}  \in \mathbb{R}^{n\times m} \  ;\  \mathrm{d} \mathrm{o} \mathrm{n} \mathrm{d} \mathrm{e} \  d_{ij}=\begin{cases}1&;\  \forall i=j+k\\ 0&;\  \forall i\neq j+k\end{cases}$</p>

Un caso particular es aquel para el cual $n=m$ y $k=0$, el cual se denomina como matriz identidad, y que es una matriz $\mathbf{I}_{n} =\left\{ r_{ij}\right\}  \in \mathbb{R}^{n\times n}$, tal que $r_{ij}=1$ para todo $i=j$ y $r_{ij}=0$ para todo $i\neq j$. Es decir, es una matriz con únicamente 1s en su diagonal principal, y ceros en el resto de las posiciones:

<p style="text-align: center;">$\mathbf{I}_{n} =\left( \begin{matrix}1&0&\cdots &0\\ 0&1&\cdots &0\\ \vdots &\vdots &\ddots &\vdots \\ 0&0&\cdots &1\end{matrix} \right)  \in \mathbb{R}^{n\times n} $</p>

Construir una matriz diagonal reducida en **Numpy** es sencillo. Basta con utilizar la función `np.eye()`. Esta función, a diferencia de las anteriores, requiere especificar el número de filas y columnas de nuestro arreglo de manera explícita, mediante los argumentos `N` y `M`, respectivamente. Además, podemos imputar el argumento `k` para especificar la posición a partir de la cual los elementos diagonales serán no nulos:

In [25]:
# Arreglo diagonal reducido de geometría (5, 6), indexado en la posición 0.
np.eye(N=5, M=6, k=0)

array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 1., 0.]])

In [26]:
# Arreglo diagonal reducido de geometría (4, 8), indexado en la posición 1. 
np.eye(N=4, M=8, k=1)

array([[0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0.]])

Por otro lado, la construcción de arreglos que emulan una matriz identidad también es sencilla. Para ello, bastará con utilizar la función `np.identity()`, la cual tiene un único argumento obligatorio, que corresponde a `n`, y que representa el número de filas y columnas que tendrá este arreglo (recordemos que la matriz identidad es cuadrada, tiene el mismo número de filas y columnas):

In [27]:
np.identity(n=6)

array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1.]])

Como en los ejemplos anteriores, las funciones `np.eye()` y `np.identity()` también permiten especificar el tipo de dato que poblará nuestro arreglo mediante el argumento dtype. Ya veremos en detalle los tipos de datos que se permiten en **Numpy**. ◼︎

**Ejemplo 1.5 – Arreglos definidos mediante rangos o intervalos:** Es posible construir arreglos unidimensionales en **Numpy** mediante la especificación de un valor inicial y un valor final, a modo de rango o intervalo. Tales construcciones son muy similares a las que podemos replicar mediante la función nativa `range()` de Python, pero con un alcance menos limitado y que también dan como resultado iterables.

Un primer ejemplo de función de este tipo es `np.arange()`, la cual permite construir un arreglo unidimensional de valores equiespaciados que parten de un determinado valor, terminan en otro, y están separados mediante un determinado paso. Tales parámetros se especifican mediante los argumentos `start`, `stop` y `step`, respectivamente:

In [28]:
# Rango de valores desde 1 a 20, con un paso de 2.
np.arange(start=1, stop=20, step=2)

array([ 1,  3,  5,  7,  9, 11, 13, 15, 17, 19])

La función `np.arange()`, por cierto, sólo crea arreglos con números enteros.

No estamos limitados a construir arreglos crecientes (es decir, no necesariamente `start` < `stop`). Construir rangos decrecientes con `np.arange()` también es posible, siempre que el valor del paso (`step`) sea negativo:

In [29]:
# Rango decreciente de valores desde 100 a 0, con un paso de -10.
np.arange(start=100, stop=0, step=-10)

array([100,  90,  80,  70,  60,  50,  40,  30,  20,  10])

Notemos que `np.arange()` debe leerse de la siguiente manera: *“Construir un rango desde start hasta antes de stop, de paso* `step`”. Por esa razón es que los arreglos resultantes del uso de esta función no contemplan la inclusión del valor `stop`, sino que el valor anterior anterior a él, conforme el paso que hemos definido previamente:

In [30]:
# Creación de rango creciente desde 0 a 10 (notemos que esto no contempla al número 10).
np.arange(start=0, stop=10, step=1)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Otra función útil para la construcción de arreglos es `np.linspace()`. Esta función es similar a `np.arange()`, pero además de los valores inicial y final del rango a construir, requiere como argumento el número de valores dentro del arreglo en vez del paso entre cada uno de los elementos del arreglo, el cual se define mediante el argumento `num`:

In [31]:
# Creación de rango creciente desde 0 a 1, con 5 elementos.
np.linspace(start=0, stop=1, num=5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

Notemos que, en el caso de `np.linspace()`, sí se incluye el valor de `stop` dentro del arreglo resultante. La construcción de rangos decrecientes es igualmente sencilla:

In [32]:
# Creación de rango creciente desde 1 a 0, con 9 elementos.
np.linspace(start=1, stop=0, num=9)

array([1.   , 0.875, 0.75 , 0.625, 0.5  , 0.375, 0.25 , 0.125, 0.   ])

◼︎

**Ejemplo 1.6 – Creación de grillas:** Los intervalos son ejemplos de subconjunto de la recta real. Para casos de mayor dimensión, es posible considerar el producto cartesiano de dos intervalos lo que da como resultado una grilla o rectángulo. Esta idea es replicable para cualquier número de dimensiones, lo que da como resultado lo que en matemáticas se conoce como hiper-celda o hiper-intervalo: El producto cartesiano de $n$ intervalos $\left[ a_{1},b_{1}\right]  \times \left[ a_{2},b_{2}\right]  \times \cdots \times \left[ a_{n},b_{n}\right]$. En **Numpy**, podemos construir grillas de cualquier dimensión mediante el uso de la función `np.meshgrid()`, la cual requiere como entrada dos arreglos undimensionales que representen rangos o intervalos (por ejemplo, construidos ya sea mediante `np.arange()` o `np.linspace()`). El resultado de la función `np.meshgrid()` es una lista con dos arreglos, cada uno de los cuales replica el arreglo original respectivo tantas veces como elementos tenga dicho arreglo. Esto se ilustra en la Fig. (1.3).

![alt text](https://github.com/rquezadac/udd_data_analytics_lectures/blob/main/seccion_01_numpy/fig_1_3.png?raw=true "Logo Title Text 1")
<p style="text-align: center;">Fig. (1.3): Esquema de la construcción de grillas bidimensionales</p>

A nivel de código, podemos escribir:

In [34]:
# Definición de los límites de la gilla.
x = np.linspace(start=-3, stop=3, num=100)
y = np.linspace(start=-3, stop=3, num=100)

# Creación de la grilla.
X, Y = np.meshgrid(x, y, indexing="ij")

Repasemos el bloque de código anterior, a fin de entender lo que acabamos de hacer:

- Primero, construimos los límites de nuestra grilla, que serán los arreglos `x` e `y`, y que son rangos que van de -3 a 3, con 100 elementos cada uno. Cada uno de ellos fue construido mediante la función `np.linspace()`.

- La salida de la función `np.meshgrid()` es una lista con dos arreglos, cada uno de los cuales se asigna a las variables `X` e `Y`. Estos arreglos corresponden a los arreglos originales, replicados conforme un determinado eje (0 o 1), respetando la indexación especificada mediante el argumento `indexing`. En el código anterior, hemos puesto `indexing="ij"`, lo que significa que el primer arreglo que compone la grilla se replica conforme la dirección del eje 0, y el segundo se replica conforme la dirección del eje 1. Aquello se ilustra en la Fig. (1.3).

La función `np.meshgrid()` es ampliamente utilizada para evaluar funciones de varias variables para luego obtener visualizaciones adecuadas. Ya profundizaremos más en las funciones numéricas que podemos evaluar mediante **Numpy** (las que son llamadas funciones universales o ufuncs). Pero, por ahora, es bueno que sepamos que podemos utilizar el resultado de la función `np.meshgrid()` para obtener un arreglo que contenga los resultados de cualquier operación sobre tal resultado. Por ejemplo, dado que la grilla que construimos es resultado del producto cartesiano $\left[ -3,3\right]  \times \left[ -3,3\right]$, entonces podemos perfectamente obtener el resultado de la función $f(x,y)=e^{-( x^{2}+y^{2})}$:

In [35]:
# Evaluación de una función sobre la grilla X, Y.
Z = np.exp(-(X**2 + Y**2))