<img style="float: left;;" src='Imagenes/iteso.jpg' width="50" height="100"/></a>

# <center> <font color= #000047> Módulo 2: Fundamentos de Numpy




<img style="float: right; margin: 0px 0px 15px 15px;" src="https://upload.wikimedia.org/wikipedia/commons/1/1a/NumPy_logo.svg" width="400px" height="400px" />

> Hasta ahora sólo hemos hablado acerca de tipos (clases) de variables y funciones que vienen por defecto en Python.

> Sin embargo, una de las mejores cosas de Python (especialmente si eres o te preparas para ser un científico de datos) es la gran cantidad de librerías de alto nivel que se encuentran disponibles.

> Algunas de estas librerías se encuentran en la librería estándar, es decir, se pueden encontrar donde sea que esté Python. Otras librerías se pueden añadir fácilmente.

> La primer librería externa que cubriremos en este curso es NumPy (Numerical Python).


Referencias:
- https://www.numpy.org/
- https://towardsdatascience.com/first-step-in-data-science-with-python-numpy-5e99d6821953
___

# 0. Motivación 

¿Recuerdan algo de álgebra lineal? Por ejemplo:
- vectores;
- suma de vectores;
- producto por un escalar ...

¿Cómo se les ocurre que podríamos manejar lo anterior en Python?

In [1]:
# Crear dos vectores
x = [4,5,8,-2,3]
y = [3,1,-7,-9,5]

In [2]:
len(x),len(y)

(5, 5)

In [3]:
# Suma de vectores
x + y

[4, 5, 8, -2, 3, 3, 1, -7, -9, 5]

In [4]:
# ¿con ciclos quizá?
sum_ = [x[i] + y[i] for i in range(len(x))]
sum_

[7, 6, 1, -11, 8]

In [5]:
# Producto por escalar
3*x

[4, 5, 8, -2, 3, 4, 5, 8, -2, 3, 4, 5, 8, -2, 3]

In [6]:
# ¿con ciclos quizá?
prod_esc = [3*x[i] for i in range(len(x))]
prod_esc

[12, 15, 24, -6, 9]

### Solución: NumPy

NumPy es la librería fundamental para computación científica con Python. Contiene, entre otros:
- una clase de objetos tipo arreglo N-dimensional muy poderso;
- funciones matemáticas sofisticadas;
- herramientas matemáticas útiles de álgebra lineal, transformada de Fourier y números aleatorios.

Aparte de sus usos científicos, NumPy puede ser usada como un contenedor eficiente de datos multidimensional, lo que le otorga a NumPy una capacidad impresionante de integración con bases de datos.

Por otra parte, casi todas las librerías de Python relacionadas con ciencia de datos y machine learning tales como SciPy (Scientific Python), Mat-plotlib (librería de gráficos), Scikit-learn, dependen de NumPy razonablemente.

Para nuestra fortuna, NumPy ya viene instalado por defecto en la instalación de Anaconda.

Así que si queremos empezar a utilizarlo, lo único que debemos hacer es importarlo:

In [7]:
# Importar numpy
import numpy as np

In [8]:
np.sin(np.pi/2)

1.0

Lo que acabamos de hacer es un procedimiento genérico para importar librerías:
- se comienza con la palabra clave `import`;
- a continuación el nombre de la librería, en este caso `numpy`;
- opcionalmente se puede incluir una cláusula `as` y una abreviación del nombre de la librería. Para el caso de NumPy, la comunidad comúmente usa la abreviación `np`.

Ahora, intentemos hacer lo mismo que que antes, pero con el arreglo n-dimensional que provee NumPy como vector:

In [9]:
# Ayuda sobre arreglo N-dimensional
help(np.array)

Help on built-in function array in module numpy:

array(...)
    array(object, dtype=None, *, copy=True, order='K', subok=False, ndmin=0,
          like=None)
    
    Create an array.
    
    Parameters
    ----------
    object : array_like
        An array, any object exposing the array interface, an object whose
        __array__ method returns an array, or any (nested) sequence.
    dtype : data-type, optional
        The desired data-type for the array.  If not given, then the type will
        be determined as the minimum type required to hold the objects in the
        sequence.
    copy : bool, optional
        If true (default), then the object is copied.  Otherwise, a copy will
        only be made if __array__ returns a copy, if obj is a nested sequence,
        or if a copy is needed to satisfy any of the other requirements
        (`dtype`, `order`, etc.).
    order : {'K', 'A', 'C', 'F'}, optional
        Specify the memory layout of the array. If object is not an array

In [10]:
# Crear dos vectores
x

[4, 5, 8, -2, 3]

In [11]:
y

[3, 1, -7, -9, 5]

In [12]:
x_array = np.array([4, 5, 8, -2, 3])
x_array

array([ 4,  5,  8, -2,  3])

In [13]:
x_array = np.array((4, 5, 8, -2, 3))
x_array

array([ 4,  5,  8, -2,  3])

In [14]:
y_array = np.array([3, 1, -7, -9, 5])
y_array

array([ 3,  1, -7, -9,  5])

In [15]:
y_array = np.array(y)
y_array

array([ 3,  1, -7, -9,  5])

In [17]:
type(x_array), type(y_array)

(numpy.ndarray, numpy.ndarray)

In [19]:
x_array , y_array

(array([ 4,  5,  8, -2,  3]), array([ 3,  1, -7, -9,  5]))

In [18]:
# Suma de vectores
x_array + y_array

array([  7,   6,   1, -11,   8])

In [20]:
# Producto interno
x_array * y_array

array([ 12,   5, -56,  18,  15])

In [21]:
#producto escalar
3*x_array

array([12, 15, 24, -6,  9])

In [22]:
x_array.dtype

dtype('int32')

In [23]:
x_array.shape

(5,)

In [24]:
x_array.max()

8

In [26]:
x_array

array([ 4,  5,  8, -2,  3])

In [25]:
x_array.argmax()

2

In [27]:
x_array.argmin()

3

### Diferencias fundamentales entre Listas de Python y Arreglos de NumPy

Mientras que las listas y los arreglos tienen algunas similaridades (ambos son colecciones ordenadas de valores), existen ciertas diferencias abismales entre este tipo de estructuras de datos:

- A diferencia de las listas, todos los elementos en un arreglo de NumPy deben ser del mismo tipo de datos (esto es, todos enteros, o flotantes, o strings, etc).

- Por lo anterior, los arreglos de NumPy soportan operaciones aritméticas y otras funciones matemáticas que se ejecutan en cada elemento del arreglo. Las listas no soportan estos cálculos.

- Los arreglos de NumPy tienen dimensionalidad.

# 1. ¿Qué podemos hacer en NumPy?

Ya vimos como crear arreglos básicos en NumPy, con el comando `np.array()`

In [28]:
x_array

array([ 4,  5,  8, -2,  3])

¿Cuál es el tipo de estos arreglos?

In [29]:
type(x_array)

numpy.ndarray

In [30]:
x_array.size

5

In [31]:
x_array.ndim

1

También podemos crear arreglos multidimensionales:

In [32]:
# Matriz 4x5
A = np.array([[1,2,0,5,-2],
              [9,-7,5,3,0],
              [2,1,1,1,-3],
              [4,8,-3,2,1]])
A

array([[ 1,  2,  0,  5, -2],
       [ 9, -7,  5,  3,  0],
       [ 2,  1,  1,  1, -3],
       [ 4,  8, -3,  2,  1]])

In [33]:
A.ndim

2

In [34]:
# Tipo
type(A)

numpy.ndarray

In [36]:
A.shape

(4, 5)

In [37]:
A.size

20

In [None]:
# Atributos


## 1.1 Funciones de NumPy

Seguiremos nuestra introducción a NumPy mediante la resolución del siguiente problema:

### Problema 1

> Dados cinco (5) contenedores cilíndricos con diferentes radios y alturas que pueden variar entre 5 y 25 cm, encontrar:
> 1. El volumen del agua que puede almacenar cada contenedor;
> 2. El volumen total del agua que pueden almacenar todos los contenedores juntos;
> 3. Cual contenedor puede almacenar más volumen, y cuanto;
> 4. Cual contenedor puede almacenar menos volumen, y cuanto;
> 5. Obtener la media, la mediana y la desviación estándar de los volúmenes de agua que pueden ser almacenados en los contenedores.

Antes que nada, definamos las variables que nos dan:

In [38]:
# Definir numero de contenedores, medida minima y medida maxima
n_contenedores = 5
medida_min = 5
medida_max = 25

A continuación, generaremos un arreglo de números enteros aleatorios entre 5 y 25 cm que representarán los radios y las alturas de los cilindros:

In [39]:
# Ayuda de np.random.randint()
help( np.random.randint)

Help on built-in function randint:

randint(...) method of numpy.random.mtrand.RandomState instance
    randint(low, high=None, size=None, dtype=int)
    
    Return random integers from `low` (inclusive) to `high` (exclusive).
    
    Return random integers from the "discrete uniform" distribution of
    the specified dtype in the "half-open" interval [`low`, `high`). If
    `high` is None (the default), then results are from [0, `low`).
    
    .. note::
        New code should use the ``integers`` method of a ``default_rng()``
        instance instead; please see the :ref:`random-quick-start`.
    
    Parameters
    ----------
    low : int or array-like of ints
        Lowest (signed) integers to be drawn from the distribution (unless
        ``high=None``, in which case this parameter is one above the
        *highest* such integer).
    high : int or array-like of ints, optional
        If provided, one above the largest (signed) integer to be drawn
        from the distributi

In [47]:
# Números aleatorios que representan radios y alturas.
# Inicializar la semilla
np.random.seed(100)
medidas = np.random.randint(medida_min,medida_max, size=(10,))
medidas

array([13,  8, 12, 20, 21, 15,  7,  7,  7, 19])

In [48]:
# array.reshape
medidas = medidas.reshape((2,5))
medidas

array([[13,  8, 12, 20, 21],
       [15,  7,  7,  7, 19]])

In [42]:
medidas.shape

(2, 5)

De los números generados, separemos los que corresponden a los radios, y los que corresponden a las alturas:

In [49]:
# Radios
radios = medidas[0,:]
radios

array([13,  8, 12, 20, 21])

In [50]:
radios.shape

(5,)

In [51]:
radios.size

5

In [53]:
# Alturas
alturas = medidas[1,:]
alturas

array([15,  7,  7,  7, 19])

In [54]:
medidas

array([[13,  8, 12, 20, 21],
       [15,  7,  7,  7, 19]])

In [56]:
medidas[[0,1:4],[1,1:4]]

SyntaxError: invalid syntax (Temp/ipykernel_71504/1516235393.py, line 1)

In [59]:
medidas[0,1:4]

array([ 8, 12, 20])

In [61]:
medidas[0,:]

array([13,  8, 12, 20, 21])

In [62]:
medidas[0:,1:4]

array([[ 8, 12, 20],
       [ 7,  7,  7]])

In [66]:
medidas

array([[13,  8, 12, 20, 21],
       [15,  7,  7,  7, 19]])

In [65]:
medidas[:,1:4:2]

array([[ 8, 20],
       [ 7,  7]])

1. Con lo anterior, calculemos cada uno los volúmenes:

In [67]:
volumenes = (np.pi * radios**2)*alturas

> 1. El volumen del agua que puede almacenar cada contenedor;
> 2. El volumen total del agua que pueden almacenar todos los contenedores juntos;
> 3. Cual contenedor puede almacenar más volumen, y cuanto;
> 4. Cual contenedor puede almacenar menos volumen, y cuanto;
> 5. Obtener la media, la mediana y la desviación estándar de los volúmenes de agua que pueden ser almacenados en los contenedores.

In [70]:
#1.- El volumen del agua que puede almacenar cada contenedor;
volumenes

array([ 7963.93737685,  1407.43350881,  3166.72539482,  8796.45943005,
       26323.40484443])

In [71]:
#2.- El volumen total del agua que pueden almacenar todos los contenedores juntos;
volumenes.sum()

47657.96055495716

In [73]:
# 3.- Cual contenedor puede almacenar más volumen, y cuanto;
print(volumenes.max())
print(volumenes.argmax())


26323.404844428875
4


In [74]:
# 4.- Cual contenedor puede almacenar menos volumen, y cuanto;
print(volumenes.min())
print(volumenes.argmin())


1407.4335088082273
1


In [75]:
#Obtener la media, la mediana y la desviación estándar de los volúmenes de agua que pueden ser almacenados en los contenedores.
volumenes.std()

8848.46221223741

In [76]:
volumenes.mean()

9531.59211099143

In [77]:
np.median(volumenes)

7963.9373768501255

<img style="float: right; margin: 0px 0px 15px 15px;" src="https://upload.wikimedia.org/wikipedia/commons/b/b3/Symbol_great.svg" width="400px" height="400px" />

### ¡Excelente!

Con esta línea de código tan sencilla, pudimos obtener de un solo jalón todos los volúmenes de nuestros contenedores.

Esta es la potencia que nos ofrece NumPy. Podemos operar los arreglos de forma rápida, sencilla, y muy eficiente.

2. Ahora, el volumen total

In [None]:
# Volumen total


3. ¿Cuál contenedor puede almacenar más volumen? ¿Cuánto?

In [None]:
# Contenedor que puede almacenar más volumen


In [None]:
# Volumen máximo


In [None]:
# También se puede, pero no es recomendable. Ver comparación de tiempos


4. ¿Cuál contenedor puede almacenar menos volumen? ¿Cuánto?

In [None]:
# Contenedor que puede almacenar menos volumen


In [None]:
# Volumen mínimo


5. Media, mediana y desviación estándar de los volúmenes

In [None]:
# Media, mediana y desviación estándar


In [None]:
# Atributos shape y dtype


## 1.2 Trabajando con matrices

### Problema 2

> 25 cartas numeradas de la 1 a la 25 se distribuyen aleatoriamente y en partes iguales a 5 personas. Encuentre la suma de cartas para cada persona tal que: 
> - para la primera persona, la suma es el valor de la primera carta menos la suma del resto de las cartas;
> - para la segunda persona, la suma es el valor de la segunda carta menos la suma del resto de las cartas;
> - y así sucesivamente ...

> La persona para la cual la suma sea mayor, será el ganador. Encontrar el ganador.

Lo primero será generar los números del 1 al 25. ¿Cómo podemos hacer esto?

np.arange = np.array(range)

In [78]:
# Ayuda en la función np.arange()
help(np.arange)

Help on built-in function arange in module numpy:

arange(...)
    arange([start,] stop[, step,], dtype=None, *, like=None)
    
    Return evenly spaced values within a given interval.
    
    Values are generated within the half-open interval ``[start, stop)``
    (in other words, the interval including `start` but excluding `stop`).
    For integer arguments the function is equivalent to the Python built-in
    `range` function, but returns an ndarray rather than a list.
    
    When using a non-integer step, such as 0.1, the results will often not
    be consistent.  It is better to use `numpy.linspace` for these cases.
    
    Parameters
    ----------
    start : integer or real, optional
        Start of interval.  The interval includes this value.  The default
        start value is 0.
    stop : integer or real
        End of interval.  The interval does not include this value, except
        in some cases where `step` is not an integer and floating point
        round-off 

In [79]:
# Números del 1 al 25
cartas = np.arange(1,26)
cartas

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25])

Luego, tal y como en un juego de cartas, deberíamos barajarlos, antes de repartirlos:

In [80]:
# Ayuda en la función np.random.shuffle()
help(np.random.shuffle)

Help on built-in function shuffle:

shuffle(...) method of numpy.random.mtrand.RandomState instance
    shuffle(x)
    
    Modify a sequence in-place by shuffling its contents.
    
    This function only shuffles the array along the first axis of a
    multi-dimensional array. The order of sub-arrays is changed but
    their contents remains the same.
    
    .. note::
        New code should use the ``shuffle`` method of a ``default_rng()``
        instance instead; please see the :ref:`random-quick-start`.
    
    Parameters
    ----------
    x : ndarray or MutableSequence
        The array, list or mutable sequence to be shuffled.
    
    Returns
    -------
    None
    
    See Also
    --------
    Generator.shuffle: which should be used for new code.
    
    Examples
    --------
    >>> arr = np.arange(10)
    >>> np.random.shuffle(arr)
    >>> arr
    [1 7 5 2 9 4 3 6 0 8] # random
    
    Multi-dimensional arrays are only shuffled along the first axis:
    
    >>> ar

In [81]:
# Barajar
np.random.shuffle(cartas)

In [82]:
# Ver valores
cartas

array([ 1, 19,  9, 22, 15,  7,  8, 11, 24, 14,  4,  6,  2, 21, 13, 20, 25,
       10, 23, 12,  5, 16, 17, 18,  3])

Bien. Ahora, deberíamos distribuir las cartas. Podemos imaginarnos la distribución como una matriz 5x5:

In [83]:
# Repartir cartas
cartas = cartas.reshape((5,5))
cartas

array([[ 1, 19,  9, 22, 15],
       [ 7,  8, 11, 24, 14],
       [ 4,  6,  2, 21, 13],
       [20, 25, 10, 23, 12],
       [ 5, 16, 17, 18,  3]])

In [84]:
# Ver valores
cartas

array([[ 1, 19,  9, 22, 15],
       [ 7,  8, 11, 24, 14],
       [ 4,  6,  2, 21, 13],
       [20, 25, 10, 23, 12],
       [ 5, 16, 17, 18,  3]])

Entonces, tenemos 5 cartas para cada una de las 5 personas, visualizadas como una matriz 5x5.

Lo único que nos falta es encontrar la suma para cada uno, es decir, sumar el elemento de la diagonal principal y restar las demás entradas de la fila (o columna).

¿Cómo hacemos esto?

In [85]:
# Ayuda en la función np.eye()
np.eye(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [86]:
# Matriz con la diagonal principal
I5 = np.eye(5)
I5

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [88]:
# Ayuda en la función np.ones()
complemento = np.ones((5,5)) -I5
complemento

array([[0., 1., 1., 1., 1.],
       [1., 0., 1., 1., 1.],
       [1., 1., 0., 1., 1.],
       [1., 1., 1., 0., 1.],
       [1., 1., 1., 1., 0.]])

In [90]:
cartas

array([[ 1, 19,  9, 22, 15],
       [ 7,  8, 11, 24, 14],
       [ 4,  6,  2, 21, 13],
       [20, 25, 10, 23, 12],
       [ 5, 16, 17, 18,  3]])

In [89]:
# Matriz con los elementos fuera de la diagonal negativos
complemento*cartas

array([[ 0., 19.,  9., 22., 15.],
       [ 7.,  0., 11., 24., 14.],
       [ 4.,  6.,  0., 21., 13.],
       [20., 25., 10.,  0., 12.],
       [ 5., 16., 17., 18.,  0.]])

In [91]:
I5*cartas

array([[ 1.,  0.,  0.,  0.,  0.],
       [ 0.,  8.,  0.,  0.,  0.],
       [ 0.,  0.,  2.,  0.,  0.],
       [ 0.,  0.,  0., 23.,  0.],
       [ 0.,  0.,  0.,  0.,  3.]])

In [92]:
# Matriz completa
matriz_suma = I5*cartas - complemento*cartas
matriz_suma

array([[  1., -19.,  -9., -22., -15.],
       [ -7.,   8., -11., -24., -14.],
       [ -4.,  -6.,   2., -21., -13.],
       [-20., -25., -10.,  23., -12.],
       [ -5., -16., -17., -18.,   3.]])

In [96]:
suma = matriz_suma.sum(axis=1)
suma

array([-64., -48., -42., -44., -53.])

In [97]:
# Sumar por filas
suma.max()

-42.0

¿Quién es el ganador?

In [98]:
suma.argmax()

2

# 2. Algo de álgebra lineal con NumPy

Bueno, ya hemos utilizado NumPy para resolver algunos problemas de juguete. A través de estos problemas, hemos introducido el tipo de objetos que podemos manipular con NumPy, además de varias funcionalidades que podemos utilizar.

Pues bien, este tipo de objetos nos sirven perfectamente para representar vectores y matrices con entradas reales o complejas... si, de las que estudiamos en algún momento en álgebra lineal.

Mejor aún, NumPy nos ofrece un módulo de álgebra lineal para efectuar las operaciones básicas que podríamos necesitar.

Consideremos la siguiente matriz:

Podemos obtener varios cálculos útiles alrededor de la matriz A:

In [None]:
# Rango de la matriz A


In [None]:
# Determinante de la matriz A


In [None]:
# Inversa de la matriz A


In [None]:
# Potencia de la matriz A
# A.dot(A).dot(A).dot(A).dot(A)


In [None]:
# Eigenvalores y eigenvectores de la matriz A


Por otra parte, si tenemos dos vectores:

podemos calcular su producto interno (producto punto)

De la misma manera, podemos calcular la multiplicación de la matriz A por un vector

$$
A x = z
$$

**Recomendado el siguiente [tutorial](https://www.numpy.org/devdocs/user/quickstart.html) para que profundicen más en todo lo que pueden hacer con NumPy**