<img style="float: left;;" src='Imagenes/iteso.jpg' width="50" height="100"/></a>

# <center> <font color= #000047> Módulo 2: Fundamentos de Numpy




<img style="float: right; margin: 0px 0px 15px 15px;" src="https://upload.wikimedia.org/wikipedia/commons/1/1a/NumPy_logo.svg" width="400px" height="400px" />

> Hasta ahora sólo hemos hablado acerca de tipos (clases) de variables y funciones que vienen por defecto en Python.

> Sin embargo, una de las mejores cosas de Python (especialmente si eres o te preparas para ser un científico de datos) es la gran cantidad de librerías de alto nivel que se encuentran disponibles.

> Algunas de estas librerías se encuentran en la librería estándar, es decir, se pueden encontrar donde sea que esté Python. Otras librerías se pueden añadir fácilmente.

> La primer librería externa que cubriremos en este curso es NumPy (Numerical Python).


Referencias:
- https://www.numpy.org/
- https://towardsdatascience.com/first-step-in-data-science-with-python-numpy-5e99d6821953
___

# 0. Motivación 

¿Recuerdan algo de álgebra lineal? Por ejemplo:
- vectores;
- suma de vectores;
- producto por un escalar ...

¿Cómo se les ocurre que podríamos manejar lo anterior en Python?

In [1]:
# Crear dos vectores
x = [1,2,3,4]
y = [2,5,7,8]
x+y

[1, 2, 3, 4, 2, 5, 7, 8]

In [None]:
# Suma de vectores


In [2]:
# ¿con ciclos quizá?
[x[i] + y[i] for i in range(len(x))]

[3, 7, 10, 12]

In [3]:
# Producto por escalar
3*x

[1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4]

In [4]:
# ¿con ciclos quizá?
[3*x[i] for i in range(len(x))]

[3, 6, 9, 12]

### Solución: NumPy

NumPy es la librería fundamental para computación científica con Python. Contiene, entre otros:
- una clase de objetos tipo arreglo N-dimensional muy poderso;
- funciones matemáticas sofisticadas;
- herramientas matemáticas útiles de álgebra lineal, transformada de Fourier y números aleatorios.

Aparte de sus usos científicos, NumPy puede ser usada como un contenedor eficiente de datos multidimensional, lo que le otorga a NumPy una capacidad impresionante de integración con bases de datos.

Por otra parte, casi todas las librerías de Python relacionadas con ciencia de datos y machine learning tales como SciPy (Scientific Python), Mat-plotlib (librería de gráficos), Scikit-learn, dependen de NumPy razonablemente.

Para nuestra fortuna, NumPy ya viene instalado por defecto en la instalación de Anaconda.

Así que si queremos empezar a utilizarlo, lo único que debemos hacer es importarlo:

In [5]:
# Importar numpy
import numpy as np

In [6]:
np.pi

3.141592653589793

Lo que acabamos de hacer es un procedimiento genérico para importar librerías:
- se comienza con la palabra clave `import`;
- a continuación el nombre de la librería, en este caso `numpy`;
- opcionalmente se puede incluir una cláusula `as` y una abreviación del nombre de la librería. Para el caso de NumPy, la comunidad comúmente usa la abreviación `np`.

Ahora, intentemos hacer lo mismo que que antes, pero con el arreglo n-dimensional que provee NumPy como vector:

In [7]:
# Ayuda sobre arreglo N-dimensional
help(np.array)

Help on built-in function array in module numpy:

array(...)
    array(object, dtype=None, *, copy=True, order='K', subok=False, ndmin=0,
          like=None)

    Create an array.

    Parameters
    ----------
    object : array_like
        An array, any object exposing the array interface, an object whose
        ``__array__`` method returns an array, or any (nested) sequence.
        If object is a scalar, a 0-dimensional array containing object is
        returned.
    dtype : data-type, optional
        The desired data-type for the array. If not given, NumPy will try to use
        a default ``dtype`` that can represent the values (by applying promotion
        rules when necessary.)
    copy : bool, optional
        If true (default), then the object is copied.  Otherwise, a copy will
        only be made if ``__array__`` returns a copy, if obj is a nested
        sequence, or if a copy is needed to satisfy any of the other
        requirements (``dtype``, ``order``, etc.).
  

In [8]:
# Crear dos vectores
x = np.array([1,2,3,4,5])
x

array([1, 2, 3, 4, 5])

In [9]:
type(x)

numpy.ndarray

In [11]:
y = np.array([4,5,6,7,8])
y

array([4, 5, 6, 7, 8])

In [13]:
len(x), sum(x)

(5, 15)

In [14]:
# Suma de vectores
x + y

array([ 5,  7,  9, 11, 13])

In [15]:
# Producto interno
x.dot(y)

100

In [16]:
l1 = [1, 'x', False, min]
l1

[1, 'x', False, <function min>]

### Diferencias fundamentales entre Listas de Python y Arreglos de NumPy

Mientras que las listas y los arreglos tienen algunas similaridades (ambos son colecciones ordenadas de valores), existen ciertas diferencias abismales entre este tipo de estructuras de datos:

- A diferencia de las listas, todos los elementos en un arreglo de NumPy deben ser del mismo tipo de datos (esto es, todos enteros, o flotantes, o strings, etc).

- Por lo anterior, los arreglos de NumPy soportan operaciones aritméticas y otras funciones matemáticas que se ejecutan en cada elemento del arreglo. Las listas no soportan estos cálculos.

- Los arreglos de NumPy tienen dimensionalidad.

In [18]:
xx = np.array([[1,2,3],[2,3,4]])
xx

array([[1, 2, 3],
       [2, 3, 4]])

In [19]:
type(xx)

numpy.ndarray

In [20]:
xx.ndim

2

In [21]:
xx = np.array([[[1,2,3],[2,3,4]]])

In [22]:
xx.ndim

3

# 1. ¿Qué podemos hacer en NumPy?

Ya vimos como crear arreglos básicos en NumPy, con el comando `np.array()`

¿Cuál es el tipo de estos arreglos?

In [24]:
type(x)

numpy.ndarray

También podemos crear arreglos multidimensionales:

In [25]:
# Matriz 4x5
xx

array([[[1, 2, 3],
        [2, 3, 4]]])

In [None]:
# Tipo


In [26]:
# Atributos
xx.shape

(1, 2, 3)

In [27]:
xx = np.array([[1,2,3],[2,3,4]])
xx

array([[1, 2, 3],
       [2, 3, 4]])

In [28]:
xx.shape

(2, 3)

In [29]:
print(xx)

[[1 2 3]
 [2 3 4]]


## 1.1 Funciones de NumPy

Seguiremos nuestra introducción a NumPy mediante la resolución del siguiente problema:

### Problema 1

> Dados cinco (5) contenedores cilíndricos con diferentes radios y alturas que pueden variar entre 5 y 25 cm, encontrar:
> 1. El volumen del agua que puede almacenar cada contenedor;
> 2. El volumen total del agua que pueden almacenar todos los contenedores juntos;
> 3. Cual contenedor puede almacenar más volumen, y cuanto;
> 4. Cual contenedor puede almacenar menos volumen, y cuanto;
> 5. Obtener la media, la mediana y la desviación estándar de los volúmenes de agua que pueden ser almacenados en los contenedores.

Antes que nada, definamos las variables que nos dan:

In [30]:
# Definir numero de contenedores, medida minima y medida maxima
n_contenedores = 5
medida_min = 5
medida_max = 25

A continuación, generaremos un arreglo de números enteros aleatorios entre 5 y 25 cm que representarán los radios y las alturas de los cilindros:

In [32]:
# Ayuda de np.random.randint()
help(np.random.randint)

Help on built-in function randint:

randint(...) method of numpy.random.mtrand.RandomState instance
    randint(low, high=None, size=None, dtype=int)

    Return random integers from `low` (inclusive) to `high` (exclusive).

    Return random integers from the "discrete uniform" distribution of
    the specified dtype in the "half-open" interval [`low`, `high`). If
    `high` is None (the default), then results are from [0, `low`).

    .. note::
        New code should use the `~numpy.random.Generator.integers`
        method of a `~numpy.random.Generator` instance instead;
        please see the :ref:`random-quick-start`.

    Parameters
    ----------
    low : int or array-like of ints
        Lowest (signed) integers to be drawn from the distribution (unless
        ``high=None``, in which case this parameter is one above the
        *highest* such integer).
    high : int or array-like of ints, optional
        If provided, one above the largest (signed) integer to be drawn
     

In [34]:
# Números aleatorios que representan radios y alturas.
# Inicializar la semilla
medidas = np.random.randint(medida_min, medida_max+1, size=(10,))
medidas

array([ 7, 16,  8, 12, 18, 14,  7, 22,  9,  5])

In [35]:
# Ver valores
medidas

array([ 7, 16,  8, 12, 18, 14,  7, 22,  9,  5])

In [36]:
# array.reshape
medidas.shape

(10,)

In [37]:
medidas = medidas.reshape((2,5))
medidas


array([[ 7, 16,  8, 12, 18],
       [14,  7, 22,  9,  5]])

In [38]:
medidas.shape

(2, 5)

De los números generados, separemos los que corresponden a los radios, y los que corresponden a las alturas:

In [39]:
# Radios
radios = medidas[0, :]
radios

array([ 7, 16,  8, 12, 18])

In [41]:
# Alturas
alturas = medidas[1, :]
alturas

array([14,  7, 22,  9,  5])

$$ V = \pi*r^2*h$$

1. Con lo anterior, calculemos cada uno los volúmenes:

In [42]:
radios**2

array([ 49, 256,  64, 144, 324])

In [44]:
alturas


array([14,  7, 22,  9,  5])

In [45]:
np.pi

3.141592653589793

In [46]:
# Volúmenes de los contenedores
volumenes = (np.pi*radios**2)*alturas
volumenes

array([2155.13256036, 5629.73403523, 4423.36245625, 4071.50407905,
       5089.38009882])

<img style="float: right; margin: 0px 0px 15px 15px;" src="https://upload.wikimedia.org/wikipedia/commons/b/b3/Symbol_great.svg" width="400px" height="400px" />

### ¡Excelente!

Con esta línea de código tan sencilla, pudimos obtener de un solo jalón todos los volúmenes de nuestros contenedores.

Esta es la potencia que nos ofrece NumPy. Podemos operar los arreglos de forma rápida, sencilla, y muy eficiente.

2. Ahora, el volumen total

In [47]:
# Volumen total
volumenes

array([2155.13256036, 5629.73403523, 4423.36245625, 4071.50407905,
       5089.38009882])

In [48]:
volumenes.sum()

21369.113229717772

In [49]:
sum(volumenes)

21369.113229717772

3. ¿Cuál contenedor puede almacenar más volumen? ¿Cuánto?

In [51]:
volumenes


array([2155.13256036, 5629.73403523, 4423.36245625, 4071.50407905,
       5089.38009882])

In [50]:
# Contenedor que puede almacenar más volumen
volumenes.argmax()

1

In [52]:
# Volumen máximo
volumenes[volumenes.argmax()]

5629.734035232909

In [53]:
volumenes.max()

5629.734035232909

In [55]:
# También se puede, pero no es recomendable. Ver comparación de tiempos
max(volumenes)

5629.734035232909

In [62]:
max([1,2,3,4])

4

In [63]:
max((1,2,3,4))

4

In [64]:
[1,2,3,4].max()

AttributeError: 'list' object has no attribute 'max'

4. ¿Cuál contenedor puede almacenar menos volumen? ¿Cuánto?

In [57]:
volumenes.argmin()

0

In [56]:
# Contenedor que puede almacenar menos volumen
volumenes[volumenes.argmin()]

2155.132560362598

In [None]:
# Volumen mínimo


5. Media, mediana y desviación estándar de los volúmenes

In [59]:
# Media, mediana y desviación estándar
volumenes.mean(), volumenes.std(),  np.median(volumenes)

(4273.822645943555, 1187.9202238075804, 4423.362456254428)

In [61]:
np.median(volumenes)

4423.362456254428

In [None]:
# Atributos shape y dtype


## 1.2 Trabajando con matrices

### Problema 2

> 25 cartas numeradas de la 1 a la 25 se distribuyen aleatoriamente y en partes iguales a 5 personas. Encuentre la suma de cartas para cada persona tal que: 
> - para la primera persona, la suma es el valor de la primera carta menos la suma del resto de las cartas;
> - para la segunda persona, la suma es el valor de la segunda carta menos la suma del resto de las cartas;
> - y así sucesivamente ...

> La persona para la cual la suma sea mayor, será el ganador. Encontrar el ganador.

Lo primero será generar los números del 1 al 25. ¿Cómo podemos hacer esto?

np.arange = np.array(range)

In [None]:
# Ayuda en la función np.arange()


In [None]:
# Números del 1 al 25


Luego, tal y como en un juego de cartas, deberíamos barajarlos, antes de repartirlos:

In [None]:
# Ayuda en la función np.random.shuffle()


In [None]:
# Barajar


In [None]:
# Ver valores


Bien. Ahora, deberíamos distribuir las cartas. Podemos imaginarnos la distribución como una matriz 5x5:

In [None]:
# Repartir cartas


In [None]:
# Ver valores


Entonces, tenemos 5 cartas para cada una de las 5 personas, visualizadas como una matriz 5x5.

Lo único que nos falta es encontrar la suma para cada uno, es decir, sumar el elemento de la diagonal principal y restar las demás entradas de la fila (o columna).

¿Cómo hacemos esto?

In [None]:
# Ayuda en la función np.eye()


In [None]:
# Matriz con la diagonal principal


In [None]:
# Ayuda en la función np.ones()


In [None]:
# Matriz con los elementos fuera de la diagonal negativos


In [None]:
# Matriz completa


In [None]:
# Sumar por filas


¿Quién es el ganador?

# 2. Algo de álgebra lineal con NumPy

Bueno, ya hemos utilizado NumPy para resolver algunos problemas de juguete. A través de estos problemas, hemos introducido el tipo de objetos que podemos manipular con NumPy, además de varias funcionalidades que podemos utilizar.

Pues bien, este tipo de objetos nos sirven perfectamente para representar vectores y matrices con entradas reales o complejas... si, de las que estudiamos en algún momento en álgebra lineal.

Mejor aún, NumPy nos ofrece un módulo de álgebra lineal para efectuar las operaciones básicas que podríamos necesitar.

Consideremos la siguiente matriz:

Podemos obtener varios cálculos útiles alrededor de la matriz A:

In [None]:
# Rango de la matriz A


In [None]:
# Determinante de la matriz A


In [None]:
# Inversa de la matriz A


In [None]:
# Potencia de la matriz A
# A.dot(A).dot(A).dot(A).dot(A)


In [None]:
# Eigenvalores y eigenvectores de la matriz A


Por otra parte, si tenemos dos vectores:

podemos calcular su producto interno (producto punto)

De la misma manera, podemos calcular la multiplicación de la matriz A por un vector

$$
A x = z
$$

**Recomendado el siguiente [tutorial](https://www.numpy.org/devdocs/user/quickstart.html) para que profundicen más en todo lo que pueden hacer con NumPy**