<h1 align="center">Crash Course: Numpy</h1>
<h1 align="center">2024</h1>
<h1 align="center">MEDELLÍN - COLOMBIA </h1>

*** 
|[![Outlook](https://img.shields.io/badge/Microsoft_Outlook-0078D4?style=plastic&logo=microsoft-outlook&logoColor=white)](mailto:calvar52@eafit.edu.co)||[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/carlosalvarezh/EstructuraDatosAlgoritmos1/blob/main/CrashCoursePython/CrashCourse02_Numpy.ipynb)
|-:|:-|--:|
|[![LinkedIn](https://img.shields.io/badge/linkedin-%230077B5.svg?style=plastic&logo=linkedin&logoColor=white)](https://www.linkedin.com/in/carlosalvarez5/)|[![@alvarezhenao](https://img.shields.io/twitter/url/https/twitter.com/alvarezhenao.svg?style=social&label=Follow%20%40alvarezhenao)](https://twitter.com/alvarezhenao)|[![@carlosalvarezh](https://img.shields.io/badge/github-%23121011.svg?style=plastic&logo=github&logoColor=white)](https://github.com/carlosalvarezh)|

<table>
 <tr align=left><td><img align=left src="https://github.com/carlosalvarezh/Curso_CEC_EAFIT/blob/main/images/CCLogoColorPop1.gif?raw=true" width="25">
 <td>Text provided under a Creative Commons Attribution license, CC-BY. All code is made available under the FSF-approved MIT license.(c) Carlos Alberto Alvarez Henao</td>
</table>

***

## Arrays de `NumPy`

### ¿Qué es `NumPy`?

- Una biblioteca para `Python`: `ndarray` + `ufunc`

- Los arrays multidimensionales (`ndarray`) nos permiten almacenar datos de manera estructurada

- Las funciones universales (`ufunc`) nos permiten operar con esos datos de manera eficiente

`Python` está organizado en módulos, que son archivos con extensión `*.py` que contienen funciones, variables y otros objetos, y paquetes, que son conjuntos de módulos. 


Cuando queremos utilizar objetos que están definidos en un módulo tenemos que *importarlo*, y una vez que lo hemos hecho podemos usar el operador "`.`" para ir descendiendo en la jerarquía de paquetes y acceder al objeto que necesitamos.

In [None]:
import numpy as np

In [None]:
np.random.

In [None]:
import math

In [None]:
math.

In [None]:
from numpy import random

In [None]:
np.random.

Y de esta manera accedemos a la función `norm`, que calcula la norma (o módulo) de un array:

In [None]:
np.linalg.

La función *norm* está dentro del paquete *linalg*, que a su vez está dentro del paquete NumPy.

In [None]:
import numpy as np

In [None]:
from numpy import random as rnd

In [None]:
rnd.

Para encontrar ayuda sobre cierto tema podemos usar la función `lookfor`:

In [None]:
np.lookfor("random")

### Constantes y funciones matemáticas

Además de arrays, NumPy contiene también constantes y funciones matemáticas de uso cotidiano.

In [None]:
np.pi

In [None]:
np.e

In [None]:
np.log(2)

In [None]:
np.log(np.e)

In [None]:
lista = np.log([-10., np.e, np.e**135, 0])
print(lista)

In [None]:
type(list(lista))

In [None]:
milista=[1,2,3]
print(type(milista))

In [None]:
lista=[1,2,3,4]
print(lista)
type(lista)

### ¿Qué es exactamente un array?

Un array de `NumPy` es una colección de `N` elementos, igual que una secuencia de `Python` (por ejemplo, una lista). 


- Tiene las mismas propiedades que una secuencia y alguna más. 


- Para crear un array, la forma más directa es pasarle una secuencia a la función `np.array`.

In [None]:
import numpy as np

Veamos el siguiente ejemplo. La suma vectorial se representa como la suma componente a componente entre dos vectores, $c_i = a_i + b_i$. Si intentamos hacer dicha operación con dos listas:

In [None]:
lista1 = [1,2,3]
lista2 = [4,5,6]
lista3 = lista1 + lista2
print(lista3)
print(type(lista3))

como se observa, la operación `+` entre dos listas ejecuta la concatenación entre ellas y no su suma. Esto sucede, porque las listas no son entidades matemáticas. Si quisiéramos ejecutar la suma de los elementos de dos listas, tendremos qué hacer ciclos y sumar componente a componente: $c_i=a_i+b_i$.

In [None]:
lista3 = []
for i in range(len(lista2)):
    lista3.append(lista1[i]+lista2[i])
print(lista3)

Otra forma de hacerlo, más optimizada, sería empleando `listcomprenhension`

In [None]:
lista3 = [lista1[i] + lista2[i] for i in range(len(lista1))]
lista3

Ahora, emleemos la función `array` de `numpy`. Esta convierte una lista en un arreglo, que es una entidad matemática y sobre la que se puede hacer la operación que queremos plantear:

In [None]:
arreglo1 = np.array(lista1)
arreglo2 = np.array(lista2)
arreglo3 = arreglo1 + arreglo2
print(arreglo3)
arreglo3.dtype

Los arrays de `NumPy` son *homogéneos*, es decir, todos sus elementos son del mismo tipo NUMÉRICO. 


- Si le pasamos a `np.array` una secuencia con objetos de tipos diferentes, promocionará todos al tipo con más información. 


- Para acceder al tipo del `array`, podemos usar el atributo `dtype`.

Si creamos un `array` únicamente conteniendo valores numéricos:

In [None]:
a = np.array([1, 2., 3])
print(a)
print(a.dtype)

Ahora creemos un `array` con un elemento diferente a un tipo numérico:

In [None]:
b = np.array([1, 2, "3"])
print(b)
print(b.dtype)

***Nota:*** Si `NumPy` no entiende el tipo de datos o construimos un array con argumentos incorrectos devolverá un array con `dtype object`. Estos arrays rara vez son útiles y su aparición suele ser signo de que algo falla en nuestro programa.

`NumPy` intentará automáticamente construir un `array` con el tipo adecuado teniendo en cuenta los datos de entrada, aunque nosotros podemos forzarlo. En el siguiente ejemplo, se tienen los datos de tipo `float`, pero los pasaremos a tipo `int`:

In [None]:
a = np.array([1.,2.,3.],dtype=int)
print(a.dtype)
print(a)

Podemos pasarlo a cualquier otro tipo de dato, por ejemplo `complex`:

In [None]:
np.array([1, 2, 3], dtype=complex)

También podemos convertir un array de un tipo a otro utilizando el método `.astype`.

In [None]:
a

In [None]:
a.astype(float)

### Motivo: eficiencia

* Los CICLOS son costosos
* Eliminar bucles: **vectorizar** operaciones
* Los bucles se ejecutan en `Python`, las operaciones vectorizadas en `C`
* Las operaciones entre arrays de `NumPy` se realizan **elemento a elemento**

Ejemplo:

$$ a_{ij} = b_{ij} + c_{ij} $$

In [None]:
k = 10000
N, M = k, k
a = np.empty(k*k).reshape(N, M)
b = np.random.rand(k*k).reshape(N, M)
c = np.random.rand(k*k).reshape(N, M)

In [None]:
import time

In [None]:
#%%timeit

tin = time.time()
for i in range(N):
    for j in range(M):
        a[i, j] = b[i, j] + c[i, j]
tout = time.time()
elapsedt = tout - tin
print("el tiempo de solucion fue de: ", elapsedt)

In [None]:
#%%timeit
tin = time.time()
a = b + c
tout = time.time()
elapsedt = tout - tin
print("el tiempo de solucion fue de: ", elapsedt)

¡1000 veces más rápido! Se hace fundamental **vectorizar** las operaciones y aprovechar al máximo la velocidad de `NumPy`.

### Indexación de arrays

Una de las herramientas más importantes a la hora de trabajar con arrays es el indexado. 


- Consiste en seleccionar elementos aislados o secciones de un array. 


- En este curso se verá la indexación básica, pero existen técnicas de indexación avanzada que convierten los arrays en herramientas potentísimas.

In [None]:
a = np.array([[1,2,3,4,5],[4,5,6,7,8],[7,8,9,10,11],[10,11,12,13,14]])
print(a)

Con la función `shape` podemos determinar la dimensión del arreglo:

In [None]:
n = a.shape[:]
n

Si queremos determinar únicamente la dimensión de las filas(`0`) o columnas (`1`):

In [None]:
n = a.shape[0]
n

Los índices se indican entre corchetes justo después del array. 


- Recuerda que en `Python` la indexación empieza en `0`. 

- Si recuperamos el primer elemento de un array de dos dimensiones, obtenemos la primera fila.

In [None]:
a[2][1]

En vez de usar `a[0][0]` para recuperar el primer elemento de la primera fila, podemos abreviar aún más la sintaxis:

In [None]:
print(a)
a[2, 1]

No solo podemos recuperar un elemento aislado, sino también porciones del array, utilizando la sintaxis `[<inicio>:<final>:<salto>]`.

In [None]:
print(a)
a[1:3, 1:3]

In [None]:
a[:, 0:1]

### Creación de arrays

`numpy` disponde de funciones que se usan para generar secuencias numéricas, veamos algunas: 

- `arange(start, stop, step)`: Genera una secuencia de valores. los valores por defecto son `start=0` y `step=1`. El único argumento obligatorio es `stop`.

In [None]:
array1 = np.arange(0,10,1)
print(array1)

De una manera más simple, aprovechando lo que se acaba de decir:

In [None]:
array1 = np.arange(10)
print(array1)

Ahora genero únicamente un arreglo de números pares:

In [None]:
array1 = np.arange(0,10,2)
print(array1)

- `linspace(start, stop, num=xxx)` devuelve una cierta cantidad de números equiespaciados dentro de un intervalo dado.

En este ejemplo se genera un arreglo de `11` valores entre `0` y `100`. Ten en cuenta que deben ser `11` valores porque se tiene en cuenta el `0`.

In [None]:
array2 = np.linspace(0,100,11)
print(array2)

Ahora generamos una secuencia de `21` valores de `-100` a `100`.

In [None]:
array2 = np.linspace(-100,100,21)
print(array2)

- `logspace(start, stop, num=xxx, base=10.0)` devuelve números equiespaciados según una escala logarítmica


In [None]:
array3 = np.logspace(1, 2, 10)
print(array3)

### Arreglos especiales

- `empty(shape)` crea un array con «basura», equivalente a no inicializarlo, ligeramente más rápido que `zeros` o `ones`


- `eye(N, M=None, k=0)` crea un array con unos en una diagonal y ceros en el resto


- `identity(n)` devuelve la matriz identidad


- Las funciones `*_like(a)` construyen arrays con el mismo tamaño que uno dado

In [None]:
a = np.empty(5)
a

In [None]:
np.identity(5).astype(int)

In [None]:
_.shape

Si la función recibe como argumento `shape`, debemos pasarle el número de filas y columnas como una tupla (es decir, encerrado entre paréntesis).

Por ejemplo, para generar una matriz de `0's` con `4`filas y `3` columnas:

In [None]:
np.zeros((4, 3))

Ahora crearemos una matriz de `1's` con `3` filas y `4`columnas:

In [None]:
np.ones((3, 4))

### Operaciones con arrays

Las **[funciones universales](https://numpy.org/doc/stable/reference/ufuncs.html)** (`ufunc`) operan sobre arrays de NumPy elemento a elemento y siguiendo las reglas de _broadcasting_.

- Funciones matemáticas: `sin`, `cos`, `sqrt`, `exp`, ...


- Operaciones lógicas: `<`, `~`, ...


- Funciones lógicas: `all`, `any`, `isnan`, `allclose`, ...

**Nota**: Las funciones matemáticas siempre devuelven el mismo tipo de datos de entrada

In [None]:
a = np.arange(2 * 3).reshape(2, 3)
a

In [None]:
np.sqrt(a)

In [None]:
np.sqrt(np.arange(-3, 3))

In [None]:
np.arange(-3, 3).astype(complex)

In [None]:
np.sqrt(_)

In [None]:
# generamos un arreglo de valores
x = np.linspace(0, 2 * np.pi, 10)

# Creamos arreglos con la función indicada
ys = np.sin(x)
yc = np.cos(x)

print(ys)
print(yc)

### Funciones de comparación

Las comparaciones devuelven un array de booleanos:

In [None]:
1 == 1

In [None]:
a = np.arange(6)
b = np.ones(6).astype(int)
a, b

In [None]:
a < b

In [None]:
np.any(a < b)

In [None]:
np.all(a < b)

In [None]:
a = np.arange(6).astype(float)
b = np.ones(6)
a, b

Las funciones `isclose` y `allclose` realizan comparaciones entre arrays especificando una tolerancia:

In [None]:
a = 1.0000010003
b = 1.0000012345

In [None]:
np.isclose(a, b, rtol=1e-7)

In [None]:
np.allclose(a, b, rtol=1e-6)

**¡Importante!** Ni en Python ni en ningún otro lenguaje debemos hacer comparaciones exactas entre números de punto flotante. Las operaciones matemáticas con estos números producen casi siempre resultados poco intuitivos y hay que tener cuidado con ellas. Para una introducción a estas peculiaridades existe la [web](http://puntoflotante.org/)

In [None]:
0.1 + 0.2 + 0.3

In [None]:
0.3 + 0.2 + 0.1

In [None]:
0.1 + 0.2 + 0.3 == 0.3 + 0.2 + 0.1

In [None]:
a = np.arange(6)
a

In [None]:
6 in a

In [None]:
6 not in a

## Cálculo de estadísticos

In [None]:
datos = np.random.randn(5,4) # datos normalmente distribuidos
datos

In [None]:
# media arítmetica
datos.mean() # Calcula la media aritmetica de

In [None]:
np.mean(datos) # Mismo resultado desde la funcion de numpy

In [None]:
datos.mean(axis=1) # media aritmetica de cada fila

In [None]:
help(datos.mean)

In [None]:
datos.mean(axis=0) # media aritmetica de cada columna

In [None]:
np.median(datos) # mediana

In [None]:
np.mean(datos, axis = 0) # media aritmetica de cada columna

In [None]:
np.std(datos) # media aritmetica de cada columna

In [None]:
np.std(datos, 0) # Desviación típica de cada columna

In [None]:
np.var(datos) # varianza

In [None]:
np.var(datos, 0) # varianza de cada columna

In [None]:
# Calcula la moda de cada columna
moda, conteo = stats.mode(datos, keepdims=False)

print('moda: ', moda)
print('conteo: ', conteo)

In [None]:
datos2 = np.array([1, 2, 3, 6, 6, 1, 2, 4, 2, 2, 6, 6, 8, 10, 6])

moda, conteo = stats.mode(datos2, keepdims=False)

print('moda: ', moda)
print('conteo: ', conteo) # aqui la moda es el 6 porque aparece 5 veces en el vector.

## Ejemplos

### Ejemplos 1

1. Crear un array `3x4` lleno de ceros de tipo entero.
2. Crear un array `3x4` lleno de ceros salvo la primera fila que serán todo unos.
3. Crear un array `3x4` lleno de ceros salvo la última fila que será el rango entre 5 y 8.

In [None]:
a = np.zeros((3, 4), dtype = int)
a

In [None]:
a[0, :] = 1
a

In [None]:
b = np.zeros((3, 4), dtype = int)
b[-1] = np.arange(5, 9)
b

### Ejemplos 2

1. Crea un vector de 10 elementos, ubicando en las posiciones impares valores de `1`, y `2` en las posiciones pares.
2. Crea un «tablero de ajedrez» con `1's` en las posiciones de las casillas negras, y `0's` en las blancas.

In [None]:
# creamos el arreglo de 10 elementos todos 1's
v = np.ones(10)
v

In [None]:
# ahora asignamos el valor '2' a las posiciones pares (recuerde que la posición 0 es par)
v[::2] = 2
v

In [None]:
# generamos una matriz 8x8 de ceros 
tablero = np.zeros((8, 8))
tablero[::2, 1::2] = 1
tablero[1::2, ::2] = 1
tablero

### Ejercicio

1. Crea una matriz aleatoria 5x5 y halla los valores mínimo y máximo.
2. Normaliza esa matriz entre 0 y 1.

## Bibliografía

* Documentación de NumPy https://numpy.org/
* Travis Oliphant, "Guide to NumPy" http://csc.ucdavis.edu/~chaos/courses/nlp/Software/NumPyBook.pdf
* SciPy Lecture Notes http://scipy-lectures.github.io
* Nicolas Rougier, "100 NumPy exercises" http://www.loria.fr/~rougier/teaching/numpy.100/index.html
* Datacamp, "Python Numpy Array Tutorial" https://www.datacamp.com/community/tutorials/python-numpy-tutorial