<a href="https://colab.research.google.com/github/izzZk-hub/numpy_basico/blob/main/numpy_basico.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Numpy

¬øCu√°l es el hype de Numpy?

Hemos mencionado que es una paqueter√≠a utilizada ampliamente en la industria, pero ¬øqu√© la hace tan especial?

Comencemos explorando el objeto principal de Numpy: el `ndarray`.

## `ndarray`
**Un ndarray (N-dimensional array) es la estructura de datos principal de NumPy que permite almacenar y manipular arrays (arreglos) multidimensionales de forma eficiente. Proporciona operaciones r√°pidas y flexibles para realizar c√°lculos num√©ricos y transformaciones en grandes conjuntos de datos.**

En un ndarray podemos almacenar elementos de un mismo tipo de dato. Aqu√≠ uno podr√≠a preguntarse

**¬øcu√°l es la ventaja o el beneficio de usar un ndarray de Numpy sobre una lista ordinaria de Python?**

Numpy tiene ventajas significativas sobre listas ordinarias, descubr√°moslas con ejemplos pr√°cticos

---

## Crear un arreglo de Numpy
Hay m√°s de una forma (como es costumbre en Python) para crear un array. La m√°s com√∫n es pasarle una lista a la funci√≥n `np.array`

In [1]:
#Importamos numpy como np (SIEMPRE)
import numpy as np

In [2]:
lista = [0,1,2,3,4]
array_1d = np.array(lista)

#Checamos el tipo de dato de array_id
type(array_1d)

numpy.ndarray

In [3]:
type(1.2)

float

In [4]:
#contenido del array
array_1d

array([0, 1, 2, 3, 4])

##¬†Diferencia entre ndarray y lista

La diferencia principal entre un `array` y una `list` es que los `arrays` est√°n dise√±ados para procesar operaciones vectorizadas, mientras que una lista no tiene estas capacidades.

Sea $\vec{x}$ un vector tal que $\vec{x} = (0 , 1, 2, 3, 4)$

$$\vec{x} + a = (0 + a, 1 + a, 2 + a, 3 + a, 4 + a)$$

Entonces, si $a = 2$
$$ \vec{x} + 2 = (0 +2, 1 + 2, 2 + 2, 3 + 2, 4 + 2) $$
$$ \vec{x} + 2 = (2, 3, 4, 5, 6) $$

Esto significa que si aplicamos una funci√≥n a un `array` entonces la funci√≥n se va a aplicar a **cada elemento del array**

Veamos un ejemplo:

Si quisieramos sumar 2 a cada elemento de la `lista`, intuitivamente podr√≠amos intentar:

In [5]:
lista

[0, 1, 2, 3, 4]

In [6]:
lista + 2

TypeError: can only concatenate list (not "int") to list

Como podemos ver, no es posible hacer esto con listas. Probemos ahora con `array_1d`

In [None]:
array_1d + 2

---

### Otro ejemplo: Multiplicaci√≥n de matrices

Veamos una multiplicaci√≥n de matrices con Numpy.

$A=\begin{bmatrix}
1 & 2 & 3 \\
4 & 5 & 6
\end{bmatrix}$ , $B=\begin{bmatrix}
7 & 8 \\
9 & 10 \\
11 & 12
\end{bmatrix}$

Recordemos de la materia de √Ålgebra Lineal que:
Sean A y B, 2 matrices

$\begin{bmatrix}
a_{11} & a_{12} & a_{13} \\
a_{21} & a_{22} & a_{23}
\end{bmatrix}
\begin{bmatrix}
b_{11} & b_{12} \\
b_{21} & b_{22} \\
b_{31} & b_{32}
\end{bmatrix}
=
\begin{bmatrix}
a_{11}b_{11} + a_{12}b_{21} + a_{13}b_{31} & a_{11}b_{12} + a_{12}b_{22} + a_{13}b_{32} \\
a_{21}b_{11} + a_{22}b_{21} + a_{23}b_{31} & a_{21}b_{12} + a_{22}b_{22} + a_{23}b_{32}
\end{bmatrix}$

---

Antes de apreciar la **BELLEZA** de Numpy, hagamos una implementaci√≥n de multiplicaci√≥n de matrices sin utilizar numpy:

In [None]:
def multiplicar_matrices(A, B):
    # obtener dimensiones
    filas_A = len(A)
    cols_A = len(A[0])
    filas_B = len(B)
    cols_B = len(B[0])

    # checar si se pueden multiplicar A y B
    if cols_A != filas_B:
        raise ValueError("El n√∫mero de columnas de A debe ser igual al n√∫mero de filas de B")

    # Inicializar una matriz vac√≠a con ceros
    matriz_resultado = []
    for _ in range(filas_A):
        fila = []
        for _ in range(cols_B):
            fila.append(0)
        matriz_resultado.append(fila)

    # realizar multiplicaci√≥n
    for i in range(filas_A):
        for j in range(cols_B):
            for k in range(cols_A):
                matriz_resultado[i][j] += A[i][k] * B[k][j]

    return matriz_resultado

# Ejemplo
A = [
    [1, 2, 3],
    [4, 5, 6]
]
B = [
    [7, 8],
    [9, 10],
    [11, 12]
]
C = multiplicar_matrices(A, B)
print(C)

**¬øNada mal no?**

Y de hecho se ejecut√≥ bastante r√°pido‚Ä¶ Pong√°mosle m√°s estr√©s a Python con multiplicaciones de matrices m√°s grandes, y contemos cu√°nto tarda en multiplicar cada una de ellas:

###¬†Funci√≥n para crear una matriz de NxN con n√∫meros aleatorios

In [None]:
import random

def generar_matriz_aleatoria(N):
    matriz = []
    for i in range(N):
        fila = []
        for j in range(N):
            fila.append(random.randint(1, 9))
        matriz.append(fila)
    return matriz


N = 5
matriz_aleatoria = generar_matriz_aleatoria(N)
for fila in matriz_aleatoria:
    print(fila)

###¬†Funci√≥n para imprimir una matriz en formato amigable

In [None]:
def imprimir_matriz(matriz):
    for fila in matriz:
        fila_formateada = ' '.join(f'{elemento:2}' for elemento in fila)
        print(fila_formateada)

###¬†Creaci√≥n e impresi√≥n de las matrices

In [None]:
print("Matr√≠z de 5x5:")
m_5 = generar_matriz_aleatoria(5)
imprimir_matriz(m_5)
print("====================")
print("Matr√≠z de 10x10:")
m_10 = generar_matriz_aleatoria(10)
imprimir_matriz(m_10)
print("====================")
print("Matr√≠z de 20x20:")
m_20 = generar_matriz_aleatoria(20)
imprimir_matriz(m_20)
print("====================")
m_100 = generar_matriz_aleatoria(100)

---
Ahora midamos el tiempo que tardamos en multiplicar cada una de las matrices por s√≠ misma. Utilizaremos c√≥digo como √©ste
```python
start = time.time()
# ejecutar c√≥digo
end = time.time()
tiempo = round(end - start, 5)
print(f"La ejecuci√≥n tard√≥ {tiempo} seg.")
```

In [None]:
import time

**Comencemos con la matrices de 5x5**

In [None]:
start = time.time()
multiplicar_matrices(m_5, m_5)
end = time.time()
tiempo = end - start
print(f"Multiplicar dos matrices de 5x5 tard√≥ {tiempo} seg.")

**Nada mal‚Ä¶ Veamos ahora 10x10**

In [None]:
start = time.time()
multiplicar_matrices(m_10, m_10)
end = time.time()
tiempo = end - start
print(f"Multiplicar dos matrices de 10x10 tard√≥ {tiempo} seg.")

**Parece que va bastante r√°pido... Intentemos ahora con una matriz de 1000x1000**

In [None]:
m_1000 = generar_matriz_aleatoria(1000)
start = time.time()
multiplicar_matrices(m_1000, m_1000)
end = time.time()
tiempo = end - start
print(f"Multiplicar dos matrices de 1000x1000 tard√≥ {tiempo} seg.")

# Tardamos m√°s de un minuto completo en multiplicar dos matrices de 1000x1000

---

## Implementaci√≥n con Numpy

Veamos qu√© tanto mejora el rendimiento de multiplicaci√≥n de matrices cuando implementamos numpy.

Primero, creemos una funci√≥n para generar matrices:

In [None]:
def generar_matriz_aleatoria_numpy(N):
    return np.random.randint(1, 10, size=(N, N))

**No te preocupes por la sintaxis de Numpy. La revisaremos m√°s adelante üòé**

In [None]:
m_1000 = generar_matriz_aleatoria_numpy(1000)

**Para multiplicar matrices en numpy, podemos utilizar la funci√≥n `np.dot`, o bien, el operador `@`**

In [None]:
start = time.time()
np.dot(m_1000, m_1000)
# o bien, m_1000 @ m_1000
end = time.time()
tiempo = end - start
print(f"Multiplicar dos matrices de 1000x1000 con Numpy tard√≥ {tiempo} seg.")

---

## Arreglos de 2 dimensiones
Un arreglo de dos dimensiones es lo mismo que una matriz de $m \times n$. Una matriz es la forma m√°s adecauda de representar datos tabulares, Numpy hace su manejo sumamente f√°cil. Comencemos por crear una matriz de $3 \times 3$

Queremos hacer la siguiente matriz:
$$ \begin{bmatrix}
0 & 1 & 2 \\
3 & 4 & 5 \\
6 & 7 & 8
\end{bmatrix} $$

In [None]:
list2 = [[0,1,2], [3,4,5], [6,7,8]]
arr2d = np.array(list2)
arr2d

Podemos especificar el tipo de dato cuando creamos nuestro `ndarray`, por lo general Numpy infiere el tipo de dato

In [None]:
arr2d_f = np.array(list2, dtype='float')
arr2d_f

In [None]:
#convertir a enteros nuevamente
arr2d_f.astype('int')

In [None]:
# convertir a enteros y luego a strings
arr2d_f.astype('int').astype('str')

Una diferencia importante entre listas y np.arrays es que una lista puede almacenar objetos de diferentes tipos de datos, mientras que un np.array debe ser consistente en el tipo de dato que almacena. Esto se debe al deseo que tenemos por realizar operaciones vectorizadas

In [None]:
# crear un arreglo de valroes l√≥gicos o bools
arr2d_b = np.array([1, 0, 10, 11, 12, -1, 0], dtype='bool')
arr2d_b

S√≠ existe una forma de mantener la ambig√ºedad en el tipo de dato de nuestro array. Esto lo podemos logar si especificamos que el tipo de dato es `object`

In [None]:
arr1d_obj = np.array([1, 'a'], dtype='object')
arr1d_obj

Por √∫ltimo: podemos convertir un `ndarray` a una lista en cualquier momento utilziando el m√©todo `tolist()`

In [None]:
lista = arr1d_obj.tolist()
lista

O bien `list(numpy.ndarray)`

In [None]:
list(arr1d_obj)

## Tama√±o y dimensi√≥n de un array
Un arreglo tiene dos propiedades b√°sicas que nos dicen mucho acerca de su estructura: tama√±o y dimensi√≥n.

Considemos el arreglo `arr2d`. √âste se cre√≥ a partir de una lista de listas. O sea, tiene dos dimensiones. Un arreglo de dos dimensiones se puede mostrar como renglones y columnas, i.e. una matriz.

Si hubi√©ramos creado el array a partir de una lista de lista de listas, entonces ser√≠an 3 dimensiones, i.e. un cubo.

Supogamos que recibimos un arreglo de numpy que no creamos nosotros. ¬øQu√© cosas queremos explorar para conocer bien este arreglo?

Bueno, unas buenas preguntas que querr√≠amos contestar son:
- ¬øCu√°l es la dimensi√≥n del arreglo? ¬øes de 1, 2 o m√°s dimensiones? `ndim`
- ¬øCu√°ntos elementos hay en cada dimensi√≥n? `shape`
- ¬øCu√°l es el tipo de dato? `dtype`
- ¬øCu√°l es el n√∫mero total de elementos? `size`
- Algunos ejemplos/elementos del arreglo

Comencemos

In [None]:
# Crear arreglo de dos dimensiones con 3 filas y 4 columnas
list2 = [[1, 2, 3, 4],[3, 4, 5, 6], [5, 6, 7, 8]]
arr2 = np.array(list2, dtype='float')
arr2

In [None]:
# shape
print('Shape: ', arr2.shape)

# dtype
print('Datatype: ', arr2.dtype)

# size
print('Size: ', arr2.size)

# ndim
print('Num Dimensions: ', arr2.ndim)

---

## Acceder a los elementos del arreglo
Podemos extraer elementos o porciones espec√≠ficos de un arreglo utilizando √≠ndices o `indexing` empezando por $0$. Esto es similar a c√≥mo lo hacemos con listas en Python.

Pero a diferencia de las listas, los numpy arrays aceptan (opcionalmente) la misma cantidad de par√°metros para indexar que el n√∫mero de dimensiones que tiene el array.

Esto √∫ltimo es algo confuso, y no hay mejor manera que ilustrarlo que con un ejemplo:


In [None]:
arr2

Podemos extraer un elemento espec√≠fico `(i, j)` en donde `i` es la fila y `j` la columna

In [None]:
arr2[1, 1]

Tambi√©n podemos extraer "rangos"

In [None]:
# Extraer las primeras 3 filas y las primeras 3 columnas
arr2[:3, :3]

Esto **no** se puede hacer en listas

In [None]:
list2[:2, :2]

Adicionalmente, en los numpy arrays existe algo que se llama `boolean indexing` o indexaci√≥n l√≥gica. Un `boolean index` o √≠ndice l√≥gico.

Un array de √≠ndices l√≥gicos es de exactamente la misma forma (`shape`) que el array que estamos filtrando, s√≥lo que contiene √∫nicamente valores booleanos (`True` o `False`). Los valores que est√©n en los √≠ndices Verdaderos son los que va a arrojar nuestro filtro.

In [None]:
arr2

In [None]:
#Obtengamos el output booleano de aplicar una comparaci√≥n a todo nuestro numpy array
b = arr2 > 4
b

Como podemos ver, b ahora es una matriz de $3 \times 4$ con puros valores booleanos. El valor `True` est√° en todas las  posiciones en las que se cumpli√≥ que el elemento era $ > 4$

Con esta matriz de valores booleanos, podemos filtrar nuestra matriz original y obtener los valores que est√©n en posiciones verdaderas,

In [None]:
arr2[b]

## Valores faltantes e infinitos
Es muy com√∫n recibir conjuntos de datos que tengan uno que otro valor en NA. Con numpy podemos representar valores faltantes con `np.nan` e infinitos con `np.inf`. Agreguemos algunos de estos valores a `arr2`

In [None]:
arr2[1,1] = np.nan  # no es un n√∫mero
arr2[1,2] = np.inf  # infinito
arr2

Vamos a reemplazar todos los valores `nan` e `inf` con un $-1$

In [None]:
valores_faltantes_bool = np.isnan(arr2) | np.isinf(arr2)

In [None]:
valores_faltantes_bool

In [None]:
arr2[valores_faltantes_bool] = -1
arr2

---

## Calcular media, m√≠nimo y m√°ximo

Un ndarray viene ya con algunos m√©todos √∫tiles. Unos de √©stos nos permiten calcular medidas b√°sicas

In [None]:
print("Hola mundo")

In [None]:
arr2

In [None]:
print("Media: ", arr2.mean())
print("Valor m√°ximo: ", arr2.max())
print("Valor m√≠nimo: ", arr2.min())

In [None]:
arr2

Sin embargo, estos valores exploraron toda la matriz. Podemos obtener los mismos valores pero para filas y columnas utilizando `np.amin`

In [None]:
print("Valores m√≠nimos en columnas", np.amin(arr2, axis=0))

In [None]:
print("Valores m√≠nimos en filas: ", np.amin(arr2, axis=1))

In [None]:
arr2

---

## Crear un arreglo a partir de otro arreglo
En Numpy la alocaci√≥n de memoria sigue la misma l√≥gica que en Python: si asignamos una porci√≥n de un array a una nueva variable, y modificamos elementos de esta nueva variable, entonces los cambios se ver√°n reflejados tambi√©n en nuestro array original. Para evitar este comportamiento (si eso es lo que queremos) utilizamos el m√©todo `copy()`.

In [None]:
arr2_nuevo = arr2[:2,:2]
arr2_nuevo[:1, :1] = 100  # el 100 se va a reflejar tambi√©n en el array original arr2

In [None]:
# Veamos arr2 (original)
arr2

Y ahora veamos `arr2_nuevo`

In [None]:
arr2_nuevo

In [None]:
#Para evitar esto vamos a usar copy
arr2_nuevo_2 = arr2[:2, :2].copy()
arr2_nuevo_2[0, 0] = 102  # 102 no saldr√° en arr2
arr2

In [None]:
arr2_nuevo_2

---

## Crear secuencias, repeticiones y n√∫meros aleatorios

`np.arange`

In [None]:
# El l√≠mite inferior es 0 por defecto
print(np.arange(5))
nuevo_arr = np.arange(10)

In [None]:
type(nuevo_arr)

In [None]:
# 0 a 9
print(np.arange(5, 100))

In [None]:
# 0 a 9 de 2 en 2
print(np.arange(0, 100, 3.5))

In [None]:
# 10 a 1, en decrementos de 1
print(np.arange(10, 0, -1))

Podemos poner l√≠mite inferior y superior con `np.arange`, pero si queremos enfocarnos en el n√∫mero de elmentos que queremos generar, entonces tenemos que concentrarnos en el valor del incremento/decremento (`step`)

Digamos que queremos generar exactamente 10 valores entre 1 y 50.

Podemos usar `np.linspace`

In [None]:
# Empieza en 1, terminar en 50, creando 10 n√∫meros enteros
np.linspace(start=1, stop=50, num=20, dtype=int)

Un buen observador se dar√° cuenta que nuestros elementos no est√°n espaciados uniformemente. Esto se debe a que especificamos que el tipo de dato era entero.

---

## Crear arreglos de $1's$ y $0's$

A menudo tendremos la necesidad de crear vectores o matrices que tengan √∫nicamente valores de $1$ o $0$. Numpy hace esto muy f√°cil

In [None]:
np.zeros([2,2])

In [None]:
np.ones([2,2])

---

## Crear secuencias repetidas

In [None]:
a = [1,2,3]

# Repetir todo el arreglo 'a' dos veces
print('Tile:   ', np.tile(a, 2))

# Repetir cada elemento de 'a' dos veces
print('Repeat: ', np.repeat(a, 4))


In [None]:
import random
random.randint(0,100)

---

## Generar n√∫meros aleatorios
Numpy tiene un m√≥dulo `random` con funciones √∫ltiles para generar n√∫meros aleatorios de cualquier `shape`

In [None]:

print("N√∫meros aleatorios entre [0,1) de tama√±o  2,2")
print(np.random.rand(3,5))

In [None]:
print("N√∫meros aleatorios de una distribuci√≥n normal con media=0 y varianza=1 de tama√±o 2,2")
print(np.random.randn(2,2))

In [None]:
print("Enteros aleatorios entre [0,10) de tama√±o 2,2")
print(np.random.randint(0, 100, size=[5,5]))

In [None]:
print("Genera un n√∫mero aleatorio entre [0,1)")
print(np.random.random())

In [None]:
print("Elige 10 elementos de una lista (los resultados son equiprobables)")
print(np.random.choice(['Cara', 'Sol'], size=10))

In [None]:
print("Elige 10 elementos de una lista. Cada uno con una probablidad p")
print(np.random.choice(['Cara', 'Sol'], size=10, p=[0.2, .8]))

Cada que corramos el c√≥digo anterior, obtendremos valores diferentes ya que estamos generando n√∫meros aleatorios.

Existen casos en los que queremos n√∫meros pseudoaleatorios para poder reproducir nuestros resultados. Para esto utlizamos una semilla

In [None]:
# ponemos una semilla 100 para reproducibilidad
np.random.seed(100)
print(np.random.rand(2,2))

En todo script de python, si colocamos una semilla de 100 y ejecutamos `np.random.rand(2,2)` deber√≠amos obtener exactamente el mismo resultado. Esto es √∫til porque la reproducibilidad es indispensable en investigaci√≥n. O sea, queremos que otras personas sean capaces de reproducir nuestros resultados.

---
## Obtener valores √∫nicos y frecuencias absolutas

In [None]:
np.random.seed(1)
arr_rand = np.random.randint(0, 10, size=100)
arr_rand

In [None]:
vals_unicos, frecuencias = np.unique(arr_rand, return_counts=True)
print("Elementos √∫nicos: ", vals_unicos)
print("Frecuencias      :", frecuencias)

In [None]:
2**32