# Numpy

NumPy es el paquete fundamental para la computación científica en Python. Es una librería de Python que proporciona un objeto array multidimensional,  y una serie de rutinas para operaciones rápidas sobre arrays, incluyendo operaciones matemáticas, lógicas, manipulación de formas, ordenación, selección, álgebra lineal básica, operaciones estadísticas básicas, simulación aleatoria y mucho más.

Existen varias diferencias importantes entre los arrays de NumPy y las listas estándar de Python:

- Los arrays de NumPy tienen un tamaño fijo en el momento de su creación, a diferencia de las listas de Python (que pueden crecer dinámicamente). Si se cambia el tamaño de una matriz NumPy, se creará un nuevo array y se borrará el original.

- Los elementos de un array de NumPy deben ser todos del mismo tipo de datos y, por tanto, tendrán el mismo tamaño en memoria.

- Los arrays de NumPy facilitan las operaciones matemáticas avanzadas y otros tipos de operaciones con grandes cantidades de datos. Normalmente, estas operaciones se ejecutan de forma más eficiente y con menos código que con las listas incorporadas en Python.

- Una bateria creciente de paquetes científicos y matemáticos basados en Python utilizan arrays de NumPy; aunque normalmente admiten la entrada de listas de Python, convierten dicha entrada en arrays de NumPy antes de procesarla, y a menudo dan como salida arrays de NumPy. En otras palabras, para utilizar eficientemente gran parte del software científico/matemático actual basado en Python, no basta con saber utilizar listas, sino que también hay que saber utilizar los arrays de NumPy.

- Un array puede ser de una dimensión (como una lista), de dos dimensiones (como una matriz) o incluso de más dimensiones.


![arrays de distintas dimensiones](https://www.pythontutorial.net/wp-content/uploads/2022/08/what-is-numpy-1024x572.png)

### Creación de arrays

In [2]:
import numpy as np


In [3]:
# ARRAYS: FORMAS DE CREACION ---

print(f"Creacion de array con lista (se especifican los valores): {np.array([1,2,3])}")

print(f"Creacion de array con arange (valores spaciados en un intervalo): {np.arange(start = 1, stop = 10, step = 1)}")

print(f"Creacion de array con linspace (valores espaciados en un intervalo): {np.linspace(start = 1, stop = 10, num = 10)}")

print(f"Creacion de array con zeros (todos los valores son 0): {np.zeros(shape = 5, dtype=int)}")

print(f"Creacion de array con ones (todos los valores son 1): {np.ones(5, dtype=int)}")



Creacion de array con lista (se especifican los valores): [1 2 3]
Creacion de array con arange (valores spaciados en un intervalo): [1 2 3 4 5 6 7 8 9]
Creacion de array con linspace (valores espaciados en un intervalo): [ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10.]
Creacion de array con zeros (todos los valores son 0): [0 0 0 0 0]
Creacion de array con ones (todos los valores son 1): [1 1 1 1 1]


In [4]:
# MATRICES: ---
lista_a = [1, 2]
lista_b = [4, 5]

matriz_a_con_listas = [lista_a, lista_a]
matriz_b_con_listas = [lista_b, lista_b]

matriz_a_con_arrays = np.array([lista_a, lista_a])
matriz_b_con_arrays = np.array([lista_b, lista_b])

print(f"Así se vería la matriz_a en numpy: \n {matriz_a_con_listas}")
print(f"Así se vería la matriz_b en numpy: \n {matriz_b_con_listas}")

print(f"Así se vería la matriz_a en numpy: \n {matriz_a_con_arrays}")
print(f"Así se vería la matriz_b en numpy: \n {matriz_b_con_arrays}")

Así se vería la matriz_a en numpy: 
 [[1, 2], [1, 2]]
Así se vería la matriz_b en numpy: 
 [[4, 5], [4, 5]]
Así se vería la matriz_a en numpy: 
 [[1 2]
 [1 2]]
Así se vería la matriz_b en numpy: 
 [[4 5]
 [4 5]]


### Operaciones con arrays

In [5]:
# ARRAYS: OPERACION SUMA ----
lista_a = [1, 2]
lista_b = [4, 5]

array_a = np.array(lista_a)
array_b = np.array(lista_b)

print(f"Sumamos las listas: {lista_a + lista_b}")
print(f"Sumamos los arrays: {array_a + array_b}")

# Si quiero que las listas se sumen como los arrays
# print(f"Sumando las listas como si fuesen arrays: {[a + b for a, b in zip(lista_a, lista_b)]}")

# Si quiero que los arrays se sumen como las listas
# print(f"Si queremos concatenar los arrays como las listas: {np.concatenate((array_a, array_b))}")

Sumamos las listas: [1, 2, 4, 5]
Sumamos los arrays: [5 7]


In [6]:
# ARRAYS: OPERACION MULTIPLICACION ---


# print(f"Multiplicamos las listas: {lista_a * lista_b}")  #! Esto dara error ya que no se pueden multiplicar listas por defecto

print(f"Multiplicamos los arrays: {array_a * array_b}")
print(f"Multiplicamos las listas como si fuesen arrays: {[a * b for a, b in zip(lista_a, lista_b)]}")


Multiplicamos los arrays: [ 4 10]
Multiplicamos las listas como si fuesen arrays: [4, 10]


In [7]:
# MATRICES: OPERACION MULTIPLICACION ---

resultado_con_arrays = matriz_a_con_arrays * matriz_b_con_arrays
print(f"Así se vería la multiplicacion usando arrays: \n {resultado_con_arrays}")


resultado_con_listas = [[0 for _ in range(len(matriz_b_con_listas[0]))] for _ in range(len(matriz_a_con_listas))]
for i in range(len(matriz_a_con_listas)):  # Filas de matriz_a
  for j in range(len(matriz_b_con_listas[0])):
    resultado_con_listas[i][j] = matriz_a_con_listas[i][j] * matriz_b_con_listas[i][j]

print(f"Así se vería la multiplicacion usando listas: \n {resultado_con_listas}")



Así se vería la multiplicacion usando arrays: 
 [[ 4 10]
 [ 4 10]]
Así se vería la multiplicacion usando listas: 
 [[4, 10], [4, 10]]


In [8]:
# MATRICES: OPERACION MULTIPLICACION DOT ---

print(f"Multiplicamos matriz_a_con_arrays con matriz_b_con_arrays:\n {np.dot(matriz_a_con_arrays, matriz_b_con_arrays)}")
print(f"Multiplicamos matriz_b_con_arrays con matriz_a_con_arrays:\n {np.dot(matriz_b_con_arrays, matriz_a_con_arrays)}")



Multiplicamos matriz_a_con_arrays con matriz_b_con_arrays:
 [[12 15]
 [12 15]]
Multiplicamos matriz_b_con_arrays con matriz_a_con_arrays:
 [[ 9 18]
 [ 9 18]]


In [9]:
# MATRICES: OPERACIONES GENERICAS ---

print(f"Sumamos 10 a todos los elementos de la matriz:\n {matriz_a_con_arrays + 10}")
print(f"Multiplicamos por 10 todos los elementos de la matriz:\n {matriz_a_con_arrays * 10}")
print(f"Calculamos la raiz cuadrada de todos los elementos de la matriz:\n {np.sqrt(matriz_a_con_arrays)}")
print(f"Calculamos el logaritmo de todos los elementos de la matriz:\n {np.log(matriz_a_con_arrays)}")
print(f"Calculamos el seno de todos los elementos de la matriz:\n {np.sin(matriz_a_con_arrays)}")


Sumamos 10 a todos los elementos de la matriz:
 [[11 12]
 [11 12]]
Multiplicamos por 10 todos los elementos de la matriz:
 [[10 20]
 [10 20]]
Calculamos la raiz cuadrada de todos los elementos de la matriz:
 [[1.         1.41421356]
 [1.         1.41421356]]
Calculamos el logaritmo de todos los elementos de la matriz:
 [[0.         0.69314718]
 [0.         0.69314718]]
Calculamos el seno de todos los elementos de la matriz:
 [[0.84147098 0.90929743]
 [0.84147098 0.90929743]]


### Propiedades

In [10]:
# ARRAYS: PROPIEDADES ---

array_a = np.array([[1, 2, 3, 4], [2,3,4,np.nan]])

print(f"array_a:\n {array_a} \n")

print("Size:", array_a.size)

# check len of the array
print("len:", len(array_a))

# check shape of the array
print("Shape:", array_a.shape)

print(f"Matriz traspuesta:\n {array_a.T}")

print(f"Shape de la matriz traspuesta: {array_a.T.shape}")

print(f"Cambiamos las dimensiones a (1,8): {array_a.reshape(1, 8)}")

# check dtype of the array elements
print("Datatype:", array_a.dtype)

# change the dtype to 'float64'
array_a = array_a.astype('float64')
print(f"array como float: \n {array_a}")
print("Datatype:", array_a.dtype)

# convert array to list
lis = array_a.tolist()
print("\nList:", lis)
print(type(lis))

array_a:
 [[ 1.  2.  3.  4.]
 [ 2.  3.  4. nan]] 

Size: 8
len: 2
Shape: (2, 4)
Matriz traspuesta:
 [[ 1.  2.]
 [ 2.  3.]
 [ 3.  4.]
 [ 4. nan]]
Shape de la matriz traspuesta: (4, 2)
Cambiamos las dimensiones a (1,8): [[ 1.  2.  3.  4.  2.  3.  4. nan]]
Datatype: float64
array como float: 
 [[ 1.  2.  3.  4.]
 [ 2.  3.  4. nan]]
Datatype: float64

List: [[1.0, 2.0, 3.0, 4.0], [2.0, 3.0, 4.0, nan]]
<class 'list'>


In [24]:
arr = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print(f"Array : \n{arr}\n")

print(f"Array tras borrar elementos: \n{np.delete(arr, 1, axis = 1)}")
print(f"Array tras insertar elementos: \n{np.insert(arr, 1, 6, axis = 0)}")
print(f"Array tras añadir elementos al final: \n{np.append(arr, [[6,6,6,6]], axis = 0)}")


Array : 
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]

Array tras borrar elementos: 
[[ 1  3  4]
 [ 5  7  8]
 [ 9 11 12]]
Array tras insertar elementos: 
[[ 1  2  3  4]
 [ 6  6  6  6]
 [ 5  6  7  8]
 [ 9 10 11 12]]
Array tras añadir elementos al final: 
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]
 [ 6  6  6  6]]


In [23]:
## Ejercicio: Usar append para añadir una columna al final
## Solución:
np.append(arr, [[6],[6],[6]], axis = 1)

array([[ 1,  2,  3,  4,  6],
       [ 5,  6,  7,  8,  6],
       [ 9, 10, 11, 12,  6]])

In [25]:
# ARRAYS: FILTRAR DATOS ---

array_a = np.array([1, 4, 2, 3])
print(f"Array:\n {array_a}")

array_a.sort()
print(f"Array ordenado de menor a mayor:\n {array_a}")

print(f"¿Los valores son mayores que 2?:\n {array_a > 2}")

print(f"Filtrar elementos mayores que 2:\n {array_a[array_a > 2]}")
print(f"Filtrar elementos mayores que 2 y menores que 4:\n {array_a[(array_a > 2) & (array_a < 4)]}")


Array:
 [1 4 2 3]
Array ordenado de menor a mayor:
 [1 2 3 4]
¿Los valores son mayores que 2?:
 [False False  True  True]
Filtrar elementos mayores que 2:
 [3 4]
Filtrar elementos mayores que 2 y menores que 4:
 [3]


In [26]:
# MATRICES: FILTRAR DATOS ---

lista_de_listas=[ [1  ,-4],
                  [12 , 3],
                  [7.2, 5]]

a = np.array(lista_de_listas)

print(f"array:\n{a}\n")

print(f"Elementos individuales: \nElemento (0,1): {a[0,1]} \nElemento (2,1): {a[2,1]}\n")

print(f"Vector de elementos de la fila 1: \n{a[1,:]}\n")

print(f"Vector de elementos de la columna 0: \n{a[:,0]}\n")

print(f"Submatriz de 2x2 con las primeras dos filas: \n{a[0:2,:]}\n")

array:
[[ 1.  -4. ]
 [12.   3. ]
 [ 7.2  5. ]]

Elementos individuales: 
Elemento (0,1): -4.0 
Elemento (2,1): 5.0

Vector de elementos de la fila 1: 
[12.  3.]

Vector de elementos de la columna 0: 
[ 1.  12.   7.2]

Submatriz de 2x2 con las primeras dos filas: 
[[ 1. -4.]
 [12.  3.]]



### Números aleatorios

Los números aleatorios son aquellos que no siguen un patrón predecible. Imagina lanzar un dado: cada vez que lo lanzas, el resultado es un número aleatorio entre 1 y 6, ya que no puedes predecir cuál saldrá. En programación, necesitamos generar números aleatorios para cosas como:

- Simulaciones.
- Modelos estadísticos.
- Pruebas y experimentos controlados.

Es aqui donde numpy nos puede ayudar, ya que tiene un módulo llamado __numpy.random__, que nos permite generar números aleatorios de diferentes formas. Esto es muy útil si queremos hacer simulaciones o crear datos ficticios para probar cosas.

In [13]:
print(f"Creacion de array con random.rand (valores aleatorios entre 0 y 1): {np.random.rand(5)}")


Creacion de array con random.rand (valores aleatorios entre 0 y 1): [0.70602063 0.27012731 0.06128212 0.81147926 0.49341054]


Con esto somos capaces de generar números aleatorios, pero en ocasiones queremos generar números aleatorios con ciertos requisitos o restricciones. Para eso el modulo random tiene una serie de funciones para que usemosla que más nos interese.

In [28]:
# Genera un número entero aleatorio entre 1 y 6 (como un dado)
numero_dado = np.random.randint(low = 1, high = 7, size = 1)
print(f"Cara del dado: {numero_dado}")

Cara del dado: [3]


In [30]:
# Genera 10 números aleatorios con distribución normal (media=0, desviación estándar=1)
numeros_normales = np.random.normal(loc = 0, scale = 1, size=10)
print(f"Numeros normales:\n {numeros_normales}\n")


# Genera un números aleatorio con distribución binomial (n_observaciones=10, probbilidad de exito=0.5)
numeros_binomiales = np.random.binomial(n = 10, p = 0.5, size=10)
print(f"Numeros binomiales:\n {numeros_binomiales}")

Numeros normales:
 [ 0.96479666 -1.69773011  1.51508443 -0.64087379  1.15499253  0.15638254
  0.23569756  1.30444073 -2.58731904  0.56517325]

Numeros binomiales:
 [2 5 3 8 7 3 6 7 5 5]


**Ejercicio:**

Dada una serie de alumnos, vamos a obtener una ordenación aleatoria.

In [31]:

# Lista de 10 alumnos
alumnos = ['Alumno1', 'Alumno2', 'Alumno3', 'Alumno4', 'Alumno5',
           'Alumno6', 'Alumno7', 'Alumno8', 'Alumno9', 'Alumno10']


In [41]:
## Solucion 1: Hacerlo con np.random.randint seleccionando alumnos aleatorios de uno en uno

# Lista para almacenar el resultado de la selección aleatoria
alumnos_seleccionados = []

# Selección aleatoria de alumnos usando random.randint
while len(alumnos_seleccionados) < len(alumnos):
    # Genera un índice aleatorio entre 0 y el número de alumnos - 1
    indice_aleatorio = np.random.randint(0, len(alumnos))

    # Si el alumno no ha sido seleccionado antes, lo añadimos a la lista
    if alumnos[indice_aleatorio] not in alumnos_seleccionados:
        alumnos_seleccionados.append(alumnos[indice_aleatorio])

# Imprimimos la lista de alumnos seleccionados aleatoriamente
print(alumnos_seleccionados)


['Alumno10', 'Alumno2', 'Alumno6', 'Alumno8', 'Alumno1', 'Alumno9', 'Alumno7', 'Alumno5', 'Alumno4', 'Alumno3']


In [None]:
## Solucion 2: Hacerlo con np.random.choice seleccionando alumnos aleatoriamente sin repeticion

# Lista de 10 alumnos
alumnos = ['Alumno1', 'Alumno2', 'Alumno3', 'Alumno4', 'Alumno5',
           'Alumno6', 'Alumno7', 'Alumno8', 'Alumno9', 'Alumno10']

# Número de alumnos
n_alumnos = len(alumnos)

# Genera una lista de índices aleatorios sin repetir usando np.random.choice
indices_aleatorios = np.random.choice(n_alumnos, size=2, replace=False)

# Selecciona a los alumnos basándote en los índices aleatorios generados
alumnos_seleccionados = [alumnos[i] for i in indices_aleatorios]

# Imprimir la lista de alumnos seleccionados aleatoriamente
print(alumnos_seleccionados)

['Alumno9', 'Alumno3']


In [None]:
## Solucion 3: Hacerlo con np.random.permutation para ordenar de forma aleatoria los alumnos

# np.random.seed(42)  #? Si queremos reproducibilidad, necesitamos una semilla

alumnos = ['Alumno1', 'Alumno2', 'Alumno3', 'Alumno4', 'Alumno5',
           'Alumno6', 'Alumno7', 'Alumno8', 'Alumno9', 'Alumno10']

alumnos_aleatorios = np.random.permutation(alumnos)

print(alumnos_aleatorios)

['Alumno9' 'Alumno2' 'Alumno6' 'Alumno1' 'Alumno8' 'Alumno3' 'Alumno10'
 'Alumno5' 'Alumno4' 'Alumno7']


Si queremos replicar los resultados aleatorios, debemos fijar una semilla, lo que nos permitirá que el proceso sea reproducible.

### ¿Por qué es útil esto?

- Simulaciones: Imagina que estás simulando el lanzamiento de un dado 100 veces. Puedes usar np.random.randint() para simularlo rápidamente.

- Generación de datos ficticios: Si necesitas crear datos para practicar o probar un modelo, Numpy facilita la generación de números aleatorios que siguen patrones específicos (distribución normal, uniforme, etc.).

- Pruebas y experimentos: En muchos experimentos, es útil generar datos aleatorios para probar hipótesis o ver cómo un sistema responde a entradas no predecibles.

Numpy no solo genera números aleatorios, sino que te permite hacerlo de forma eficiente y en diferentes formas (arrays, matrices, distribuciones específicas). Esto es increíblemente útil cuando trabajamos con datos o simulaciones.

### Funciones estadisticas

Numpy nos permite calcular estadísticas sobre uestros datos, lo cual es útil para poder tener un mejor entendimiento de estos. A continuación veremos las más conocidas.

In [42]:
datos = np.random.normal(40, 10, 100)

print(f"Datos:\n{datos}\n")
print(f"Media de los datos: {np.mean(datos)}")
print(f"Suma de los datos: {np.sum(datos)}")
print(f"Minimo valor de los datos: {np.min(datos)}")
print(f"Maximo valor de los datos: {np.max(datos)}")
print(f"Mediana de los datos: {np.median(datos)}")
print(f"Percentil 75 de los datos: {np.percentile(datos, 75)}")
print(f"Desviacion estandard de los datos: {np.std(datos)}")

Datos:
[50.86970027 22.22650629 29.37891385 35.81459804 41.5310915  48.38971769
 30.5903184  55.28014028 23.52799622 44.88297604 53.42820914 48.39449733
 38.1056351  19.77786328 35.17687944 40.86646048 38.28101734 34.00339666
 35.19488316 41.56737249 33.01807004 32.63258005 30.80546027 54.11020166
 25.36411485 39.34515539 39.38427004 54.00601103 38.83371069 54.73471576
 43.21114458 40.33390482 33.7635396  43.4079683  57.23322365 28.67031472
 30.0073607  33.50730518 52.146435   41.17462977 36.67467475 42.07695086
 48.13835674 30.21941479 31.36388355 37.89825563 45.28653588 30.54911083
 54.83949218 35.11588942 35.16744401 40.23038073 38.42627778 25.19774435
 35.47832529 26.48471826 43.95002919 28.3716562  40.23012958 32.24973048
 32.67900492 36.86616689 30.90756619 59.39725226 45.40915515 39.21659937
 39.92227086 43.69812211 32.16841712 35.17476224 47.15637609 36.5861889
 33.3455125  45.15708005 36.7774698  45.65978263 38.15382457 46.25578597
 46.57309196 37.24512608 24.72476879 39.53502

In [43]:
datos = np.array([[1,2,3],[4,5,6]])

print(f"Datos:\n{datos}\n")
print(f"Media de los datos: {np.mean(datos)}")
print(f"Suma de los datos: {np.sum(datos)}")
print(f"Minimo valor de los datos: {np.min(datos)}")
print(f"Maximo valor de los datos: {np.max(datos)}")
print(f"Mediana de los datos: {np.median(datos)}")
print(f"Percentil 75 de los datos: {np.percentile(datos, 75)}")
print(f"Desviacion estandard de los datos: {np.std(datos)}")

Datos:
[[1 2 3]
 [4 5 6]]

Media de los datos: 3.5
Suma de los datos: 21
Minimo valor de los datos: 1
Maximo valor de los datos: 6
Mediana de los datos: 3.5
Percentil 75 de los datos: 4.75
Desviacion estandard de los datos: 1.707825127659933


Vamos a complicar los cálculos un poco añaniendo valores nulos. Si tenemos valores nulos, Python no sabrá cálcular el máximo, ni minimo por ejemplo.
En estas situaciones hay que decirle que lo calcule obviando los valores nulos

In [44]:
# Vamos a complicar esto un poco añadiendo valores nulos.
# Veremos un ejemplo calculando el maximo


datos = np.array([[1,2,3],[4,5,np.nan]])

print(f"Datos:\n{datos}\n")

print(f"Maximo valor de los datos: {np.max(datos)}") #! Esto dara como resultado un nan

# Alternativas para lidiar con valores nulos
print(f"Maximo valor de los datos: {np.max(datos, where = ~np.isnan(datos), initial=-np.inf)}")
print(f"Maximo valor de los datos: {np.nanmax(datos)}")
print(f"Maximo valor de los datos: {np.max(datos[~np.isnan(datos)])}") #! Esta forma fallara si queremos hacer los calculos en un eje

Datos:
[[ 1.  2.  3.]
 [ 4.  5. nan]]

Maximo valor de los datos: nan
Maximo valor de los datos: 5.0
Maximo valor de los datos: 5.0
Maximo valor de los datos: 5.0


*Ejercicio:*

Vamos a simular tiradas del Catan para ver que números son más favorables. Una tirada consiste en lanzar 2 dados y sumar los resultados. Haz una simulación de 1.000 tiradas y mira que valores son más probables.

In [60]:
## Solución
# Simulamos las tiradas
tiradas = np.random.randint(low = 1, high = 7, size = (2, 1000))
# Sumamos los dados
suma_dados = np.sum(tiradas, axis = 0)
# Contamos el numero de veces que aparece cada resultado
unique, counts = np.unique(suma_dados, return_counts=True)
dict(zip(unique, counts))

{2: 31,
 3: 51,
 4: 90,
 5: 124,
 6: 119,
 7: 167,
 8: 129,
 9: 120,
 10: 86,
 11: 58,
 12: 25}