# Introducción a NumPy

¿Qué es NumPy y para qué sirve?

- NumPy (Numerical Python) es una biblioteca fundamental en Python para trabajar con datos numéricos. 
- Permite crear y manipular arrays multidimensionales, que son estructuras similares a listas pero mucho más eficientes para cálculos matemáticos y científicos.

¿Por qué enseñamos NumPy en este curso?

- Es esencial para análisis de datos, ya que muchas otras bibliotecas populares como Pandas, SciPy y TensorFlow se construyen sobre NumPy.
- Facilita operaciones complejas como álgebra lineal, estadística y transformaciones de datos.
- En resumen, NumPy es la base para trabajar con datos numéricos en Python, y su aprendizaje es clave para progresar en el análisis de datos.

La principal característica de NumPy es el objeto de matriz, llamado array o ndarray (abreviatura de "n-dimensional array" o "matriz n-dimensional"). Las matrices NumPy pueden tener hasta N dimensiones y contienen elementos del mismo tipo de datos, lo que permite un cálculo rápido y eficiente.

## ¿Qué es un array?
Un array, también conocido como matriz, es una estructura de datos que permite almacenar una colección de elementos del mismo tipo. En un array, los elementos están dispuestos en una secuencia ordenada y se accede a ellos mediante un índice. Al igual que hacíamos en listas, la indexación comienza en 0.

### Tipos de Arrays por Dimensión

*   **Unidimensional (1D)**: Una secuencia lineal de elementos, similar a una lista.
*   **Bidimensional (2D)**: Organizado en filas y columnas, como una tabla o matriz.
*   **Tridimensional (3D)**: Con tres índices para acceder a los elementos, útil para datos más complejos como volúmenes.

### Creación a partir de Listas

Es una de las formas más comunes de crear arrays.



In [1]:
import numpy as np

In [4]:
# Crear un array unidimensional desde una lista
lista1 = [34, 56, 71, 98, 10]
array1D = np.array(lista1)

In [5]:
array1D

array([34, 56, 71, 98, 10])

In [6]:
type(array1D)

numpy.ndarray

In [7]:
type(lista1)

list

In [8]:
# Crear un array bidimensional desde una lista de listas
lista2 = [[23, 45, 89, 56], [12, 43, 82, 44]]
array2D = np.array(lista2)

In [9]:
array2D

array([[23, 45, 89, 56],
       [12, 43, 82, 44]])

In [10]:
type(array2D)

numpy.ndarray

In [11]:
# Array Tridimensional desde una lista de listas de listas
lista_3d = [[[2, 4, 6, 3, 7, 8, 9],[2, 4, 6, 3, 7, 8, 9]], [[2, 4, 6, 3, 7, 8, 9],[2, 4, 6, 3, 7, 8, 9]]]
array_3d = np.array(lista_3d)
print(f"Array Tridimensional:\n{array_3d}\n")

Array Tridimensional:
[[[2 4 6 3 7 8 9]
  [2 4 6 3 7 8 9]]

 [[2 4 6 3 7 8 9]
  [2 4 6 3 7 8 9]]]





### Arrays con Valores Secuenciales (`np.arange`)

Funciona de forma similar al `range()` de Python, pero devuelve un array unidimensional por defecto.



In [12]:
# Array con valores del 0 al 4 (exclusivo)
array_arange = np.arange(5)
print(f"Array arange(5):\n{array_arange}\n") #

Array arange(5):
[0 1 2 3 4]



In [13]:
array_arange

array([0, 1, 2, 3, 4])

In [14]:
print(array_arange)

[0 1 2 3 4]


In [15]:
# Array con valores del 1 al 10 (exclusivo), con pasos de 2
array_arange_step = np.arange(1, 10, 2)
print(f"Array arange(1, 10, 2):\n{array_arange_step}\n") #

Array arange(1, 10, 2):
[1 3 5 7 9]





### Propiedades de un Array

NumPy ofrece métodos para entender las propiedades de un array.
*   `.shape`: Tupla que representa la forma (dimensiones) del array.
*   `.ndim`: Número de dimensiones del array.
*   `.size`: Número total de elementos en el array.
*   `.dtype`: Tipo de datos de los elementos del array.



In [16]:
array2D

array([[23, 45, 89, 56],
       [12, 43, 82, 44]])

In [19]:
# Propiedades del array > No llevan paréntesis
print("Número de dimensiones (ndim):", array2D.ndim) # 2 dimensiones
print("Forma (shape):", array2D.shape) # 2 filas y 4 columnas
print("Tamaño total (size):", array2D.size) # número de elementos 
print("Tipo de datos (dtype):", array2D.dtype) # tipo de dato

Número de dimensiones (ndim): 2
Forma (shape): (2, 4)
Tamaño total (size): 8
Tipo de datos (dtype): int64




### Arrays con Números Aleatorios (`np.random`)

El módulo `np.random` ofrece funciones para generar números aleatorios con distintas distribuciones.
*   `np.random.randint(low, high, size)`: Enteros aleatorios en un rango.


In [25]:
# Crear arrays con valores aleatorios
array_aleatorio1 = np.random.randint(7) # crea un valor aleatorio entre 0 (inclusive) y 7 (exclusivo)
print("Array aleatorio:\n", array_aleatorio1)

Array aleatorio:
 0


In [26]:
type(array_aleatorio1)

int

In [29]:
# Crear arrays con valores aleatorios
array_aleatorio2 = np.random.randint(20, 40, size=(4, 3)) # sintaxis (low, high, size, dtype)
print("Array aleatorio:\n", array_aleatorio2)
# Crea array con valores aleatorios de 20 (incl) a 40 (excl) con 4 filas y 3 columnas

Array aleatorio:
 [[28 26 24]
 [35 23 38]
 [30 32 38]
 [23 32 21]]


# Indexación en Arrays

---

La indexación se utiliza para acceder a elementos individuales o grupos de elementos en un array, similar a las listas en Python (los índices comienzan en 0).



In [30]:
array1D

array([34, 56, 71, 98, 10])

In [32]:
array2D

array([[23, 45, 89, 56],
       [12, 43, 82, 44]])

In [31]:
# Acceso a elementos en arrays 1D y 2D
print("Primer elemento del array1D:", array1D[0])
print("Elemento (2, 3) del array2D:", array2D[1, 2])  # Fila 2, Columna 3

Primer elemento del array1D: 34
Elemento (2, 3) del array2D: 82


In [33]:
# Otra manera de hacer la indexación en arrays bidimensionales 
array2D[1][2]

82

In [None]:
array2D[2][3] # No tenemos fila 2, solo tenemos filas de 0 a 1

IndexError: index 2 is out of bounds for axis 0 with size 2

In [35]:
array2D[1, 2] == array2D[1][2]

True

In [37]:
array1D

array([34, 56, 71, 98, 10])

In [36]:
array2D

array([[23, 45, 89, 56],
       [12, 43, 82, 44]])

In [None]:
# Indexación en arrays (Slicing)
print("Primeros tres elementos de array1D:", array1D[:3])
print("Primera fila de array2D:", array2D[0, :])
print("Primera columna de array2D:", array2D[:, 0])

Primeros tres elementos de array1D: [34 56 71]
Primera fila de array2D: [23 45 89 56]
Primera columna de array2D: [23 12]


In [39]:
array2D

array([[23, 45, 89, 56],
       [12, 43, 82, 44]])

In [None]:
# array[start:stop:step, start:stop:step] -> Fila, columna
# Sacar los elementos 45, 89 y 43, 82
array2D[:, 1:3] # de todas las filas, las columnas de 1 (inc) hasta 3 (excl)

array([[45, 89],
       [43, 82]])

In [41]:
array2D[:, 1:] # todas las filas, de la columna 1 hasta el final

array([[45, 89, 56],
       [43, 82, 44]])

In [42]:
# Mismo resultado que la celda anterior
array2D[:, -3:]

array([[45, 89, 56],
       [43, 82, 44]])

In [44]:
array2D

array([[23, 45, 89, 56],
       [12, 43, 82, 44]])

In [43]:
array2D[:, ::2] # todas las filas, todas las columnas, en pasos de 2 

array([[23, 89],
       [12, 82]])

In [45]:
array2D[:, ::3] # todas las filas, todas las columnas, en pasos de 3

array([[23, 56],
       [12, 44]])

In [46]:
array2D[:, ::-1] # todas las filas, todas las columnas, en pasos de -1

array([[56, 89, 45, 23],
       [44, 82, 43, 12]])

# Filtrados en Arrays

In [47]:
array2D

array([[23, 45, 89, 56],
       [12, 43, 82, 44]])

In [48]:
array2D > 30

array([[False,  True,  True,  True],
       [False,  True,  True,  True]])

In [49]:
# El primer paso para filtrar un array es crear una máscara booleana
mascara = array2D > 30
mascara 

array([[False,  True,  True,  True],
       [False,  True,  True,  True]])

In [51]:
type(mascara)

numpy.ndarray

In [50]:
mascara.dtype

dtype('bool')

In [53]:
array2D

array([[23, 45, 89, 56],
       [12, 43, 82, 44]])

In [52]:
# El segundo paso es aplicar la máscara creada
array2D[mascara] # devuelve un array de 1 dimension porque se ha cambiado la forma original del array al aplicar la máscara

array([45, 89, 56, 43, 82, 44])

In [54]:
# Esto es lo mismo:
array2D[array2D > 30] 

array([45, 89, 56, 43, 82, 44])

In [55]:
array2D_2 = np.array([[23, 45, 89, 56], [12, 43, 82, 45]])
array2D_2

array([[23, 45, 89, 56],
       [12, 43, 82, 45]])

In [56]:
array2D

array([[23, 45, 89, 56],
       [12, 43, 82, 44]])

In [57]:
array2D == array2D_2

array([[ True,  True,  True,  True],
       [ True,  True,  True, False]])

In [None]:
# Seleccionar valores basados en dos condiciones
# Operador `&` para indicar que queremos que se cumplan las dos condiciones => `and`
# Operador `|` para indicar que se cumpla una condición u otra => `or`

In [58]:
array1D

array([34, 56, 71, 98, 10])

In [59]:
71 in array1D

True

In [60]:
50 in array1D

False

In [61]:
(71 in array1D) & (98 in array1D)

True

In [62]:
(71 in array1D) & (99 in array1D)

False

In [63]:
(71 in array1D) | (99 in array1D)

True

In [64]:
array2D

array([[23, 45, 89, 56],
       [12, 43, 82, 44]])

In [None]:
mascara = (array2D > 30) & (array2D < 60)
print("Valores entre 30 y 60:\n", array2D[mascara])

Valores entre 30 y 60:
 [45 56 43 44]


In [66]:
mascara = (array2D == 23) | (array2D > 80)
print(array2D[mascara])

[23 89 82]


## Filtrado con `np.where()`

`np.where(condición, valor_si_verdadero, valor_si_falso)`: Evalúa una condición y devuelve valores según sea verdadera o falsa. También puede devolver los índices de los elementos que cumplen la condición.

In [None]:
# Realiza una evaluación condicional sobre un array. 
# La función `np.where()` devuelve un nuevo array con los elementos seleccionados según la condición especificada.
# Sintaxis: np.where(condición, valor_si_verdadero, valor_si_falso)

In [67]:
array2D

array([[23, 45, 89, 56],
       [12, 43, 82, 44]])

In [68]:
# Índices con condiciones
indices_mayores = np.where(array2D > 50)
print("Índices donde los valores son mayores a 50:", indices_mayores)

Índices donde los valores son mayores a 50: (array([0, 0, 1]), array([2, 3, 2]))


In [69]:
# El primer array contiene los indices de las filas
# El segundo array contiene los indices de las columnas
indices_mayores

(array([0, 0, 1]), array([2, 3, 2]))

In [None]:
# Si combinamos las filas con las columnas:
# 0, 2 -> 89
# 0, 3 -> 56
# 1, 2 -> 82
# Hasta aquí hemos entendido como funciona el np.where(), ahora veremos ejemplos prácticos usando los demás parámetros.

In [72]:
array2D

array([[23, 45, 89, 56],
       [12, 43, 82, 44]])

In [70]:
# Índices con condición asignando valores según se cumpla o no
indices_mayores1 = np.where(array2D > 50, array2D, 0) # Si se cumple, mantiene el valor original, si no, cero.
indices_mayores1

array([[ 0,  0, 89, 56],
       [ 0,  0, 82,  0]])

In [73]:
indices_mayores2 = np.where(array2D > 50, array2D, 'NO')
indices_mayores2 # Cuidado con el cambio del tipo de datos, acordaros que un array solo puede tener datos del mismo tipo. 

array([['NO', 'NO', '89', '56'],
       ['NO', 'NO', '82', 'NO']], dtype='<U21')

In [74]:
indices_mayores2.dtype

dtype('<U21')

In [76]:
array2D

array([[23, 45, 89, 56],
       [12, 43, 82, 44]])

In [None]:
np.where(array2D > 60, "a", np.where(array2D > 40, "b", "c")) 

array([['c', 'b', 'a', 'b'],
       ['c', 'b', 'a', 'b']], dtype='<U1')

In [None]:
# Situación práctica: Cuando veamos Pandas el np.where es una forma muy rapida de modificar datos, lo podemos utilizar con pandas

# Operaciones Aritméticas con arrays

NumPy permite realizar operaciones aritméticas elemento por elemento entre arrays o con escalares.



In [77]:
# Operaciones entre arrays
array2 = np.random.randint(10, 50, size=(2, 4))
array2

array([[29, 25, 27, 42],
       [37, 25, 21, 33]])

In [78]:
array2D

array([[23, 45, 89, 56],
       [12, 43, 82, 44]])

In [79]:
suma = array2D + array2
suma

array([[ 52,  70, 116,  98],
       [ 49,  68, 103,  77]])

In [80]:
array2D + array2

array([[ 52,  70, 116,  98],
       [ 49,  68, 103,  77]])

In [81]:
np.add(array2, array2D)

array([[ 52,  70, 116,  98],
       [ 49,  68, 103,  77]])

In [82]:
resta = array2D - array2
resta

array([[ -6,  20,  62,  14],
       [-25,  18,  61,  11]])

In [83]:
np.subtract(array2D, array2)

array([[ -6,  20,  62,  14],
       [-25,  18,  61,  11]])

In [84]:
mult = array2D * array2
mult

array([[ 667, 1125, 2403, 2352],
       [ 444, 1075, 1722, 1452]])

In [85]:
np.multiply(array2D, array2)

array([[ 667, 1125, 2403, 2352],
       [ 444, 1075, 1722, 1452]])

In [86]:
div = array2D / array2
div

array([[0.79310345, 1.8       , 3.2962963 , 1.33333333],
       [0.32432432, 1.72      , 3.9047619 , 1.33333333]])

In [87]:
np.divide(array2D, array2)


array([[0.79310345, 1.8       , 3.2962963 , 1.33333333],
       [0.32432432, 1.72      , 3.9047619 , 1.33333333]])

### Redondeo (`np.round()`)

Permite redondear los valores de los elementos de un array a una cantidad específica de decimales.

In [88]:
redond = np.round(div, 4)
redond

array([[0.7931, 1.8   , 3.2963, 1.3333],
       [0.3243, 1.72  , 3.9048, 1.3333]])

In [89]:
redondear = div.round(decimals=4)
redondear

array([[0.7931, 1.8   , 3.2963, 1.3333],
       [0.3243, 1.72  , 3.9048, 1.3333]])

In [90]:
redondear1 = div.round(decimals=2)
redondear1

array([[0.79, 1.8 , 3.3 , 1.33],
       [0.32, 1.72, 3.9 , 1.33]])

In [91]:
redondear2 = div.round()
redondear2

array([[1., 2., 3., 1.],
       [0., 2., 4., 1.]])

In [92]:
redondear2.dtype

dtype('float64')

In [93]:
div1 = array2D // array2 # división entera
div1

array([[0, 1, 3, 1],
       [0, 1, 3, 1]])

In [94]:
potencia = np.power(array2D, 2) # Potencia de 2 para cada elemento
potencia

array([[ 529, 2025, 7921, 3136],
       [ 144, 1849, 6724, 1936]])

In [95]:
array3 = np.random.randint(10, 50, size=(4, 3))
array3

array([[29, 11, 34],
       [35, 40, 31],
       [22, 42, 35],
       [21, 24, 34]])

In [96]:
array2D

array([[23, 45, 89, 56],
       [12, 43, 82, 44]])

In [None]:
suma = array3 + array2D
suma # No podemos realizar operaciones con arrays de distintas dimensiones!!

ValueError: operands could not be broadcast together with shapes (4,3) (2,4) 

In [98]:
array2D

array([[23, 45, 89, 56],
       [12, 43, 82, 44]])

In [99]:
escalar = 10
# un escalar es simplemente un número (como un entero o un flotante) que se puede usar en operaciones matemáticas, 
# ya sea por sí solo o aplicado a cada elemento de un array o matriz. Por ejemplo, en NumPy, multiplicar un array 
# por un escalar significa multiplicar todos los elementos del array por ese número.
print("Array multiplicado por 10:\n", array2D * escalar)

Array multiplicado por 10:
 [[230 450 890 560]
 [120 430 820 440]]


In [101]:
# Ejemplo practico con escalar
precio_unitario = np.array([2, 4, 5, 7, 10])
precio_unitario

array([ 2,  4,  5,  7, 10])

In [102]:
escalar = 2 # Aumentar el precio de los productos en 2€
precio_unitario + escalar

array([ 4,  6,  7,  9, 12])

In [103]:
escalar = 0.5 # Descuento de 50% para black friday
precio_unitario * escalar

array([1. , 2. , 2.5, 3.5, 5. ])

In [104]:
# Ejemplo práctico para multiplicar matrices
unidadades_pedidas = np.array([2, 3, 4, 1, 4])
precio_unitario = np.array([2.5, 1, 2, 5, 3])
unidadades_pedidas * precio_unitario

array([ 5.,  3.,  8.,  5., 12.])

# Cálculos Estadísticos básicos

NumPy ofrece una amplia gama de funciones para realizar cálculos de manera eficiente.


In [105]:
array2D

array([[23, 45, 89, 56],
       [12, 43, 82, 44]])

In [None]:
np.sum(array2D)

394

In [107]:
array2D.sum()

394

In [108]:
array2D.size


8

In [109]:
array2D.sum()/array2D.size

49.25

In [110]:
np.mean(array2D)


49.25

In [111]:
array2D.mean()


49.25

In [112]:
array2D

array([[23, 45, 89, 56],
       [12, 43, 82, 44]])

In [113]:
np.min(array2D) # lo mismo que array2D.min()

12

In [114]:
np.max(array2D) # lo mismo que array2D.max()


89


### Operaciones Estadísticas

Calculo de medidas estadísticas sobre todo el array o a lo largo de un eje (`axis`).
*   `axis = 0`: por columnas.
*   `axis = 1`: por filas.

In [115]:
array2D

array([[23, 45, 89, 56],
       [12, 43, 82, 44]])

In [116]:
# Máximo de cada fila
array2D.max(axis=1)

array([89, 82])

In [117]:
# Máximo de cada columna
array2D.max(axis=0)

array([23, 45, 89, 56])

In [118]:
# Mínimo de cada fila
array2D.min(axis=1)

array([23, 12])

In [119]:
# Mínimo de cada columna
array2D.min(axis=0)

array([12, 43, 82, 44])

In [120]:
array2D.sum(axis=1) # Suma de cada fila


array([213, 181])

In [121]:
array2D.sum(axis=0) # Suma de cada columna


array([ 35,  88, 171, 100])

In [122]:
array2D.mean(axis=0) # Média por columna


array([17.5, 44. , 85.5, 50. ])

In [123]:
array2D.mean(axis=1) # Média por fila


array([53.25, 45.25])


---

## 4. Otros Métodos Esenciales de Manipulación 

### Ordenamiento (`np.sort()`)

Devuelve una copia ordenada del array. Por defecto, ordena por filas (`axis=1`). Se puede especificar `axis=0` para ordenar por columnas.



In [124]:
array2D

array([[23, 45, 89, 56],
       [12, 43, 82, 44]])

In [125]:
ordenado = np.sort(array2D) # Por defecto ordena por filas
ordenado

array([[23, 45, 56, 89],
       [12, 43, 44, 82]])

In [126]:
ordenado1 = np.sort(array2D, axis=0) # axis=0 para ordenar por columnas
ordenado1

array([[12, 43, 82, 44],
       [23, 45, 89, 56]])

In [127]:
# En ambos casos hemos ordenado de menor a mayor, como hacemos para ordenar de mayor a menor?
ordenado # array ordenado de menor a mayor

array([[23, 45, 56, 89],
       [12, 43, 44, 82]])

In [128]:
# Primero le ordenamos y luego le damos la vuelta
ordenado[:, ::-1] # todas las filas, todas las columnas, en pasos de -1

array([[89, 56, 45, 23],
       [82, 44, 43, 12]])



### Cambio de Forma (`np.reshape()`)

Permite reorganizar los elementos de un array en una nueva forma sin cambiar los datos subyacentes.



In [129]:
# Reshape: método que cambia la forma de un array sin cambiar sus datos
a = np.arange(1, 7) 
a

array([1, 2, 3, 4, 5, 6])

In [131]:
a.shape

(6,)

In [132]:
reshape_a = np.reshape(a, (2, 3))
reshape_a

array([[1, 2, 3],
       [4, 5, 6]])

In [133]:
reshape_a.shape

(2, 3)

In [134]:
reshape_a2 = np.reshape(a, (3, 2))
reshape_a2

array([[1, 2],
       [3, 4],
       [5, 6]])

In [135]:
reshape_a2.shape

(3, 2)

In [136]:
reshape_a3 = reshape_a2.reshape(2, 3)
reshape_a3

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
# El número de elementos tiene que coincidir con la forma del array!!!
reshape_a4 = reshape_a3.reshape(4, 2) 
reshape_a4

ValueError: cannot reshape array of size 6 into shape (4,2)



### Aplanamiento (`np.flatten()`)

Convierte un array multidimensional en un array unidimensional, colocando todos los elementos en una sola dimensión.



In [138]:
# Flatten: convierte un array multidimensional en un array unidimensional: aplana el array
reshape_a3

array([[1, 2, 3],
       [4, 5, 6]])

In [139]:
reshape_a3.flatten()

array([1, 2, 3, 4, 5, 6])

In [None]:
# Al convertir un array multidimensional en un array unidimensional, se puede acceder a todos los elementos de manera secuencial, 
# lo que facilita su procesamiento mediante operaciones de iteración, filtrado, ordenamiento u otras manipulaciones de datos.