TRABAJANDO CON ARRAYs DE NumPy

NumPy es el paquete más fundamental para la computación científica en Python y es la base para 
muchos otros paquetes. Dado que Python no fue inicialmente diseñado para la computación numérica, 
esta necesidad surgió a finales de los años 90, cuando Python comenzó a hacerse popular entre 
ingenieros y programadores que necesitaban operaciones vectoriales más rápidas. 

Para la computación numérica, principalmente trabajas con vectores y matrices. Puedes manipularlos 
de diferentes maneras utilizando una variedad de funciones matemáticas. NumPy es una solución 
perfecta para este tipo de situaciones, ya que permite a los usuarios realizar sus cálculos de 
manera eficiente. Aunque las listas en Python son muy fáciles de crear y manipular, no soportan 
operaciones vectorizadas. Python no tiene elementos de tipo fijo en las listas y, por ejemplo, el 
bucle for no es muy eficiente porque en cada iteración se necesita verificar el tipo de dato. En 
cambio, en los arrays de NumPy, el tipo de dato es fijo y también soporta operaciones vectorizadas. 
NumPy no solo es más eficiente en operaciones de arrays multidimensionales en comparación con las 
listas de Python; también proporciona muchos métodos matemáticos que puedes aplicar tan pronto como 
se importa. NumPy es una biblioteca central para el stack de ciencia de datos científica en Python.

INTRODUCCIO A LOS VECTORES Y MATRICES

Una matriz es un grupo de números o elementos que están dispuestos en un arreglo rectangular. Las filas y columnas de la matriz suelen estar indexadas por letras. Para una matriz de n x m, n representa el número de filas y m representa el número de columnas.

No te preocupes si no entendiste la notación. El siguiente ejemplo hará las cosas más claras. Tienes las matrices X e Y y el objetivo es obtener el producto matricial de estas matrices:

Puedes verificar los resultados fácilmente con las siguientes cuatro líneas de código:

In [1]:
import numpy as np

x = np.array([[1,0,4],[3,3,1]])
y = np.array([[2,5],[1,1],[3,2]])
x.dot(y)

# x es una matriz de 2 x 3
# y es una matriz de 3 x 2

# La operación x.dot(y) calcula el producto matricial de 'x' e 'y'
# Donde para multiplicar dos matrices el numero de columna de la primera matriz
# debe ser igual al número de filas de la segunda matriz


array([[14, 13],
       [12, 20]])

CONCEPTOS BÁSICOS DE LOS OBJETOS arrays de NumPy

ndarrays:
Se refiere a un tipo de objeto proporcionado por la biblioteca NumPy, que representa matrices o arrays multidimensionales. La abreviatura "nd" significa "n-dimensional". Los ndarrays son fundamentales en NumPy y son utilizados para almacenar datos de manera eficiente en memoria y realizar operaciones matemáticas rápidas en ellos.

Todos los elementos del ndarray son homogéneos y usan el mismo tamaño en memoria. Comencemos importando NumPy y analizando la estructura de un objeto array de NumPy creando el array. Puedes importar esta biblioteca fácilmente escribiendo la siguiente instrucción en tu consola. Puedes usar cualquier convención de nombres en lugar de np, pero en este libro se usará np, ya que es la convención estándar. Vamos a crear un array simple y explicar qué contienen los atributos que Python maneja detrás de escena como metadatos del array creado, los llamados atributos:

In [15]:
import numpy as np
x = np.array([[1,2,3],[4,5,6]])
print("Creamos un: ", type(x))
print("Nuestra plantilla tiene forma de: " ,x.shape)
print("Total de elemento del arrelo es: ",x.size)
print("La dimension del arrego es de: " ,x.ndim)
print("Los datos son de tipo: ",x.dtype)
print("Consume: ",x.nbytes,"bytes")
x



Creamos un:  <class 'numpy.ndarray'>
Nuestra plantilla tiene forma de:  (2, 3)
Total de elemento del arrelo es:  6
La dimension del arrego es de:  2
Los datos son de tipo:  int32
Consume:  24 bytes


array([[1, 2, 3],
       [4, 5, 6]])

Vamos a cambiar el tipo de datos por 'float', 'complex' o 'uint' (entero sin signo). Para ver qué efecto tiene el cambio de tipo de dato, analicemos el consumo de bytes, que se muestra como sigue:

In [33]:
import numpy as np

x = np.array([[1,2,3],[4,5,6]], dtype = np.float64)
print(f"Arreglo de float:\n {x}")

print(f"Consume: {x.nbytes}")
print()

y = np.array([[1,2,3],[4,5,6]], dtype = np.complex64)
print(f"Arreglo complex:\n {y}")

print(f"Consume: {y.nbytes}")
print()

z = np.array([[1,2,3],[4,-5,6]], dtype = np.uint32)
print(f"Arreglo de enteros sin signos:\n {z}")

print(f"Consume: {z.nbytes}")
print()

Arreglo de float:
 [[1. 2. 3.]
 [4. 5. 6.]]
Consume: 48

Arreglo complex:
 [[1.+0.j 2.+0.j 3.+0.j]
 [4.+0.j 5.+0.j 6.+0.j]]
Consume: 48

Arreglo de enteros sin signos:
 [[         1          2          3]
 [         4 4294967291          6]]
Consume: 24



For the old behavior, usually:
    np.array(value).astype(dtype)
will give the desired result (the cast overflows).
  z = np.array([[1,2,3],[4,-5,6]], dtype = np.uint32)


Como puedes ver, cada tipo consume un número diferente de bytes.
Imagina que tienes una matriz como la siguiente y que estás usando int64 o int32 como tipo de dato:

In [34]:
import numpy as np

x = np.array([[1,2,3],[4,5,6]], dtype = np.int64)
print("int64 consumes",x.nbytes, "bytes")

y = np.array([[1,2,3],[4,5,6]], dtype = np.int32)
print("int32 consumes",y.nbytes, "bytes")


int64 consumes 48 bytes
int32 consumes 24 bytes


El consumo de memoria se duplica si usas int64. Hazte esta pregunta: ¿qué tipo de dato sería suficiente? Si tus números están por encima de 2,147,483,648 y por debajo de -2,147,483,647, usar int32 es suficiente. Imagina que tienes un array enorme con un tamaño superior a 100 MB. En esos casos, esta conversión juega un papel crucial en el rendimiento.

Como habrás notado en el ejemplo anterior, al cambiar los tipos de datos, estabas creando un nuevo array cada vez. Técnicamente, no puedes cambiar el `dtype` después de haber creado el array. Sin embargo, lo que puedes hacer es crearlo de nuevo o copiar el existente con un nuevo `dtype` utilizando el atributo `astype`. Vamos a crear una copia del array con el nuevo `dtype`. Aquí tienes un ejemplo de cómo también puedes cambiar tu `dtype` con el atributo `astype`:

In [40]:
import numpy as np

x_copy = np.array(x, dtype = np.float64)
print(f"Arreglo 'x_copy' float64:\n{x_copy}")
print()
x_copy_int = x_copy.astype(np.int32)
print(f"'x_copy_int' que es el resultado 'int32' de 'x_copy' usando el atributo 'astype':\n{x_copy_int}")


Arreglo 'x_copy' float64:
[[1. 2. 3.]
 [4. 5. 6.]]

'x_copy_int' que es el resultado 'int32' de 'x_copy' usando el atributo 'astype':
[[1 2 3]
 [4 5 6]]


Al usar 'astype' no se cambió el 'dtype' de 'xcopy', lo que creó a 'x_copy_int'

Imaginemos un caso donde trabajas en un grupo de investigación que intenta identificar y calcular los riesgos de un paciente individual que tiene cáncer. Tienes 100,000 registros (filas), donde cada fila representa a un paciente único, y cada paciente tiene 100 características (resultados de algunas pruebas). Como resultado, tienes arrays de dimensiones (100000, 100):

In [44]:
import numpy as np

Data_Cancer= np.random.rand(100000,100)
# Genera una matriz con números aleatorios entre 'cero' y 'uno'
print(f"Tipo de dato: {type(Data_Cancer)}")
print(f"Tipo de dato de los elementos del arreglo: {Data_Cancer.dtype}")
print(f"Consumo con dtype= float64: {Data_Cancer.nbytes} ")
Data_Cancer_New = np.array(Data_Cancer, dtype = np.float32)
print(f"Consumo con dtype= float32: {Data_Cancer_New.nbytes} ")



Tipo de dato: <class 'numpy.ndarray'>
Tipo de dato de los elementos del arreglo: float64
Consumo con dtype= float64: 80000000 
Consumo con dtype= float32: 40000000 


Como puedes ver en el código anterior, su tamaño disminuye de 80 MB a 40 MB solo cambiando el dtype. A cambio, obtenemos menos precisión después del punto decimal. En lugar de ser preciso hasta 16 puntos decimales, solo tendrás 7 decimales. En algunos algoritmos de aprendizaje automático, la precisión puede ser insignificante. En tales casos, siéntete libre de ajustar tu dtype para minimizar el uso de memoria.

Operaiones con arays de Numpy

Esta sección te guiará a través de la creación y manipulación de datos numéricos con NumPy. Comencemos creando un array de NumPy a partir de una lista:

In [47]:
import numpy

my_list = [2, 14, 6, 8]
my_array = np.asarray(my_list)
type(my_array)


numpy.ndarray

Operaciones de Suma, Resta, Multiplicación y Division con valores escalares:

In [50]:
import numpy

print("Se realizan operaciones de suma, resta, multiplicación y división con el escalar '2'")

print(f"Suma: {my_array + 2}")

print(f"Resta: {my_array - 1}")

print(f"Multiplicación: {my_array * 2}")

print(f"División: {my_array / 2}")


Se realizan operaciones de suma, resta, multiplicación y división con el escalar '2'
Suma: [ 4 16  8 10]
Resta: [ 1 13  5  7]
Multiplicación: [ 4 28 12 16]
División: [1. 7. 3. 4.]


Es mucho más difícil realizar las mismas operaciones en una lista porque la lista no soporta operaciones vectorizadas y necesitas iterar sus elementos. Hay muchas formas de crear arrays en NumPy, y ahora utilizarás uno de estos métodos para crear un array lleno de ceros. Luego, realizarás algunas operaciones aritméticas para ver cómo NumPy se comporta en operaciones elemento a elemento entre dos arrays:

In [59]:
second_array = np.zeros(4) + 3

print("second_array = np.zeros(4) + 3")
print()

print(f"second_array = {second_array}")

print(f"my_array = {my_array}")

print(f"my_array - second_array = {my_array - second_array}")

print(f"second_array / my_array = {second_array / my_array}")


second_array = np.zeros(4) + 3

second_array = [3. 3. 3. 3.]
my_array = [ 2 14  6  8]
my_array - second_array = [-1. 11.  3.  5.]
second_array / my_array = [1.5        0.21428571 0.5        0.375     ]


Como hicimos en el código anterior, puedes crear un array lleno de unos con `np.ones` o un array identidad con `np.identity` y realizar las mismas operaciones algebraicas que hiciste anteriormente:

In [61]:
second_array = np.ones(4) + 3
print("second_array = np.ones(4) + 3")
print()
print(f"second_array = {second_array}")
print(f"my_array = {my_array}")
print(f"my_array - second_array = {my_array - second_array}")
print(f"second_array / my_array = {second_array / my_array}")

second_array = np.ones(4) + 3

second_array = [4. 4. 4. 4.]
my_array = [ 2 14  6  8]
my_array - second_array = [-2. 10.  2.  4.]
second_array / my_array = [2.         0.28571429 0.66666667 0.5       ]


Funciona como se espera con el método `np.ones`, pero cuando usas la matriz identidad, el cálculo devuelve un array de dimensiones (4,4) como sigue:

In [64]:
second_array = np.identity(4)
print("second_array = np.identity(4)")
print(f"second_array = {second_array}")
print()
second_array_1 = np.identity(4) + 3
print("second_array_1 = np.identity(4) + 3")
print(f"second_array_1 = {second_array_1}")
print()
print(f"my_array = {my_array}")
print(f"my_array - second_array_1 = {my_array - second_array_1}")

second_array = np.identity(4)
second_array = [[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]

second_array_1 = np.identity(4) + 3
second_array_1 = [[4. 3. 3. 3.]
 [3. 4. 3. 3.]
 [3. 3. 4. 3.]
 [3. 3. 3. 4.]]

my_array = [ 2 14  6  8]
my_array - second_array_1 = [[-2. 11.  3.  5.]
 [-1. 10.  3.  5.]
 [-1. 11.  2.  5.]
 [-1. 11.  3.  4.]]


Lo que hace esto es restar el primer elemento de `my_array` de todos los elementos de la primera columna de `second_array`, y el segundo elemento de la segunda columna, y así sucesivamente. La misma regla se aplica a la división también. Ten en cuenta que puedes realizar operaciones de arrays con éxito incluso si no tienen exactamente la misma forma. Más adelante en este capítulo, aprenderás sobre los errores de broadcasting cuando no se puede realizar una computación entre dos arrays debido a diferencias en sus formas:

In [65]:
second_array_1 / my_array

array([[2.        , 0.21428571, 0.5       , 0.375     ],
       [1.5       , 0.28571429, 0.5       , 0.375     ],
       [1.5       , 0.21428571, 0.66666667, 0.375     ],
       [1.5       , 0.21428571, 0.5       , 0.5       ]])

Uno de los métodos más útiles para crear arrays en NumPy es `arange`. Este método devuelve un array para un intervalo dado entre un valor de inicio y uno de fin. El primer argumento es el valor inicial de tu array, el segundo es el valor final (donde deja de crear valores), y el tercero es el intervalo. Opcionalmente, puedes definir el tipo de datos (`dtype`) como el cuarto argumento. Los valores de intervalo por defecto son de 1:

In [66]:
x = np.arange(3,7,0.5)
x

array([3. , 3.5, 4. , 4.5, 5. , 5.5, 6. , 6.5])

Hay otra forma de crear un array con intervalos fijos entre el punto de inicio y el punto de parada cuando no puedes decidir cuál debería ser el intervalo, pero sabes cuántas divisiones debería tener tu array:

In [67]:
x = np.linspace(1.2, 40.5, num=20)
x

array([ 1.2       ,  3.26842105,  5.33684211,  7.40526316,  9.47368421,
       11.54210526, 13.61052632, 15.67894737, 17.74736842, 19.81578947,
       21.88421053, 23.95263158, 26.02105263, 28.08947368, 30.15789474,
       32.22631579, 34.29473684, 36.36315789, 38.43157895, 40.5       ])

Hay dos métodos diferentes que son similares en su uso pero devuelven secuencias de números diferentes porque su escala base es distinta. Esto significa que la distribución de los números también será diferente. El primero es `geomspace`, que devuelve números en una escala logarítmica con una progresión geométrica:

In [68]:
np.geomspace(1, 625, num=5)

array([  1.,   5.,  25., 125., 625.])

El otro método importante es `logspace`, donde puedes obtener los valores para tus puntos de inicio y fin, los cuales están distribuidos uniformemente en:

In [69]:
np.logspace(3, 4, num=5)

array([ 1000.        ,  1778.27941004,  3162.27766017,  5623.4132519 ,
       10000.        ])

¿Qué significan estos argumentos? Si el punto de inicio es 3 y el punto final es 4, entonces estas funciones devuelven números que están mucho más altos que el rango inicial. De hecho, el punto de inicio se establece por defecto en 10** conienzo del argumento y el final se establece en 10** final del argumento. Así que técnicamente, en este ejemplo, el punto de inicio es 10**3 y el punto final es 10**4. Puedes evitar estas situaciones manteniendo tus puntos de inicio y fin como los mismos cuando los pongas como argumentos en el método. El truco es usar los logaritmos en base 10 de los argumentos dados.

In [70]:
np.logspace(np.log10(3) , np.log10(4) , num=5)

array([3.        , 3.2237098 , 3.46410162, 3.72241944, 4.        ])

Hasta ahora, deberías estar familiarizado con diferentes formas de crear arrays con diferentes distribuciones. También has aprendido cómo realizar algunas operaciones básicas con ellos. Continuemos con otras funciones útiles que definitivamente utilizarás en tu trabajo diario. La mayor parte del tiempo, tendrás que trabajar con múltiples arrays y necesitarás compararlos rápidamente. NumPy tiene una gran solución para este problema; puedes comparar los arrays como lo harías con dos enteros:

In [71]:
x = np.array([1,2,3,4])
y = np.array([1,3,4,4])
x == y

array([ True, False, False,  True])

La comparación se realiza elemento por elemento y devuelve un vector booleano que indica si los elementos coinciden o no en dos arrays diferentes. Este método funciona bien con arrays de tamaño pequeño y también proporciona más detalles. Puedes observar en el array de salida que los valores representados como False indican que esos valores indexados no coinciden en los dos arrays. Si tienes un array grande, también puedes optar por obtener una respuesta única a tu pregunta, si los elementos coinciden o no en dos arrays diferentes:

In [72]:
x = np.array([1,2,3,4])
y = np.array([1,3,4,4])
np.array_equal(x,y)

False

Aquí tienes una única salida booleana. Solo sabes que los arrays no son iguales, pero no sabes exactamente qué elementos no son iguales. La comparación no se limita únicamente a verificar si dos arrays son iguales o no. También puedes realizar una comparación elemento a elemento de mayor o menor entre dos arrays:

In [73]:
x = np.array([1,2,3,4])
y = np.array([1,3,4,4])
x<y

array([False,  True,  True, False])

Cuando necesitas hacer comparaciones lógicas (AND, OR, XOR), puedes usarlas en tus arrays de la siguiente manera:

In [76]:
x = np.array([0, 1, 0, 0], dtype=bool)
y = np.array([1, 1, 0, 1], dtype=bool)
print(np.logical_or(x,y))
print(np.logical_and(x,y))
x = np.array([12,16,57,11])
print(np.logical_or(x < 13, x > 50))

[ True  True False  True]
[False  True False False]
[ True False  True  True]


Hasta ahora se han cubierto operaciones algebraicas como la suma y la multiplicación. ¿Cómo podemos utilizar estas operaciones con funciones trascendentales como la función exponencial, los logaritmos o las funciones trigonométricas?

In [77]:
x = np.array([1, 2, 3,4 ])

print(np.exp(x))

print(np.log(x))

print(np.sin(x))


[ 2.71828183  7.3890561  20.08553692 54.59815003]
[0.         0.69314718 1.09861229 1.38629436]
[ 0.84147098  0.90929743  0.14112001 -0.7568025 ]


¿Y qué hay de la transposición de una matriz? Primero, utilizarás la función `reshape` con `arange` para establecer la forma deseada de la matriz:

In [86]:
x = np.arange(9)
print(f"x = {x}")
print()
print(f"np.arange(9).reshape((3, 3)) = {np.arange(9).reshape((3, 3))}")
print()
print(f"x.T = {x.T}")

x = [0 1 2 3 4 5 6 7 8]

np.arange(9).reshape((3, 3)) = [[0 1 2]
 [3 4 5]
 [6 7 8]]

x.T = [0 1 2 3 4 5 6 7 8]


Transpones el array de 3*3array, por lo que la forma no cambia porque ambas dimensiones son 3. Veamos qué sucede cuando no tienes un array cuadrado:

In [89]:
x = np.arange(6).reshape(2,3)
print("x = np.arange(6).reshape(2,3)")
print()
print(f"x = {x}")
print()
print(f"x.T = {x.T}")

x = np.arange(6).reshape(2,3)

x = [[0 1 2]
 [3 4 5]]

x.T = [[0 3]
 [1 4]
 [2 5]]


La transposición funciona como se esperaba y las dimensiones también se intercambian. También puedes obtener estadísticas resumidas de arrays, como la media, la mediana y la desviación estándar. 

El siguiente bloque de código proporciona un ejemplo de los métodos estadísticos anteriores de NumPy. Estos métodos son muy útiles ya que puedes operar los métodos en todo el array o por ejes según tus necesidades. Debes tener en cuenta que puedes encontrar implementaciones más completas y mejores de estos métodos en SciPy, ya que utiliza arrays multidimensionales de NumPy como estructura de datos:

In [92]:
x = np.arange(9).reshape((3,3))
print("x = np.arange(9).reshape((3,3))")
print(f"x = {x}")
print()
print(f"np.sum(x) = {np.sum(x)}")
print()
print(f"np.amin(x) = {np.amin(x)}")
print(f"np.amax(x) = {np.amax(x)}")
print()
print(f"np.amin(x, axis=0) = {np.amin(x, axis=0)}")
print()
print(f"np.amin(x, axis=1) = {np.amin(x, axis=1)}")
print()
print(f"np.percentile(x, 80) = {np.percentile(x, 80)}")


x = np.arange(9).reshape((3,3))
x = [[0 1 2]
 [3 4 5]
 [6 7 8]]

np.sum(x) = 36

np.amin(x) = 0
np.amax(x) = 8

np.amin(x, axis=0) = [0 1 2]

np.amin(x, axis=1) = [0 3 6]

np.percentile(x, 80) = 6.4


El argumento `axis` determina la dimensión en la que esta función operará. En este ejemplo, `axis=0` representa el primer eje, que es el eje x, y `axis=1` representa el segundo eje, que es el eje y. Cuando usamos `amin(x)` de manera regular, devolvemos un solo valor porque calcula el valor mínimo en todos los arrays, pero cuando especificamos el eje, empieza a evaluar la función por ejes y devuelve un array que muestra los resultados para cada fila o columna. Imagina que tienes un array grande; encuentras el valor máximo usando `amax`, pero ¿qué pasará si necesitas pasar el índice de este valor a otra función? En tales casos, `argmin` y `argmax` vienen al rescate, como se muestra en el siguiente fragmento de código:

In [94]:
x = np.array([1,-21,3,-3])
print("x = np.array([1,-21,3,-3])")
print()
print(f"np.argmax(x) = {np.argmax(x)}")
print()
print(f"np.argmin(x) = {np.argmin(x)}")


x = np.array([1,-21,3,-3])

np.argmax(x) = 2

np.argmin(x) = 1


El siguiente código proporciona más ejemplos de los métodos estadísticos anteriores de NumPy. Estos métodos se utilizan mucho en las fases de descubrimiento de datos, donde analizas las características y la distribución de tus datos:

In [96]:
x = np.array([[2, 3, 5], [20, 12, 4]])
print("x = np.array([[2, 3, 5], [20, 12, 4]])")
print()
print(f"np.mean(x) = {np.mean(x)}")
print()
print(f"np.mean(x, axis=0) = {np.mean(x, axis=0)}")
print()
print(f"np.mean(x, axis=1) = {np.mean(x, axis=1)}")
print()
print(f"np.median(x) = {np.median(x)}")
print()
print(f"np.std(x) = {np.std(x)}")

x = np.array([[2, 3, 5], [20, 12, 4]])

np.mean(x) = 7.666666666666667

np.mean(x, axis=0) = [11.   7.5  4.5]

np.mean(x, axis=1) = [ 3.33333333 12.        ]

np.median(x) = 4.5

np.std(x) = 6.394442031083626


TRABAJANDO CON ARREGLOS MULTIDIMENSIONALES

Esta sección te dará una comprensión breve de los arrays multidimensionales al revisar diferentes operaciones de matrices. Para realizar multiplicación de matrices en NumPy, debes usar `dot()` en lugar de `*`. Veamos algunos ejemplos:

In [97]:
c = np.ones((4, 4))
print("c = np.ones((4, 4))")
print()
print(f"c*c = {c*c}")
print()
print(f"c.dot(c) = {c.dot(c)}")


c = np.ones((4, 4))

c*c = [[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]

c.dot(c) = [[4. 4. 4. 4.]
 [4. 4. 4. 4.]
 [4. 4. 4. 4.]
 [4. 4. 4. 4.]]


El tema más importante al trabajar con arrays multidimensionales es el apilamiento, en otras palabras, cómo fusionar dos arrays. `hstack` se utiliza para apilar arrays horizontalmente (por columnas) y `vstack` se utiliza para apilar arrays verticalmente (por filas). También puedes dividir las columnas con los métodos `hsplit` y `vsplit` de la misma manera que los apilaste:

In [98]:
y = np.arange(15).reshape(3,5)
x = np.arange(10).reshape(2,5)
new_array = np.vstack((y,x))
print("y = np.arange(15).reshape(3,5)")
print("x = np.arange(10).reshape(2,5)")
print("new_array = np.vstack((y,x))")
print(f"y = {y}")
print(f"x = {x}")
print(f"new_array = {new_array}")
print()
y = np.arange(15).reshape(5,3)
x = np.arange(10).reshape(5,2)
new_array = np.hstack((y,x))
print("y = np.arange(15).reshape(5,3)")
print("x = np.arange(10).reshape(5,2)")
print("new_array = np.hstack((y,x))")
print(f"y = {y}")
print(f"x = {x}")
print(f"new_array = {new_array}")


y = np.arange(15).reshape(3,5)
x = np.arange(10).reshape(2,5)
new_array = np.vstack((y,x))
y = [[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
x = [[0 1 2 3 4]
 [5 6 7 8 9]]
new_array = [[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [ 0  1  2  3  4]
 [ 5  6  7  8  9]]

y = np.arange(15).reshape(5,3)
x = np.arange(10).reshape(5,2)
new_array = np.hstack((y,x))
y = [[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]
 [12 13 14]]
x = [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
new_array = [[ 0  1  2  0  1]
 [ 3  4  5  2  3]
 [ 6  7  8  4  5]
 [ 9 10 11  6  7]
 [12 13 14  8  9]]


Estos métodos son muy útiles en aplicaciones de aprendizaje automático, especialmente al crear conjuntos de datos. Después de apilar tus arrays, puedes verificar sus estadísticas descriptivas utilizando `Scipy.stats`. Imagina un caso en el que tienes 100 registros, y cada registro tiene 10 características, lo que significa que tienes una matriz 2D con 100 filas y 10 columnas. El siguiente ejemplo muestra cómo puedes obtener fácilmente algunas estadísticas descriptivas para cada característica:

In [101]:
import numpy as np
from scipy import stats
x= np.random.rand(100,10)
print("x= np.random.rand(100,10)")
n, min_max, mean, var, skew, kurt = stats.describe(x)
print("n, min_max, mean, var, skew, kurt = stats.describe(x)")
new_array = np.vstack((mean,var,skew,kurt,min_max[0],min_max[1]))
print("new_array = np.vstack((mean,var,skew,kurt,min_max[0],min_max[1]))")
print(f"new_array = {new_array}")
print(f"new_array.T = {new_array.T}")

x= np.random.rand(100,10)
n, min_max, mean, var, skew, kurt = stats.describe(x)
new_array = np.vstack((mean,var,skew,kurt,min_max[0],min_max[1]))
new_array = [[ 5.11232249e-01  4.93067141e-01  5.21940542e-01  5.33536381e-01
   4.90426953e-01  4.52168562e-01  4.60740634e-01  4.98651655e-01
   5.02705559e-01  4.96736528e-01]
 [ 8.57404421e-02  7.77184371e-02  8.52073884e-02  7.12809322e-02
   8.36148284e-02  8.29451087e-02  7.54712606e-02  8.28545075e-02
   8.92590291e-02  8.41888821e-02]
 [-4.52408421e-02 -4.45025077e-02 -1.32524857e-01 -1.17887657e-01
   9.10671456e-02  2.21371514e-01  2.53147234e-01  4.81341660e-02
  -4.06560263e-02 -8.62117972e-02]
 [-1.15885989e+00 -1.13338768e+00 -1.18618860e+00 -9.83045798e-01
  -1.00673227e+00 -1.17588146e+00 -1.19003651e+00 -1.26237425e+00
  -1.20883121e+00 -1.07962535e+00]
 [ 2.45664507e-03  2.55127702e-05  2.59577009e-02  2.72761251e-02
   2.80341580e-04  1.23128395e-02  2.95461478e-02  9.84655386e-03
   9.43192409e-03  1.16811434e-03]
 [ 9.86


- n: Número de elementos en el array `x`.
- min_max: Tupla que contiene el valor mínimo y el valor máximo de `x`.
- mean: Media aritmética de los elementos en `x`.
- var: Varianza de `x`, que mide cuánto varían los valores de `x` respecto a su media.
- skew: Asimetría (skewness) de `x`, que indica la simetría de la distribución de los valores. Un valor positivo indica una cola derecha más larga, mientras que un valor negativo indica una cola izquierda más larga.
- kurt: Curtosis (kurtosis) de `x`, que mide la "puntiagudez" de la distribución de los valores. Un valor alto de kurtosis indica una distribución con colas más pesadas (valores extremos), mientras que un valor bajo indica una distribución más plana.

Estos valores proporcionan información útil sobre la distribución y las características de los datos en el array `x`, lo cual es fundamental para el análisis estadístico y la comprensión de los datos en aplicaciones de machine learning y análisis de datos.

NumPy tiene un excelente módulo llamado numpy.ma, que se utiliza para enmascarar elementos de arrays. Es muy útil cuando deseas enmascarar (ignorar) algunos elementos mientras realizas tus cálculos. Cuando NumPy enmascara, estos elementos se consideran inválidos y no se tienen en cuenta en los cálculos.

In [103]:
import numpy.ma as ma

x = np.arange(6)
print("x = np.arange(6)")
print()
print(f"x.mean() = {x.mean()}")
masked_array = ma.masked_array(x, mask=[1,0,0,0,0,0])
print(f"masked_array.mean() = {masked_array.mean()}")


x = np.arange(6)

x.mean() = 2.5
masked_array.mean() = 3.0


En el código anterior, tienes un array `x = [0, 1, 2, 3, 4, 5]`. Lo que haces es enmascarar el primer elemento del array y luego calcular la media. Cuando un elemento se enmascara como 1 (True), se enmascara el valor de índice asociado en el array. Este método también es muy útil al reemplazar los valores NaN:

In [108]:
x = np.arange(25, dtype = float).reshape(5,5)
print("x = np.arange(25, dtype = float).reshape(5,5)")
print()
print(f"x[x<5] = np")
x[x<5] = np.nan
print()
print(f"x = {x}")
print()
print("np.where(np.isnan(x), ma.array(x, mask=np.isnan(x)).mean(axis=0), x)")
np.where(np.isnan(x), ma.array(x, mask=np.isnan(x)).mean(axis=0), x)

x = np.arange(25, dtype = float).reshape(5,5)

x[x<5] = np

x = [[nan nan nan nan nan]
 [ 5.  6.  7.  8.  9.]
 [10. 11. 12. 13. 14.]
 [15. 16. 17. 18. 19.]
 [20. 21. 22. 23. 24.]]

np.where(np.isnan(x), ma.array(x, mask=np.isnan(x)).mean(axis=0), x)


array([[12.5, 13.5, 14.5, 15.5, 16.5],
       [ 5. ,  6. ,  7. ,  8. ,  9. ],
       [10. , 11. , 12. , 13. , 14. ],
       [15. , 16. , 17. , 18. , 19. ],
       [20. , 21. , 22. , 23. , 24. ]])

En el código anterior, cambiamos el valor de los primeros cinco elementos a NaN colocando una condición con el índice. `x[x<5]` se refiere a los elementos indexados como 0, 1, 2, 3 y 4. Luego sobrescribimos estos valores con la media de cada columna (excluyendo los valores NaN). Hay muchos otros métodos útiles en las operaciones de arrays que pueden ayudar a que tu código sea más conciso:

Indexación, segmentación, remodelado, redimensionamiento y difusión

Cuando trabajas con arrays enormes en proyectos de aprendizaje automático, a menudo necesitas indexar, segmentar, remodelar y redimensionar. La indexación es un término fundamental utilizado en matemáticas y ciencias de la computación. En términos generales, la indexación te ayuda a especificar cómo devolver elementos deseados de diversas estructuras de datos. El siguiente ejemplo muestra la indexación para una lista y una tupla:

In [111]:
x = ["USA","France", "Germany","England"]
print("x = ['USA','France', 'Germany','England']")
print(f"x[2] = {x[2]}")
x = ('USA',3,"France",4)
print()
print("x = ('USA',3,'France',4)")
print(f"x[2] = {x[2]}")

x = ['USA','France', 'Germany','England']
x[2] = Germany

x = ('USA',3,'France',4)
x[2] = France


En NumPy, el uso principal de la indexación consiste en controlar y manipular los elementos de los arrays. Es una forma de crear valores de búsqueda genéricos. La indexación incluye tres operaciones secundarias: acceso a campos (field access), segmentación básica (basic slicing) e indexación avanzada (advanced indexing). En el acceso a campos, simplemente especificas el índice de un elemento en un array para devolver el valor correspondiente a ese índice.

NumPy es muy potente cuando se trata de indexación y segmentación. En muchos casos, necesitas referirte a un elemento específico en un array y realizar operaciones en esta área segmentada. Puedes indexar tu array de manera similar a como lo haces con tuplas o listas usando notaciones de corchetes cuadrados. Comencemos con el acceso a campos y la segmentación simple con arrays unidimensionales y luego avanzaremos hacia técnicas más avanzadas:

In [112]:
x = np.arange(10)
print("x = np.arange(10)")
print(f"x = {x}")
print(f"x[5] = {x[5]}")
print(f"x[-2] = {x[-2]}")
print(f"x[2:8] = {x[2:8]}")
print(f"x[:] = {x[:]}")
print(f"x[2:8:2] = {x[2:8:2]}")

x = np.arange(10)
x = [0 1 2 3 4 5 6 7 8 9]
x[5] = 5
x[-2] = 8
x[2:8] = [2 3 4 5 6 7]
x[:] = [0 1 2 3 4 5 6 7 8 9]
x[2:8:2] = [2 4 6]


Hasta ahora, hemos visto la indexación y segmentación en arrays 1D. La lógica no cambia, pero por el bien de la demostración, hagamos algunas prácticas con arrays multidimensionales también. Lo único que cambia cuando tienes arrays multidimensionales es que tienes más ejes. Puedes segmentar un array n-dimensional como [segmentación en el eje x, segmentación en el eje y] en el siguiente código:

In [114]:
x = np.reshape(np.arange(16),(4,4))
print("x = np.reshape(np.arange(16),(4,4))")
print(f"x = {x}")
print()
print(f"x[1:3] = {x[1:3]}")
print()
print(f"x[:,1:3] = {x[:,1:3]}")
print()
print(f"x[1:3,1:3] = {x[1:3,1:3]}")


x = np.reshape(np.arange(16),(4,4))
x = [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]

x[1:3] = [[ 4  5  6  7]
 [ 8  9 10 11]]

x[:,1:3] = [[ 1  2]
 [ 5  6]
 [ 9 10]
 [13 14]]

x[1:3,1:3] = [[ 5  6]
 [ 9 10]]


La función reshape en Python, específicamente cuando se utiliza con NumPy, permite reorganizar la forma (shape) de un array sin cambiar sus datos subyacentes.

Has segmentado los arrays por filas y columnas, pero no has segmentado los elementos de una manera más irregular o dinámica, lo que significa que siempre los segmentas de forma rectangular o cuadrada. Imagina un array de 4*4 que queremos segmentar de la siguiente manera:

Para obtener la segmentación anterior, ejecutamos el siguiente código:

In [115]:
x = np.reshape(np.arange(16),(4,4))
print("x = np.reshape(np.arange(16),(4,4))")
print()
print(f"x = {x}")
print()
print(f"x[[0,1,2],[0,1,3]] = {x[[0,1,2],[0,1,3]]}")


x = np.reshape(np.arange(16),(4,4))

x = [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]

x[[0,1,2],[0,1,3]] = [ 0  5 11]


En la indexación avanzada, la primera parte indica los índices de las filas a segmentar y la segunda parte indica las columnas correspondientes. En el ejemplo anterior, primero segmentaste las filas 1ª, 2ª y 3ª ([0, 1, 2]) y luego segmentaste las columnas 1ª, 2ª y 4ª ([0, 1, 3]) en las filas segmentadas.

Los métodos `reshape` y `resize` pueden parecer similares, pero tienen diferencias en los resultados de estas operaciones. Cuando remodelas (reshape) el array, solo cambia temporalmente la forma del array, pero no cambia el array en sí mismo. Cuando redimensionas (resize) el array, cambia permanentemente el tamaño del array. Si el nuevo tamaño del array es más grande que el antiguo, los elementos adicionales del nuevo array se llenarán con copias repetidas de los elementos antiguos. Por el contrario, si el nuevo array es más pequeño, el nuevo array tomará los elementos del array antiguo en el orden de los índices necesarios para llenar el nuevo array.

Es importante tener en cuenta que los mismos datos pueden ser compartidos por diferentes ndarrays, lo que significa que un ndarray puede ser una vista de otro ndarray. En tales casos, los cambios realizados en un array tendrán consecuencias en otras vistas.


El siguiente código proporciona un ejemplo de cómo se llenan los nuevos elementos del arreglo cuando el tamaño es mayor o menor que el del arreglo original:

In [116]:
x = np.arange(16).reshape(4,4)
print("x = np.arange(16).reshape(4,4)")
print(f"x = {x}")
print()
print(f"np.resize(x,(2,2)) = {np.resize(x,(2,2))}")
print()
print(f"np.resize(x,(6,6)) = {np.resize(x,(6,6))}")

x = np.arange(16).reshape(4,4)
x = [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]

np.resize(x,(2,2)) = [[0 1]
 [2 3]]

np.resize(x,(6,6)) = [[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15  0  1]
 [ 2  3  4  5  6  7]
 [ 8  9 10 11 12 13]
 [14 15  0  1  2  3]]


El último término importante de esta subsección es la transmisión (broadcasting), que explica cómo NumPy se comporta en operaciones aritméticas de arreglos cuando tienen formas diferentes. NumPy tiene dos reglas para la transmisión: o bien las dimensiones de los arreglos son iguales, o una de ellas es 1. Si no se cumple alguna de estas condiciones, se generará uno de los dos errores: 
"frames are not aligned" (los marcos no están alineados) u "operands could not be broadcast together" (los operandos no pueden transmitirse juntos).

In [117]:
x = np.arange(16).reshape(4,4)
y = np.arange(6).reshape(2,3)
print("x = np.arange(16).reshape(4,4)")
print("y = np.arange(6).reshape(2,3)")
print()
print(f"x+y = {x+y}")


x = np.arange(16).reshape(4,4)
y = np.arange(6).reshape(2,3)



ValueError: operands could not be broadcast together with shapes (4,4) (2,3) 

You might have seen that you can multiply two matrices with shapes
(4, 4) and (4,) or with (2, 2) and (2, 1). The first case meets the
condition of having one dimension so that the multiplication
becomes a vector * array, which does not cause any broadcasting
problems:

In [120]:
x = np.ones(16).reshape(4,4)
print("x = np.ones(16).reshape(4,4)")
y = np.arange(4)
print("y = np.arange(4)")
print()
print(f"x*y = {x*y}")
x = np.arange(4).reshape(2,2)
print()
print("x = np.arange(4).reshape(2,2)")
print(f"x = {x}")
print()
print("y = np.arange(2).reshape(1,2)")
y = np.arange(2).reshape(1,2)
print(f"y = {y}")
print()
print(f"x*y = {x*y}")


x = np.ones(16).reshape(4,4)
y = np.arange(4)

x*y = [[0. 1. 2. 3.]
 [0. 1. 2. 3.]
 [0. 1. 2. 3.]
 [0. 1. 2. 3.]]

x = np.arange(4).reshape(2,2)
x = [[0 1]
 [2 3]]

y = np.arange(2).reshape(1,2)
y = [[0 1]]

x*y = [[0 1]
 [0 3]]


El bloque de código anterior proporciona un ejemplo del segundo caso, donde durante el cálculo los arreglos pequeños iteran a través del arreglo grande y la salida se extiende a lo largo de todo el arreglo. Esta es la razón por la cual hay salidas de dimensiones (4, 4) y (2, 2): durante la multiplicación, ambos arreglos se transmiten a dimensiones más grandes.

RESUMEN
En este capítulo, te familiarizaste con los fundamentos de NumPy para operaciones con arreglos y repasaste tus conocimientos sobre operaciones básicas de matrices. NumPy es una biblioteca extremadamente importante para pilas científicas en Python, con métodos extensivos para operaciones con arreglos. Aprendiste a trabajar con arreglos multidimensionales y cubriste temas importantes como indexación, segmentación, remodelación, redimensionamiento y transmisión (broadcasting). El objetivo principal de este capítulo fue darte una idea breve de cómo NumPy funciona cuando se trata de conjuntos de datos numéricos, lo cual será útil en tu trabajo diario de análisis de datos.

En el próximo capítulo, aprenderás los conceptos básicos de álgebra lineal y completarás ejemplos prácticos con NumPy.