# **Obtención y preparación de datos**
# OD03. Creación de Array

In [None]:
import numpy as np

## <font color='blue'>**Creando vectores y matrices** </font>

Para crear una matriz NumPy, se puede utilizar la función **np.array()**.

Todo lo que necesita hacer para crear una matriz simple es pasarle una lista. Si lo desea, también puede especificar el tipo de datos en su lista.

In [None]:
a = np.array([1, 2, 3]) #1 dim
b = np.array([[1, 2, 3],[4, 5, 6]]) #2 dim
c = np.array([[[1, 2, 3],[4, 5, 6]], [[7, 8, 9],[10, 11, 12]]]) #3 dim
print(a)
print() #empty
print(b)
print() #empty
print(c)
c.shape

[1 2 3]

[[1 2 3]
 [4 5 6]]

[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]


(2, 2, 3)

Además de crear una matriz a partir de una secuencia de elementos, puede crear fácilmente un vector o una matriz llena de ceros:

In [None]:
vector_ceros = np.zeros(5) #Al interior se identifica la dimensión del tensor
matriz_ceros = np.zeros((2,5))
print(vector_ceros)
print()
print(matriz_ceros)

[0. 0. 0. 0. 0.]

[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]


o un vector o matriz de 1s:

In [None]:
vector_unos = np.ones(5) #Idem a zeros
matriz_unos = np.ones((2,5))
print(vector_unos)
print()
print(matriz_unos)

[1. 1. 1. 1. 1.]

[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]


o un vector o matriz vacía. La función vacía crea una matriz cuyo contenido inicial es aleatorio y depende del estado de la memoria. La razón para usar vacío sobre ceros (o algo similar) es la velocidad, ¡solo asegúrese de completar todos los elementos después! &#128521; &#128521; &#128521;.

In [None]:
print(np.empty(5)) #random elements
print("-"*20)
print(np.empty((5,3))) #matriz con valores aleatorios - Insertar dimensión entre paréntesis

[1. 1. 1. 1. 1.]
--------------------
[[4.65425078e-310 1.03977794e-312 1.03977794e-312]
 [9.54898106e-313 1.06099790e-312 1.06099790e-312]
 [1.23075756e-312 1.14587773e-312 1.10343781e-312]
 [9.76118064e-313 1.08221785e-312 1.14587773e-312]
 [1.10343781e-312 4.44659081e-322 0.00000000e+000]]


También es posible crear un vector con elementos dentro de un rango:

In [None]:
np.arange(4) #arange es similar a range, aunque arange es de la librería numpy

array([0, 1, 2, 3])

Un vector que contiene un rango de intervalos espaciados uniformemente. Para hacer esto, debe especificar el primer número, el último número y el tamaño del paso.

In [None]:
np.arange(3, 10, 2) 

array([3, 5, 7, 9])

También puede utilizar **np.linspace()** para crear una matriz con valores espaciados linealmente en un intervalo especificado:

In [None]:
np.linspace(0, 15, num=5) #Útil para hacer bins

array([ 0.  ,  3.75,  7.5 , 11.25, 15.  ])

In [None]:
np.linspace(0,20, num=5) #lo veo útil para resumir tablas de frecuencia, 4 intervalos del mismo tamaño [0-5[, [5-10[, [10-15[, [15-20]

array([ 0.,  5., 10., 15., 20.])

El tipo de datos predeterminado es punto flotante (*np.float64*), pero es posible especificar explícitamente qué tipo de datos desea, utilizando la palabra clave **dtype**. Para más información sobre tipo de datos, pinche <a href="https://numpy.org/devdocs/reference/arrays.dtypes.html#arrays-dtypes">aquí</a>.

In [None]:
x = np.ones(5, dtype=np.int64) #Usar en caso cuando hay que reducir memoria
x

array([1, 1, 1, 1, 1])

La matriz de identidad es una matriz cuadrada con unos en la diagonal principal:

In [None]:
np.identity(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

<font color='red'>Respecto a visualización de arrays:</font>

In [None]:
# Array de n dimensiones (n>2).
# En pantalla los ordena de izquierda a derecha (respecto de paréntesis cuadrados), o sea, en pantalla se ven 2 grupos de 3 subgrupos de matrices de 4x5.
# En pantalla siempre se van a ver grupos de matrices de nxm, donde n y m son las 2 últimas dimensiones del array.
np.zeros((2,3,4,5)) #es decir en este caso es (dim4, dim3, rows, columns)

array([[[[0., 0., 0., 0., 0.],
         [0., 0., 0., 0., 0.],
         [0., 0., 0., 0., 0.],
         [0., 0., 0., 0., 0.]],

        [[0., 0., 0., 0., 0.],
         [0., 0., 0., 0., 0.],
         [0., 0., 0., 0., 0.],
         [0., 0., 0., 0., 0.]],

        [[0., 0., 0., 0., 0.],
         [0., 0., 0., 0., 0.],
         [0., 0., 0., 0., 0.],
         [0., 0., 0., 0., 0.]]],


       [[[0., 0., 0., 0., 0.],
         [0., 0., 0., 0., 0.],
         [0., 0., 0., 0., 0.],
         [0., 0., 0., 0., 0.]],

        [[0., 0., 0., 0., 0.],
         [0., 0., 0., 0., 0.],
         [0., 0., 0., 0., 0.],
         [0., 0., 0., 0., 0.]],

        [[0., 0., 0., 0., 0.],
         [0., 0., 0., 0., 0.],
         [0., 0., 0., 0., 0.],
         [0., 0., 0., 0., 0.]]]])

## <font color='green'>**Actividad 1**</font>

1. Crear una matriz de 4x9 que esté inicializa con el valor 3.5.
1. Crear un vector de longitud 4.
1. Crear una matriz de rango 4.


In [None]:
#Solución 1
matrix = np.ones((4,9)) * 3.5 # Una opción con matriz de unos multiplicada por 3.5
matrix2  = np.zeros((4,9)) + 3.5 #Otra opción con matriz de cero y sumada con constante 3.5
print(f"usando ones:\n{matrix}")
print(f"usando zeros:\n{matrix2}")

usando ones:
[[3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5]
 [3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5]
 [3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5]
 [3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5]]
usando zeros:
[[3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5]
 [3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5]
 [3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5]
 [3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5]]


In [None]:
#Solución 2
vector = np.arange(4) #3 alternativas
vector2 = np.empty(4, np.int8)
vector3 = np.zeros(4) 
print(f"usando arange: {vector}")
print(f"usando empty: {vector2}")
print(f"usando zeros: {vector3}")

usando arange: [0 1 2 3]
usando empty: [  -8 -121   98   93]
usando zeros: [0. 0. 0. 0.]


In [None]:
#Solución 3
mat = np.identity(4)*5 #2 alternativas
mat2 = np.arange(16).reshape((4,4))
print(f"matriz identidad de rango 4: \n{mat}\nmultiplicada por 5")
print(f"matriz usando arange y reshape: \n{mat2}\n")

matriz identidad de rango 4: 
[[5. 0. 0. 0.]
 [0. 5. 0. 0.]
 [0. 0. 5. 0.]
 [0. 0. 0. 5.]]
multiplicada por 5
matriz usando arange y reshape: 
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]



<font color='green'>**Fin actividad 1**</font>

## <font color='blue'>**Operaciones con matrices**</font>

Las operaciones básicas son simples con NumPy. Una vez que ha creado sus matrices, puede comenzar a trabajar con ellas. Por ejemplo, se han creado dos matrices, una llamada *a* y otra llamada *b*.

In [None]:
a = np.array([1, 2, 3, 4, 5])
b = np.array([10, 3, 6, 8, 1], dtype=int)
a + b #suma de vectores (En cada elemento)

array([11,  5,  9, 12,  6])

Si desea encontrar la suma de los elementos en una matriz, debe usar **sum()**. Esto funciona para matrices 1D, matrices 2D y matrices en dimensiones más altas.

In [None]:
a = np.array([1, 2, 3, 4])
a.sum() #la suma de los elementos

10

Para realizar esta operación en más dimensiones, debe especificar el eje.

In [None]:
b = np.array([[1, 1], [2, 2]])
print(b)
b.shape

[[1 1]
 [2 2]]


(2, 2)

Para sumar por filas:

In [None]:
b.sum(axis=0) #axis 0 - suma los elementos de cada columna sobre las filas 

array([3, 3])

Para sumar por columnas:

In [None]:
b.sum(axis=1) #axis 1 - suma las elementos de cada fila sobre las columnas

array([2, 4])

Sustracción:

In [None]:
a = np.array([1, 2, 3, 4, 5])
b = np.array([10, 3, 6, 8, 1], dtype=int)
a - b #idem que suma

array([-9, -1, -3, -4,  4])

Multiplicación por elementos:

In [None]:
a = np.array( [[1,1],[2,1]] )
b = np.array( [[2,4],[3,4]] )
print(a)
print(b)
a * b #Multiplicación en cada elemento

[[1 1]
 [2 1]]
[[2 4]
 [3 4]]


array([[2, 4],
       [6, 4]])

Multiplicación de matrices: se puede realizar utilizando el operador @ (en Python $\ge$ 3.5) o la función o método **dot**:

In [None]:
a @ b #Solo para versiones nuevas - Similar a MATLAB

array([[ 5,  8],
       [ 7, 12]])

In [None]:
a.dot(b) #lo mismo que @

array([[ 5,  8],
       [ 7, 12]])

División:

In [None]:
a / b #división de elementos

array([[0.5       , 0.25      ],
       [0.66666667, 0.25      ]])

Otras operaciones:

In [None]:
a = np.array([20,30,40,50])
b = np.arange(4)
#Elevar a una potencia
c = b**2
print(f"Elevar a una potencia: {c}")
print()
#Función seno
c = 10 * np.sin(a)
print(f"Aplicar la función seno: {c}")
print()
#Funciones lógicas
c = a < 35 #Retorna array booleano
print(c, ",", type(c))

Elevar a una potencia: [0 1 4 9]

Aplicar la función seno: [ 9.12945251 -9.88031624  7.4511316  -2.62374854]

[ True  True False False] , <class 'numpy.ndarray'>


In [None]:
a = np.array([[0.45053314, 0.17296777, 0.34376245, 0.5510652],
              [0.54627315, 0.05093587, 0.40067661, 0.55645993],
              [0.12697628, 0.82485143, 0.26590556, 0.56917101]])
#Mínimo .min()
b = a.min()
print(f"Min: {b}")
print()
#Máximo .max()
b = a.max()
print(f"Max: {b}")
print()
#Máximo por fila/columna .max(axis=0/1)
b = a.max(axis=1)
print(f"Max by columns: {b}")
print()
#Media .mean()
b = a.mean()
print(f"Promedio: {b}")
print()
#Desviación estándar .std()
b = a.std()
print(f"std: {b}")
print()

Min: 0.05093587

Max: 0.82485143

Max by columns: [0.5510652  0.55645993 0.82485143]

Promedio: 0.4049648666666667

std: 0.21392120766089617



NumPy contiene una batería de operaciones sobre matrices: aritméticas, operaciones binarias, estadísticas, funciones, entre otras. Para más información, pinche <a href="https://numpy.org/devdocs/user/quickstart.html#the-basics">aquí</a>.

La generación de números aleatorios es una parte importante en la configuración y evaluación de muchos algoritmos de aprendizaje automático. Ya sea que necesite inicializar pesos aleatoriamente en una red neuronal artificial, dividir datos en conjuntos aleatorios o mezclar aleatoriamente su conjunto de datos, es esencial poder generar números aleatorios (en realidad, números pseudoaleatorios repetibles).

Con **Generator.integers**, puede generar números enteros aleatorios. Puede generar una matriz de 2 x 4 de números enteros aleatorios entre 0 y 4 con:

In [None]:
rng = np.random.default_rng() #generador para número aleatorios en numpy
rng.integers(5, size=(2, 4)) #define el rango de enteros y tamaño del array

array([[2, 0, 4, 0],
       [0, 4, 4, 3]])

<font color="orange">Es posible ordenar aleatoriamente (shuffle) viendo las instrucciones [aquí](https://numpy.org/devdocs/reference/random/generated/numpy.random.Generator.shuffle.html?highlight=random%20default_rng)</font> 

Con la clase **random.Generator** puede generar números aleatorios:

In [None]:
rng = np.random.default_rng(0)  #0 es la semilla aleatoria (random seed)
rng.random(3) #random usa float entre 0 y 1 para 3 elementos

array([0.63696169, 0.26978671, 0.04097352])

Algunas operaciones, como += y *=, actúan para modificar una matriz existente en lugar de crear una nueva.

In [None]:
rg = np.random.default_rng(1) #un nmro interior indica una semilla aleatoria
a = np.ones((2,3), dtype=int)
b = rg.random((2,3))
a *= 3
print(a)
print()
b += a
print(b)

[[3 3 3]
 [3 3 3]]

[[3.51182162 3.9504637  3.14415961]
 [3.94864945 3.31183145 3.42332645]]


In [None]:
#otra forma
rg = np.random.default_rng(1) #un nmro interior indica una semilla aleatoria
b = rg.random((2,3))
b += 3
print(b)

[[3.51182162 3.9504637  3.14415961]
 [3.94864945 3.31183145 3.42332645]]


Es posible realizar una operación entre una matriz y un solo número (operación entre un vector y un escalar) o entre matrices de dos tamaños diferentes. Por ejemplo:

In [None]:
distancia_millas = np.array([1.0, 2.0])
distancia_km = distancia_millas * 1.6 #se multiplica por un escalar
print(distancia_km)

[1.6 3.2]


## <font color='green'>**Actividad 2**</font>

1. Crear una matriz de dos dimensiones en que una dimensión represente el sexo y la otra la edad de los integrantes del grupo. Luego, convertir la dimensión edad en años a la edad en meses.
1. Generar una matriz de 7 por 9. Las primeras 3 columnas de la matriz tienen que tener el valor 0. La cuarta columna debe tener el valor 0.5, excepto por el último valor de esa columna, que tiene que ser 0.7. Las otras tres columnas deben tener el valor 1.

#### <font color="black">Chequear, son 9 columnas </font>

In [None]:
#Solución 1
matrix = np.array([[0, 1, 1, 1, 1, 1],[42, 42, 41, 39, 33, 37]]) # 0/1 (F/M)
matrix[1,:] *= 12 # multiplica cada año por 12 meses
print(matrix)

[[  0   1   1   1   1   1]
 [504 504 492 468 396 444]]


In [None]:
#Solución 2
matrix = np.ones((7,9)) #crea matriz de unos
matrix[:,:3] = 0 #las tres 1ras columnas son 0
matrix[:, 3] *= 0.5 #la 4ta columna es 0.5
matrix[6, 3] = 0.7 #el elemento (7,4) es igual a 0.7
print(matrix)

[[0.  0.  0.  0.5 1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.5 1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.5 1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.5 1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.5 1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.5 1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.7 1.  1.  1.  1.  1. ]]


<font color='green'>**Fin actividad 2**</font>