# **Obtención y preparación de datos**
# OD03. Creación de Array

In [1]:
import numpy as np

## <font color='blue'>**Creando vectores y matrices** </font>

Para crear una matriz NumPy, se puede utilizar la función **np.array()**.

Todo lo que necesita hacer para crear una matriz simple es pasarle una lista. Si lo desea, también puede especificar el tipo de datos en su lista.

In [2]:
a = np.array([1, 2, 3])
b = np.array([[1, 2, 3],[4, 5, 6]])
c = np.array([[[1, 2, 3],[4, 5, 6]], [[7, 8, 9],[10, 11, 12]]])
print(a)
print()
print(b)
print(b.shape)
print()
print(c)
c.shape

[1 2 3]

[[1 2 3]
 [4 5 6]]
(2, 3)

[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]


(2, 2, 3)

Además de crear una matriz a partir de una secuencia de elementos, puede crear fácilmente un vector o una matriz llena de ceros:

In [3]:
vector_ceros = np.zeros(5)
matriz_ceros = np.zeros((2,5))
print(vector_ceros)
print()
print(matriz_ceros)

[0. 0. 0. 0. 0.]

[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]


o un vector o matriz de 1s:

In [4]:
vector_unos = np.ones(5)
matriz_unos = np.ones((2,5))
print(vector_unos)
print()
print(matriz_unos)

[1. 1. 1. 1. 1.]

[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]


o un vector o matriz vacía. La función vacía crea una matriz cuyo contenido inicial es aleatorio y depende del estado de la memoria. La razón para usar vacío sobre ceros (o algo similar) es la velocidad, ¡solo asegúrese de completar todos los elementos después! &#128521; &#128521; &#128521;.

In [5]:
np.empty(5)

array([1., 1., 1., 1., 1.])

También es posible crear un vector con elementos dentro de un rango:

In [6]:
np.arange(4)

array([0, 1, 2, 3])

Un vector que contiene un rango de intervalos espaciados uniformemente. Para hacer esto, debe especificar el primer número, el último número y el tamaño del paso.

In [7]:
np.arange(3, 10, 2)

array([3, 5, 7, 9])

También puede utilizar **np.linspace()** para crear una matriz con valores espaciados linealmente en un intervalo especificado:

In [8]:
np.linspace(0, 15, num=5)

array([ 0.  ,  3.75,  7.5 , 11.25, 15.  ])

El tipo de datos predeterminado es punto flotante (*np.float64*), pero es posible especificar explícitamente qué tipo de datos desea, utilizando la palabra clave **dtype**. Para más información sobre tipo de datos, pinche <a href="https://numpy.org/devdocs/reference/arrays.dtypes.html#arrays-dtypes">aquí</a>.

In [9]:
x = np.ones(5, dtype=np.int64)
x

array([1, 1, 1, 1, 1])

La matriz de identidad es una matriz cuadrada con unos en la diagonal principal:

In [10]:
np.identity(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

## <font color='green'>**Actividad 1**</font>

1. Crear una matriz de 4x9 que esté inicializa con el valor 3.5.
1. Crear un vector de longitud 4.
1. Crear una matriz de rango 4.


In [11]:
#Solución
MyMatriz = np.ones((4,9))*3.5
print(MyMatriz)
print()

MyVector = np.zeros(4)
print(MyVector)
print()

MyMatriz2 = np.arange(4)
MyMatriz2 = MyMatriz2.reshape(2,2)
print(MyMatriz2)


[[3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5]
 [3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5]
 [3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5]
 [3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5]]

[0. 0. 0. 0.]

[[0 1]
 [2 3]]


<font color='green'>**Fin actividad 1**</font>

## <font color='blue'>**Operaciones con matrices**</font>

Las operaciones básicas son simples con NumPy. Una vez que ha creado sus matrices, puede comenzar a trabajar con ellas. Por ejemplo, se han creado dos matrices, una llamada *a* y otra llamada *b*.

In [12]:
a = np.array([1, 2, 3, 4, 5])
b = np.array([10, 3, 6, 8, 1], dtype=int)
a + b

array([11,  5,  9, 12,  6])

Si desea encontrar la suma de los elementos en una matriz, debe usar **sum()**. Esto funciona para matrices 1D, matrices 2D y matrices en dimensiones más altas.

In [13]:
a = np.array([1, 2, 3, 4])
a.sum()

10

Para realizar esta operación en más dimensiones, debe especificar el eje.

In [14]:
b = np.array([[1, 1], [2, 2]])
print(b)
b.shape

[[1 1]
 [2 2]]


(2, 2)

Para sumar por filas:

In [15]:
b.sum(axis=0)

array([3, 3])

Para sumar por columnas:

In [16]:
b.sum(axis=1)

array([2, 4])

Sustracción:

In [17]:
a = np.array([1, 2, 3, 4, 5])
b = np.array([10, 3, 6, 8, 1], dtype=int)
a - b

array([-9, -1, -3, -4,  4])

Multiplicación por elementos:

In [18]:
a = np.array( [[1,1],[2,1]] )
b = np.array( [[2,4],[3,4]] )
print(a)
print(b)
a * b

[[1 1]
 [2 1]]
[[2 4]
 [3 4]]


array([[2, 4],
       [6, 4]])

Multiplicación de matrices: se puede realizar utilizando el operador @ (en Python $\ge$ 3.5) o la función o método **dot**:

In [19]:
a @ b

array([[ 5,  8],
       [ 7, 12]])

In [20]:
a.dot(b)

array([[ 5,  8],
       [ 7, 12]])

División:

In [21]:
a / b

array([[0.5       , 0.25      ],
       [0.66666667, 0.25      ]])

Otras operaciones:

In [22]:
a = np.array([20,30,40,50])
b = np.arange(4)
#Elevar a una potencia
c = b**2
print(c)
print()
#Función seno
c = 10 * np.sin(a)
print(c)
print()
#Funciones lógicas
c = a < 35
print(c)

[0 1 4 9]

[ 9.12945251 -9.88031624  7.4511316  -2.62374854]

[ True  True False False]


In [23]:
a = np.array([[0.45053314, 0.17296777, 0.34376245, 0.5510652],
              [0.54627315, 0.05093587, 0.40067661, 0.55645993],
              [0.12697628, 0.82485143, 0.26590556, 0.56917101]])
#Mínimo
b = a.min()
print(b)
print()
#Máximo
b = a.max()
print(b)
print()
#Máximo por columna
b = a.max(axis=1)
print(b)
print()
#Media
b = a.mean()
print(b)
print()
#Desviación estándar
b = a.std()
print(b)
print()

0.05093587

0.82485143

[0.5510652  0.55645993 0.82485143]

0.4049648666666667

0.21392120766089617



NumPy contiene una batería de operaciones sobre matrices: aritméticas, operaciones binarias, estadísticas, funciones, entre otras. Para más información, pinche <a href="https://numpy.org/devdocs/user/quickstart.html#the-basics">aquí</a>.

La generación de números aleatorios es una parte importante en la configuración y evaluación de muchos algoritmos de aprendizaje automático. Ya sea que necesite inicializar pesos aleatoriamente en una red neuronal artificial, dividir datos en conjuntos aleatorios o mezclar aleatoriamente su conjunto de datos, es esencial poder generar números aleatorios (en realidad, números pseudoaleatorios repetibles).

Con **Generator.integers**, puede generar números enteros aleatorios. Puede generar una matriz de 2 x 4 de números enteros aleatorios entre 0 y 4 con:

In [24]:
rng = np.random.default_rng()
rng.integers(5, size=(2, 4))

array([[4, 4, 2, 0],
       [4, 3, 2, 2]])

Con la clase **random.Generator** puede generar números aleatorios:

In [25]:
rng = np.random.default_rng(0)
rng.random(3)

array([0.63696169, 0.26978671, 0.04097352])

Algunas operaciones, como += y *=, actúan para modificar una matriz existente en lugar de crear una nueva.

In [26]:
rg = np.random.default_rng(1)
a = np.ones((2,3), dtype=int)
b = rg.random((2,3))
a *= 3
print(a)
print()
b += a
print(b)

[[3 3 3]
 [3 3 3]]

[[3.51182162 3.9504637  3.14415961]
 [3.94864945 3.31183145 3.42332645]]


Es posible realizar una operación entre una matriz y un solo número (operación entre un vector y un escalar) o entre matrices de dos tamaños diferentes. Por ejemplo:

In [27]:
distancia_millas = np.array([1.0, 2.0])
distancia_km = distancia_millas * 1.6
print(distancia_km)

[1.6 3.2]


## <font color='green'>**Actividad 2**</font>

1. Crear una matriz de dos dimensiones en que una dimensión represente el sexo y la otra la edad de los integrantes del grupo. Luego, convertir la dimensión edad en años a la edad en meses.
1. Generar una matriz de 7 por 9. Las primeras 3 columnas de la matriz tienen que tener el valor 0. La cuarta columna debe tener el valor 0.5, excepto por el último valor de esa columna, que tiene que ser 0.7. Las otras tres columnas deben tener el valor 1.

In [28]:
#Solución 1
demografia = np.ones((5,2), dtype=int)
print(demografia)

demografia



[[1 1]
 [1 1]
 [1 1]
 [1 1]
 [1 1]]


array([[1, 1],
       [1, 1],
       [1, 1],
       [1, 1],
       [1, 1]])

In [29]:
#Solución 2
col_ceros = np.zeros(9)

col_medio = np.ones(9)
col_medio = col_medio/2
col_medio[8] = 0.7

col_unos = np.ones(9)

print(col_ceros)
print(col_medio)
print(col_unos)

matriz = np.vstack((col_ceros, col_ceros, col_ceros, col_medio, col_unos, col_unos, col_unos)) 
print(matriz)

matriz = np.transpose(matriz) 
print(matriz)

print(matriz.shape)

[0. 0. 0. 0. 0. 0. 0. 0. 0.]
[0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.7]
[1. 1. 1. 1. 1. 1. 1. 1. 1.]
[[0.  0.  0.  0.  0.  0.  0.  0.  0. ]
 [0.  0.  0.  0.  0.  0.  0.  0.  0. ]
 [0.  0.  0.  0.  0.  0.  0.  0.  0. ]
 [0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.7]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]
 [1.  1.  1.  1.  1.  1.  1.  1.  1. ]]
[[0.  0.  0.  0.5 1.  1.  1. ]
 [0.  0.  0.  0.5 1.  1.  1. ]
 [0.  0.  0.  0.5 1.  1.  1. ]
 [0.  0.  0.  0.5 1.  1.  1. ]
 [0.  0.  0.  0.5 1.  1.  1. ]
 [0.  0.  0.  0.5 1.  1.  1. ]
 [0.  0.  0.  0.5 1.  1.  1. ]
 [0.  0.  0.  0.5 1.  1.  1. ]
 [0.  0.  0.  0.7 1.  1.  1. ]]
(9, 7)


<font color='green'>**Fin actividad 2**</font>