# **Obtención y preparación de datos**
# OD03. Creación de Array

In [1]:
import numpy as np

## <font color='blue'>**Creando vectores y matrices** </font>

Para crear una matriz NumPy, se puede utilizar la función `np.array()`.

Todo lo que necesita hacer para crear una matriz simple es pasarle una lista. Si lo desea, también puede especificar el tipo de datos en su lista.

In [2]:
a = np.array([1, 2, 3])
b = np.array([[1, 2, 3],[4, 5, 6]])
c = np.array([[[1, 2, 3],[4, 5, 6]], [[7, 8, 9],[10, 11, 12]]])
print(a)
print()
print(b)
print()
print(c)
c.shape

[1 2 3]

[[1 2 3]
 [4 5 6]]

[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]


(2, 2, 3)

In [3]:
# Especificamos el tipo de los datos
d = np.array([[[1, 2, 3],[4, 5, 6]], [[7, 8, 9],[10, 11, 12]]], dtype=np.float64)
print(d)

[[[ 1.  2.  3.]
  [ 4.  5.  6.]]

 [[ 7.  8.  9.]
  [10. 11. 12.]]]


Además de crear una matriz a partir de una secuencia de elementos, puede crear fácilmente un vector o una matriz llena de ceros:

In [4]:
vector_ceros = np.zeros(5)
matriz_ceros = np.zeros((2,5))
print(vector_ceros)
print()
print(matriz_ceros)

[0. 0. 0. 0. 0.]

[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]


o un vector o matriz de 1s:

In [5]:
vector_unos = np.ones(5)
matriz_unos = np.ones((2,5))
print(vector_unos)
print()
print(matriz_unos)

[1. 1. 1. 1. 1.]

[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]


o un vector o matriz vacía. La función vacía crea una matriz cuyo contenido inicial es aleatorio y depende del estado de la memoria. La razón para usar vacío sobre ceros (o algo similar) es la velocidad, ¡solo asegúrese de completar todos los elementos después!.

In [6]:
np.empty(5)

array([1., 1., 1., 1., 1.])

También es posible crear un vector con elementos dentro de un rango:

In [7]:
np.arange(4)

array([0, 1, 2, 3])

Un vector que contiene un rango de intervalos espaciados uniformemente. Para hacer esto, debe especificar el primer número, el último número y el tamaño del paso.

In [9]:
np.arange(3, 10, 2)

array([3, 5, 7, 9])

También puede utilizar `np.linspace()` para crear una matriz con valores espaciados linealmente en un intervalo especificado:

In [10]:
np.linspace(0, 15, num=5)

array([ 0.  ,  3.75,  7.5 , 11.25, 15.  ])

El tipo de datos predeterminado es punto flotante (*np.float64*), pero es posible especificar explícitamente qué tipo de datos desea, utilizando la palabra clave `dtype`. Para más información sobre tipo de datos, refiera a la documentación oficial de [arrays-dtypes](https://numpy.org/devdocs/reference/arrays.dtypes.html#arrays-dtypes).

In [11]:
x = np.ones(5, dtype=np.int64)
x

array([1, 1, 1, 1, 1])

La __matriz de identidad__ es una matriz cuadrada con unos en la diagonal principal:

In [12]:
np.identity(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

## <font color='blue'>**Operaciones con matrices**</font>

Las operaciones básicas son simples con NumPy. Una vez que ha creado sus matrices, puede comenzar a trabajar con ellas. Por ejemplo, se han creado dos matrices, una llamada *a* y otra llamada *b*.

In [14]:
a = np.array([1, 2, 3, 4, 5])
b = np.array([10, 3, 6, 8, 1], dtype=int)
a + b

array([11,  5,  9, 12,  6])

Si desea encontrar la suma de los elementos en una matriz, debe usar **sum()**. Esto funciona para matrices 1D, matrices 2D y matrices en dimensiones más altas.

In [15]:
a = np.array([1, 2, 3, 4])
a.sum()

10

Para realizar esta operación en más dimensiones, debe especificar el eje.

In [16]:
b = np.array([[0, 1, 2], [3, 4, 5]])
print(b)
print()
print(b.shape)

[[0 1 2]
 [3 4 5]]

(2, 3)


Para sumar por filas:

In [17]:
b.sum(axis=0)

array([3, 5, 7])

__IMPORTANTE__: Cuando establecemos `axis = 0`, la función en realidad suma las columnas. El resultado es una nueva matriz NumPy que contiene la suma de cada columna. ¿Por qué? ¿El eje 0 no se refiere a las filas?

Esto confunde a muchos principiantes. El parámetro `axis` nos indica qué eje será colapsado (desaparece). Es decir, cuando definimos `axis=0`, `np.sum()`colapsa las filas de la matriz y calcula las sumas.


<img src='https://drive.google.com/uc?export=view&id=1VYCaccao-3x7ePrUvM9TFUB4wyaxybxm' width="200" align="center" style="margin-right: 20px">

Entonces, cuando establecemos el `axis = 0`, no estamos sumando las filas. Cuando establecemos el `axis = 0`, estamos agregando los datos de modo que colapsamos las filas... colapsamos el eje 0.




Para sumar por columnas:

In [18]:
b.sum(axis=1)

array([ 3, 12])

Veamos qué ocurre cuando usamos `axis = 1`. Nuevamente, el parámetro `axis` establece el eje que se colapsa durante el proceso, en este caso, la suma.

El eje `axis = 1` se refiere a la dirección horizontal a través de las columnas. Eso significa que el código `b.sum(axis = 1)` colapsa las columnas durante la suma.

<img src='https://drive.google.com/uc?export=view&id=1uA5db6c9Jz2r30iA_9QOo1s75aSUEBiz' width="300" align="center" style="margin-right: 20px">


Sustracción:

In [19]:
a = np.array([1, 2, 3, 4, 5])
b = np.array([10, 3, 6, 8, 1], dtype=int)
a - b

array([-9, -1, -3, -4,  4])

Multiplicación por elementos:

In [20]:
a = np.array( [[1,1],[2,1]] )
b = np.array( [[2,4],[3,4]] )
print(a)
print(b)
a * b

[[1 1]
 [2 1]]
[[2 4]
 [3 4]]


array([[2, 4],
       [6, 4]])

Multiplicación de matrices: se puede realizar utilizando el operador `@` (en Python $\ge$ 3.5) o la función o método `dot`:

In [21]:
a @ b

array([[ 5,  8],
       [ 7, 12]])

In [22]:
a.dot(b)

array([[ 5,  8],
       [ 7, 12]])

División:

In [23]:
a / b

array([[0.5       , 0.25      ],
       [0.66666667, 0.25      ]])

Otras operaciones:

In [24]:
a = np.array([20,30,40,50])
b = np.arange(4)
# Elevar a una potencia
c = b**2
print(c)
print()
# Función seno
c = 10 * np.sin(a)
print(c)
print()
# Funciones lógicas
c = a < 35
print(c)

[0 1 4 9]

[ 9.12945251 -9.88031624  7.4511316  -2.62374854]

[ True  True False False]


In [25]:
a = np.array([[0.45053314, 0.17296777, 0.34376245, 0.5510652],
              [0.54627315, 0.05093587, 0.40067661, 0.55645993],
              [0.12697628, 0.82485143, 0.26590556, 0.56917101]])
# Mínimo
b = a.min()
print(b)
print()
# Máximo
b = a.max()
print(b)
print()
# Máximo por columna
b = a.max(axis=1)
print(b)
print()
# Media
b = a.mean()
print(b)
print()
# Desviación estándar
b = a.std()
print(b)
print()

0.05093587

0.82485143

[0.5510652  0.55645993 0.82485143]

0.4049648666666667

0.21392120766089617



NumPy contiene una batería de operaciones sobre matrices: aritméticas, operaciones binarias, estadísticas, funciones, entre otras. Para más información, vea la [guía de uso rápido de Numpy](https://numpy.org/devdocs/user/quickstart.html#the-basics).

La generación de números aleatorios es una parte importante en la configuración y evaluación de muchos algoritmos de aprendizaje automático. Ya sea que necesite inicializar pesos aleatoriamente en una red neuronal artificial, dividir datos en conjuntos aleatorios o mezclar aleatoriamente su conjunto de datos, es esencial poder generar números aleatorios (en realidad, números pseudoaleatorios repetibles).

Con la clase `Generator`de Numpy, puede acceder a una amplia gama de métodos para generar números aleatorios. Vemos un ejemplo para generar una matriz de 2 x 4 de números enteros aleatorios entre 0 y 4:

In [26]:
# De esta forma creamos el generador con el BitGenerator por defecto (PCG64)
np.random.default_rng()

Generator(PCG64) at 0x7D1154BC4BA0

In [27]:
# Instanciamos el generador
rng = np.random.default_rng()

# Creamos un arreglo de números aleatorios entre 0 y 4 de tamaño 2x4
rng.integers(5, size=(2, 4))

array([[1, 0, 2, 3],
       [3, 0, 1, 2]])

Veamos otro ejemplo:

In [28]:
rng = np.random.default_rng(0)
rng.random(3)

array([0.63696169, 0.26978671, 0.04097352])

Algunas operaciones, como `+=` y `*=`, actúan para modificar una matriz existente en lugar de crear una nueva.

In [29]:
rg = np.random.default_rng(1)
a = np.ones((2,3), dtype=int)
b = rg.random((2,3))
a *= 3
print(a)
print()
b += a
print(b)

[[3 3 3]
 [3 3 3]]

[[3.51182162 3.9504637  3.14415961]
 [3.94864945 3.31183145 3.42332645]]


Es posible realizar una operación entre una matriz y un solo número (operación entre un vector y un escalar) o entre matrices de dos tamaños diferentes. Por ejemplo:

In [30]:
distancia_millas = np.array([1.0, 2.0])
distancia_km = distancia_millas * 1.6
print(distancia_km)

[1.6 3.2]


### <font color='green'>Actividad 1</font>

1. Crear una matriz de 4x9 que esté inicializada con el valor 3.5.
2. Crear un vector de longitud 4.
3. Crear una matriz identidad de tamaño 4.


In [67]:
# Tu código aquí ...
# 1
a = np.full((4,9),3.5)
print(a, end="\n\n")

# 2
b = np.ones(4)
print(b, end="\n\n")

# 3
c = np.identity(4)
print(c)

[[3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5]
 [3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5]
 [3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5]
 [3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5]]

[1. 1. 1. 1.]

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


<font color='green'>Fin actividad 1</font>

### <font color='green'>Actividad 2</font>

1. Crear una matriz de dos dimensiones en que una dimensión represente el sexo y la otra la edad de los integrantes del grupo. Luego, convertir la dimensión edad en años a la edad en meses.
1. Generar una matriz de 7 por 9. Las primeras 3 columnas de la matriz tienen que tener el valor 0. La cuarta columna debe tener el valor 0.5, excepto por el último valor de esa columna, que tiene que ser 0.7. Las otras cinco columnas deben tener el valor 1.

In [71]:
# Tu código aquí ...

# 1.
print("Matriz con sexo y edad en años:")
A = np.array([["F", 32], ["M", 41], ["F", 27], ["M", 29]])
print(A, end="\n\n")

A[:,1] = np.array([12*int(a) for a in A[:,1]])
print("Matriz con sexo y edad en meses:")
print(A, end="\n\n")

Matriz con sexo y edad en años:
[['F' '32']
 ['M' '41']
 ['F' '27']
 ['M' '29']]

Matriz con sexo y edad en meses:
[['F' '384']
 ['M' '492']
 ['F' '324']
 ['M' '348']]



In [58]:
# 2.
B = np.zeros((7,9))
B[:,3] = 0.5*np.ones((7,))
B[-1,3] = 0.7
B[:,4:] = np.ones((7,5))
print(B)

[[0.  0.  0.  0.5 1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.5 1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.5 1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.5 1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.5 1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.5 1.  1.  1.  1.  1. ]
 [0.  0.  0.  0.7 1.  1.  1.  1.  1. ]]


<font color='green'>Fin actividad 2</font>

<img src="https://drive.google.com/uc?export=view&id=1DNuGbS1i-9it4Nyr3ZMncQz9cRhs2eJr" width="100" align="left" title="Runa-perth">
<br clear="left">

## <font color='blue'>**Resumen**</font>

`numpy` es una de las bibliotecas más esenciales en el ecosistema de Python cuando se trata de cálculos numéricos y análisis de datos. Es especialmente útil para operaciones que involucran arrays o matrices, proporcionando una interfaz eficiente y optimizada. La capacidad de `numpy` para trabajar con datos de alta dimensión y realizar operaciones de forma vectorizada la convierte en una herramienta indispensable para científicos de datos, ingenieros y programadores.




#### Crear un array básico

In [59]:
# Crear un array 1D
a = np.array([1, 2, 3, 4])
print(a)

# Crear un array 2D (Matriz)
b = np.array([[1, 2], [3, 4], [5, 6]])
print(b)

[1 2 3 4]
[[1 2]
 [3 4]
 [5 6]]


#### Arrays con Valores Específicos

In [60]:
# Ceros
print(np.zeros((3, 4)))

# Unos
print(np.ones((2, 3)))

# Valor constante
print(np.full((2, 2), 7))

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
[[1. 1. 1.]
 [1. 1. 1.]]
[[7 7]
 [7 7]]


#### Arrays Basados en Rangos y Espacios

In [61]:
# Valores en un rango
print(np.arange(0, 10, 2))

# Valores espaciados linealmente
print(np.linspace(0, 1, 5))

[0 2 4 6 8]
[0.   0.25 0.5  0.75 1.  ]


#### Matrices Especiales

In [62]:
# Matriz identidad
print(np.eye(3))

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


#### Arrays con Valores Aleatorios

In [63]:
# Valores aleatorios entre 0 y 1
print(np.random.rand(2, 3))

# Valores aleatorios de una distribución normal estándar
print(np.random.randn(2, 3))

[[0.71703558 0.12438973 0.36643575]
 [0.22204359 0.76406349 0.93573188]]
[[-0.01878112  2.07353918  1.30043641]
 [-0.9334192   1.70407939  0.7470811 ]]


#### Manipulación de la Forma de un Array

In [64]:
# Obtener las dimensiones
h = np.array([[1, 2], [3, 4], [5, 6]])
print("Forma de h:", h.shape)

# Cambiar la forma
i = np.array([1, 2, 3, 4, 5, 6])
j = i.reshape(2, 3)
print(j)

Forma de h: (3, 2)
[[1 2 3]
 [4 5 6]]


<img src="https://drive.google.com/uc?export=view&id=1DNuGbS1i-9it4Nyr3ZMncQz9cRhs2eJr" width="50" align="left" title="Runa-perth">
<br clear="left">