# Numpy

¿Cuál es el hype de Numpy?

Hemos mencionado que es una paquetería utilizada ampliamente en la industria, pero ¿qué la hace tan especial?

Comencemos explorando el objeto principal de Numpy: el `ndarray`.

## `ndarray`
**Un ndarray (N-dimensional array) es la estructura de datos principal de NumPy que permite almacenar y manipular arrays (arreglos) multidimensionales de forma eficiente. Proporciona operaciones rápidas y flexibles para realizar cálculos numéricos y transformaciones en grandes conjuntos de datos.**

En un ndarray podemos almacenar elementos de un mismo tipo de dato. Aquí uno podría preguntarse

**¿cuál es la ventaja o el beneficio de usar un ndarray de Numpy sobre una lista ordinaria de Python?**

Numpy tiene ventajas significativas sobre listas ordinarias, descubrámoslas con ejemplos prácticos

---

## Crear un arreglo de Numpy
Hay más de una forma (como es costumbre en Python) para crear un array. La más común es pasarle una lista a la función `np.array`

In [36]:
#Importamos numpy como np (SIEMPRE)
import numpy as np

In [37]:
lista = [0,1,2,3,4]
array_1d = np.array(lista)

#Checamos el tipo de dato de array_id
type(array_1d)

numpy.ndarray

In [38]:
type(1.2)

float

In [39]:
#contenido del array
array_1d

array([0, 1, 2, 3, 4])

## Diferencia entre ndarray y lista

La diferencia principal entre un `array` y una `list` es que los `arrays` están diseñados para procesar operaciones vectorizadas, mientras que una lista no tiene estas capacidades.

Sea $\vec{x}$ un vector tal que $\vec{x} = (0 , 1, 2, 3, 4)$

$$\vec{x} + a = (0 + a, 1 + a, 2 + a, 3 + a, 4 + a)$$

Entonces, si $a = 2$
$$ \vec{x} + 2 = (0 +2, 1 + 2, 2 + 2, 3 + 2, 4 + 2) $$
$$ \vec{x} + 2 = (2, 3, 4, 5, 6) $$

Esto significa que si aplicamos una función a un `array` entonces la función se va a aplicar a **cada elemento del array**

Veamos un ejemplo:

Si quisieramos sumar 2 a cada elemento de la `lista`, intuitivamente podríamos intentar:

In [40]:
lista

[0, 1, 2, 3, 4]

In [41]:
lista + 2

TypeError: can only concatenate list (not "int") to list

Como podemos ver, no es posible hacer esto con listas. Probemos ahora con `array_1d`

In [57]:
array_1d + 2

array([2, 3, 4, 5, 6])

In [None]:
# Using a list comprehension to add 2 to each element in the list
lista_sumada = [x + 2 for x in lista]
print(lista_sumada)

---

### Otro ejemplo: Multiplicación de matrices

Veamos una multiplicación de matrices con Numpy.

$A=\begin{bmatrix}
1 & 2 & 3 \\
4 & 5 & 6
\end{bmatrix}$ , $B=\begin{bmatrix}
7 & 8 \\
9 & 10 \\
11 & 12
\end{bmatrix}$

Recordemos de la materia de Álgebra Lineal que:
Sean A y B, 2 matrices

$\begin{bmatrix}
a_{11} & a_{12} & a_{13} \\
a_{21} & a_{22} & a_{23}
\end{bmatrix}
\begin{bmatrix}
b_{11} & b_{12} \\
b_{21} & b_{22} \\
b_{31} & b_{32}
\end{bmatrix}
=
\begin{bmatrix}
a_{11}b_{11} + a_{12}b_{21} + a_{13}b_{31} & a_{11}b_{12} + a_{12}b_{22} + a_{13}b_{32} \\
a_{21}b_{11} + a_{22}b_{21} + a_{23}b_{31} & a_{21}b_{12} + a_{22}b_{22} + a_{23}b_{32}
\end{bmatrix}$

---

Antes de apreciar la **BELLEZA** de Numpy, hagamos una implementación de multiplicación de matrices sin utilizar numpy:

In [58]:
def multiplicar_matrices(A, B):
    # obtener dimensiones
    filas_A = len(A)
    cols_A = len(A[0])
    filas_B = len(B)
    cols_B = len(B[0])

    # checar si se pueden multiplicar A y B
    if cols_A != filas_B:
        raise ValueError("El número de columnas de A debe ser igual al número de filas de B")

    # Inicializar una matriz vacía con ceros
    matriz_resultado = []
    for _ in range(filas_A):
        fila = []
        for _ in range(cols_B):
            fila.append(0)
        matriz_resultado.append(fila)

    # realizar multiplicación
    for i in range(filas_A):
        for j in range(cols_B):
            for k in range(cols_A):
                matriz_resultado[i][j] += A[i][k] * B[k][j]

    return matriz_resultado

# Ejemplo
A = [
    [1, 2, 3],
    [4, 5, 6]
]
B = [
    [7, 8],
    [9, 10],
    [11, 12]
]
C = multiplicar_matrices(A, B)
print(C)

[[58, 64], [139, 154]]


**¿Nada mal no?**

Y de hecho se ejecutó bastante rápido… Pongámosle más estrés a Python con multiplicaciones de matrices más grandes, y contemos cuánto tarda en multiplicar cada una de ellas:

### Función para crear una matriz de NxN con números aleatorios

In [59]:
import random

def generar_matriz_aleatoria(N):
    matriz = []
    for i in range(N):
        fila = []
        for j in range(N):
            fila.append(random.randint(1, 9))
        matriz.append(fila)
    return matriz


N = 5
matriz_aleatoria = generar_matriz_aleatoria(N)
for fila in matriz_aleatoria:
    print(fila)

[4, 7, 9, 4, 5]
[3, 2, 8, 8, 1]
[3, 8, 5, 1, 3]
[9, 5, 7, 9, 1]
[6, 9, 4, 2, 4]


### Función para imprimir una matriz en formato amigable

In [60]:
def imprimir_matriz(matriz):
    for fila in matriz:
        fila_formateada = ' '.join(f'{elemento:2}' for elemento in fila)
        print(fila_formateada)

### Creación e impresión de las matrices

In [61]:
print("Matríz de 5x5:")
m_5 = generar_matriz_aleatoria(5)
imprimir_matriz(m_5)
print("====================")
print("Matríz de 10x10:")
m_10 = generar_matriz_aleatoria(10)
imprimir_matriz(m_10)
print("====================")
print("Matríz de 20x20:")
m_20 = generar_matriz_aleatoria(20)
imprimir_matriz(m_20)
print("====================")
m_100 = generar_matriz_aleatoria(100)

Matríz de 5x5:
 7  6  3  2  8
 5  1  7  8  6
 9  1  3  2  9
 1  9  1  5  1
 9  1  7  9  6
Matríz de 10x10:
 5  2  2  8  6  8  4  9  2  9
 3  8  4  8  2  7  3  4  3  9
 3  1  6  6  4  4  3  5  8  4
 4  3  4  2  3  7  8  2  1  2
 6  9  2  6  2  7  9  5  6  6
 1  8  3  6  1  8  2  4  6  1
 3  1  4  2  5  9  4  7  7  4
 8  1  9  4  2  9  8  1  4  9
 3  6  9  2  5  3  2  5  6  9
 4  2  9  6  7  3  1  4  1  6
Matríz de 20x20:
 2  1  8  5  3  9  6  3  7  3  4  7  6  8  5  4  9  8  8  5
 2  6  7  2  8  4  4  2  4  8  9  3  5  3  4  1  4  5  1  6
 4  4  4  4  5  1  2  5  6  1  5  1  1  3  9  2  2  4  7  4
 7  8  1  6  8  1  6  4  3  1  2  2  5  7  2  9  9  2  8  8
 2  2  6  1  4  5  3  4  6  6  4  3  5  5  6  8  8  4  8  6
 9  1  3  1  3  3  3  5  7  6  3  1  3  9  2  7  1  2  2  2
 6  8  8  4  1  4  5  5  1  8  9  1  4  3  5  3  5  4  9  7
 3  6  7  7  5  9  7  6  2  1  9  6  1  7  4  8  7  4  4  3
 7  5  5  3  4  5  1  7  4  2  4  4  8  1  9  7  4  8  9  5
 6  4  7  8  7  8  4  8  2  2  4  3 

---
Ahora midamos el tiempo que tardamos en multiplicar cada una de las matrices por sí misma. Utilizaremos código como éste
```python
start = time.time()
# ejecutar código
end = time.time()
tiempo = round(end - start, 5)
print(f"La ejecución tardó {tiempo} seg.")
```

In [62]:
import time

**Comencemos con la matrices de 5x5**

In [63]:
start = time.time()
multiplicar_matrices(m_5, m_5)
end = time.time()
tiempo = end - start
print(f"Multiplicar dos matrices de 5x5 tardó {tiempo} seg.")

Multiplicar dos matrices de 5x5 tardó 7.796287536621094e-05 seg.


**Nada mal… Veamos ahora 10x10**

In [64]:
start = time.time()
multiplicar_matrices(m_10, m_10)
end = time.time()
tiempo = end - start
print(f"Multiplicar dos matrices de 10x10 tardó {tiempo} seg.")

Multiplicar dos matrices de 10x10 tardó 0.00022125244140625 seg.


**Parece que va bastante rápido... Intentemos ahora con una matriz de 1000x1000**

In [65]:
m_1000 = generar_matriz_aleatoria(1000)
start = time.time()
multiplicar_matrices(m_1000, m_1000)
end = time.time()
tiempo = end - start
print(f"Multiplicar dos matrices de 1000x1000 tardó {tiempo} seg.")

Multiplicar dos matrices de 1000x1000 tardó 104.59726905822754 seg.


# Tardamos más de un minuto completo en multiplicar dos matrices de 1000x1000

---

## Implementación con Numpy

Veamos qué tanto mejora el rendimiento de multiplicación de matrices cuando implementamos numpy.

Primero, creemos una función para generar matrices:

In [66]:
def generar_matriz_aleatoria_numpy(N):
    return np.random.randint(1, 10, size=(N, N))

**No te preocupes por la sintaxis de Numpy. La revisaremos más adelante 😎**

In [67]:
m_1000 = generar_matriz_aleatoria_numpy(1000)

**Para multiplicar matrices en numpy, podemos utilizar la función `np.dot`, o bien, el operador `@`**

In [68]:
start = time.time()
np.dot(m_1000, m_1000)
# o bien, m_1000 @ m_1000
end = time.time()
tiempo = end - start
print(f"Multiplicar dos matrices de 1000x1000 con Numpy tardó {tiempo} seg.")

Multiplicar dos matrices de 1000x1000 con Numpy tardó 1.4457218647003174 seg.


---

## Arreglos de 2 dimensiones
Un arreglo de dos dimensiones es lo mismo que una matriz de $m \times n$. Una matriz es la forma más adecauda de representar datos tabulares, Numpy hace su manejo sumamente fácil. Comencemos por crear una matriz de $3 \times 3$

Queremos hacer la siguiente matriz:
$$ \begin{bmatrix}
0 & 1 & 2 \\
3 & 4 & 5 \\
6 & 7 & 8
\end{bmatrix} $$

In [69]:
list2 = [[0,1,2], [3,4,5], [6,7,8]]
arr2d = np.array(list2)
arr2d

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

Podemos especificar el tipo de dato cuando creamos nuestro `ndarray`, por lo general Numpy infiere el tipo de dato

In [70]:
arr2d_f = np.array(list2, dtype='float')
arr2d_f

array([[0., 1., 2.],
       [3., 4., 5.],
       [6., 7., 8.]])

In [71]:
#convertir a enteros nuevamente
arr2d_f.astype('int')

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [72]:
# convertir a enteros y luego a strings
arr2d_f.astype('int').astype('str')

array([['0', '1', '2'],
       ['3', '4', '5'],
       ['6', '7', '8']], dtype='<U21')

Una diferencia importante entre listas y np.arrays es que una lista puede almacenar objetos de diferentes tipos de datos, mientras que un np.array debe ser consistente en el tipo de dato que almacena. Esto se debe al deseo que tenemos por realizar operaciones vectorizadas

In [73]:
# crear un arreglo de valroes lógicos o bools
arr2d_b = np.array([1, 0, 10, 11, 12, -1, 0], dtype='bool')
arr2d_b

array([ True, False,  True,  True,  True,  True, False])

Sí existe una forma de mantener la ambigüedad en el tipo de dato de nuestro array. Esto lo podemos logar si especificamos que el tipo de dato es `object`

In [74]:
arr1d_obj = np.array([1, 'a'], dtype='object')
arr1d_obj

array([1, 'a'], dtype=object)

Por último: podemos convertir un `ndarray` a una lista en cualquier momento utilziando el método `tolist()`

In [75]:
lista = arr1d_obj.tolist()
lista

[1, 'a']

O bien `list(numpy.ndarray)`

In [76]:
list(arr1d_obj)

[1, 'a']

## Tamaño y dimensión de un array
Un arreglo tiene dos propiedades básicas que nos dicen mucho acerca de su estructura: tamaño y dimensión.

Considemos el arreglo `arr2d`. Éste se creó a partir de una lista de listas. O sea, tiene dos dimensiones. Un arreglo de dos dimensiones se puede mostrar como renglones y columnas, i.e. una matriz.

Si hubiéramos creado el array a partir de una lista de lista de listas, entonces serían 3 dimensiones, i.e. un cubo.

Supogamos que recibimos un arreglo de numpy que no creamos nosotros. ¿Qué cosas queremos explorar para conocer bien este arreglo?

Bueno, unas buenas preguntas que querríamos contestar son:
- ¿Cuál es la dimensión del arreglo? ¿es de 1, 2 o más dimensiones? `ndim`
- ¿Cuántos elementos hay en cada dimensión? `shape`
- ¿Cuál es el tipo de dato? `dtype`
- ¿Cuál es el número total de elementos? `size`
- Algunos ejemplos/elementos del arreglo

Comencemos

In [77]:
# Crear arreglo de dos dimensiones con 3 filas y 4 columnas
list2 = [[1, 2, 3, 4],[3, 4, 5, 6], [5, 6, 7, 8]]
arr2 = np.array(list2, dtype='float')
arr2

array([[1., 2., 3., 4.],
       [3., 4., 5., 6.],
       [5., 6., 7., 8.]])

In [78]:
# shape
print('Shape: ', arr2.shape)

# dtype
print('Datatype: ', arr2.dtype)

# size
print('Size: ', arr2.size)

# ndim
print('Num Dimensions: ', arr2.ndim)

Shape:  (3, 4)
Datatype:  float64
Size:  12
Num Dimensions:  2


---

## Acceder a los elementos del arreglo
Podemos extraer elementos o porciones específicos de un arreglo utilizando índices o `indexing` empezando por $0$. Esto es similar a cómo lo hacemos con listas en Python.

Pero a diferencia de las listas, los numpy arrays aceptan (opcionalmente) la misma cantidad de parámetros para indexar que el número de dimensiones que tiene el array.

Esto último es algo confuso, y no hay mejor manera que ilustrarlo que con un ejemplo:


In [79]:
arr2

array([[1., 2., 3., 4.],
       [3., 4., 5., 6.],
       [5., 6., 7., 8.]])

Podemos extraer un elemento específico `(i, j)` en donde `i` es la fila y `j` la columna

In [80]:
arr2[1, 1]

np.float64(4.0)

También podemos extraer "rangos"

In [81]:
# Extraer las primeras 3 filas y las primeras 3 columnas
arr2[:3, :3]

array([[1., 2., 3.],
       [3., 4., 5.],
       [5., 6., 7.]])

Esto **no** se puede hacer en listas

In [82]:
list2[:2, :2]

TypeError: list indices must be integers or slices, not tuple

Adicionalmente, en los numpy arrays existe algo que se llama `boolean indexing` o indexación lógica. Un `boolean index` o índice lógico.

Un array de índices lógicos es de exactamente la misma forma (`shape`) que el array que estamos filtrando, sólo que contiene únicamente valores booleanos (`True` o `False`). Los valores que estén en los índices Verdaderos son los que va a arrojar nuestro filtro.

In [83]:
arr2

array([[1., 2., 3., 4.],
       [3., 4., 5., 6.],
       [5., 6., 7., 8.]])

In [84]:
#Obtengamos el output booleano de aplicar una comparación a todo nuestro numpy array
b = arr2 > 4
b

array([[False, False, False, False],
       [False, False,  True,  True],
       [ True,  True,  True,  True]])

Como podemos ver, b ahora es una matriz de $3 \times 4$ con puros valores booleanos. El valor `True` está en todas las  posiciones en las que se cumplió que el elemento era $ > 4$

Con esta matriz de valores booleanos, podemos filtrar nuestra matriz original y obtener los valores que estén en posiciones verdaderas,

In [85]:
arr2[b]

array([5., 6., 5., 6., 7., 8.])

## Valores faltantes e infinitos
Es muy común recibir conjuntos de datos que tengan uno que otro valor en NA. Con numpy podemos representar valores faltantes con `np.nan` e infinitos con `np.inf`. Agreguemos algunos de estos valores a `arr2`

In [86]:
arr2[1,1] = np.nan  # no es un número
arr2[1,2] = np.inf  # infinito
arr2

array([[ 1.,  2.,  3.,  4.],
       [ 3., nan, inf,  6.],
       [ 5.,  6.,  7.,  8.]])

Vamos a reemplazar todos los valores `nan` e `inf` con un $-1$

In [87]:
valores_faltantes_bool = np.isnan(arr2) | np.isinf(arr2)

In [88]:
valores_faltantes_bool

array([[False, False, False, False],
       [False,  True,  True, False],
       [False, False, False, False]])

In [89]:
arr2[valores_faltantes_bool] = -1
arr2

array([[ 1.,  2.,  3.,  4.],
       [ 3., -1., -1.,  6.],
       [ 5.,  6.,  7.,  8.]])

---

## Calcular media, mínimo y máximo

Un ndarray viene ya con algunos métodos útiles. Unos de éstos nos permiten calcular medidas básicas

In [90]:
print("Hola mundo")

Hola mundo


In [91]:
arr2

array([[ 1.,  2.,  3.,  4.],
       [ 3., -1., -1.,  6.],
       [ 5.,  6.,  7.,  8.]])

In [92]:
print("Media: ", arr2.mean())
print("Valor máximo: ", arr2.max())
print("Valor mínimo: ", arr2.min())

Media:  3.5833333333333335
Valor máximo:  8.0
Valor mínimo:  -1.0


In [93]:
arr2

array([[ 1.,  2.,  3.,  4.],
       [ 3., -1., -1.,  6.],
       [ 5.,  6.,  7.,  8.]])

Sin embargo, estos valores exploraron toda la matriz. Podemos obtener los mismos valores pero para filas y columnas utilizando `np.amin`

In [94]:
print("Valores mínimos en columnas", np.amin(arr2, axis=0))

Valores mínimos en columnas [ 1. -1. -1.  4.]


In [95]:
print("Valores mínimos en filas: ", np.amin(arr2, axis=1))

Valores mínimos en filas:  [ 1. -1.  5.]


In [96]:
arr2

array([[ 1.,  2.,  3.,  4.],
       [ 3., -1., -1.,  6.],
       [ 5.,  6.,  7.,  8.]])

---

## Crear un arreglo a partir de otro arreglo
En Numpy la alocación de memoria sigue la misma lógica que en Python: si asignamos una porción de un array a una nueva variable, y modificamos elementos de esta nueva variable, entonces los cambios se verán reflejados también en nuestro array original. Para evitar este comportamiento (si eso es lo que queremos) utilizamos el método `copy()`.

In [97]:
arr2_nuevo = arr2[:2,:2]
arr2_nuevo[:1, :1] = 100  # el 100 se va a reflejar también en el array original arr2

In [98]:
# Veamos arr2 (original)
arr2

array([[100.,   2.,   3.,   4.],
       [  3.,  -1.,  -1.,   6.],
       [  5.,   6.,   7.,   8.]])

Y ahora veamos `arr2_nuevo`

In [99]:
arr2_nuevo

array([[100.,   2.],
       [  3.,  -1.]])

In [100]:
#Para evitar esto vamos a usar copy
arr2_nuevo_2 = arr2[:2, :2].copy()
arr2_nuevo_2[0, 0] = 102  # 102 no saldrá en arr2
arr2

array([[100.,   2.,   3.,   4.],
       [  3.,  -1.,  -1.,   6.],
       [  5.,   6.,   7.,   8.]])

In [101]:
arr2_nuevo_2

array([[102.,   2.],
       [  3.,  -1.]])

---

## Crear secuencias, repeticiones y números aleatorios

`np.arange`

In [102]:
# El límite inferior es 0 por defecto
print(np.arange(5))
nuevo_arr = np.arange(10)

[0 1 2 3 4]


In [103]:
type(nuevo_arr)

numpy.ndarray

In [104]:
# 0 a 9
print(np.arange(5, 100))

[ 5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52
 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76
 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99]


In [105]:
# 0 a 9 de 2 en 2
print(np.arange(0, 100, 3.5))

[ 0.   3.5  7.  10.5 14.  17.5 21.  24.5 28.  31.5 35.  38.5 42.  45.5
 49.  52.5 56.  59.5 63.  66.5 70.  73.5 77.  80.5 84.  87.5 91.  94.5
 98. ]


In [106]:
# 10 a 1, en decrementos de 1
print(np.arange(10, 0, -1))

[10  9  8  7  6  5  4  3  2  1]


Podemos poner límite inferior y superior con `np.arange`, pero si queremos enfocarnos en el número de elmentos que queremos generar, entonces tenemos que concentrarnos en el valor del incremento/decremento (`step`)

Digamos que queremos generar exactamente 10 valores entre 1 y 50.

Podemos usar `np.linspace`

In [107]:
# Empieza en 1, terminar en 50, creando 10 números enteros
np.linspace(start=1, stop=50, num=20, dtype=int)

array([ 1,  3,  6,  8, 11, 13, 16, 19, 21, 24, 26, 29, 31, 34, 37, 39, 42,
       44, 47, 50])

Un buen observador se dará cuenta que nuestros elementos no están espaciados uniformemente. Esto se debe a que especificamos que el tipo de dato era entero.

---

## Crear arreglos de $1's$ y $0's$

A menudo tendremos la necesidad de crear vectores o matrices que tengan únicamente valores de $1$ o $0$. Numpy hace esto muy fácil

In [108]:
np.zeros([2,2])

array([[0., 0.],
       [0., 0.]])

In [109]:
np.ones([2,2])

array([[1., 1.],
       [1., 1.]])

---

## Crear secuencias repetidas

In [110]:
a = [1,2,3]

# Repetir todo el arreglo 'a' dos veces
print('Tile:   ', np.tile(a, 2))

# Repetir cada elemento de 'a' dos veces
print('Repeat: ', np.repeat(a, 4))


Tile:    [1 2 3 1 2 3]
Repeat:  [1 1 1 1 2 2 2 2 3 3 3 3]


In [111]:
import random
random.randint(0,100)

83

---

## Generar números aleatorios
Numpy tiene un módulo `random` con funciones últiles para generar números aleatorios de cualquier `shape`

In [112]:

print("Números aleatorios entre [0,1) de tamaño  2,2")
print(np.random.rand(3,5))

Números aleatorios entre [0,1) de tamaño  2,2
[[0.18780988 0.53771574 0.84320278 0.02872982 0.47934553]
 [0.63548663 0.60773861 0.34047956 0.90980829 0.25082379]
 [0.5949054  0.29133987 0.17858936 0.23529694 0.5025221 ]]


In [113]:
print("Números aleatorios de una distribución normal con media=0 y varianza=1 de tamaño 2,2")
print(np.random.randn(2,2))

Números aleatorios de una distribución normal con media=0 y varianza=1 de tamaño 2,2
[[-1.20053739  0.76555331]
 [ 0.48685755  0.31720876]]


In [114]:
print("Enteros aleatorios entre [0,10) de tamaño 2,2")
print(np.random.randint(0, 100, size=[5,5]))

Enteros aleatorios entre [0,10) de tamaño 2,2
[[88 15 92 63 77]
 [41 44 54  1 26]
 [50 18 62 61 47]
 [ 1 92 73 26 77]
 [98 80 52 98 88]]


In [115]:
print("Genera un número aleatorio entre [0,1)")
print(np.random.random())

Genera un número aleatorio entre [0,1)
0.4004135818435409


In [116]:
print("Elige 10 elementos de una lista (los resultados son equiprobables)")
print(np.random.choice(['Cara', 'Sol'], size=10))

Elige 10 elementos de una lista (los resultados son equiprobables)
['Sol' 'Cara' 'Cara' 'Cara' 'Sol' 'Cara' 'Sol' 'Sol' 'Cara' 'Cara']


In [117]:
print("Elige 10 elementos de una lista. Cada uno con una probablidad p")
print(np.random.choice(['Cara', 'Sol'], size=10, p=[0.2, .8]))

Elige 10 elementos de una lista. Cada uno con una probablidad p
['Sol' 'Sol' 'Sol' 'Sol' 'Sol' 'Sol' 'Sol' 'Sol' 'Sol' 'Sol']


Cada que corramos el código anterior, obtendremos valores diferentes ya que estamos generando números aleatorios.

Existen casos en los que queremos números pseudoaleatorios para poder reproducir nuestros resultados. Para esto utlizamos una semilla

In [118]:
# ponemos una semilla 100 para reproducibilidad
np.random.seed(100)
print(np.random.rand(2,2))

[[0.54340494 0.27836939]
 [0.42451759 0.84477613]]


En todo script de python, si colocamos una semilla de 100 y ejecutamos `np.random.rand(2,2)` deberíamos obtener exactamente el mismo resultado. Esto es útil porque la reproducibilidad es indispensable en investigación. O sea, queremos que otras personas sean capaces de reproducir nuestros resultados.

---
## Obtener valores únicos y frecuencias absolutas

In [119]:
np.random.seed(1)
arr_rand = np.random.randint(0, 10, size=100)
arr_rand

array([5, 8, 9, 5, 0, 0, 1, 7, 6, 9, 2, 4, 5, 2, 4, 2, 4, 7, 7, 9, 1, 7,
       0, 6, 9, 9, 7, 6, 9, 1, 0, 1, 8, 8, 3, 9, 8, 7, 3, 6, 5, 1, 9, 3,
       4, 8, 1, 4, 0, 3, 9, 2, 0, 4, 9, 2, 7, 7, 9, 8, 6, 9, 3, 7, 7, 4,
       5, 9, 3, 6, 8, 0, 2, 7, 7, 9, 7, 3, 0, 8, 7, 7, 1, 1, 3, 0, 8, 6,
       4, 5, 6, 2, 5, 7, 8, 4, 4, 7, 7, 4])

In [120]:
vals_unicos, frecuencias = np.unique(arr_rand, return_counts=True)
print("Elementos únicos: ", vals_unicos)
print("Frecuencias      :", frecuencias)

Elementos únicos:  [0 1 2 3 4 5 6 7 8 9]
Frecuencias      : [ 9  8  7  8 11  7  8 18 10 14]


In [121]:
2**32

4294967296