<a href="https://colab.research.google.com/github/CaroliCosas/Bootcamp_Data_Science/blob/main/01_numpy_avanzado.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## NumPy - Avanzado

En este notebook vamos a explorar diferentes funciones de esta librería enfocadas al trabajo con elementos **bi-dimensionales** (matrices) y manipulación de arrays.

- Indexing y Slicing en NumPy.
- Atributos de los arrays.
- Funciones de agregación.
- Funciones de ordenamiento.
- Manipulación de arrays.
- Creación de arrays.
- Números Aleatorios en NumPy.

In [1]:
import numpy as np

In [2]:
# Versión de NumPy

print(f"numpy=={np.__version__}")

numpy==1.26.4


### Indexing y Slicing en NumPy

#### Indexing

En Python para hacer _**indexing**_ de una lista de listas debiamos escribir primero la _**fila**_ y de segundo la _**columna**_ asi:
```python
lista[a][b]
```

Usando un _**np.array()**_ podemos usar la siguiente notación:
```python
array[a, b]
```

#### Slicing

En Python para hacer _**slicing**_ de una lista de listas debiamos escribir primero la _**fila**_ y de segundo la _**columna**_ asi:
```python
lista[a1:a2][b1:b2]
```

Usando un _**np.array()**_ podemos usar la siguiente notación:
```python
array[a1:a2, b1:b2]
```

También podemos hacer _**slicing**_ dentro del _**indexing**_ (esta operación retorna un array):

```python
array[[a1, a3], [b2, b4]]
```

**Siempre el primer elemento hace referencia a las filas y el segundo hace referencia a las columnas.**

In [3]:
# matriz de ejemplo

matriz = np.array([[1, 0, 0, 0, 0],
                   [0, 0, 2, 0, 0],
                   [1, 1, 0, 0, 1],
                   [2, 1, 1, 1, 0],
                   [1, 2, 1, 2, 2]])

print(matriz)

[[1 0 0 0 0]
 [0 0 2 0 0]
 [1 1 0 0 1]
 [2 1 1 1 0]
 [1 2 1 2 2]]


In [4]:
# Hacer

matriz[4][1]

2

In [5]:
# Es igual que hacer

matriz[4, 1]

2

In [6]:
# Slicing

matriz[1:4, 1:4]

array([[0, 2, 0],
       [1, 0, 0],
       [1, 1, 1]])

In [7]:
# Indexing + Slicing
# El resultado es un array, no un único elemento

matriz[[1, 3], [2, 4]]

array([2, 0])

#### Atributos de los arrays

|Atributo      |Descripción                                          |
|--------------|-----------------------------------------------------|
|**.dtype**    |Retorna el tipo de dato de los elementos de un array.|
|**.ndim**     |Retorna el número de dimensiones de un array.        |
|**.size**     |Retorna el total de elementos no nulos de un array.  |
|**.shape**    |Retorna en una tupla las dimensiones de un array.    |
| **.T**       |Retorna la transpuesta de una matriz.                |

In [8]:
# .dtype retorna el tipo de dato de los elementos de un array.
matriz.dtype

dtype('int64')

In [9]:
# .ndim retorna el número de dimensiones de un array.
# Como es una matriz tiene 2 dimensiones (filas y columnas)
matriz.ndim

2

In [10]:
# .size retorna el total de elementos no nulos de un array.

matriz.size

25

In [11]:
# .shape retorna en una tupla las dimensiones de un array.
# Como es una matriz y tiene 2 dimensiones, retorna el total de filas y el total de columnas.

matriz.shape

(5, 5)

In [12]:
# .T retorna la transpuesta de una matriz

matriz.T

array([[1, 0, 1, 2, 1],
       [0, 0, 1, 1, 2],
       [0, 2, 0, 1, 1],
       [0, 0, 0, 1, 2],
       [0, 0, 1, 0, 2]])

### Funciones de Agregación

Las funciones de agregación permiten reseumir los datos de un _**array**_ en un único valor.

|Función         |Descripción                                                                                                |
|----------------|-----------------------------------------------------------------------------------------------------------|
|**np.sum()**    |Retorna la suma de todos los elementos del array.                                                          |
|**np.prod()**   |Retorna el producto de todos los elementos del array.                                                      |
|**np.cumsum()** |Retorna la suma acumulada de todos los elementos del array.                                                |
|**np.cumprod()**|Retorna el producto acumulado de todos los elementos del array.                                            |
|**np.mean()**   |Retorna la media de todos los elementos del array.                                                         |
|**np.median()** |Retorna la mediana de todos los elementos del array.                                                       |
|**np.min()**    |Retorna el mínimo de todos los elementos del array.                                                        |
|**np.max()**    |Retorna la máximo de todos los elementos del array.                                                        |
|**np.std()**    |Retorna la desviación estandar de todos los elementos del array.                                           |
|**np.any()**    |Retorna **True** si al menos uno de los elementos del array es **True**. De lo contrario retorna **False**.|
|**np.all()**    |Retorna **True** si todos todos los elementos del array son **True**. De lo contrario retorna **False**.   |


Si es un **array de dos dimensiones** podemos añadir el parámetro _**axis = 0/1**_. Esto retornará la operación por **columna/fila**. El resultado de esa operación será un array, no un único valor.

In [13]:
# array de ejemplo

array = np.array([1, 3, 2, 5, 4, 6, 8, 7, 9, 1, 8, 10])

print(array)

[ 1  3  2  5  4  6  8  7  9  1  8 10]


In [14]:
# np.sum() retorna la suma de todos los elementos del array.

np.sum(array)

64

In [15]:
# Si es una matriz retorna la suma de todos los elementos

np.sum(matriz)

19

In [16]:
# Si añadimos el parámetro "axis = 0/1" entonces retornará la suma por cada columna/fila

np.sum(matriz, axis = 0)
# np.sum(matriz, axis = 1)

array([5, 4, 4, 3, 3])

In [17]:
# np.prod() retorna el producto de todos los elementos del array.

np.prod(array)

29030400

In [19]:
# Si es una matriz retorna el producto de todos los elementos

np.prod(matriz)

0

In [20]:
# Si añadimos el parámetro "axis = 0/1" entonces retornará el producto por cada columna/fila

np.prod(matriz, axis = 0)
# np.prod(matriz, axis = 1)

array([0, 0, 0, 0, 0])

In [21]:
# np.cumsum() retorna la suma acumulada de todos los elementos del array.

np.cumsum(array)

array([ 1,  4,  6, 11, 15, 21, 29, 36, 45, 46, 54, 64])

In [22]:
# np.cumprod() retorna el producto acumulado de todos los elementos del array.

np.cumprod(array)

array([       1,        3,        6,       30,      120,      720,
           5760,    40320,   362880,   362880,  2903040, 29030400])

In [23]:
# np.mean() retorna la media de todos los elementos del array.

np.mean(array)

# np.mean(matriz, axis = 1)

5.333333333333333

In [24]:
# np.median() retorna la mediana de todos los elementos del array.

np.median(array)

5.5

In [25]:
# np.min() retorna el mínimo de todos los elementos del array.

np.min(array)

1

In [26]:
# np.max() retorna la máximo de todos los elementos del array.

np.max(array)

10

In [27]:
# np.std() retorna la desviación estandar de todos los elementos del array.

np.std(array)

3.009245014211298

In [28]:
# np.any() retorna True si al menos uno de los elementos del array es True. De lo contrario retorna False.

np.any(array)

True

In [29]:
# np.all() retorna True si todos todos los elementos del array son True. De lo contrario retorna False.

np.all(array)

True

### Funciones de ordenamiento

|Función         |Descripción                                                                                                     |
|----------------|----------------------------------------------------------------------------------------------------------------|
|**np.sort()**   |Retorna un array ordenado de menor a mayor.                                                                     |
|**np.argsort()**|Retorna los indices de los elementos de un array, representan el array ordenado de menor a mayor.               |
|**np.argmin()** |Retorna el índice del elemento menor de un array. Si ese elemento se repite entonces retorna el de menor índice.|
|**np.argmax()** |Retorna el índice del elemento mayor de un array. Si ese elemento se repite entonces retorna el de menor índice.|

In [30]:
# np.sort() retorna un array ordenado de menor a mayor.

np.sort(array)

array([ 1,  1,  2,  3,  4,  5,  6,  7,  8,  8,  9, 10])

In [31]:
# Ordena por fila

np.sort(matriz, axis = 1)

array([[0, 0, 0, 0, 1],
       [0, 0, 0, 0, 2],
       [0, 0, 1, 1, 1],
       [0, 1, 1, 1, 2],
       [1, 1, 2, 2, 2]])

In [32]:
# Ordena por columa

np.sort(matriz, axis = 0)

array([[0, 0, 0, 0, 0],
       [1, 0, 0, 0, 0],
       [1, 1, 1, 0, 0],
       [1, 1, 1, 1, 1],
       [2, 2, 2, 2, 2]])

In [33]:
# np.argmin() retorna el índice del elemento menor de un array. Si ese elemento se repite entonces retorna el de menor índice.

# En este ejemplo retorna 0, porque el índice del elemento más pequeño es 0

np.argmin(array)

0

In [34]:
# np.argmax() retorna el índice del elemento mayor de un array. Si ese elemento se repite entonces retorna el de menor índice.

# En este ejemplo retorna 11, porque el índice del elemento más grande es 11

np.argmax(array)

11

### Manipulación de arrays

Estas **funciones/métodos** se utilizan para modificar, transformar o combinar arrays.

|Función             |Descripción                                                                |
|--------------------|---------------------------------------------------------------------------|
|**np.reshape()**    |Modifica la _forma_ de un array (también es un método).                    |
|**np.ravel()**      |_Aplana_ un array de 2 o más dimensiones a 1 dimensión.                    |
|**.flatten()**      |(**Método**) _Aplana_ un array de 2 o más dimensiones a 1 dimensión.       |
|**np.vstack()**     |Une **verticalmente** una colección de arrays del mismo número de columnas.|
|**np.hstack()**     |Une **horizontalmente** una colección de arrays del mismo número de filas. |
|**np.concatenate()**|Es una generalización de las funciones **np.vstack()** y **np.hstack()**.  |
|**np.transpose()**  |Retorna la transpuesta de una matriz. Es una función.                      |
|**.tolist()**       |(**Método**) Transforma un array a lista.                                  |
|**np.where()**      |Retorna los elementos filtrados de un array.                               |

In [None]:
# np.reshape() modifica la forma de un array

np.reshape(array, newshape = (3, 4))

# En este ejemplo estamos usando la variable "array" que tiene en total 12 elementos
# Para usar reshape la nueva forma del array debe de utilizar todos los elementos, no pueden ser más ni menos
# Por eso (3, 4) es una forma valida, ya que 3*4=12

# Esta es una forma fácil de transformar un array de una dimensión a un array de 2 o más dimensiones

In [None]:
# Se puede lograr lo mismo usandolo como método

array.reshape(3, 4)

In [None]:
# np.ravel() aplana un array de 2 o más dimensiones a 1 dimensión. Es una función

np.ravel(matriz)

In [None]:
# .flatten() Aplana un array de 2 o más dimensiones a 1 dimensión. Es un método

matriz.flatten()

In [None]:
# np.vstack() une verticalmente una colección de arrays del mismo número de columnas.

np.vstack((matriz, matriz))

In [None]:
# np.hstack() une horizontalmente una colección de arrays del mismo número de filas.

np.hstack((matriz, matriz))

In [None]:
# np.concatenate() es una generalización de las funciones np.vstack() y np.hstack().
# Para indicar en que sentido se hara la concatenación es através del parámetro "axis = 0/1"

np.concatenate((matriz, matriz), axis = 0)

# np.concatenate((matriz, matriz), axis = 1)

In [None]:
# np.transpose() retorna la transpuesta de una matriz. Es una función.

np.transpose(matriz)

In [None]:
# .tolist() transforma un array a lista. Es un método.

matriz.tolist()

In [None]:
# np.where() retorna los elementos filtrados de un array.
# En este ejemplo va a retornar los elementos mayor a 7.

np.where(array > 7)

In [None]:
matriz

In [None]:
# En el caso de ser una matriz, retornará 2 arrays
# El primero indica la posición en las filas y el segundo la posición en las columnas

np.where(matriz > 1)

### Creación de arrays

Existen varias funciones para inicializar matrices o arrays:

| Función                | Descripción                                                                       |
|------------------------|-----------------------------------------------------------------------------------|
|**np.empty((n, m))**    | Inicializa una matriz $nxm$ vacia.                                                |
|**np.zeros((n, m))**    | Inicializa una matriz $nxm$ de ceros.                                             |
|**np.ones((n, m))**     | Inicializa una matriz $nxm$ de unos.                                              |
|**np.eye(n)**           | Inicializa la matriz identidad de orden $n$.                                      |
|**np.identity(n)**      | Inicializa la matriz identidad de orden $n$.                                      |
|**np.full(shape, elem)**| Inicializa una matriz con la forma de **shape** usando los elementos de **elem**. |
|**np.linspace(a, b, p)**| Inicializa un array de **p** elementos entre **a** y **b**, todos **x-distantes**.|

In [None]:
# Aunque muestre numeros dentro de la matriz, np.empty() la inicializa vacia
# Estos números que se ven estan en memoria y numpy los usa para mostrar la matriz

empty = np.empty(shape = (5, 5), dtype = "int")

print(empty)

In [None]:
# Inicializa una matriz de 1's.

ones = np.ones(shape = (5, 5), dtype = "int8")

print(ones)

In [None]:
# Inicializa una matriz de 0's.

zeros = np.zeros(shape = (5, 5), dtype = "int8")

print(zeros)

In [None]:
# Matriz identidad

np.eye(5)

In [None]:
# np.full() crea una lista con forma "shape" y la llena con un iterable.

full = np.full(shape = (5, 5), fill_value = range(5))

print(full)

In [None]:
# np.linspace(a, b, p) crea un array de "p" elementos entre "a" y "b", todos x-distantes

linspace = np.linspace(start = 1, stop = 12, num = 16)

print(linspace)

### Números aleatorios en NumPy

|Función                             |Descripción                                                                                                                                                  |
|------------------------------------|-------------------------------------------------------------------------------------------------------------------------------------------------------------|
|**np.random.random(n)**           | Genera un número aleatorio entre 0 y 1, si damos el parametro **n** genera una lista de **n** elementos aleatorios entre 0 y 1, solo genera vectores.|
|**np.random.randn(shape)**        | Genera un array de forma **shape** con números aleatorios. Estos números siguen una distribución normal.                                                      |
|**no.random.randint(a, b, size)** | Genera un array de tamaño **size** con numeros enteros aleatorios entre **a** y **b**.                                                                        |
|**np.random.choice(obj, size, p)**| Genera un array de tamaño **size** con los elementos de **obj**, se le pueden dar pesos a los elementos usando **p**, retorna elementos repetidos.            |
|**np.random.seed(n)**             | Genera una semilla.                                                                                                                                            |
|**np.random.RandomState(n)**      | Genera una semilla.                                                                                                                                            |

In [None]:
# np.random.random() retorna un número entre 0 y 1
# Se puede utilizar para crear arrays de 1, 2 o n-dimensiones

print(np.random.random())

print("-"*30)

print(np.random.random(size = 5))

print("-"*30)

print(np.random.random(size = (5, 5)))

In [None]:
# np.random.randn() retorna un número aleatorio de una distribución normal
# La distribución tiene mean = 0 y std = 1

print(np.random.randn())

print("-"*30)

print(np.random.randn(2, 3))

In [None]:
# np.random.randint() retorna números enteros
# No incluye el límite superior

print(np.random.randint(0, 10))

print("-"*30)

print(np.random.randint(1, 10, size = (5, 5)))

In [None]:
# np.random.choice() retorna un array de elementos aleatorios
# Se puede dar pesos a las probabilidades

print(np.random.choice(a    = ["a", "e", "i", "o", "u"],
                       size = 10,
                       p    = [0.6, 0.1, 0.1, 0.1, 0.1]))

In [None]:
# np.seed() indica la aleatoriedad que usará NumPy

# En este ejemplo np.seed() afecta a todos los np.random.randn()

for i in range(5):

    np.random.seed(0)

    print(np.random.randn())

In [None]:
# En este ejemplo np.seed() solo se aplica al primer np.random.randn()

np.random.seed(0)

for i in range(5):

    print(np.random.randn())

In [None]:
# np.random.RandomState() genera una semilla al igual que np.seed()
# Se diferencia porque puede ser usado para generar número aleatorios sin modificar la aleatoriedad del resto de funciones

for i in range(4):

    rs = np.random.RandomState(2)

    print(rs.rand())
    print(rs.randint(0, 10))

    print(np.random.randn()) # No usa np.random.RandomState()

    print("-"*30)

In [None]:
################################################################################################################################