# Numpy

In [1]:
import numpy as np

Numpy es una librer√≠a que trabaja con grandes conjuntos de datos num√©ricos de forma eficiente, realiza complejas operaciones matem√°ticas y estad√≠sticas de alto rendimiento.

El elemento principal de esta librer√≠a son los arrays, √©stos pueden representarse en distintas dimensiones.

## 1.1 Dimensiones

Las dimensiones nos permiten estructurar los datos de tal forma que sea posible abordar problemas complejos con m√°s eficiencia y precisi√≥n.

Podemos encontrar las dimensiones como:
- 0 dimensiones = Escalar
- 1 dimensi√≥n = Vector
- 2 dimensiones = Matriz
- +3 dimensiones = Tensor

Cada una de las dimensiones tiene un proposito especifico.

**Escalar**: Se utiliza para mediciones individuales, pues un escalar es en si un simple valor num√©rico.

In [2]:
escalar = np.array(36)
print(f"{escalar}, type: {escalar.dtype}, dimensi√≥n: {escalar.ndim}")

36, type: int64, dimensi√≥n: 0


**Vector**: Colecci√≥n de m√°s de un escalar, se utilizan cuando los datos pueden organizarse como una fila o una columna, como las caracter√≠sticas una sola observaci√≥n (edad, altura, peso, etc.)

In [3]:
vector = np.array([36, 32, 29, 30, 30, 31, 33])
print(f"{vector},\ntype: {vector.dtype}, dimensi√≥n: {vector.ndim}")

[36 32 29 30 30 31 33],
type: int64, dimensi√≥n: 1


**Matriz**: Organiza la informaci√≥n a modo de filas y columnas, es utilizada cuando se cuenta con una estructura bidimensional. Ejemplo, (1) Dataset donde las filas representan las observaciones y las columnas las caracter√≠sticas. (2) O bien una imagen en escala de grices, donde cada celta (fila-columna) representa un pixel.

In [4]:
matrix = np.array([[1,2,3], [4,5,6]])
print(f"{matrix},\ntype: {matrix.dtype}, dimensi√≥n: {matrix.ndim}")

[[1 2 3]
 [4 5 6]],
type: int64, dimensi√≥n: 2


**Tensor**: Los datos tienen 3 o m√°s dimensiones, un ejemplo de un tensor 3D es una (1) imagen a color, ccada dimensi√≥n representa algo diferente: alto, ancho y canales de color (RGB). (2) O bien podemos encontrar que un tensor 4D representa un video, donde encontramos una dimensi√≥n para el n√∫nero de frames, alto, ancho y canales de color.

In [5]:
tensor = tensor = np.array([
  [[1,2], [3,4], [5,6]],
  [[7,8], [9,10], [11,12]],
  [[13,14], [15,16], [17,18]]
])
print(f"{tensor},\ntype: {tensor.dtype}, dimensi√≥n: {tensor.ndim}")

[[[ 1  2]
  [ 3  4]
  [ 5  6]]

 [[ 7  8]
  [ 9 10]
  [11 12]]

 [[13 14]
  [15 16]
  [17 18]]],
type: int64, dimensi√≥n: 3


Numpy nos ofrece 6 mecanismos distintos para crear arrays:
1. **Conversi√≥n**: Desde otras estructuras de pyhon (listas y tuplas).
2. **Funciones**: Ya vienen por defecto en Numpy (arange, ones, zeros, eye, etc.).
3. **Replicaci√≥n**: Uni√≥n o mutaci√≥n de vectores o matrices existentes.
4. **Lectura desde disco**: Leer archivos de texto, csv o formatos personalizados.
5. **Bytes crudos**: Por medio de cadenas o Buffers.
6. **Funciones especiales**: Provenientes de librer√≠as externas (random)

In [6]:
array = np.arange(0,5)
print(array)
array + 5

[0 1 2 3 4]


array([5, 6, 7, 8, 9])

## 1.2 Arrays

Espec√≠ficamente en Numpy, un array es una estructura de datos homog√©nea organizada en una o m√°s dimensiones. Esencial para c√°lculos matem√°ticos de manera eficiente y r√°pida.

En el an√°lisis y procesamiento de datos, los arrays de Numpy son superiores a las listas de Python, ya que la librer√≠a ofrece funciones matem√°ticas y estad√≠sticas  avanzadas ya optimizadas para estas estructura. 

üìå `array > lista`

Con esta herramienta se uede representar:
- Im√°genes
- Sonidos
- Videos
- Textos
- etc...

### 1.2.1 Formas de crear arrays con `numpy`

**Funciones a partir de una forma predefinida** <br>
Este tipo de funciones tienen en comun los parametros `shape` que define la forma del array, y `dtype` para indicar el tipo de dato que contendra el array.

- `empty()`: Crea un array con valores arbitrarios, "vac√≠o" o sin inicializar. Lo cu√°l significa que su contenido no se establece en 0 o en cualquier otro valor predefinido
- `eye()`: Crea un array bidimensional (2D) compuesta por 0 y 1, los elementos de la diagonal principal tienen el valor de 1, en otras palabras crea una matriz identidad.
- `identity()`: Crea una matriz identidad cuadrada (`nxn`), similar a eye pero con una sintaxis m√°s sencilla

In [7]:
# Array de 2 dimensiones (matriz)
print("*"*5, "empty()", "*"*5)
empy_array_2d = np.empty(shape=(4,4), dtype="uint8")
print(empy_array_2d)
print(f"Forma: {empy_array_2d.shape}, dimensi√≥n: {empy_array_2d.ndim}, tipo: {empy_array_2d.dtype}\n")


print("*"*5, "eye()", "*"*5)
eye_matrix__1 = np.eye(N=4, k=-1)
print(f"Matriz identidad con la diagonal principal en la parte inferior")
print(eye_matrix__1)
print(f"Forma: {eye_matrix__1.shape}, dimensi√≥n: {eye_matrix__1.ndim}, tipo: {eye_matrix__1.dtype}\n")

print("*"*5, "identity()", "*"*5)
identity_array_v1 = np.identity(n=3)
print(identity_array_v1)
print(f"Forma: {identity_array_v1.shape}, dimensi√≥n: {identity_array_v1.ndim}, tipo: {identity_array_v1.dtype}\n")\


***** empty() *****
[[245 252  67  75]
 [ 44 179 206 129]
 [152  63 100 166]
 [254 127   0   0]]
Forma: (4, 4), dimensi√≥n: 2, tipo: uint8

***** eye() *****
Matriz identidad con la diagonal principal en la parte inferior
[[0. 0. 0. 0.]
 [1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]]
Forma: (4, 4), dimensi√≥n: 2, tipo: float64

***** identity() *****
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
Forma: (3, 3), dimensi√≥n: 2, tipo: float64



- `ones()`: Esta funci√≥n crea un array de una determinada forma, cada elemento se inicializa con el valor de 1.
- `zeros()`: Esta funci√≥n crea un array de una determinada forma, cada elemento se inicializa con el valor de 0.
- `full()`: Crea un array con de una determinada forma, cada elemento esta inicializado con el valor especificado al crear el array.

In [8]:

print("*"*5, "ones()", "*"*5)
ones_v1 = np.ones(shape=(5, 5), dtype="int32")
print(ones_v1)
print(f"Forma: {ones_v1.shape}, dimensi√≥n: {ones_v1.ndim}, tipo: {ones_v1.dtype}\n")

print("*"*5, "zeros()", "*"*5)
zeros_v1 = np.zeros(shape=3)
print(zeros_v1)
print(f"Forma: {zeros_v1.shape}, dimensi√≥n: {zeros_v1.ndim}, tipo: {zeros_v1.dtype}\n")

print("*"*5, "full()", "*"*5)
fill_array = np.full(shape=(3,3), fill_value=[5.5, 0, 3])
print(fill_array)
print(f"Forma: {fill_array.shape}, dimensi√≥n: {fill_array.ndim}, tipo: {fill_array.dtype}\n")

***** ones() *****
[[1 1 1 1 1]
 [1 1 1 1 1]
 [1 1 1 1 1]
 [1 1 1 1 1]
 [1 1 1 1 1]]
Forma: (5, 5), dimensi√≥n: 2, tipo: int32

***** zeros() *****
[0. 0. 0.]
Forma: (3,), dimensi√≥n: 1, tipo: float64

***** full() *****
[[5.5 0.  3. ]
 [5.5 0.  3. ]
 [5.5 0.  3. ]]
Forma: (3, 3), dimensi√≥n: 2, tipo: float64



Cada m√©todo tiene una funcionalidad y objetivo especifico, seg√∫n las necesidades del proyecto que estemos realizando.
En este [notebook de google colab](https://colab.research.google.com/drive/1ORRBfv7sDnOPh2tzomCSzVpZZV-0XH-_#scrollTo=vTHWAn3jR3HK) hay m√°s ejemplos de creaci√≥n de arrays con otras funciones ya integradas de numpy.

## 1.3 Indexaci√≥n y Slicing

**Indexaci√≥n** <br>
Forma de acceder a los elementos de un array por medio de su √≠ndice.<br>
üì¢ Los indices empiezan a partir del 0 que representa el primer elemento del array.

In [9]:
array = np.random.randint(5, 30, 20) 
print(array)

[25 18  6 19 18 25 27 18 13 16 11 22 13  6 21 28 14 16  7 22]


In [10]:
print("Elemento en la posici√≥n 5:", array[4])
print("Elemento en la primer posici√≥n:", array[0])
print("Elemento en la √∫ltima posici√≥n", array[-1])
print("Elemento en la ante √∫ltima posici√≥n", array[-2])

Elemento en la posici√≥n 5: 18
Elemento en la primer posici√≥n: 25
Elemento en la √∫ltima posici√≥n 22
Elemento en la ante √∫ltima posici√≥n 7


**Indexaci√≥n booleana** <br>
Forma de obtener datos a partir de una condici√≥n. <br>
üì¢ Todos los elementos que cumplan con la condici√≥n ser√°n ‚Äúdevueltos‚Äù.

In [11]:
bool_index = array > 15
print("Array booleano:", bool_index)
print("Elementos mayortes a 15:", array[bool_index])
print("Elementos entre 15 y 20:", array[(array >= 15 ) & (array <= 20)])

Array booleano: [ True  True False  True  True  True  True  True False  True False  True
 False False  True  True False  True False  True]
Elementos mayortes a 15: [25 18 19 18 25 27 18 16 22 21 28 16 22]
Elementos entre 15 y 20: [18 19 18 18 16 16]


**Indexaci√≥n por listas** <br>
Permite obtener multiples elementos de un array con una lista de indices. <br>
üì¢ Al mandarle indices ‚Äúdesordenados‚Äù el array resultante obtiene los elementos en el orden en que se pas√≥ el √≠ndice centro de la lista.

In [12]:
index_list = [3,8,5,0]
print("Elementos en las posiciones 3,8,5 y 0:", array[index_list])
print("Elementos en las posiciones -1, 2,3 y 5:", array[[-1,2,3, 5]])

Elementos en las posiciones 3,8,5 y 0: [19 13 25 25]
Elementos en las posiciones -1, 2,3 y 5: [22  6 19 25]


**Indexaci√≥n de arrays multidimensionales** >br
Para acceder a un elemento de un array bidimensional, le indicamos 2 indices. <br>
üì¢ [indice_fila, indice_columna]

In [13]:
matrix = np.random.randint(5, 30, (5,5))
matrix

array([[23, 28,  5, 15, 15],
       [16, 15, 24,  5,  5],
       [19, 22,  9,  6,  5],
       [18, 28, 11, 13, 23],
       [25, 27, 16, 17, 24]])

In [14]:
print("Elemento de la fila 2, columna 2:", matrix[2,2]) # Elemento especifio
print("Elementos de las fila 1 y 2, columna 2:", matrix[[1,2],2]) # Indexaci√≥nb por lista (1)
print("Elementos en la fila 1 , columna 2, y fila 3, columna 2:", matrix[[1,2],[3,2]]) # Indexaci√≥nb por lista (2)
print("Elementos mayores a 18:", matrix[matrix > 18]) # Indexaci√≥n booleana

Elemento de la fila 2, columna 2: 9
Elementos de las fila 1 y 2, columna 2: [24  9]
Elementos en la fila 1 , columna 2, y fila 3, columna 2: [5 9]
Elementos mayores a 18: [23 28 24 19 22 28 23 25 27 24]


**Slicing** <br>
Selecci√≥n de sub-arrays, donde le indicamos el √≠ndice inicial e √≠ndice final del conjunto original. <br>
üì¢ Tambi√©n se se pueden agregar ‚Äúsaltos‚Äù.

In [15]:
print("*"*5, "Array", "*"*5)
print("Elementos desde el incio hasta la posici√≥n 3:", array[:3])
print("Elementos desde la posici√≥n 5 hasta el final:", array[5:])
print("Elementos desde la posici√≥n 5 hasta la posici√≥n 10:", array[5:10])
print("Elementos desde la posici√≥n hasta la penultima posici√≥n dando 2 saltos:", array[3:-2:2])

***** Array *****
Elementos desde el incio hasta la posici√≥n 3: [25 18  6]
Elementos desde la posici√≥n 5 hasta el final: [25 27 18 13 16 11 22 13  6 21 28 14 16  7 22]
Elementos desde la posici√≥n 5 hasta la posici√≥n 10: [25 27 18 13 16]
Elementos desde la posici√≥n hasta la penultima posici√≥n dando 2 saltos: [19 25 18 16 22  6 28 16]


In [16]:
print("*"*5, "Matriz", "*"*5)
print("Elementos a partir de la fila uno, y columnas a partir de la fila 2:\n", matrix[1:, 2:])
print("Elementos hasta la fila 3, y hasta la columna 2:\n", matrix[:3, :2])
print("Elementos a partir de la fila 1 dando 2 saltos, hasta la columna 1 dando 2 saltos\n",matrix[1::2, :1:2])

***** Matriz *****
Elementos a partir de la fila uno, y columnas a partir de la fila 2:
 [[24  5  5]
 [ 9  6  5]
 [11 13 23]
 [16 17 24]]
Elementos hasta la fila 3, y hasta la columna 2:
 [[23 28]
 [16 15]
 [19 22]]
Elementos a partir de la fila 1 dando 2 saltos, hasta la columna 1 dando 2 saltos
 [[16]
 [18]]


## 1.4 Broadcasting

El **broadcasting** es una t√©cnica en el an√°lisis de datos.

Caracter√≠sticas:
- Permite hacer operaciones aritm√©ticas en arrays de diferentes tama√±os y formas (shape) sin duplicar informaci√≥n.
- Extiende el array m√°s peque√±o al array m√°s grande de forma impl√≠cita.
- Eficienta las operaciones aritm√©ticas entre arrays de diferentes tama√±os.
- Optimiza el uso de memoria y mejora el rendimiento en operaciones de procesamiento de datos.

üìå Trata al array peque√±o como si tuviera la misma forma que el m√°s grande.

**Ejemplo (1)**: <br>
Tenemos un conjunto de datos que representa la medici√≥n de temperatura de 7 d√≠as en 3 ciudades diferentes (array de 3 x 7). Sin embargo las mediciones tienen un margen de error, y se nos da un array unidimensional con los valores de correcci√≥n para cada d√≠a de la semana (array de 1 x 7).

Para acer la correcci√≥n en la medici√≥n de temperatura, en lugar de duplicar el array de correcci√≥n para cada ciudad (fila), aplicamos broadcasting:

In [17]:
# Temperaturas (3 ciudades, 7 d√≠as)
temperaturas = np.array([
    [30, 32, 31, 29, 28, 27, 26],
    [25, 24, 22, 23, 26, 27, 28],
    [20, 21, 19, 18, 17, 16, 15]
])

# Correcci√≥n (1 valor por d√≠a)
correccion = np.array([1, -1, 0.5, -0.5, 0, 1, -1])

# Aplicar la correcci√≥n usando broadcasting
temperaturas_corregidas = temperaturas + correccion

print("Temperaturas originales:\n", temperaturas)
print("\nCorrecci√≥n aplicada:\n", correccion)
print("\nTemperaturas corregidas:\n", temperaturas_corregidas)


Temperaturas originales:
 [[30 32 31 29 28 27 26]
 [25 24 22 23 26 27 28]
 [20 21 19 18 17 16 15]]

Correcci√≥n aplicada:
 [ 1.  -1.   0.5 -0.5  0.   1.  -1. ]

Temperaturas corregidas:
 [[31.  31.  31.5 28.5 28.  28.  25. ]
 [26.  23.  22.5 22.5 26.  28.  27. ]
 [21.  20.  19.5 17.5 17.  17.  14. ]]


**Ejemplo (2)**: <br>
Tenemos una matriz 3x3 que representa los valores de ventas de tres productos en tres diferentes tiendas, y un vector 3x1 que contiene un bono de ventas que se aplica por tienda. El broadcasting permite sumar este bono de manera eficiente a cada fila de la matriz.

In [18]:
# Ventas de productos en diferentes tiendas
ventas = np.array([
  [100, 200, 300],
  [400, 500, 600],
  [700, 800, 900]
])

# Bono de ventas por tienda
bono = np.array([
  [10],
  [20],
  [30]
])

ventas_actualizadas = ventas + bono

print("Ventas actualizadas:\n", ventas_actualizadas)


Ventas actualizadas:
 [[110 210 310]
 [420 520 620]
 [730 830 930]]


## 1.5 Operaciones l√≥gicas

Tambi√©n las encontramos como ‚Äúfunciones l√≥gicas‚Äù, lo que hacen es evaluar el array dada una condici√≥n y nos retornara `True` o `False` si los elementes del array cumplen con la condici√≥n.

- `all(condicion)`: Retorna `True` si todo el array cumple con la condici√≥n, y `False` si al menos uno de los elementos no cumple con la condici√≥n.
- `any(condicion)`: Al contrario de all, retorna `True` si existe al menos un elemento que cumpla con la condici√≥n, y retorna `False` cuando ninguno de los elementos cumple la condici√≥n.



Existen m√°s funciones l√≥gicas en la librer√≠a numpy, aqu√≠ la [Documentaci√≥n oficial](https://numpy.org/doc/stable/reference/routines.logic.html).

In [19]:
array_lf = np.random.randint(5, 30, 20)

print(np.all(array_lf > 15))
print(np.all(array_lf != 0))
print(np.any(array_lf > 15))
print(np.any(array_lf < 0))

False
True
True
False


## 1.6 Concatenaci√≥n, Stacking y Split

Concatenaci√≥n y stacking son t√©cnicas para unir 2 o mas arrays y crear uno nuevo.

- Concatenaci√≥n: permite unir 2 o m√°s arrays para crear uno solo.

In [20]:
array_a = np.random.randint(5, 20, 5)
array_b = np.random.randint(21, 35, 5)

concatenated_ab = np.concatenate((array_a, array_b))
concatenated_ba = np.concatenate((array_b, array_a))

print("Array a:\n", array_a)
print("\nArray b:\n", array_b)
print("\nConcatenaci√≥n a-b:\n", concatenated_ab)
print("\nConcatenaci√≥n b-a:\n", concatenated_ba)

Array a:
 [13 10  5  9 12]

Array b:
 [26 26 27 28 31]

Concatenaci√≥n a-b:
 [13 10  5  9 12 26 26 27 28 31]

Concatenaci√≥n b-a:
 [26 26 27 28 31 13 10  5  9 12]


- **Stacking**: Permite apilar arrays y obtener un array con dimensionalidades diferentes.
Numpy ofrece dos funciones:
  - `hstack()`: Apila los arrays de forma horizontal (columnas) 
  - `vstack()`: Apila los arrays de forma vertical (filas).

In [21]:
h_stack = np.hstack((array_a, array_b))
v_stack = np.vstack((array_a, array_b))

print("Array a:\n", array_a)
print("\nArray b:\n", array_b)
print("\nStack horizontal a-b:\n", h_stack)
print("\nStack vertical a-b:\n", v_stack)

Array a:
 [13 10  5  9 12]

Array b:
 [26 26 27 28 31]

Stack horizontal a-b:
 [13 10  5  9 12 26 26 27 28 31]

Stack vertical a-b:
 [[13 10  5  9 12]
 [26 26 27 28 31]]


Split es lo contrario de las funciones anteriores.

- **Split**: Generar `n` arrays apartir de un solo array.


üì¢ El n√∫mero de particiones que queremos debe ser m√∫ltiplo de la longitud del array original.

In [22]:
array_c = np.arange(1, 21)
splirt_c = np.split(array_c, 4)

print("\nArray c:\n", array_c)
print("\nDivisi√≥n en 4 partes de array_c:\n", splirt_c)


Array c:
 [ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20]

Divisi√≥n en 4 partes de array_c:
 [array([1, 2, 3, 4, 5]), array([ 6,  7,  8,  9, 10]), array([11, 12, 13, 14, 15]), array([16, 17, 18, 19, 20])]


## 1.7 Conteos

In [37]:
survey_responses = np.array(["bueno", "excelente", "malo", 
                              "bueno", "bueno", "malo", 
                              "malo", "bueno", "excelente", "malo"])

unique_values = np.unique(survey_responses)
print("Valores √∫nicos:\n", unique_values)

survey_responses = np.array(["bueno", "excelente", "malo", 
                              "bueno", "bueno", "malo", 
                              "malo", "bueno", "excelente", 
                              "malo", "malo", "malo", "malo",
                              "Regular"])

unique_values, value_counts = np.unique(survey_responses, return_counts=True)
print("\nValores √∫nicos:\n", unique_values)
print("\nConteos:\n", value_counts)

Valores √∫nicos:
 ['bueno' 'excelente' 'malo']

Valores √∫nicos:
 ['Regular' 'bueno' 'excelente' 'malo']

Conteos:
 [1 4 2 7]


## 1.8 Vistas vs Copias

### Vistas

In [34]:
array_orig = np.arange(1,10)
array_view = array_orig[1:3]

print("="*5, "Antes de modificar", "="*5)
print("Array original:\n", array_orig)
print("Vista:\n", array_view)

# Modificacamos el arrya original
array_orig[1:3] = [10, 11]

print("="*5, "Despues de modificar", "="*5)
print("Array original:\n", array_orig)
print("Vista:\n", array_view)


print("Base del array original:", array_orig.base)
print("Base del array vista:", array_view.base)

===== Antes de modificar =====
Array original:
 [1 2 3 4 5 6 7 8 9]
Vista:
 [2 3]
===== Despues de modificar =====
Array original:
 [ 1 10 11  4  5  6  7  8  9]
Vista:
 [10 11]
Base del array original: None
Base del array vista: [ 1 10 11  4  5  6  7  8  9]


### Copias

In [35]:
array_orig = np.arange(1,10)
array_copy = array_orig[[1, 2]]


print("="*5, "Antes de modificar", "="*5)
print("Array original:\n", array_orig)
print("Vista:\n", array_copy)

# Modificacamos el arrya original
array_orig[1:3] = [10, 11]

print("="*5, "Despues de modificar", "="*5)
print("Array original:\n", array_orig)
print("Vista:\n", array_copy)



print("Base del array original:", array_orig.base)
print("Base del array copia:", array_copy.base)

===== Antes de modificar =====
Array original:
 [1 2 3 4 5 6 7 8 9]
Vista:
 [2 3]
===== Despues de modificar =====
Array original:
 [ 1 10 11  4  5  6  7  8  9]
Vista:
 [2 3]
Base del array original: None
Base del array copia: None
