# Manipulación de datos con numpy

**Arrays, operaciones, Exploracion de datos, Analítica de datos.**

```{image} Imagenes/fragmentation.png
:width: 175px
:align: center
:alt: numpy
```
<p style="text-align: center; font-size: 8px;">
    <a href="https://www.flaticon.com/free-icons/fragmentation" title="fragmentation icons">Fragmentation icons created by Karyative - Flaticon</a>
</p>

## Análisis del Problema

NumPy es una librería fundamental sobre la que se construye el ecosistema científico de Python. NumPy (Numerical Python) es una de las bibliotecas más uitilizadas del ecosistema de Python para trabajar con datos numéricos. Proporciona una estructura de datos central llamada array multidimensional (ndarray), que permite almacenar y manipular arreglos datos mediante sus funcionalidades diversas. Esta estructura de datos permite:

 -  Almacenar datos de manera eficiente: Los arrays de NumPy son homogéneos (todos los elementos son del mismo tipo) y se almacenan en bloques contiguos de memoria, lo que permite un acceso y una manipulación ultrarrápidos.
 -  Realizar operaciones vectorizadas: En lugar de escribir bucles for para procesar cada elemento uno por uno (lo cual es lento), NumPy nos permite aplicar operaciones matemáticas a arrays completos de una sola vez. Esta vectorización no solo hace que el código sea más conciso y legible, sino que se ejecuta a velocidades de *C*/*Fortran* gracias a su núcleo optimizado.
 -  Servir como cimiento para otras librerías: NumPy es la piedra angular sobre la que se construyen pilares del *data science* como Pandas (para análisis y manipulación de datos tabulares), SciPy (para algoritmos científicos y matemáticos), Scikit-learn (para machine learning) y Matplotlib (para visualización). Dominar NumPy es, por tanto, esencial para aprovechar al máximo todo el potencial de estas herramientas.

A diferencia de las listas nativas de Python, los arreglos de NumPy están optimizados para operaciones vectorizadas y matriciales, lo que significa que pueden realizar cálculos complejos sobre conjuntos de datos completos sin necesidad de bucles explícitos. Esto no solo mejora el rendimiento, sino que también simplifica el código.

Además de sus eficientes estructuras de datos, NumPy incluye un amplio conjunto de funciones matemáticas, estadísticas y de álgebra lineal, lo que lo convierte en una herramienta esencial para tareas como el preprocesamiento de datos, la transformación de formatos, el análisis exploratorio y la preparación de datos para modelos de machine learning.

A lo largo de este material, exploraremos lo puntos mencionados en la lista de objetivos a continuación.

```{image} Imagenes/array.png
:width: 175px
:align: center
:alt: numpy
```
<p style="text-align: center; font-size: 8px;">
    <a href="https://www.flaticon.com/free-icons/fragment" title="fragment icons">Fragment icons created by kerismaker - Flaticon</a>
</p>

```{admonition} Objetivos de la sesión
:class: tip
 -  Conocer algunas formas de declaración y exploración de arrays
 -  Aplicar métodos y operaciones dentro de arrays
 -  Aplicar operaciones entre arrays
```

```{admonition} Actividad 
:class: important
Abrir el enlace al recurso de esta sesión y ejecutarlo en Google Colab de acuerdo a las indicaciones del profesor.
```

```{admonition} Recursos
:class: nota
- Notebook en Python: [Enlace a GitHub](https://github.com/monteroanibal/CursoPython2025II/blob/main/notebooks/CP2025II_Sesion3_Python.ipynb)
```

## Formas de declaración y exploración de arrays

A continuación, se mencionan las maneras de crear arrays desde sentencias de código o importando un archivo ráster.

### Creación de arrays

NumPy ofrece varias formas de declarar y crear arrays (**ndarray**), según el tipo de datos que necesitemos y el contexto del procesamiento. A continuación se presentan las principales:

* **A partir de listas o secuencias de Python**: La forma más directa es convertir listas o tuplas en arrays usando `numpy.array()`.

In [None]:
import numpy as np

# A partir de una lista
arr1 = np.array([1, 2, 3, 4])

# A partir de una lista de listas (matriz 2D)
arr2 = np.array([[1, 2, 3], [4, 5, 6]])

* **Arrays de ceros, unos o valores constantes**: Cuando se requiere inicializar un array con valores predeterminados:

In [None]:
# Array de ceros
zeros = np.zeros((3, 4))  # 3 filas, 4 columnas

# Array de unos
ones = np.ones((2, 5))    # 2 filas, 5 columnas

# Array con un valor constante
full = np.full((3, 3), 7) # Matriz 3x3 llena de sietes

* **Secuencias numéricas**: NumPy facilita la creación de rangos o secuencias numéricas:

In [None]:
# Secuencia de números enteros
rango = np.arange(0, 10, 2)  # De 0 a 8, paso 2

# Secuencia con número fijo de puntos
lin = np.linspace(0, 1, 5)   # 5 valores entre 0 y 1 (inclusive)

* **Arrays aleatorios**: Útiles para simulaciones, inicialización de modelos o pruebas:

In [None]:
# Valores aleatorios uniformes entre 0 y 1
rand = np.random.rand(3, 3)

# Enteros aleatorios entre 0 y 9
randint = np.random.randint(0, 10, (2, 4))

# Distribución normal
normal = np.random.randn(5)

* **Arrays identidad y diagonales**: Para operaciones de álgebra lineal:

In [None]:
# Matriz identidad 4x4
identity = np.eye(4)

# Matriz diagonal a partir de una lista
diagonal = np.diag([1, 2, 3, 4])

* **Creación a partir de formas de otros arrays**: Permite generar nuevos arrays con las mismas dimensiones que otro:

In [None]:
base = np.array([[1, 2], [3, 4]])

# Array de ceros con misma forma que 'base'
zeros_like = np.zeros_like(base)

# Array de unos con misma forma que 'base'
ones_like = np.ones_like(base)

* **Reshape y creación desde buffers**: También es posible reorganizar datos existentes o usar buffers de memoria:

In [None]:
# Reorganizar un rango en forma de matriz
arr = np.arange(12).reshape(3, 4)

* **En resumen**: <br>
*`array()`*: convierte listas/tuplas en arrays. <br>
*`zeros()`, `ones()`, `full()`*: inicializan arrays con valores fijos.  <br>
*`arange()`, `linspace()`*: generan secuencias numéricas.  <br>
*`random`*: crea arrays con valores aleatorios. <br>
*`eye()`, `diag()`*: producen matrices identidad o diagonales.  <br>
*`*_like()`*: imitan la forma de otro array.  <br>
*`reshape()`*: reorganiza datos existentes.

### Datos deste un archivo ráster

En análisis geoespacial, los archivos ráster (como GeoTIFF) contienen información en forma de celdas organizadas en filas y columnas, asociadas a una referencia espacial. La librería *rasterio* en Python permite la lectura, escritura y manipulación de datos ráster, integrándose con *NumPy* para el procesamiento de datos.

* **Importar Rasterio y abrir un archivo ráster**: Para trabajar con un ráster, se utiliza un administrador de contexto (`with`) que garantiza el cierre seguro del archivo:

In [None]:
import rasterio

# Abrir el archivo ráster
ruta = "ruta/al/archivo.tif"
with rasterio.open(ruta) as src:
    print(src.name)       # Nombre del archivo
    print(src.count)      # Número de bandas
    print(src.crs)        # Sistema de referencia de coordenadas
    print(src.transform)  # Transformación afín (ubicación espacial)

* **Leer los datos en un array de NumPy**: Una vez abierto el archivo, puedes extraer sus bandas como arrays:

In [None]:
with rasterio.open(ruta) as src:
    # Leer la primera banda (índice 1)
    banda1 = src.read(1)  
    print(banda1.shape)   # Dimensiones del array (filas, columnas)

`src.read(1)` devuelve un *ndarray* de NumPy, lo que permite aplicar fácilmente operaciones numéricas o estadísticas. Si el ráster tiene varias bandas, puedes leerlas todas:

In [None]:
with rasterio.open(ruta) as src:
    todas_bandas = src.read()  # Devuelve un array 3D: (bandas, filas, columnas)

### Propiedades

El método *shape* aplicado a una matriz devuelve una tupla con el tamaño de cada dimensión de la matriz:

In [None]:
a = np.array([[1, 2, 3], [4, 5, 6]], float)
a.shape

A continuación, se encuentra la explicación de las propiedades de un ráster: <br>

`src.name`: Ruta del archivo ráster. <br>
`src.mode`: Modo de apertura del archivo (p. ej., "r" para lectura). <br>
`src.driver`: Controlador GDAL utilizado para abrir el archivo (p. ej., "GTiff"). <br>
`src.width`: Número de columnas del ráster. <br>
`src.height`: Número de filas del ráster. <br>
`src.count`: Número de bandas del ráster. <br>
`src.dtypes`: Tupla que contiene el tipo de dato de cada banda (p. ej., "uint8", "float32"). <br>
`src.nodatavals`: Tupla que contiene el valor "NoData" de cada banda. <br>
`src.crs`: Sistema de Referencia de Coordenadas del ráster. <br>
`src.transform`: Matriz de transformación afín que asigna las coordenadas de los píxeles a las coordenadas espaciales. <br>
`src.bounds`: La extensión geográfica del ráster como un objeto BoundingBox. <br>
`src.res`: Una tupla que representa la resolución x e y de los píxeles. <br>
`src.meta`: Un diccionario que contiene todos los metadatos asociados al dataset ráster.

```{image} Imagenes/design.png
:width: 175px
:align: center
:alt: numpy
```
<p style="text-align: center; font-size: 8px;">
    <a href="https://www.flaticon.com/free-icons/pixel" title="pixel icons">Pixel icons created by Xinh Studio - Flaticon</a>
</p>

## Métodos y funciones aplicables dentro de los arrays

A continuación, se abarca la explicación de los métodos y funciones más comunes aplicables a un array.

### Indexación

La indexación permite acceder, seleccionar o modificar elementos específicos de un array. NumPy amplía las capacidades de las listas de Python, permitiendo indexación avanzada y eficiente tanto en arreglos unidimensionales como bidimensionales.

* **En arreglos unidimensionales**: Un arreglo unidimensional es similar a una lista:

In [None]:
import numpy as np

# Crear un array 1D
arr = np.array([10, 20, 30, 40, 50])

Acceso por índice: los índices empiezan en `0`.

In [None]:
print(arr[0])  # 10 (primer elemento)
print(arr[3])  # 40 (cuarto elemento)

Indexación negativa: permite contar desde el final.

In [None]:
print(arr[-1])  # 50 (último elemento)
print(arr[-3])  # 30 (tercer elemento desde el final)

Rebanado (slicing): accede a rangos de valores:

In [None]:
print(arr[1:4])  # [20 30 40] (del índice 1 al 3)
print(arr[:3])   # [10 20 30] (del inicio al índice 2)
print(arr[2:])   # [30 40 50] (desde índice 2 al final)

Saltos en el slicing:

In [None]:
print(arr[::2])  # [10 30 50] (paso de 2 en 2)

* **En arreglos bidimensionales**: Un arreglo bidimensional puede verse como una *matriz (filas y columnas)*:

In [None]:
mat = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])

Acceso por fila y columna: se usa la forma `[fila, columna]`:

In [None]:
print(mat[0, 2])  # 3 (fila 0, columna 2)
print(mat[2, 1])  # 8 (fila 2, columna 1)

Acceso a filas o columnas completas: `:` significa "todos los elementos" en esa dimensión.

In [None]:
print(mat[1])     # [4 5 6] (fila completa)
print(mat[:, 0])  # [1 4 7] (columna completa)

Rebanado en 2D: Selección de submatrices (Filas de la 0 a la 1 y columnas de la 1 a la 2.):

In [None]:
print(mat[0:2, 1:3])
# Resultado:
# [[2 3]
#  [5 6]]

### Redimensionamiento (reshape)

El redimensionamiento cambia la forma (número de filas y columnas) de un array sin alterar sus datos. Es requerido que el número total de elementos debe mantenerse constante.

In [None]:
import numpy as np

arr = np.arange(12)  # [0,1,2,...,11]

# Redimensionar a una matriz de 3 filas x 4 columnas
mat = arr.reshape(3, 4)
print(mat)
# Resultado:
# [[ 0  1  2  3]
#  [ 4  5  6  7]
#  [ 8  9 10 11]]

# Uso de -1 para calcular automáticamente una dimensión
mat2 = arr.reshape(2, -1)  # 2 filas, calcula columnas
print(mat2)

También es posible “aplanar” un array:

In [None]:
flat = mat.flatten()  # Devuelve un array 1D

### Concatenamiento de arrays

Permite unir varios arrays en una sola estructura.
* **Concatenar unidimensionales**:

In [None]:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

concat = np.concatenate((a, b))
print(concat)  # [1 2 3 4 5 6]

* **Concatenar matrices (bidimensionales)**:

Por filas (`axis=0`) o por columnas (`axis=1`):

In [None]:
m1 = np.array([[1, 2], [3, 4]])
m2 = np.array([[5, 6], [7, 8]])

# Por filas (agrega nuevas filas)
por_filas = np.concatenate((m1, m2), axis=0)

# Por columnas (agrega nuevas columnas)
por_columnas = np.concatenate((m1, m2), axis=1)

También existen funciones especializadas:

* `np.vstack((a, b))` → apila verticalmente (filas).
* `np.hstack((a, b))` → apila horizontalmente (columnas).

### Copiado de arrays

NumPy distingue entre *copias* y *vistas*.

* **Asignación directa**: crea solo una referencia, no una copia real:

In [None]:
x = np.array([10, 20, 30])
y = x          # y apunta al mismo objeto
y[0] = 99
print(x)       # [99 20 30] (cambió también x)

* **Copia independiente** (modificaciones no afectan al original):

In [None]:
x = np.array([10, 20, 30])
y = x.copy()   # Copia profunda
y[0] = 99
print(x)       # [10 20 30] (no cambió)
print(y)       # [99 20 30]

### Creación de listas desde arrays

Para convertir un array de NumPy en una lista de Python estándar. Útil para exportar datos o trabajar con funciones que requieren listas nativas.:

In [None]:
arr = np.array([[1, 2, 3], [4, 5, 6]])

lista = arr.tolist()
print(lista)   # [[1, 2, 3], [4, 5, 6]]
print(type(lista))  # <class 'list'>

```{image} Imagenes/grid.png
:width: 175px
:align: center
:alt: numpy
```
<p style="text-align: center; font-size: 8px;">
    <a href="https://www.flaticon.com/free-icons/array" title="array icons">Array icons created by meaicon - Flaticon</a>
</p>

## Operaciones dentro de los arrays

Estas operaciones permiten realizar cálculos, transformaciones o extracciones directamente sobre los arrays, de modo vectorizado, aprovechando la eficiencia de NumPy. Aquí van algunas de las funciones/métodos más comunes, junto con su explicación, sintaxis, ejemplos y cuándo usarlos.

### Métodos de agregación o reducción

Estas funciones operan sobre uno o varios ejes del array, devolviendo un valor o un array con dimensiones reducidas:

* `np.sum(arr, axis=…)`: Suma todos los elementos del array, o los de un eje específico.

In [None]:
arr = np.array([[1,2,3],[4,5,6]])
np.sum(arr)          # 21
np.sum(arr, axis=0)  # array([5, 7, 9]) → suma por columnas
np.sum(arr, axis=1)  # array([6, 15]) → suma por filas

* `np.mean(arr, axis=…)`: Calcula el promedio (media aritmética). Funciona igual que `sum`, pero divide por el número de elementos.
* `np.min(arr, axis=…)`, `np.max(arr, axis=…)`: Encuentra el valor mínimo o máximo. Útil para conocer rangos, extremos de datos.
* `np.std(arr, axis=…)`, `np.var(arr, axis=…)`: Desviación estándar y varianza. Miden dispersión de los datos.
* `np.argmin(arr)`, `np.argmax(arr)`: Devuelven el índice (o posición) del valor mínimo o máximo. En arrays multidimensionales puede usarse con un eje.

### Operaciones aritméticas vectorizadas

Estas son operaciones que se aplican elemento a elemento sin necesidad de bucles explícitos:

* Suma, resta, multiplicación, división: `arr1 + arr2`, `arr * scalar`, etc.

In [None]:
a = np.array([1,2,3])
b = np.array([10,20,30])
c = a + b   # [11,22,33]
d = a * 2   # [2,4,6]

* Potencia: `arr ** 2`, `np.power(arr, exponent)`.

* Funciones universales (ufuncs), por ejemplo `np.sin(arr)`, `np.log(arr)`, `np.exp(arr)` — aplican la función matemática a cada elemento.

### Comparaciones y máscaras

Permiten generar condiciones, filtrar elementos, etc.:

* Comparadores: `arr > value`, `arr == value`, etc. Devuelven un array booleano de la misma forma.
* Uso de la máscara booleana para filtrar:

In [None]:
arr = np.array([1,5,10,3])
mask = arr > 4         # [False, True, True, False]
arr[mask]              # [5, 10]

* Métodos como `np.where(condition, x, y)` para construir un nuevo array usando una condición.

### Operaciones especiales sobre ejes

Algunas funciones tienen parámetros para indicar sobre qué eje se operan:

* `axis`: como en `sum`, `mean`, `max`, para operar filas o columnas en matrices.
* `keepdims`: para mantener la dimensión reducida. Ejemplo:

In [None]:
arr = np.array([[1,2,3],[4,5,6]])
s = np.sum(arr, axis=1, keepdims=True)
# s tendrá forma (2,1) en lugar de (2,)

### Otras funciones útiles

* `np.unique(arr)` → obtiene los valores únicos en el array; útil para encontrar categorías.

* `np.sort(arr)` y `arr.sort()` → ordenar los elementos.

* `np.clip(arr, min_val, max_val)` → limita los valores del array a un rango dado (los que están por debajo se fijan al mínimo, por encima al máximo).

* `np.round(arr, decimals=…)` → redondear los elementos a un número de decimales dado.

```{image} Imagenes/matrix.png
:width: 175px
:align: center
:alt: numpy
```
<p style="text-align: center; font-size: 8px;">
    <a href="https://www.flaticon.com/free-icons/matrix" title="matrix icons">Matrix icons created by Freepik - Flaticon</a>
</p>

## Operaciones entre arrays

Las operaciones entre arrays permiten combinar, comparar o manipular dos o más arrays simultáneamente. Estas operaciones se realizan de forma vectorizada, lo que significa que NumPy aplica operaciones elemento a elemento cuando es posible, lo que da eficiencia y expresividad. Aquí te explico las más habituales:

### Operaciones aritméticas elemento a elemento

Estas operaciones funcionan entre arrays del mismo tamaño (o compatibles mediante *broadcasting*).

* **Suma (`+`)**: suma elemento por elemento.

In [None]:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
c = a + b  # array([5, 7, 9])

* **Resta (`-`)**, **multiplicación (`*`)**, **división (`/`)**: igual que la suma pero con sus respectivos operadores.

In [None]:
d = b - a   # array([3, 3, 3])
e = a * b   # array([4, 10, 18])
f = b / a   # array([4.0, 2.5, 2.0])

* **Potencia (`**`)**, raíces, etc.

In [None]:
g = a ** 2  # array([1, 4, 9])

### Operaciones con *broadcasting*

El *broadcasting* es el mecanismo que permite operar arrays de diferentes formas siempre que cumplan ciertas reglas (una dimensión debe ser igual o uno de los tamaños debe ser 1, etc.). Ejemplo: sumar un escalar o añadir un vector corto a uno más grande. Aquí `v` se “broadcast” a cada fila de `A` para hacer la operación.:

In [None]:
A = np.array([[1, 2, 3],
              [4, 5, 6]])
v = np.array([10, 20, 30])
B = A + v  
# Resultado:
# [[11, 22, 33],
#  [14, 25, 36]]

### Funciones universales (*ufuncs*) en combinaciones

NumPy tiene muchas funciones matemáticas que operan elemento a elemento y pueden aplicarse a uno o varios arrays:

* `np.add(a, b)` es equivalente a `a + b`.
* `np.multiply(a, b)`, `np.subtract(a, b)`, etc.

También funciones como `np.maximum(a, b)` que produce un array con los máximos entre los elementos correspondientes de `a` y `b`:

In [None]:
a = np.array([5, 2, 9])
b = np.array([3, 7, 4])
c = np.maximum(a, b)  # array([5, 7, 9])

### Comparaciones entre arrays

Permiten generar arrays booleanos comparando elemento a elemento:

* `a == b`, `a > b`, `a < b`, `a != b`, etc.
* Esto se usa para filtrar, máscaras, contar, etc.

Ejemplo:

In [None]:
mask = a > b
# si a = [5,2,9], b = [3,7,4] → mask = [True, False, True]

Con la máscara:

In [None]:
a[mask]  # array([5, 9]) → sólo los elementos donde la condición es True

### Operaciones lógicas y combinadas

Operaciones booleanas, que combinan comparaciones con lógicas (`&`, `|`, `~`):

* `np.logical_and(condition1, condition2)`, `np.logical_or(...)`, etc.
* O usar operadores `&` o `|`, teniendo cuidado con los paréntesis para respetar precedencia.

Ejemplo:

In [None]:
mask2 = (a > 3) & (b < 5)

### Otros métodos aplicados entre arrays o con arrays

* **`np.clip(a, min_val, max_val)`**: limita los valores de `a` al rango `[min_val, max_val]`. Si un elemento es menor que `min_val`, se convierte en `min_val`; si es mayor que `max_val`, en `max_val`.

* **`np.where(condition, x, y)`**: construye un nuevo array tomando valores de `x` donde `condition` es True, y de `y` donde es False. Puede usarse con arrays `x`, `y`.

In [None]:
a = np.array([1, 5, 10, 0])
b = np.array([2, 3, 4, 5])
c = np.where(a > b, a, b)  # elemento a elemento, toma el mayor

* **`,round()`, `.astype()`**: `round` para redondear, `astype` para cambiar tipo de datos entre arrays.

## Apéndice

¡Gracias por su participación en el curso! Lo esperamos en una siguiente oportunidad.

### Documentación

[Capítulo de introducción a la librería _NumPy_ (Capítulo 6)](https://github.com/monteroanibal/CursoPython2025II/blob/1fcc4625340e556e9a637f65e93f5f999f484695/otrxs/INFORMATICS%20PRACTICES%20Textbook%20for%20Class%20XI%20ISBN%20978-93-5292-148-5.pdf) <br>
[Documentación de la librería NumPy](https://numpy.org/)

### Referencias

* National Council of Educational Research and Training. (2019). Informatics Practices: Textbook for Class XI (ISBN 978-93-5292-148-5). New Delhi: NCERT.

<i>Taller de Análisis y procesamiento de datos con Open Source</i> © 2025 by <a href="https://scholar.google.es/citations?user=PP7CT6IAAAAJ">Aníbal Montero</a> is licensed under <a href="https://creativecommons.org/licenses/by-nc-nd/4.0/">CC BY-NC-ND 4.0</a><img src="https://mirrors.creativecommons.org/presskit/icons/cc.svg" style="max-width: 1em;max-height:1em;margin-left: .2em;"><img src="https://mirrors.creativecommons.org/presskit/icons/by.svg" style="max-width: 1em;max-height:1em;margin-left: .2em;"><img src="https://mirrors.creativecommons.org/presskit/icons/nc.svg" style="max-width: 1em;max-height:1em;margin-left: .2em;"><img src="https://mirrors.creativecommons.org/presskit/icons/nd.svg" style="max-width: 1em;max-height:1em;margin-left: .2em;">