# Datos estructurados: matrices estructuradas de NumPy

Si bien a menudo nuestros datos pueden estar bien representados mediante una matriz homogénea de valores, a veces este no es el caso. Este capítulo demuestra el uso de *matrices estructuradas* y *matrices de registros* de NumPy, que proporcionan almacenamiento eficiente para datos compuestos y heterogéneos.  Si bien los patrones que se muestran aquí son útiles para operaciones simples, escenarios como este a menudo se prestan al uso de ``DataFrame``s de Pandas, que exploraremos en la [Parte 3](03.00-Introducción-a-Pandas.ipynb) .

In [1]:
import numpy as np

Imagine que tenemos varias categorías de datos sobre varias personas (por ejemplo, nombre, edad y peso) y nos gustaría almacenar estos valores para usarlos en un programa Python.
Sería posible almacenarlos en tres matrices separadas:

In [2]:
name = ['Alice', 'Bob', 'Cathy', 'Doug']
age = [25, 45, 37, 19]
weight = [55.0, 85.5, 68.0, 61.5]

Pero esto es un poco torpe. No hay nada aquí que nos diga que las tres matrices están relacionadas; Las matrices estructuradas de NumPy nos permiten hacer esto de forma más natural mediante el uso de una única estructura para almacenar todos estos datos.

Recuerde que anteriormente creamos una matriz simple usando una expresión como esta:

In [3]:
x = np.zeros(4, dtype=int)

De manera similar, podemos crear una matriz estructurada usando una especificación de tipo de datos compuesto:

In [4]:
# Use a compound data type for structured arrays
data = np.zeros(4, dtype={'names':('name', 'age', 'weight'),
                          'formats':('U10', 'i4', 'f8')})
print(data.dtype)

[('name', '<U10'), ('age', '<i4'), ('weight', '<f8')]


Aquí `'U10'` se traduce como "cadena Unicode de longitud máxima 10", `'i4'` se traduce como "entero de 4 bytes (es decir, 32 bits)" y `'f8'` se traduce como "8 bytes". (es decir, 64 bits) flotante".
Discutiremos otras opciones para estos códigos de tipo en la siguiente sección.

Ahora que hemos creado una matriz contenedora vacía, podemos llenar la matriz con nuestras listas de valores:

In [5]:
data['name'] = name
data['age'] = age
data['weight'] = weight
print(data)

[('Alice', 25, 55. ) ('Bob', 45, 85.5) ('Cathy', 37, 68. )
 ('Doug', 19, 61.5)]


Como esperábamos, los datos ahora están convenientemente organizados en una matriz estructurada.

Lo útil con los arreglos estructurados es que ahora podemos referirnos a valores ya sea por índice o por nombre:

In [6]:
# Get all names
data['name']

array(['Alice', 'Bob', 'Cathy', 'Doug'], dtype='<U10')

In [7]:
# Get first row of data
data[0]

('Alice', 25, 55.)

In [8]:
# Get the name from the last row
data[-1]['name']

'Doug'

Usando el enmascaramiento booleano, podemos incluso realizar algunas operaciones más sofisticadas, como filtrar por edad:

In [9]:
# Get names where age is under 30
data[data['age'] < 30]['name']

array(['Alice', 'Doug'], dtype='<U10')

Si desea realizar operaciones que sean más complicadas que estas, probablemente debería considerar el paquete Pandas, cubierto en la [Parte 4] (04.00-Introducción-a-Matplotlib.ipynb).
Como verá, Pandas proporciona un objeto `DataFrame`, que es una estructura construida sobre matrices NumPy que ofrece una variedad de funciones útiles de manipulación de datos similares a las que ha visto aquí, así como mucho, mucho más.

## Explorando la creación de matrices estructuradas

Los tipos de datos de matriz estructurada se pueden especificar de varias maneras.
Anteriormente vimos el método del diccionario:

In [10]:
np.dtype({'names':('name', 'age', 'weight'),
          'formats':('U10', 'i4', 'f8')})

dtype([('name', '<U10'), ('age', '<i4'), ('weight', '<f8')])

Para mayor claridad, los tipos numéricos se pueden especificar usando tipos de Python o NumPy `dtype`s en su lugar:

In [11]:
np.dtype({'names':('name', 'age', 'weight'),
          'formats':((np.str_, 10), int, np.float32)})

dtype([('name', '<U10'), ('age', '<i8'), ('weight', '<f4')])

Un tipo compuesto también se puede especificar como una lista de tuplas:

In [12]:
np.dtype([('name', 'S10'), ('age', 'i4'), ('weight', 'f8')])

dtype([('name', 'S10'), ('age', '<i4'), ('weight', '<f8')])

Si los nombres de los tipos no le importan, puede especificar los tipos solos en una cadena separada por comas:

In [13]:
np.dtype('S10,i4,f8')

dtype([('f0', 'S10'), ('f1', '<i4'), ('f2', '<f8')])

Los códigos de formato de cadena acortados pueden no ser inmediatamente intuitivos, pero se basan en principios simples.
El primer carácter (opcional) `<` o `>` significa "little endian" o "big endian", respectivamente, y especifica la convención de ordenamiento de bits significativos.
El siguiente carácter especifica el tipo de datos: caracteres, bytes, enteros, puntos flotantes, etc. (consulte la tabla a continuación).
El último carácter o caracteres representan el tamaño del objeto en bytes.

| Personaje | Descripción | Ejemplo |
| --------- | ----------- | ------- | 
| ``b'' | Byte | `np.dtype('b')` |
| ``yo'' | Entero con signo | `np.dtype('i4') == np.int32` |
| ``u'' | Entero sin signo | `np.dtype('u1') == np.uint8` |
| ``f'' | Punto flotante | `np.dtype('f8') == np.int64` |
| ``c'' | Punto flotante complejo | `np.dtype('c16') == np.complex128`|
| `'S'`, `'a'` | Cadena | `np.dtype('S5')` |
| ``U'' | Cadena Unicode | `np.dtype('U') == np.str_` |
| ``V'' | Datos brutos (nulo) | `np.dtype('V') == np.void` |

## Tipos de compuestos más avanzados

Es posible definir tipos de compuestos aún más avanzados.
Por ejemplo, puede crear un tipo donde cada elemento contenga una matriz o matriz de valores.
Aquí, crearemos un tipo de datos con un componente `mat` que consta de una matriz de punto flotante $3\times 3$:

In [14]:
tp = np.dtype([('id', 'i8'), ('mat', 'f8', (3, 3))])
X = np.zeros(1, dtype=tp)
print(X[0])
print(X['mat'][0])

(0, [[0., 0., 0.], [0., 0., 0.], [0., 0., 0.]])
[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]


Ahora cada elemento de la matriz `X` consta de una matriz `id` y una matriz $3\times 3$.
¿Por qué utilizarías esto en lugar de una simple matriz multidimensional o quizás un diccionario de Python?
Una razón es que este `dtype` de NumPy se asigna directamente a una definición de estructura C, por lo que se puede acceder directamente al búfer que contiene el contenido de la matriz dentro de un programa C escrito apropiadamente.
Si se encuentra escribiendo una interfaz Python para una biblioteca C o Fortran heredada que manipula datos estructurados, las matrices estructuradas pueden proporcionar una interfaz poderosa.

## Matrices de registros: matrices estructuradas con un toque diferente

NumPy también proporciona matrices de registros (instancias de la clase `np.recarray`), que son casi idénticas a las matrices estructuradas que acabamos de describir, pero con una característica adicional: se puede acceder a los campos como atributos en lugar de claves de diccionario.
Recuerde que anteriormente accedimos a las edades en nuestro conjunto de datos de muestra escribiendo:

In [15]:
data['age']

array([25, 45, 37, 19], dtype=int32)

Si, en cambio, vemos nuestros datos como una matriz de registros, podemos acceder a ellos con un poco menos de pulsaciones de teclas:

In [16]:
data_rec = data.view(np.recarray)
data_rec.age

array([25, 45, 37, 19], dtype=int32)

La desventaja es que para las matrices de registros, existe una sobrecarga adicional al acceder a los campos, incluso cuando se usa la misma sintaxis:

In [17]:
%timeit data['age']
%timeit data_rec['age']
%timeit data_rec.age

121 ns ± 1.4 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
2.41 µs ± 15.7 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
3.98 µs ± 20.5 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


Si la notación más conveniente vale la pena (leve) sobrecarga dependerá de su propia aplicación.

## A los pandas

Este capítulo sobre matrices estructuradas y de registros se ubica intencionalmente al final de esta parte del libro, porque conduce muy bien al siguiente paquete que cubriremos: Pandas.
Las matrices estructuradas pueden resultar útiles en determinadas situaciones, como cuando se utilizan matrices NumPy para asignar formatos de datos binarios en C, Fortran u otro lenguaje.
Pero para el uso diario de datos estructurados, el paquete Pandas es una opción mucho mejor; Lo exploraremos en profundidad en los capítulos siguientes.