# Datos Estructurados: Matrices estructuradas de NumPy

Aunque a menudo nuestros datos pueden representarse bien mediante una matriz homogénea de valores, a veces no es así. Est notebook demuestra el uso de los *array estructurados* y *array de registros* de NumPy, que proporcionan un almacenamiento eficiente para datos compuestos y heterogéneos.  Mientras que los patrones mostrados aquí son útiles para operaciones simples, escenarios como este a menudo se prestan al uso de ``Dataframe`` de Pandas.

In [1]:
import numpy as np

Imaginemos que tenemos varias categorías de datos sobre una serie de personas (digamos, nombre, edad y peso), y nos gustaría almacenar estos valores para utilizarlos en un programa Python.
Sería posible almacenarlos en tres matrices distintas:

In [2]:
name = ['Alice', 'Bob', 'Cathy', 'Doug']
age = [25, 45, 37, 19]
weight = [55.0, 85.5, 68.0, 61.5]

Pero esto es un poco torpe. No hay nada aquí que nos diga que las tres matrices están relacionadas; sería más natural si pudiéramos utilizar una sola estructura para almacenar todos estos datos.
NumPy puede manejar esto a través de arrays estructurados, que son arrays con tipos de datos compuestos.

Recordemos que anteriormente creamos un array simple usando una expresión como esta:

In [3]:
x = np.zeros(4, dtype=int)

De forma similar, podemos crear una matriz estructurada utilizando una especificación de tipo de datos compuesto:

In [5]:
# Utilizar un tipo de datos compuesto para matrices estructuradas
data = np.zeros(4, dtype={'names':('name', 'age', 'weight'),
                          'formats':('U10', 'i4', 'f8')})
print(data.dtype)

[('name', '<U10'), ('age', '<i4'), ('weight', '<f8')]


In [6]:
data

array([('', 0, 0.), ('', 0, 0.), ('', 0, 0.), ('', 0, 0.)],
      dtype=[('name', '<U10'), ('age', '<i4'), ('weight', '<f8')])

Aquí ``'U10'`` se traduce como "cadena Unicode de longitud máxima 10", ``'i4'`` se traduce como "entero de 4 bytes (es decir, 32 bits)" y ``'f8'`` se traduce como "flotante de 8 bytes (es decir, 64 bits)".
Discutiremos otras opciones para estos códigos de tipo más adelante.

Ahora que hemos creado un array contenedor vacío, podemos llenar el array con nuestras listas de valores:

In [7]:
data['name'] = name
data['age'] = age
data['weight'] = weight
print(data)

[('Alice', 25, 55. ) ('Bob', 45, 85.5) ('Cathy', 37, 68. )
 ('Doug', 19, 61.5)]


Como esperábamos, los datos están ahora agrupados en un cómodo bloque de memoria.

Lo práctico de las matrices estructuradas es que ahora puedes referirte a los valores por índice o por nombre:

In [8]:
# Obtener todos los nombres
data['name']

array(['Alice', 'Bob', 'Cathy', 'Doug'], dtype='<U10')

In [9]:
# Obtener la primera fila de datos
data[0]

np.void(('Alice', 25, 55.0), dtype=[('name', '<U10'), ('age', '<i4'), ('weight', '<f8')])

In [10]:
# Obtener el nombre de la última fila
data[-1]['name']

np.str_('Doug')

El uso de máscaras booleanas permite incluso realizar operaciones más sofisticadas, como filtrar por edad:

In [11]:
# Obtener nombres cuya edad sea inferior a 30 años
data[data['age'] < 30]['name']

array(['Alice', 'Doug'], dtype='<U10')

## Creación de matrices estructuradas

Los tipos de datos de matrices estructuradas pueden especificarse de varias maneras.
Anteriormente, vimos el método de diccionario:

In [12]:
np.dtype({'names':('name', 'age', 'weight'),
          'formats':('U10', 'i4', 'f8')})

dtype([('name', '<U10'), ('age', '<i4'), ('weight', '<f8')])

Para mayor claridad, los tipos numéricos pueden especificarse utilizando tipos Python o ``dtype`` de NumPy:

In [13]:
np.dtype({'names':('name', 'age', 'weight'),
          'formats':((np.str_, 10), int, np.float32)})

dtype([('name', '<U10'), ('age', '<i8'), ('weight', '<f4')])

Un tipo compuesto también puede especificarse como una lista de tuplas:

In [14]:
np.dtype([('name', 'S10'), ('age', 'i4'), ('weight', 'f8')])

dtype([('name', 'S10'), ('age', '<i4'), ('weight', '<f8')])

Si los nombres de los tipos no le importan, puede especificar los tipos solos en una cadena separada por comas:

In [None]:
np.dtype('S10,i4,f8')

Los códigos de formato de cadena abreviados pueden parecer confusos, pero se basan en principios sencillos.
El primer carácter (opcional) es ``<`` o ``>``, que significa "little endian" o "big endian", respectivamente, y especifica la convención de ordenación de los bits significativos.
El siguiente carácter especifica el tipo de datos: caracteres, bytes, ints, puntos flotantes, etc.
El último carácter o caracteres representan el tamaño del objeto en bytes.

| Carácter         | Descripción           | Ejemplo                             |
| ---------        | -----------           | -------                             | 
| ``'b'``          | Byte                  | ``np.dtype('b')``                   |
| ``'i'``          | Entero con signo      | ``np.dtype('i4') == np.int32``      |
| ``'u'``          | Entero sin signo      | ``np.dtype('u1') == np.uint8``      |
| ``'f'``          | Punto flotante        | ``np.dtype('f8') == np.int64``      |
| ``'c'``          | Punto flotante complej| ``np.dtype('c16') == np.complex128``|
| ``'S'``, ``'a'`` | String                | ``np.dtype('S5')``                  |
| ``'U'``          | Unicode string        | ``np.dtype('U') == np.str_``        |
| ``'V'``          | Raw data (void)       | ``np.dtype('V') == np.void``        |

<!--NAVIGATION-->
< [Sorting](6-Sorting.ipynb)

