# Datos heterogéneos en Numpy

**Autor:** Roberto Muñoz <br />
**E-mail:** <rmunoz@metricarts.com> <br />
**Github:** <https://github.com/rpmunoz> <br />

Si bien a menudo nuestros datos pueden estar bien representados por una serie homogénea de valores, a veces no es así. Esta sección demuestra el uso de las matrices estructuradas y las matrices de registros de NumPy, que proporcionan un almacenamiento eficiente para datos compuestos y heterogéneos.

In [None]:
import numpy as np

Imagine que tenemos varias categorías de datos en varias personas (por ejemplo, nombre, edad y peso) y nos gustaría almacenar estos valores para usarlos en un programa de Python. Sería posible almacenar estos en tres matrices separadas:

In [None]:
name = ['Alice', 'Bob', 'Cathy', 'Doug']
age = [25, 45, 37, 19]
weight = [55.0, 85.5, 68.0, 61.5]

Pero esto es un poco torpe. No hay nada aquí que nos diga que las tres matrices están relacionadas; Sería más natural si pudiéramos usar una estructura única para almacenar todos estos datos. NumPy puede manejar esto a través de matrices estructuradas, que son matrices con tipos de datos compuestos.

Recuerde que anteriormente creamos una matriz simple con una expresión como esta:

In [None]:
x = np.zeros(4, dtype=int)

We can similarly create a structured array using a compound data type specification:

In [None]:
# Use a compound data type for structured arrays
data = np.zeros(4, dtype={'names':('name', 'age', 'weight'),
                          'formats':('U10', 'i4', 'f8')})
print(data.dtype)

Aquí 'U10' se traduce como "cadena Unicode de longitud máxima 10", 'i4' se traduce como "entero de 4 bytes (es decir, 32 bits)", y 'f8' se traduce como "flotante de 8 bytes (es decir, 64 bits) . " Discutiremos otras opciones para estos códigos de tipo en la siguiente sección.

Ahora que hemos creado una matriz de contenedores vacíos, podemos rellenar la matriz con nuestras listas de valores:

In [None]:
data['name'] = name
data['age'] = age
data['weight'] = weight

print(data)

As we had hoped, the data is now arranged together in one convenient block of memory.

The handy thing with structured arrays is that you can now refer to values either by index or by name:

In [None]:
# Get all names
data['name']

In [None]:
# Get first row of data
data[0]

In [None]:

# Get the name from the last row
data[-1]['name']

Usando el enmascaramiento booleano, esto incluso le permite realizar algunas operaciones más sofisticadas, como filtrar por antigüedad:

In [None]:
# Get names where age is under 30
data[data['age'] < 30]['name']

## Creando arreglos estructurados

Los tipos de datos de matriz estructurada se pueden especificar de varias maneras. Anteriormente, vimos el método del diccionario:

In [None]:
np.dtype({'names':('name', 'age', 'weight'),
          'formats':('U10', 'i4', 'f8')})

Para mayor claridad, los tipos numéricos se pueden especificar utilizando tipos Python o NumPy dtypes en su lugar:

In [None]:
np.dtype({'names':('name', 'age', 'weight'),
          'formats':((np.str_, 10), int, np.float32)})

Un tipo compuesto también se puede especificar como una lista de tuplas:

In [None]:
np.dtype([('name', 'S10'), ('age', 'i4'), ('weight', 'f8')])

Si los nombres de los tipos no son importantes para usted, puede especificar los tipos solo en una cadena separada por comas:

In [None]:
np.dtype('S10,i4,f8')

Los códigos de formato de cadena acortada pueden parecer confusos, pero se basan en principios simples. El primer carácter (opcional) es <o>, que significa "little endian" o "big endian", respectivamente, y especifica la convención de ordenamiento para los bits significativos. El siguiente carácter especifica el tipo de datos: caracteres, bytes, entradas, puntos flotantes, etc. (consulte la tabla a continuación). El último carácter o caracteres representa el tamaño del objeto en bytes.
    
| Caracter        | Descripción           | Ejemplo                             |
| ---------        | -----------           | -------                             | 
| ``'b'``          | Byte                  | ``np.dtype('b')``                   |
| ``'i'``          | Signed integer        | ``np.dtype('i4') == np.int32``      |
| ``'u'``          | Unsigned integer      | ``np.dtype('u1') == np.uint8``      |
| ``'f'``          | Floating point        | ``np.dtype('f8') == np.int64``      |
| ``'c'``          | Complex floating point| ``np.dtype('c16') == np.complex128``|
| ``'S'``, ``'a'`` | String                | ``np.dtype('S5')``                  |
| ``'U'``          | Unicode string        | ``np.dtype('U') == np.str_``        |
| ``'V'``          | Raw data (void)       | ``np.dtype('V') == np.void``        |