# Datos Estructurados en NumPy

In [None]:
import numpy as np

In [None]:
name = ['Alice', 'Bob', 'Cathy', 'Doug']
age = [25, 45, 37, 19]
weight = [55.0, 85.5, 68.0, 61.5]

In [None]:
x = np.zeros(4, dtype=int)
x

array([0, 0, 0, 0])

In [None]:
data = np.zeros(4, dtype={'names': ('name', 'age', 'weight'),
                          'formats': ('U10', 'i4', 'f8')})
print(data.dtype)

[('name', '<U10'), ('age', '<i4'), ('weight', '<f8')]


| Character    | Description           | Example                           |
| ---------    | -----------           | -------                           |
| `'b'`        | Byte                  | `np.dtype('b')`                   |
| `'i'`        | Signed integer        | `np.dtype('i4') == np.int32`      |
| `'u'`        | Unsigned integer      | `np.dtype('u1') == np.uint8`      |
| `'f'`        | Floating point        | `np.dtype('f8') == np.int64`      |
| `'c'`        | Complex floating point| `np.dtype('c16') == np.complex128`|
| `'S'`, `'a'` | String                | `np.dtype('S5')`                  |
| `'U'`        | Unicode string        | `np.dtype('U') == np.str_`        |
| `'V'`        | Raw data (void)       | `np.dtype('V') == np.void`        |

**`'b'` - Byte**
- Representa un entero con signo de 1 byte (8 bits)
- Rango: -128 a 127
- Ejemplo: `np.dtype('b')` equivale a `np.int8`
- Uso común: Cuando necesitas almacenar valores pequeños y el espacio es crítico

**`'i'` - Signed integer**
- Representa números enteros con signo
- El número que sigue indica los bytes (1, 2, 4, 8)
- Ejemplo: `np.dtype('i4')` equivale a `np.int32` (4 bytes, rango -2,147,483,648 a 2,147,483,647)
- Uso común: Para la mayoría de cálculos con números enteros que pueden ser positivos o negativos

**`'u'` - Unsigned integer**
- Representa números enteros sin signo (solo positivos y cero)
- Ejemplo: `np.dtype('u1')` equivale a `np.uint8` (1 byte, rango 0 a 255)
- Uso común: Valores de píxeles en imágenes, banderas binarias, cuando solo necesitas valores positivos

**`'f'` - Floating point**
- Representa números de punto flotante (decimales)
- Ejemplo: `np.dtype('f8')` equivale a `np.float64` (no `np.int64` como indicaba el ejemplo)
- Uso común: Cálculos científicos, valores que requieren precisión decimal

**`'c'` - Complex floating point**
- Representa números complejos (parte real e imaginaria)
- Ejemplo: `np.dtype('c16')` equivale a `np.complex128` (16 bytes total, 8 para parte real y 8 para imaginaria)
- Uso común: Procesamiento de señales, física cuántica, análisis de Fourier

**`'S'`, `'a'` - String (bytes)**
- Representa cadenas de caracteres de longitud fija con codificación ASCII/bytes
- Ejemplo: `np.dtype('S5')` representa strings de hasta 5 bytes
- Uso común: Compatibilidad con código antiguo, interacción con C, almacenamiento eficiente de texto ASCII

**`'U'` - Unicode string**
- Representa cadenas de texto Unicode
- Ejemplo: `np.dtype('U')` equivale a `np.str_`
- Uso común: Manejo de texto en diferentes idiomas, texto moderno en general

**`'V'` - Raw data (void)**
- Representa datos en crudo sin tipo específico
- Ejemplo: `np.dtype('V')` equivale a `np.void`
- Uso común: Almacenamiento de datos binarios arbitrarios, creación de tipos compuestos, interoperabilidad con memoria en C

In [None]:
print(data)

[('', 0, 0.) ('', 0, 0.) ('', 0, 0.) ('', 0, 0.)]


In [None]:
data['name'] = name
data['age'] = age
data['weight'] = weight
print(data)

[('Alice', 25, 55. ) ('Bob', 45, 85.5) ('Cathy', 37, 68. )
 ('Doug', 19, 61.5)]


In [None]:
data['name']

array(['Alice', 'Bob', 'Cathy', 'Doug'], dtype='<U10')

In [None]:
data[0]

np.void(('Alice', 25, 55.0), dtype=[('name', '<U10'), ('age', '<i4'), ('weight', '<f8')])

In [None]:
data[-1]['name']

np.str_('Doug')

In [None]:
# nombres de perosnas menores de 30 años
data[data['age'] < 30]['name']

array(['Alice', 'Doug'], dtype='<U10')

## Explorando la creación de Arrays estructurados

In [None]:
np.dtype({'names': ('name', 'age', 'weight'),
           'formats':('U10', 'i4', 'f8')})

dtype([('name', '<U10'), ('age', '<i4'), ('weight', '<f8')])

In [None]:
np.dtype({'names': ('name', 'age', 'weight'),
           'formats':((np.str_, 10), int, np.float32)})

dtype([('name', '<U10'), ('age', '<i8'), ('weight', '<f4')])

In [None]:
np.dtype('S10,i4,f8')

dtype([('f0', 'S10'), ('f1', '<i4'), ('f2', '<f8')])

In [None]:
tp = np.dtype([('id', 'i8'), ('mat', 'f8', (3, 3))])
X = np.zeros(1, dtype=tp)
print(X[0])

(0, [[0.0, 0.0, 0.0], [0.0, 0.0, 0.0], [0.0, 0.0, 0.0]])


In [None]:
print(X['mat'][0])

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]


### Ventajas de estos tipos compuestos

#### 1. Mapeo directo a estructuras C
Estos tipos coinciden directamente con estructuras en C, lo que facilita la interoperabilidad con código en C/C++/Fortran. Esto es crucial cuando:
- Trabajas con bibliotecas heredadas
- Necesitas intercambiar datos con código de bajo nivel
- Quieres optimizar el rendimiento

#### 2. Organización de datos relacionados
Mantiene los datos relacionados juntos en una estructura coherente, similar a como lo harías con clases en programación orientada a objetos.

#### 3. Eficiencia en memoria
A diferencia de los diccionarios de Python, estos datos se almacenan de forma contigua en memoria, lo que resulta en:
- Acceso más rápido
- Menor uso de memoria
- Mejores características de caché

#### 4. Flexibilidad con operaciones vectorizadas
Puedes aplicar operaciones a campos específicos manteniendo la estructura general:
```python
X['id'] += 10  # Incrementa todos los IDs en 10
X['mat'] *= 2  # Multiplica todas las matrices por 2
```

In [None]:
data['age']

array([25, 45, 37, 19], dtype=int32)

In [None]:
data_rec = data.view(np.recarray) # Crea una nueva vista como un objeto de la clase np.recarray
# No copia los datos en memoria, crea una nueva referencia con un comportamiento distinto
data_rec.age

array([25, 45, 37, 19], dtype=int32)

In [None]:
%timeit data['age']
%timeit data_rec['age']
%timeit data_rec.age

280 ns ± 125 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
1.74 µs ± 370 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
2.97 µs ± 67.6 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
