## Arrays de tipos mixtos

Es posible crear arrays de tipos mixtos, especificando una lista con tipos y nombres

In [1]:
# Importamos los módulos necesarios
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
# Crea una lista con 10 tuplas (nombre, numero_entero, numero_decimal)
# Creamos un array de tipos mixtos especificando los nombres de los campos y los tipos
# Imprime el tipo del array
nombres = np.loadtxt("data/50_nombres.txt", dtype="str")
lista = [(np.random.choice(nombres), np.random.randint(10), np.random.random()*10) for n in range(10)]

tipos = [("nombre", "|S9"), ('entero', "int"), ('decimal', "float")]
arr = np.array(lista, dtype=tipos)
print arr.dtype

[('nombre', 'S9'), ('entero', '<i4'), ('decimal', '<f8')]


In [3]:
# Para obtener los nombres de los campos lo haremos con array.dtype.names
print arr.dtype.names

('nombre', 'entero', 'decimal')


In [4]:
# Podemos obtener los valores de cualquier campo mediante indexando con su nombre
res = arr['entero']
print res
print res.dtype

[4 2 8 6 7 8 7 7 8 1]
int32


***
### Función genfromtxt

Además de las funciones de numpy para guardar-cargar el contenido de arrays en archivos, numpy tiene la función genfromtxt, que proporciona una manera más avanzada para leer archivos de datos en formato texto

>`numpy.genfromtxt(fname, dtype='float', comments='#', delimiter=None, skip_header=0, skip_footer=0, converters=None, missing_values=None, filling_values=None, usecols=None, names=None, excludelist=None, deletechars=None, replace_space='_', autostrip=False, case_sensitive=True, defaultfmt='f%i', unpack=None, usemask=False, loose=True, invalid_raise=True, max_rows=None)`

> Argumentos más importantes:

> - *fname* : objeto fichero o cadena de texto con ruta de archivo
> - *dtype*: tipo de dato del array de salida, si se le da None, los tipos serán determinados según los contenidos de cada columna.
> - *delimiter*: caráter separador de columnas. También acepta un entero o lista de enteros como anchos para cada campo
> - *names*: (None, True, str, sequence) Nombres para identificar las columnas. Si es True, los nombres se leen de la primera línea tras skip_header. Si no se especifica y el resultado es un array de tipos mixto, los nombres de los campos serán "f0", "f1", "f2", ..., "fn"

> Otros argumentos:

> - *comments*: carácter para las lineas que contengan comentarios (# por defecto).
> - *skip_header*: número de líneas que se saltaran al comienzo del fichero
> - *skip_footer*: número de líneas que se saltaran al comienzo del fichero
> - *missing_values*: conjunto de cadenas para representar valores perdidos
> - *filling_values*: conjunto de valores para utilizar cuando haya datos perdidos
> - *usecols*: tupla con las columnas a leer (por si solo queremos leer algunas columnas)
> - *excludelist*: lista con nombres a excluir
> - *deletechars*: cadena de texto con carácters a eliminar de los nombres
> - *autostrip*: boleano que indica si quitar espacios en blanco de los valores (True) o no (False)

> Si utilizamos está función y especificamos dtype = None y usecols =True, se genera un ndarray de tipos mixto.

In [7]:
# Lee los datos del archivo "data/muni_andalucia.csv"
# La primera fila contiene los nombres de los campos, y las columnas están separadas por ";"
# Obten un array de tipos mixtos con nombres
# Imprime los nombres de los campos
arr = np.genfromtxt("data/muni_andalucia.csv", delimiter = ";", dtype = None, names = True)
print arr.dtype.names

('Provincia', 'Municipio', 'Area', 'POB_2011', 'POB_2010', 'POB_2009', 'POB_2008', 'POB_2007', 'POB_2006', 'POB_2005', 'POB_2004', 'POB_2003', 'POB_2002', 'POB_2001', 'POB_2000')


In [8]:
# Calcula el cambio de población del año 2000 a 2010
# Guarda el resultado en un nuevo array
# Imprime los 10 primeros elementos del array resultante
cambios = arr['POB_2010'] -  arr['POB_2000']
print cambios[:10]

[  9.65000000e+02   2.88800000e+03  -1.87000000e+02  -2.60000000e+01
  -1.00000000e+00   2.12000000e+02   3.40000000e+01   7.54000000e+02
  -1.39000000e+02   9.30000000e+02]
