# Lectura de archivos en Numpy

**Autor:** Roberto Muñoz <br />
**E-mail:** <rmunoz@metricarts.com> <br />
**Github:** <https://github.com/rpmunoz> <br />

In [1]:
import numpy as np

Cargaremos algunos datos de estudiantes del archivo `datos_estudiantes.txt`

In [2]:
!cat data/datos_estudiantes.txt

# Student data collected on 17 July 2014
# Researcher: Dr Wicks, University College Newbury

# The following data relate to N = 20 students. It
# has been totally made up and so therefore is 100%
# anonymous.

Subject Sex    DOB      Height  Weight       BP     VO2max
(ID)    M/F  dd/mm/yy     m       kg        mmHg  mL.kg-1.min-1
JW-1     M    19/12/95    1.82     92.4    119/76   39.3
JW-2     M    11/1/96     1.77     80.9    114/73   35.5
JW-3     F    2/10/95     1.68     69.7    124/79   29.1
JW-6     M    6/7/95      1.72     75.5    110/60   45.5
# JW-7    F    28/3/96     1.66     72.4    101/68   -
JW-9     F    11/12/95    1.78     82.1    115/75   32.3
JW-10    F    7/4/96      1.60     -       -/-      30.1
JW-11    M    22/8/95     1.72     77.2    97/63    48.8
JW-12    M    23/5/96     1.83     88.9    105/70   37.7
JW-14    F    12/1/96     1.56     56.3    108/72   26.0
JW-15    F    1/6/96      1.64     65.0    99/67    35.7
JW-16    M    10/9/95     1.63     73.0   

Encontremos las alturas medias de los estudiantes masculinos y femeninos. Las columnas que necesitamos son la segunda y la cuarta, y no hay datos faltantes en estas columnas, por lo que podemos usar np.loadtxt. Primero construya un tipo de registro para los dos campos, luego lea las columnas relevantes después de omitir las primeras 9 líneas de encabezado:

In [3]:
data_file = 'data/datos_estudiantes.txt'
dtype1 = np.dtype([('gender', '|S1'), ('height', 'f8')])

data = np.loadtxt(data_file, dtype=dtype1, skiprows=9, usecols=(1,3))
data

array([(b'M', 1.82), (b'M', 1.77), (b'F', 1.68), (b'M', 1.72),
       (b'F', 1.78), (b'F', 1.6 ), (b'M', 1.72), (b'M', 1.83),
       (b'F', 1.56), (b'F', 1.64), (b'M', 1.63), (b'M', 1.67),
       (b'M', 1.66), (b'F', 1.59), (b'F', 1.7 ), (b'M', 1.97),
       (b'F', 1.66), (b'F', 1.63), (b'M', 1.69)],
      dtype=[('gender', 'S1'), ('height', '<f8')])

Para encontrar las alturas promedio de los estudiantes varones, solo queremos indexar los registros con el campo de género como M, para lo cual podemos crear una matriz booleana:

In [None]:
mask_g = data['gender'] == b'M'
mask_g

`mask` tiene valores que son Verdadero o Falso para cada uno de los 19 registros válidos (uno está comentado) según si el estudiante es hombre o mujer. Así que las alturas de los estudiantes varones pueden verse como:

In [None]:
print(data['height'][mask_g])

Calculamos la altura promedio para hombres y mujeres

In [None]:
hombre_av = data['height'][mask_g].mean()
mujer_av = data['height'][~mask_g].mean()

print('Promedio hombre: {:.2f} m, Promedio mujer: {:.2f} m'.format(hombre_av, mujer_av))


Tenga en cuenta que ~mask_g ("not mask_g") es la matriz booleana inversa de mask.

Para realizar el mismo análisis en los pesos de los alumnos, tenemos un poco más de trabajo por hacer porque hay algunos valores faltantes (denotados por '-'). Podríamos usar np.genfromtxt, pero escribamos un método de conversión en su lugar. Reemplazaremos los valores faltantes con el valor no-físico agradable de -99. La función parse_weight espera un argumento de cadena y devuelve un flotante:

In [None]:
def parse_weight(s):
    try:
        return float(s)
    except ValueError:
        return -99.

Esta es la función que queremos pasar como un convertidor para la columna 4:

In [None]:
dtype2 = np.dtype([('gender', '|S1'), ('weight', 'f8')])
data = np.loadtxt(data_file, dtype=dtype2, skiprows=9, usecols=(1,4),
                       converters={4: parse_weight})

Ahora oculte los datos no válidos e indexe la matriz con una matriz booleana como antes:

In [None]:
mask_w = data['weight'] > 0    # elements only True for valid data
hombre_wav = data['weight'][mask_w & mask_g].mean()      # valid and male
mujer_wav = data['weight'][mask_w & ~mask_g].mean()     # valid and female
print('Promedio hombre: {:.2f} kg, Promedio mujer: {:.2f} kg'.format(hombre_wav, mujer_wav))