# Prueba de laboratorio: Moluscos
**Fecha:** 18/01/2018

Antes de empezar, ejecutaremos la siguiente celda con las importaciones necesarias para poder realizar el ejercicio:

In [1]:
import csv
from matplotlib import pylab as plt

## 1. Carga de datos (2 puntos)

Tomaremos los datos de un fichero de entrada llamado <code>moluscos.csv</code> en el que se encuentran distintas mediciones de una especie de moluscos (abalones, también conocidos como _orejas de mar_). El fichero se encuentra en la carpeta <code>./csv</code>. Cada línea del fichero de entrada se corresponde con la medición de un molusco y contiene seis informaciones:

- sexo: M (masculino), F (femenino), I (infante)
- longitud de la concha
- diámetro de la concha
- altura de la concha
- peso del cuerpo
- edad en años

He aquí un fragmento con las primeras líneas del fichero de entrada:
<pre>
    sexo,longitud,diametro,altura,peso,edad
    M,0.455,0.365,0.095,0.514,15
    M,0.35,0.265,0.09,0.2255,7
    F,0.53,0.42,0.135,0.677,9
    M,0.44,0.365,0.125,0.516,10
    I,0.33,0.255,0.08,0.205,7
</pre>

La primera función que implementaremos será la de lectura. Será la encargada de leer los datos del fichero de entrada y cargarlos en una lista de tuplas:

In [3]:
def lee_moluscos(fichero):
    ''' Lee el fichero de entrada y devuelve una lista de medidas de moluscos

    Cada línea del fichero se corresponde con un molusco, y se representa
    con una tupla con los siguientes valores:
       - sexo: M (masculino), F (femenino), I (infante)
       - longitud de la concha
       - diámetro de la concha
       - altura de la concha
       - peso del cuerpo
       - edad en años
    Hay que transformar ciertos elementos de la entrada en valores numéricos
    para que puedan ser procesados posteriormente.
    '''
    medidas = []
    with open(fichero, 'r') as f:
        lector = csv.reader(f)
        next(lector)
        for sexo, longitud, diametro, altura, peso, edad in lector:
            longitud = float(longitud)
            diametro = float(diametro)
            altura = float(altura)
            peso = float(peso)
            edad = float(edad)
            medidas.append((sexo, longitud, diametro, altura, peso, edad))
    return medidas

In [4]:
# Test de la función lee_moluscos
medidas = lee_moluscos(r'moluscos.csv')

# La salida esperada de la siguiente instrucción es: 
#    4177 [('M', 0.455, 0.365, 0.095, 0.514, 15.0), ('M', 0.35, 0.265, 0.09, 0.2255, 7.0)]
print(len(medidas), medidas[:2])

4177 [('M', 0.455, 0.365, 0.095, 0.514, 15.0), ('M', 0.35, 0.265, 0.09, 0.2255, 7.0)]


## 2. Consulta y filtrado (6 puntos)

Una vez que hemos cargado los datos en una estructura en memoria ya podemos empezar procesarlos. En esta sección implementaremos algunas funciones de consulta y filtrado que nos permitirán trabajar con ellos.

La primera función que implementaremos se llama <code>numero_ejemplares_por_sexo</code>. La función toma una lista de tuplas de medidas, y produce como salida un diccionario con el número de ejemplares de cada sexo presente en la colección:

In [5]:
def numero_ejemplares_por_sexo(medidas):
    ''' Calcula el número de ejemplares por sexo presentes en la colección

    Toma como entrada una lista de tuplas de medidas. Produce como salida un
    diccionario cuyas claves son los posibles sexos ('M', 'F', 'I') y los valores
    son el número de ejemplares de cada sexo.
    '''
    diccionario = {}
    diccionario["M"] = 0
    diccionario["F"] = 0
    diccionario["I"] = 0
    for i in medidas:
        if i[0] == "M":
            diccionario["M"] = diccionario["M"] + 1
            
        if i[0] == "F":
            diccionario["F"] = diccionario["F"] + 1
            
        if i[0] == "I":
            diccionario["I"] = diccionario["I"] + 1
            
    return diccionario

In [6]:
# Test de la función numero_ejemplares_por_sexo
diccionario = numero_ejemplares_por_sexo(medidas)

# La salida esperada de las siguientes instrucciones es: 
#   1528
#   1307
#   1342
print(diccionario['M'])
print(diccionario['F'])
print(diccionario['I'])

1528
1307
1342


La segunda función se llama <code>filtra_por_volumen</code>, toma una lista de tuplas de medidas y selecciona solo aquellas cuyo volumen estimado se encuentra entre los valores <code>max_volumen</code> y <code>min_volumen</code>. Para ello nos apoyaremos en la función <code>volumen_estimado</code> que se proporciona implementada en la siguiente celda:

In [8]:
def volumen_estimado(longitud, diametro, altura):
    ''' Estimación del volumen a partir de longitud, diámetro y altura
    '''
    volumen = 3.14 * longitud * diametro * (altura/2)
    return volumen
    

def filtra_por_volumen(medidas, min_volumen, max_volumen):
    ''' Selecciona tuplas de medidas en función del volumen estimado

    Toma como entrada una lista de tuplas de medidas, y produce como
    salida otra lista de tuplas en la que solo se incluyen aquellas cuyo
    volumen se encuentra entre min_volumen y max_volumen.
    '''
    solucion = []
    for i in medidas:
        if volumen_estimado(i[1], i[2], i[3]) >= min_volumen and volumen_estimado(i[1], i[2], i[3]) <= max_volumen:
            solucion.append(i)
            
    return solucion

In [9]:
# Test de la función filtra_por_volumen
filtradas = filtra_por_volumen(medidas, 0.05, 0.2)

# La salida esperada de la siguiente instrucción es: 
# 2158 [('F', 0.53, 0.415, 0.15, 0.7775, 20.0), ('F', 0.55, 0.44, 0.15, 0.8945, 19.0)]
print(len(filtradas), filtradas[:2])

2158 [('F', 0.53, 0.415, 0.15, 0.7775, 20.0), ('F', 0.55, 0.44, 0.15, 0.8945, 19.0)]


La última función de consulta se llama <code>agrupa_por_volumen</code>. Toma como entrada una lista de tuplas de medidas y una lista de rangos de volúmenes, y produce como salida un diccionario cuyas claves son los rangos de volúmenes. Los valores del diccionario son listas de tuplas con las correspondientes medidas. Cada rango de volumen es una tupla con los dos límites del rango, por ejemplo <code>(0.5,0.7)</code>.

In [None]:
def agrupa_por_volumen(medidas, rangos):
    ''' Crea un diccionario de medidas indexado por rangos de volúmenes
    
    Toma como entrada una lista de tuplas de medidas y una lista de rangos de 
    volúmenes. Cada rango de volumen se determina con una tupla con los límites
    inferior y superior del rango. Por ejemplo, una posible lista de rangos es:
        [(0.0,0.05), (0.05,0.1), (0.1,0.15), (0.15,0.2)]
    
    Produce como salida un diccionario cuyas claves son cada uno de los rangos,
    y los valores serán las listas de tuplas de medidas cuyo volumen está dentro
    de cada rango.
    '''
    pass

In [None]:
# Test de la función agrupa_por_volumen
grupos = agrupa_por_volumen(medidas, [(0.0,0.05), (0.05,0.1), (0.1,0.15), (0.15,0.2)])

# La salida esperada de las siguientes instrucciones es: 
#     (0.0, 0.05) 2016 [('M', 0.455, 0.365, 0.095, 0.514, 15.0), ('M', 0.35, 0.265, 0.09, 0.2255, 7.0)]
#     (0.05, 0.1) 1768 [('F', 0.53, 0.415, 0.15, 0.7775, 20.0), ('F', 0.55, 0.44, 0.15, 0.8945, 19.0)]
#     (0.1, 0.15) 370 [('F', 0.68, 0.55, 0.175, 1.798, 19.0), ('F', 0.705, 0.55, 0.2, 1.7095, 13.0)]
#     (0.15, 0.2) 20 [('M', 0.735, 0.59, 0.225, 1.756, 21.0), ('M', 0.73, 0.595, 0.23, 2.8255, 17.0)]
for rango in grupos:
    print(rango, len(grupos[rango]), grupos[rango][:2])

## 3. Visualización (2 puntos)

La función de visualización que implementaremos será <code>muestra_puntos_longitud_diametro</code>. Toma como entrada una lista de tuplas de medidas y genera un diagrama de puntos (longitud,diamentro) usando un color distinto para cada sexo.

In [None]:
def muestra_puntos_longitud_diametro(medidas):
    ''' Genera una diagrama de puntos con la distribución por sexo

    Toma como entrada una lista de tuplas de medidas y genera un diagrama de puntos
    (longitud,diamentro) usando un color distinto para cada uno de los tres sexos
    presentes en la colección.
    
    Se usarán las siguientes instrucciones matplotlib para generar el diagrama
    de puntos:
        plt.scatter(longitudes_M, diametros_M, color='blue', marker='.')
        plt.scatter(longitudes_F, diametros_F, color='red', marker='.')
        plt.scatter(longitudes_I, diametros_I, color='green', marker='.')
        plt.show()
    '''
    pass

La salida de la celda de test debería ser la siguiente:
![title](./diagrama_puntos.png)

In [None]:
# Test de la función muestra_puntos_longitud_diametro
muestra_puntos_longitud_diametro(medidas)