# Prueba de laboratorio: Semillas de Trigo
**Fecha:** 18/01/2018

Antes de empezar, ejecutaremos la siguiente celda con las importaciones necesarias para poder realizar el ejercicio:

In [1]:
import csv
from matplotlib import pylab as plt

## 1. Carga de datos (2 puntos)

Tomaremos los datos de un fichero de entrada llamado <code>semillas_trigo.csv</code> en el que se encuentran distintas mediciones de semillas de tres variedades de trigo: _kama_, _rosa_ y _canadian_. El fichero se encuentra en la carpeta <code>./csv</code>. Cada línea del fichero de entrada se corresponde con la medición de una semilla y contiene cinco informaciones sobre la semilla:
- longitud
- anchura
- densidad
- asimetria
- tipo

He aquí un fragmento con las primeras líneas del fichero de entrada:
<pre>
    longitud,anchura,densidad,asimetria,tipo
    5.763,3.312,0.871,2.221,kama
    5.553999999999999,3.333,0.8811,1.018,kama
    5.291,3.3369999999999997,0.905,2.699,kama
    5.324,3.3789999999999996,0.8955,2.259,kama
    5.6579999999999995,3.562,0.9034,1.355,kama
</pre>

La primera función que implementaremos será la de lectura. Será la encargada de leer los datos del fichero de entrada y cargarlos en una lista de tuplas:

In [2]:
def lee_semillas(fichero):
    ''' Lee el fichero de entrada y devuelve una lista de medidas de semillas

    Cada línea del fichero se corresponde con una semilla, y se representa
    con una tupla con los siguientes valores:
        - longitud
        - anchura
        - densidad
        - asimetria
        - tipo
    Hay que transformar ciertos elementos de la entrada en valores numéricos
    para que puedan ser procesados posteriormente.
    '''
    medidas = []
    with open(fichero, 'r') as f:
        lector = csv.reader(f)
        next(lector)
        for longitud, anchura, densidad, asimetria, tipo in lector:
            longitud = float(longitud)
            anchura = float(anchura)
            densidad = float(densidad)
            asimetria = float(asimetria)
            medidas.append((longitud, anchura, densidad, asimetria, tipo))
    return medidas

In [3]:
# Test de la función lee_semillas
medidas = lee_semillas('./csv/semillas_trigo.csv')

# La salida esperada de la siguiente instrucción es: 
#    210 [(5.763, 3.312, 0.871, 2.221, 'kama'), (5.553999999999999, 3.333, 0.8811, 1.018, 'kama')] 
print(len(medidas), medidas[:2])

210 [(5.763, 3.312, 0.871, 2.221, 'kama'), (5.553999999999999, 3.333, 0.8811, 1.018, 'kama')]


## 2. Consulta y filtrado (6 puntos)

Una vez que hemos cargado los datos en una estructura en memoria ya podemos empezar procesarlos. En esta sección implementaremos algunas funciones de consulta y filtrado que nos permitirán trabajar con ellos.

La primera de las funciones se llama <code>muestra_rangos</code>. Toma como entrada una lista de tuplas de medidas, y calcula el máximo y el mínimo de cada medida. Las posiciones de cada medida en las tuplas son las siguientes:
- _longitud_: posición 0
- _anchura_: posición 1
- _densidad_: posición 2
- _asimetria_: posición 3

In [4]:
def muestra_rangos(medidas):
    ''' Muestra el máximo y el mínimo de cada una de las cuatro medidas
    
    Toma como entrada una lista de tuplas de medidas, y calcula el máximo
    y el mínimo de cada medida. Las posiciones de cada medida en las tuplas
    son las siguientes:
        - longitud: posición 0
        - anchura: posición 1
        - densidad: posición 2
        - asimetria: posición 3
    La función no devuelve nada, mostrará un mensaje como el siguiente:
        El rango de valores para la longitud es [4.899,6.675]
        El rango de valores para la anchura es [2.63,4.033]
        El rango de valores para la densidad es [0.8081,0.9183]
        El rango de valores para la asimetria es [0.7651,8.456]
    '''
    longitudes = []
    anchuras = []
    densidades = []
    asimetrias = []
    for longitud, anchura, densidad, asimetria, _ in medidas:
        longitudes.append(longitud)
        anchuras.append(anchura)
        densidades.append(densidad)
        asimetrias.append(asimetria)
    print("El rango de valores para la longitud es [{},{}]".format(min(longitudes), max(longitudes)))
    print("El rango de valores para la anchura es [{},{}]".format(min(anchuras), max(anchuras)))
    print("El rango de valores para la densidad es [{},{}]".format(min(densidades), max(densidades)))
    print("El rango de valores para la asimetria es [{},{}]".format(min(asimetrias), max(asimetrias)))

In [5]:
# Test de la función muestra_rangos
muestra_rangos(medidas)

El rango de valores para la longitud es [4.899,6.675]
El rango de valores para la anchura es [2.63,4.033]
El rango de valores para la densidad es [0.8081,0.9183]
El rango de valores para la asimetria es [0.7651,8.456]


La segunda de las funciones se llama <code>filtra_por_asimetria</code>, toma una lista de tuplas de medidas y selecciona solo aquellas cuya asimetría se encuentra entre los valores <code>max_asimetria</code> y <code>min_asimetria</code>:

In [None]:
def filtra_por_asimetria(medidas, min_asimetria, max_asimetria):
    ''' Selecciona tuplas de medidas en función de la asimetría

    Toma como entrada una lista de tuplas de medidas, y produce como
    salida otra lista de tuplas en la que solo se incluyen aquellas cuya
    asimetria se encuentra entre min_asimetria y max_asimetria.
    '''
    filtradas = [(l, a, d, asim, t) for l, a, d, asim, t in medidas
                 if asim >= min_asimetria and asim <= max_asimetria]
    return filtradas

In [None]:
# Test de la función filtra_por_asimetria
filtradas = filtra_por_asimetria(medidas, 2, 3)

# La salida esperada de la siguiente instrucción es: 
#    49 [(5.763, 3.312, 0.871, 2.221, 'kama'), (5.291, 3.3369999999999997, 0.905, 2.699, 'kama')]  
print(len(filtradas), filtradas[:2])

La última función de consulta se llama <code>agrupa_por_tipo</code>. Toma como entrada una lista de tuplas de medidas, y produce como salida un diccionario cuyas claves son los tipos de semillas encontrados. Los valores del diccionario son listas de tuplas con las correspondientes medidas.

In [None]:
def agrupa_por_tipo(medidas):
    ''' Crea un diccionario de medidas indexado por el tipo de semillas
    
    Toma como entrada una lista de tuplas de medidas, y produce como salida un
    diccionario cuyas claves son los tipos de semillas encontrados. Los valores
    asociados a cada clave serán listas de tuplas con las cuatro medidas. Las tuplas
    se construirán manteniendo el orden de las medidas originales, es decir:
        - longitud: posición 0
        - anchura: posición 1
        - densidad: posición 2
        - asimetria: posición 3
    
    La solución debe ser genérica y adaptarse a los datos que
    se reciben como parámetro para calcular el conjunto de claves del
    diccionario.
    '''
    tipos = [t for _, _, _, _, t in medidas]
    grupos = {t:[] for t in tipos}
    for longitud, anchura, densidad, asimetria, tipo in medidas:
        grupos[tipo].append((longitud, anchura, densidad, asimetria))
    return grupos

In [None]:
# Test de la función agrupa_por_tipo
grupos = agrupa_por_tipo(medidas)

# La salida esperada de las siguientes instrucciones es: 
#    70 [(5.763, 3.312, 0.871, 2.221), (5.553999999999999, 3.333, 0.8811, 1.018)]
#    70 [(6.191, 3.5610000000000004, 0.8673, 4.0760000000000005), (5.997999999999999, 3.484, 0.8623, 4.675)]
#    70 [(5.472, 2.9939999999999998, 0.848, 5.303999999999999), (5.541, 3.073, 0.8613, 7.035)]
for tipo in grupos:
    print(len(grupos[tipo]), grupos[tipo][:2])

## 3. Visualización (2 puntos)

La función de visualización que implementaremos será <code>muestra_proporcion_por_tipo</code>. Toma como entrada una lista de tuplas de medidas y genera un diagrama de tarta con un sector por cada tipo de semilla encontrado. 

In [None]:
def muestra_proporcion_por_tipo(medidas):
    ''' Genera una diagrama de tarta con la distribución por tipos de semilla

    Toma como entrada una lista de tuplas de medidas y genera un diagrama de tarta
    con un sector por cada tipo de semilla encontrado.

    Supondremos que como máximo habrá tres tipos de semillas, por lo que con una paleta
    de tres colores será suficiente:
        paleta = ['blue', 'red', 'green']
    
    Se usarán las siguientes instrucciones matplotlib para generar el diagrama
    de tarta:
        plt.pie(valores, labels=tipos, colors=colores, autopct='%1.1f%%', startangle=140)
        plt.axis('equal')
        plt.show()
    '''
    paleta = ['blue', 'red', 'green']
    grupos = agrupa_por_tipo(medidas)
    tipos = grupos.keys()
    valores = [len(grupos[t]) for t in tipos]
    colores = paleta[:len(tipos)]
    plt.pie(valores, labels=tipos, colors=colores, autopct='%1.1f%%', startangle=140)
    plt.axis('equal')
    plt.show()

La salida de la celda de test debería ser la siguiente:
![title](./diagrama_tarta.png)

In [None]:
# Test de la función muestra_proporcion_por_tipo
filtradas = filtra_por_asimetria(medidas, 2, 3)
muestra_proporcion_por_tipo(filtradas)