# Fundamentos de la Programación (Grado en Ingeniería de la Salud)
## Ejercicio "Cardio"

Antes de empezar, ejecutaremos la siguiente celda con las importaciones necesarias para poder realizar el ejercicio:

In [3]:
import csv
from matplotlib import pyplot as plt
from collections import namedtuple

## 1. Carga de datos (0.5 puntos)

Tomaremos los datos de un fichero de entrada llamado <code>cardio.csv</code> en el que se encuentran registrados datos médicos en relación a enfermedades cardiovasculares. El fichero se encuentra en la carpeta <code>./data</code>. Cada línea del fichero de entrada se corresponde con los datos de una persona y contiene las siguientes informaciones:

- **edad:** edad de la persona en días
- **genero:** género de la persona (*hombre*, o *mujer*)
- **altura:** altura de la persona en centímetros
- **peso:** peso de la persona en kilos
- **colesterol:** nivel de colesterol (*hormal*, *alto*, o *muy alto*)
- **glucosa:** nivel de glucosa (*hormal*, *alto*, o *muy alto*)
- **fumador:** si la persona fuma (*sí* o *no*)
- **actividad:** si la persona hace ejercicio (*sí* o *no*)
- **enfermedad:** si la persona presenta una enfermedad cardiovascular (*sí* o *no*)

He aquí un fragmento con las primeras líneas del fichero de entrada:

<img src="./img/datos.PNG" alt="Drawing" style="width:15cm;"/>

La primera función que implementaremos será la de lectura. Será la encargada de leer los datos del fichero de entrada y cargarlos en una lista de tuplas:

In [4]:
Registro = namedtuple('Registro', 'edad genero altura peso colesterol glucosa fumador actividad enfermedad')

def lee_registros(fichero):
    ''' Lee el fichero de entrada y devuelve una lista de registros
    
    ENTRADA:
       - fichero: nombre del fichero de entrada
    SALIDA:
       - lista de registros -> [Registro(int, str, int, float, str, str, str, str, str)]

    Hay que transformar ciertos elementos de la entrada en valores numéricospara que puedan 
    ser procesados posteriormente.
    '''
    registros = []
    with open(fichero, 'r', encoding='utf-8') as f:
        lector = csv.reader(f)
        next(lector)
        registros = [Registro(int(edad), genero, int(altura), float(peso), colesterol, glucosa, fumador, actividad, enfermedad)
                    for edad, genero, altura, peso, colesterol, glucosa, fumador, actividad, enfermedad in lector]
    return registros

In [5]:
# Test de la función lee_compras
REGISTROS = lee_registros('./data/cardio.csv')

# La salida esperada de la siguiente instrucción es: 
#   70000 [Registro(edad=18393, genero='hombre', altura=168, peso=62.0, colesterol='normal', glucosa='normal', fumador='no', actividad='sí', enfermedad='no'), 
#          Registro(edad=20228, genero='mujer', altura=156, peso=85.0, colesterol='muy alto', glucosa='normal', fumador='no', actividad='sí', enfermedad='sí')]
print(len(REGISTROS), REGISTROS[:2])

70000 [Registro(edad=18393, genero='hombre', altura=168, peso=62.0, colesterol='normal', glucosa='normal', fumador='no', actividad='sí', enfermedad='no'), Registro(edad=20228, genero='mujer', altura=156, peso=85.0, colesterol='muy alto', glucosa='normal', fumador='no', actividad='sí', enfermedad='sí')]


## 2. Consulta y filtrado (7.5 puntos)

Una vez que hemos cargado los datos en una estructura en memoria ya podemos empezar a procesarlos. En esta sección implementaremos algunas funciones de consulta y filtrado que nos permitirán trabajar con ellos.

La primera función se llama <code>calcula_alturas</code> y obtiene la lista de alturas presentes en el conjunto de datos, ordenada de mayor a menor.

In [None]:
def calcula_alturas(registros):
    ''' Lista ordenada de alturas
    
    ENTRADA:
       - registros: lista de registros -> [Registro(int, str, int, float, str, str, str, str, str)]
    SALIDA:
       - Lista de alturas distintas ordenanda de mayor a menor -> [int]
    '''
    solucion = []
    
    for i in registros:
        
    
    return solucion

In [None]:
# Test de la función calcula_alturas

# La salida esperada de las siguientes instrucciones es: 
# [250, 207, 200, 198, 197, 196, 195, 194, 193, 192, 191, 190, 189, 188, 187, 186, 185, 184, 
#  183, 182, 181, 180, 179, 178, 177, 176, 175, 174, 173, 172, 171, 170, 169, 168, 167, 166, 
#  165, 164, 163, 162, 161, 160, 159, 158, 157, 156, 155, 154, 153, 152, 151, 150, 149, 148, 
#  147, 146, 145, 144, 143, 142, 141, 140, 139, 138, 137, 136, 135, 134, 133, 132, 131, 130, 
#  128, 125, 122, 120, 119, 117, 113, 112, 111, 110, 109, 108, 105, 104, 100, 99, 98, 97, 96, 
#  91, 81, 80, 76, 75, 74, 72, 71, 70, 68, 67, 66, 65, 64, 60, 59, 57, 55]

print(calcula_alturas(REGISTROS))

La siguiente función se llama <code>filtra_por_colesterol_y_glucosa</code>. Toma una lista de registros, una lista de niveles de colesterol y otra de niveles de glucosa. Deberá seleccionar solamente aquellos registros con los niveles de colesterol y glucosa indicados.

In [None]:
def filtra_por_colesterol_y_glucosa(registros, niveles_colesterol, niveles_glucosa):
    ''' Selecciona registros por niveles de colesterol y glucosa
    
    ENTRADA:
       - registros: lista de registros -> [Registro(int, str, int, float, str, str, str, str, str)]
       - niveles_colesterol: niveles de colesterol a tener en cuenta -> [str]
       - niveles_glucosa: niveles de glucosa a tener en cuenta -> [str]
    SALIDA:
       - lista de registros seleccionados -> [Registro(int, str, int, float, str, str, str, str, str)]
    '''
    pass

In [None]:
# Test de la función filtra_por_colesterol_y_glucosa

# La salida esperada de las siguientes instrucciones es: 
# 3988 [Registro(edad=22584, genero='hombre', altura=178, peso=95.0, colesterol='muy alto', glucosa='muy alto', fumador='no', actividad='sí', enfermedad='sí'), 
#       Registro(edad=14507, genero='mujer', altura=165, peso=77.0, colesterol='muy alto', glucosa='muy alto', fumador='no', actividad='sí', enfermedad='sí'), 
#       Registro(edad=19557, genero='mujer', altura=164, peso=103.0, colesterol='muy alto', glucosa='muy alto', fumador='no', actividad='no', enfermedad='sí')]
filtrados = filtra_por_colesterol_y_glucosa(REGISTROS, ['muy alto'], ['alto', 'muy alto'])
print(len(filtrados), filtrados[:3])

La siguiente función se llama <code>extrae_datos_numericos</code>. Toma una lista de registros y produce como salida una lista de tuplas <code>(altura, peso, edad)</code> ordenada de mayor a menor según la edad. Las edades deben ser pasadas de número de días a número de años (sin decimales).

In [None]:
def extrae_datos_numericos(registros):
    ''' Extrae las tres columnas de datos numéricos (altura, peso, edad) convirtiendo la edad a años.
    
    ENTRADA:
       - registros: lista de registros -> [Registro(int, str, int, float, str, str, str, str, str)]
    SALIDA:
       - lista de tuplas (altura, peso, edad) -> [(int, float, int)]
    
    '''
    pass

In [None]:
# Test de la función extrae_datos_numericos

# La salida esperada de las siguientes instrucciones es:
# 70000 [(156, 45.0, 64), (162, 72.0, 64), (155, 57.0, 64), (156, 58.0, 64), (169, 73.0, 64), 
#        (166, 69.0, 64), (175, 75.0, 64), (158, 69.0, 64), (169, 68.0, 64), (181, 99.0, 64)]
datos_numericos = extrae_datos_numericos(REGISTROS)
print(len(datos_numericos), datos_numericos[:10])

La siguiente función de esta sección se llama <code>cuenta_registros</code>. Toma como entradas una lista de registros y una función que define una condición, y calcula el número de registros que cumplen esa condición.

In [None]:
def cuenta_registros(registros, condicion):
    ''' Cuenta cuántos registros cumplen la condición
    
    ENTRADA:
       - registros: lista de registros -> [Registro(int, str, int, float, str, str, str, str, str)]
       - condicion: nombre de función, o expresión lambda -> function (Registro -> bool)
    SALIDA:
       - número de registros que cumplen la condición -> int
    '''
    pass

In [None]:
### EJERCICIO: implementar dos llamadas de TEST de 'cuenta_registros' que obtengan:
#  - El número de personas con nivel de colesterol 'muy alto'
#  - El número de fumadores que además realizan actividad física

# Las salidas esperadas para estas consultas son:
#    8066
#    5162


La siguiente función se llama <code>porcentaje_enfermos_por_genero</code>. Toma como entrada una lista de registros, y produce como salida un diccionario cuyas claves son los valores posibles para el atributo <code>genero</code> y los valores son el porcentaje de personas con enfermedad de cada grupo. La implementación debe seguir un esquema genérico de agrupación y agregación.

In [None]:
def porcentaje_enfermos_por_genero(registros):
    ''' Crea un diccionario con el porcentaje de enfermos según el género
    
    ENTRADA:
       - registros: lista de registros -> [Registro(int, str, int, float, str, str, str, str, str)]
    SALIDA:
       - diccionario con los porcentajes -> {str: float}
    '''
    pass

In [None]:
# Test de la función porcentaje_enfermos_por_genero

# La salida esperada de la siguiente instrucción es: 
#   {'hombre': 0.5052308949734369, 'mujer': 0.4967274324621129}
porcentaje_enfermos_por_genero(REGISTROS)

## 3. Visualización (2 puntos)

La función de visualización que implementaremos será <code>muestra_distribucion_colesterol</code>. Toma como entrada una lista de registros, y genera un diagrama de tarta con la distribución según el nivel de colesterol.

In [None]:
def muestra_distribucion_colesterol(registros):
    ''' Genera un diagrama de tarta con la distribución según el nivel de colesterol.
    
    ENTRADA: 
       - registros: lista de registros -> [Registro(int, str, int, float, str, str, str, str, str)]
    SALIDA EN PANTALLA: 
       - diagrama con la distribución de niveles de colesterol

    Estas son las instrucciones 'matplotlib' para trazar el gráfico:       
            plt.pie(frecuencias, labels=niveles, autopct='%1.1f%%', shadow=True, startangle=30)
            plt.show()
    
    Que se apoyan en las siguientes variables:
        - niveles: lista con los posibles niveles de colesterol
        - frecuencias: lista, alineada con la anterior, con el número de registros por cada nivel
    '''
    pass

La salida de la siguiente celda de test debería ser la siguiente:

<img src="./img/distribucion.png" alt="Drawing" style="width:6.5cm;"/>

In [None]:
# Test de la función muestra_distribucion_colesterol
muestra_distribucion_colesterol(REGISTROS)