# Minería de datos

<h2 style="display: inline-block; padding: 4mm; padding-left: 2em; background-color: navy; line-height: 1.3em; color: white; border-radius: 10px;">Práctica Final Minería de Datos</h2>

## Docentes

 - José Francisco Diez Pastor
 
## Estudiantes

- Rodrigo Pascual García
- Roberto Martínez - Guisasola Guerrero

## Descripción de la práctica

Tenemos un conjunto de datos de pacientes que han acudido a una consulta de un Servicio de Cardiología. En total son más de 69.000 pacientes y para cada uno de ellos tenemos 12 atributos. Estos datos han sido extraidos de <a href = "https://www.kaggle.com/datasets/bhadaneeraj/cardio-vascular-disease-detection?select=cardio_train.csv">Kaggle</a>.<br>
Se desea predecir si el paciente tiene una enfermedad cardíaca o no.

### Descripción de los atributos
Los atributos del conjuto de datos son:
- Edad: valor objetivo que indica los días de vida del paciente. Es un valor numérico
- Altura: altura del paciente medida en centímetros. Es un valor numérico
- Peso: peso del paciente medido en kilogramos. Es un valor numérico
- Sexo: sexo del paciente. Es un atributo categórico. 1: Hombre, 2: Mujer
- PSis: presión sistólica del paciente medida en la consulta durante la exploración médica. Es un valor numérico expresado en mmHg
- PDia: presión diastólica del paciente medida en la consulta durante la exploración médica. Es un valor numérico expresado en mmHg
- Colesterol: indica el estado de los niveles de colesterol obtenidos en un análisis sanguíneo. Es un atributo categórico. 1:Normal, 2: Alto, 3: Muy alto
- Glucosa: indica el estado de los niveles de glucosa obtenidos mediante una prueba de glucosa en sangre. Es un atributo categórico. 1:Normal, 2: Alto, 3: Muy alto
- Fumador: atributo que indica si el paciente fuma o no. Es un atributo categórico. 0: No, 1: Sí
- Alcohol: atributo que indica si el paciente consume alcohol de manera abundante. Es un atributo categórico. 0: No, 1: Sí
- Act_fisica: atributo que indica si el paciente realiza actividad física de manera regular. Es un atributo categórico. 0: No, 1: Sí

#### La clase
- Cardio: presencia o ausencia de enfermedad cardiovascular. Es la variable que se quiere predecir. Es un atributo binario. 

In [11]:
import pandas as pd
import os


def load_data(url):
    """
    Función que recibe una url (direccion del equipo con los datos en formato csv) y devuelve un Dataframe con los datos. Las cabeceras de las columnas
    son eliminadas y se ponen en castellano automáticamente al ser importadas

    Parámetros:
    ----------    
        url : string
            Dirección del fichero a cargar. No tiene ningún valor por defecto.

    Return:
    ----------    
        DataFrame (df): devuelve un DataFrame con los datos del fichero proporcionado.

    """
    dataframe = pd.read_csv(url, sep = ';', usecols = [1,2,3,4,5,6,7,8,9,10,11,12])
    columnas = list(dataframe.columns.values)
    print(f"El conjunto de datos se ha importado. Las columnas originales ({columnas}) se encuentran en inglés. Las columnas van a ser traducidas al castellano")
    columnasNuevas = ['Edad', 'Altura', 'Peso', 'Sexo', 'PSis', 'PDia', 'Colesterol', 'Glucosa', 'Fumador', 'Alcohol', 'Act_fisica', 'Cardio']
    dataframe.columns = columnasNuevas
    print(f"Columnas traducidas al castellano. Columnas actuales: {columnasNuevas}")
  
    return dataframe

def display_header(df):
    """
    Recibe un DataFrame de los datos y devuelve un DataFrame formado por las 10 primeras columnas.

    Parámetros:
    ----------    
        df : DataFrame
            DataFrame del cual se quieren mostrar las 10 primeras filas. No tiene ningún valor por defecto.

    Return:
    ----------    
        Muestra las 10 primeras filas del DataFrame proporcionado.

    """
    #Por defecto es 5. Si hay que poner otro valor, dentro del paréntesis n=x
    print("A continuación, se muestran las 10 primeras filas del conjunto de datos")
    display(df.head(n=10))

url = "."+os.sep+"data"+os.sep+"cardio_train.csv"
df = load_data(url)
display_header(df)

El conjunto de datos se ha importado. Las columnas originales (['age', 'gender', 'height', 'weight', 'ap_hi', 'ap_lo', 'cholesterol', 'gluc', 'smoke', 'alco', 'active', 'cardio']) se encuentran en inglés. Las columnas van a ser traducidas al castellano
Columnas traducidas al castellano. Columnas actuales: ['Edad', 'Altura', 'Peso', 'Sexo', 'PSis', 'PDia', 'Colesterol', 'Glucosa', 'Fumador', 'Alcohol', 'Act_fisica', 'Cardio']
A continuación, se muestran las 10 primeras filas del conjunto de datos


Unnamed: 0,Edad,Altura,Peso,Sexo,PSis,PDia,Colesterol,Glucosa,Fumador,Alcohol,Act_fisica,Cardio
0,22469,1,155,69.0,130,80,2,2,0,0,1,0
1,14648,1,163,71.0,110,70,1,1,0,0,1,1
2,21901,1,165,70.0,120,80,1,1,0,0,1,0
3,14549,2,165,85.0,120,80,1,1,1,1,1,0
4,23393,1,155,62.0,120,80,1,1,0,0,1,0
5,21143,1,164,61.0,100,70,1,1,0,0,1,0
6,18085,1,162,72.0,100,70,1,1,0,0,1,0
7,22547,1,161,93.0,140,90,2,1,0,0,1,1
8,21250,1,157,68.0,110,80,1,1,0,0,1,0
9,22446,1,158,65.0,140,90,3,1,0,0,1,1


### Limieza de datos

- id: Borrado
- age: pasaremos de dias a años	
- gender
- height
- weight	
- ap_hi	
- ap_lo	
- cholesterol	
- gluc	
- smoke	
- alco	
- active	
- cardio


In [None]:
def limpieza_datos(df):
    '''
    Función que recibe un DataFrame y devuelve un Dataframe con el IMC calculado y las columnas referentes al peso y a la altura eliminadas.

    Parámetros:
    ----------    
        df : DataFrame
            DataFrame del cual se quieren procesar los datos y calcular el IMC de los pacientes. No tiene ningún valor por defecto.

    Return:
    ----------    
        DataFrame (df): devuelve un DataFrame con los datos calculados y las columnas referentes al peso y a la altura eliminadas

    '''
    df['AGE'] = (df.age/365)
    df.drop(['age'], axis=1, inplace = True)
    
    df['BMI'] = (df.Lb/(df.In**2))*703
    df.drop(['In', 'Lb'], axis=1, inplace = True)
  
    return df

   
#df_procesado = limpieza_datos(df)
#display(df_procesado.head())


### Calcular estadísticas

Una vez limpiados los datos, calculamos las estadísticas de cada atributo

In [19]:
def show_basic_stats(df, lColumnas):
    """
    Recibe el DataFrame de los datos y un listado de columnas y muestra el número de filas y columnas y cuantos ejemplos hay en cada una de las clases de cada columna.
    
    Parámetros:
    ----------    
        df : DataFrame
            DataFrame del cual se quiere conocer la información. No tiene ningún valor por defecto.

        class_name : list
            Listado de columnas de las cuales se quiere obtener sus estadísticas

    Return:
    ----------    
        Muestra el número de filas y columnas del DataFrame proporcionado.\n
        Además, indica el número de ejemplos que pertenecen a cada valor de cada columna, en diferentes líneas.
    """
        
    filas = len(df.index)
    columnas = len(df.columns)
    datos = f"El dataset está formado por  {filas} filas y {columnas} columnas. \nA continuación, se muestran unas estadísticas de cada columna empleada:\n"
    for i in lColumnas:
        datos = datos + estadisticaColumna(df, i)
    print(datos)
    

def estadisticaColumna(df,columna):
    """
    Recibe el DataFrame de los datos y el nombre de una columna y muestra el número de filas y columnas y cuantos ejemplos hay en cada una de las clases.
    
    Parámetros:
    ----------    
        df : DataFrame
            DataFrame del cual se quiere conocer la información. No tiene ningún valor por defecto.

        columna : string
            Nombre de la columna de la cual se quiere conocer cuántos ejemplos pertenecen a cada clase. No tiene ningún valor por defecto.

    Return:
    ----------    
        Muestra el número de filas y columnas del DataFrame proporcionado.\n
        Además, indica el número de ejemplos que pertenecen a cada valor de una columna, en diferentes líneas.
    """
    estadisticas = f"En la columna {columna} hay "
    media = 0 
    ejemplos = df.groupby(columna).size()
    for i in ejemplos.index:
        estadisticas = estadisticas  + str(ejemplos[i]) + " ejemplos de la clase " + str(i) + ", "
        media = media + (i*ejemplos[i])/len(df.index)
    estadisticas = estadisticas + "tiene un valor medio de " + str(media) + "\n"
    return estadisticas 

columnas = ["cardio", "gluc"]
show_basic_stats(df, columnas)

El dataset está formado por  69301 filas y 12 columnas. 
A continuación, se muestran unas estadísticas de cada columna empleada:
En la columna cardio hay 34679 ejemplos de la clase 0, 34622 ejemplos de la clase 1, tiene un valor medio de 0.4995887505230805
En la columna gluc hay 58885 ejemplos de la clase 1, 5139 ejemplos de la clase 2, 5277 ejemplos de la clase 3, tiene un valor medio de 1.2264469488174774

