In [10]:
import pandas as pd
import os


def load_data(url):
    """
    Función que recibe una url (direccion del equipo con los datos en formato csv) y devuelve un Dataframe con los datos.

    Parámetros:
    ----------    
        url : string
            Dirección del fichero a cargar. No tiene ningún valor por defecto.

    Return:
    ----------    
        DataFrame (df): devuelve un DataFrame con los datos del fichero proporcionado.

    """
    dataframe = pd.read_csv(url, sep = ';', usecols = [1,2,3,4,5,6,7,8,9,10,11,12])
    return dataframe

def display_header(df):
    """
    Recibe un DataFrame de los datos y devuelve un DataFrame formado por las 5 primeras columnas.

    Parámetros:
    ----------    
        df : DataFrame
            DataFrame del cual se quieren mostrar las 5 primeras filas. No tiene ningún valor por defecto.

    Return:
    ----------    
        Muestra las 5 primeras filas del DataFrame proporcionado.

    """
    #Por defecto es 5. Si hay que poner otro valor, dentro del paréntesis n=x
    #https://www.analyticslane.com/2021/03/08/pandas-seleccionar-las-primeras-o-ultimas-filas-de-un-dataframe-pandas-con-head-o-tail/
    display(df.head())




url = "."+os.sep+"data"+os.sep+"cardio_train.csv"
df = load_data(url)
display_header(df)

Unnamed: 0,age,gender,height,weight,ap_hi,ap_lo,cholesterol,gluc,smoke,alco,active,cardio
0,22469,1,155,69.0,130,80,2,2,0,0,1,0
1,14648,1,163,71.0,110,70,1,1,0,0,1,1
2,21901,1,165,70.0,120,80,1,1,0,0,1,0
3,14549,2,165,85.0,120,80,1,1,1,1,1,0
4,23393,1,155,62.0,120,80,1,1,0,0,1,0


cardio
gluc
El dataset está formado por  69301 filas y 12 columnas. 
A continuación, se muestran unas estadísticas de cada columna empleada:
En la columna cardio, hay 34679 ejemplos de la clase 0, 34622 ejemplos de la clase 1, 
En la columna gluc, hay 58885 ejemplos de la clase 1, 5139 ejemplos de la clase 2, 5277 ejemplos de la clase 3, 



### Limieza de datos

- id: Borrado
- age: pasaremos de dias a años	
- gender
- height
- weight	
- ap_hi	
- ap_lo	
- cholesterol	
- gluc	
- smoke	
- alco	
- active	
- cardio


In [None]:
def limpieza_datos(df):
    '''
    Función que recibe un DataFrame y devuelve un Dataframe con el IMC calculado y las columnas referentes al peso y a la altura eliminadas.

    Parámetros:
    ----------    
        df : DataFrame
            DataFrame del cual se quieren procesar los datos y calcular el IMC de los pacientes. No tiene ningún valor por defecto.

    Return:
    ----------    
        DataFrame (df): devuelve un DataFrame con los datos calculados y las columnas referentes al peso y a la altura eliminadas

    '''
    df['AGE'] = (df.age/365)
    df.drop(['age'], axis=1, inplace = True)
    
    df['BMI'] = (df.Lb/(df.In**2))*703
    df.drop(['In', 'Lb'], axis=1, inplace = True)
  
    return df

   
#df_procesado = limpieza_datos(df)
#display(df_procesado.head())


Unnamed: 0,id,gender,height,weight,ap_hi,ap_lo,cholesterol,gluc,smoke,alco,active,cardio,AGE
0,988,1,155,69.0,130,80,2,2,0,0,1,0,61.558904
1,989,1,163,71.0,110,70,1,1,0,0,1,1,40.131507
2,990,1,165,70.0,120,80,1,1,0,0,1,0,60.00274
3,991,2,165,85.0,120,80,1,1,1,1,1,0,39.860274
4,992,1,155,62.0,120,80,1,1,0,0,1,0,64.090411


### Calcular estadísticas

Una vez limpiados los datos, calculamos las estadísticas de cada atributo

In [19]:
def show_basic_stats(df, lColumnas):
    """
    Recibe el DataFrame de los datos y un listado de columnas y muestra el número de filas y columnas y cuantos ejemplos hay en cada una de las clases de cada columna.
    
    Parámetros:
    ----------    
        df : DataFrame
            DataFrame del cual se quiere conocer la información. No tiene ningún valor por defecto.

        class_name : list
            Listado de columnas de las cuales se quiere obtener sus estadísticas

    Return:
    ----------    
        Muestra el número de filas y columnas del DataFrame proporcionado.\n
        Además, indica el número de ejemplos que pertenecen a cada valor de cada columna, en diferentes líneas.
    """
        
    filas = len(df.index)
    columnas = len(df.columns)
    datos = f"El dataset está formado por  {filas} filas y {columnas} columnas. \nA continuación, se muestran unas estadísticas de cada columna empleada:\n"
    for i in lColumnas:
        datos = datos + estadisticaColumna(df, i)
    print(datos)
    

def estadisticaColumna(df,columna):
    """
    Recibe el DataFrame de los datos y el nombre de una columna y muestra el número de filas y columnas y cuantos ejemplos hay en cada una de las clases.
    
    Parámetros:
    ----------    
        df : DataFrame
            DataFrame del cual se quiere conocer la información. No tiene ningún valor por defecto.

        columna : string
            Nombre de la columna de la cual se quiere conocer cuántos ejemplos pertenecen a cada clase. No tiene ningún valor por defecto.

    Return:
    ----------    
        Muestra el número de filas y columnas del DataFrame proporcionado.\n
        Además, indica el número de ejemplos que pertenecen a cada valor de una columna, en diferentes líneas.
    """
    estadisticas = f"En la columna {columna} hay "
    media = 0 
    ejemplos = df.groupby(columna).size()
    for i in ejemplos.index:
        estadisticas = estadisticas  + str(ejemplos[i]) + " ejemplos de la clase " + str(i) + ", "
        media = media + (i*ejemplos[i])/len(df.index)
    estadisticas = estadisticas + "tiene un valor medio de " + str(media) + "\n"
    return estadisticas 

columnas = ["cardio", "gluc"]
show_basic_stats(df, columnas)

El dataset está formado por  69301 filas y 12 columnas. 
A continuación, se muestran unas estadísticas de cada columna empleada:
En la columna cardio hay 34679 ejemplos de la clase 0, 34622 ejemplos de la clase 1, tiene un valor medio de 0.4995887505230805
En la columna gluc hay 58885 ejemplos de la clase 1, 5139 ejemplos de la clase 2, 5277 ejemplos de la clase 3, tiene un valor medio de 1.2264469488174774

