# Minería de datos

<h2 style="display: inline-block; padding: 4mm; padding-left: 2em; background-color: navy; line-height: 1.3em; color: white; border-radius: 10px;">Práctica Final Minería de Datos</h2>

## Docentes

 - José Francisco Diez Pastor
 
## Estudiantes (1-2)

- Rodrigo Pascual García
- Roberto Martínez - Guisasola Guerrero

In [1]:
import pandas as pd
import os


def load_data(url):
    """
    Función que recibe una url (direccion del equipo con los datos en formato csv) y devuelve un Dataframe con los datos.

    Parámetros:
    ----------    
        url : string
            Dirección del fichero a cargar. No tiene ningún valor por defecto.

    Return:
    ----------    
        DataFrame (df): devuelve un DataFrame con los datos del fichero proporcionado.

    """
    dataframe = pd.read_csv(url, sep = ';',)
    return dataframe

def display_header(df):
    """
    Recibe un DataFrame de los datos y devuelve un DataFrame formado por las 5 primeras columnas.

    Parámetros:
    ----------    
        df : DataFrame
            DataFrame del cual se quieren mostrar las 5 primeras filas. No tiene ningún valor por defecto.

    Return:
    ----------    
        Muestra las 5 primeras filas del DataFrame proporcionado.

    """
    #Por defecto es 5. Si hay que poner otro valor, dentro del paréntesis n=x
    #https://www.analyticslane.com/2021/03/08/pandas-seleccionar-las-primeras-o-ultimas-filas-de-un-dataframe-pandas-con-head-o-tail/
    display(df.head())

def show_basic_stats(df,class_name):
    """
    Recibe el DataFrame de los datos y el nombre de una columna y muestra el número de filas y columnas y cuantos ejemplos hay en cada una de las clases.
    
    Parámetros:
    ----------    
        df : DataFrame
            DataFrame del cual se quiere conocer la información. No tiene ningún valor por defecto.

        class_name : string
            Nombre de la columna de la cual se quiere conocer cuántos ejemplos pertenecen a cada clase. No tiene ningún valor por defecto.

    Return:
    ----------    
        Muestra el número de filas y columnas del DataFrame proporcionado.\n
        Además, indica el número de ejemplos que pertenecen a cada valor de una columna, en diferentes líneas.
    """
        
    filas = len(df.index)
    columnas = len(df.columns)
    ejemplos = df.groupby(class_name).size()
    datos = f"El dataset está formado por  {filas} filas y {columnas} columnas. \nAdemás:\n"
    for i in ejemplos.index:
        datos = datos + "La clase " + str(i) + " tiene " + str(ejemplos[i]) + " ejemplos\n"
    print(datos)

url = "."+os.sep+"data"+os.sep+"cardio_train.csv"
df = load_data(url)
display_header(df)
show_basic_stats(df,"cardio")

Unnamed: 0,id,age,gender,height,weight,ap_hi,ap_lo,cholesterol,gluc,smoke,alco,active,cardio
0,988,22469,1,155,69.0,130,80,2,2,0,0,1,0
1,989,14648,1,163,71.0,110,70,1,1,0,0,1,1
2,990,21901,1,165,70.0,120,80,1,1,0,0,1,0
3,991,14549,2,165,85.0,120,80,1,1,1,1,1,0
4,992,23393,1,155,62.0,120,80,1,1,0,0,1,0


El dataset está formado por  69301 filas y 13 columnas. 
Además:
La clase 0 tiene 34679 ejemplos
La clase 1 tiene 34622 ejemplos



### Limieza de datos

- id: Borrado
- age: pasaremos de dias a años	
- gender
- height
- weight	
- ap_hi	
- ap_lo	
- cholesterol	
- gluc	
- smoke	
- alco	
- active	
- cardio


In [2]:
def limpieza_datos(df):
    '''
    Función que recibe un DataFrame y devuelve un Dataframe con el IMC calculado y las columnas referentes al peso y a la altura eliminadas.

    Parámetros:
    ----------    
        df : DataFrame
            DataFrame del cual se quieren procesar los datos y calcular el IMC de los pacientes. No tiene ningún valor por defecto.

    Return:
    ----------    
        DataFrame (df): devuelve un DataFrame con los datos calculados y las columnas referentes al peso y a la altura eliminadas

    '''
    df['AGE'] = (df.age/365)
    df.drop(['age'], axis=1, inplace = True)
    
    df['BMI'] = (df.Lb/(df.In**2))*703
    df.drop(['In', 'Lb'], axis=1, inplace = True)
  
    return df

   
#df_procesado = limpieza_datos(df)
display(df_procesado.head())


Unnamed: 0,id,gender,height,weight,ap_hi,ap_lo,cholesterol,gluc,smoke,alco,active,cardio,AGE
0,988,1,155,69.0,130,80,2,2,0,0,1,0,61.558904
1,989,1,163,71.0,110,70,1,1,0,0,1,1,40.131507
2,990,1,165,70.0,120,80,1,1,0,0,1,0,60.00274
3,991,2,165,85.0,120,80,1,1,1,1,1,0,39.860274
4,992,1,155,62.0,120,80,1,1,0,0,1,0,64.090411


In [7]:
atts = list(df_procesado.columns)
atts.remove("AGE")
atts.insert(1,"AGE")
df_procesado[atts]

Unnamed: 0,id,AGE,gender,height,weight,ap_hi,ap_lo,cholesterol,gluc,smoke,alco,active,cardio
0,988,61.558904,1,155,69.0,130,80,2,2,0,0,1,0
1,989,40.131507,1,163,71.0,110,70,1,1,0,0,1,1
2,990,60.002740,1,165,70.0,120,80,1,1,0,0,1,0
3,991,39.860274,2,165,85.0,120,80,1,1,1,1,1,0
4,992,64.090411,1,155,62.0,120,80,1,1,0,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
69296,99993,52.712329,2,168,76.0,120,80,1,1,1,0,1,0
69297,99995,61.920548,1,158,126.0,140,90,2,2,0,0,1,1
69298,99996,52.235616,2,183,105.0,180,90,3,1,0,1,0,1
69299,99998,61.454795,1,163,72.0,135,80,1,2,0,0,0,1
