# Minería de datos

<h2 style="display: inline-block; padding: 4mm; padding-left: 2em; background-color: navy; line-height: 1.3em; color: white; border-radius: 10px;">Práctica Final Minería de Datos</h2>

## Docentes

 - José Francisco Diez Pastor
 
## Estudiantes (1-2)

- Rodrigo Pascual García
- Roberto Martínez - Guisasola Guerrero

In [1]:
import pandas as pd
import os


def load_data(url):
    """
    Función que recibe una url (direccion del equipo con los datos en formato csv) y devuelve un Dataframe con los datos.

    Parámetros:
    ----------    
        url : string
            Dirección del fichero a cargar. No tiene ningún valor por defecto.

    Return:
    ----------    
        DataFrame (df): devuelve un DataFrame con los datos del fichero proporcionado.

    """
    dataframe = pd.read_csv(url, sep = ';',)
    return dataframe

def display_header(df):
    """
    Recibe un DataFrame de los datos y devuelve un DataFrame formado por las 5 primeras columnas.

    Parámetros:
    ----------    
        df : DataFrame
            DataFrame del cual se quieren mostrar las 5 primeras filas. No tiene ningún valor por defecto.

    Return:
    ----------    
        Muestra las 5 primeras filas del DataFrame proporcionado.

    """
    #Por defecto es 5. Si hay que poner otro valor, dentro del paréntesis n=x
    #https://www.analyticslane.com/2021/03/08/pandas-seleccionar-las-primeras-o-ultimas-filas-de-un-dataframe-pandas-con-head-o-tail/
    display(df.head())

def show_basic_stats(df,class_name):
    """
    Recibe el DataFrame de los datos y el nombre de una columna y muestra el número de filas y columnas y cuantos ejemplos hay en cada una de las clases.
    
    Parámetros:
    ----------    
        df : DataFrame
            DataFrame del cual se quiere conocer la información. No tiene ningún valor por defecto.

        class_name : string
            Nombre de la columna de la cual se quiere conocer cuántos ejemplos pertenecen a cada clase. No tiene ningún valor por defecto.

    Return:
    ----------    
        Muestra el número de filas y columnas del DataFrame proporcionado.\n
        Además, indica el número de ejemplos que pertenecen a cada valor de una columna, en diferentes líneas.
    """
        
    filas = len(df.index)
    columnas = len(df.columns)
    ejemplos = df.groupby(class_name).size()
    datos = f"El dataset está formado por  {filas} filas y {columnas} columnas. \nAdemás:\n"
    for i in ejemplos.index:
        datos = datos + "La clase " + str(i) + " tiene " + str(ejemplos[i]) + " ejemplos\n"
    print(datos)

url = "."+os.sep+"data"+os.sep+"cardio_train.csv"
df = load_data(url)
display_header(df)
show_basic_stats(df,"cardio")

Unnamed: 0,id,age,gender,height,weight,ap_hi,ap_lo,cholesterol,gluc,smoke,alco,active,cardio
0,988,22469,1,155,69.0,130,80,2,2,0,0,1,0
1,989,14648,1,163,71.0,110,70,1,1,0,0,1,1
2,990,21901,1,165,70.0,120,80,1,1,0,0,1,0
3,991,14549,2,165,85.0,120,80,1,1,1,1,1,0
4,992,23393,1,155,62.0,120,80,1,1,0,0,1,0


El dataset está formado por  69301 filas y 13 columnas. 
Además:
La clase 0 tiene 34679 ejemplos
La clase 1 tiene 34622 ejemplos



In [2]:
def show_basic_statistics(df):
    """
    Muestra estadísticas básicas de un DataFrame.
    
    Argumentos:
    - df: DataFrame de pandas.
    """
    # Calcula estadísticas básicas
    count = df.count()
    mean = df.mean()
    std = df.std()
    min_value = df.min()
    max_value = df.max()
    median = df.median()

    # Imprime las estadísticas
    print("Estadísticas básicas del DataFrame:")
    print("----------------------------------")
    print("Recuento:\n", count)
    print("\nMedia:\n", mean)
    print("\nDesviación estándar:\n", std)
    print("\nValor mínimo:\n", min_value)
    print("\nValor máximo:\n", max_value)
    print("\nMediana:\n", median)

### Limieza de datos

- id: Borrado
- age: pasaremos de dias a años	
- gender
- height: usaremos este dato para calcular el Indice de masa corporal y lo borraremos
- weight: usaremos este dato para calcular el Indice de masa corporal y lo borraremos	
- ap_hi: tras analizar los datos hemos detectado que algún valor sale de los posibles rangos que una persona puede tener en cuanto a su presón sitólica (entre 60 y 150)	
- ap_lo: tras analizar los datos hemos detectado que algún valor sale de los posibles rangos que una persona puede tener en cuanto a su presón diastólica (entre  30 y 110)
- cholesterol	
- gluc	
- smoke	
- alco	
- active	
- cardio


In [3]:
import pandas as pd
import numpy as np

def limpieza_datos(df):
    '''
    Función que recibe un DataFrame y devuelve un Dataframe con el IMC calculado y las columnas referentes al peso y a la altura eliminadas.

    Parámetros:
    ----------    
        df : DataFrame
            DataFrame del cual se quieren procesar los datos y calcular el IMC de los pacientes. No tiene ningún valor por defecto.

    Return:
    ----------    
        DataFrame (df): devuelve un DataFrame con los datos calculados y las columnas referentes al peso y a la altura eliminadas

    '''
    if 'IMC' in df.columns:
        return print("El DataFrame ya ha sido filtrado.")
    
    else:
        #age: pasaremos de dias a años
        df['AGE'] = (df.age/365)
        df.drop(['age'], axis=1, inplace = True)

        #height y weight: usaremos este dato para calcular el Indice de masa corporal y lo borraremos
        df['BMI'] = (df.weight/((df.height/100)**2))
        df.drop(['weight', 'height'], axis=1, inplace = True)

        #id: Borrado
        df.drop(['id'], axis=1, inplace = True)

        #correción valores de presón
        df.loc[~df['ap_hi'].between(60, 150), 'ap_hi'] = np.nan
        df.loc[~df['ap_lo'].between(30, 110), 'ap_lo'] = np.nan

        #correción valores de BMI
        df.loc[~df['BMI'].between(10, 50), 'BMI'] = np.nan


        columnasNuevas = ['Sexo','PSis','PDia','Colesterol','Glucosa','Fumador','Alcohol', 'Act_fisica','Cardio','Edad', 'IMC']
        df.columns = columnasNuevas

        return df

   



In [4]:
   
df_procesado = limpieza_datos(df)
#display(df_procesado.head())
print(df_procesado)

       Sexo   PSis  PDia  Colesterol  Glucosa  Fumador  Alcohol  Act_fisica  \
0         1  130.0  80.0           2        2        0        0           1   
1         1  110.0  70.0           1        1        0        0           1   
2         1  120.0  80.0           1        1        0        0           1   
3         2  120.0  80.0           1        1        1        1           1   
4         1  120.0  80.0           1        1        0        0           1   
...     ...    ...   ...         ...      ...      ...      ...         ...   
69296     2  120.0  80.0           1        1        1        0           1   
69297     1  140.0  90.0           2        2        0        0           1   
69298     2    NaN  90.0           3        1        0        1           0   
69299     1  135.0  80.0           1        2        0        0           0   
69300     1  120.0  80.0           2        1        0        0           1   

       Cardio       Edad        IMC  
0           0

In [5]:
show_basic_statistics(df_procesado)


Estadísticas básicas del DataFrame:
----------------------------------
Recuento:
 Sexo          69301
PSis          64055
PDia          67978
Colesterol    69301
Glucosa       69301
Fumador       69301
Alcohol       69301
Act_fisica    69301
Cardio        69301
Edad          69301
IMC           69057
dtype: int64

Media:
 Sexo            1.349519
PSis          123.880884
PDia           81.160508
Colesterol      1.366806
Glucosa         1.226447
Fumador         0.088051
Alcohol         0.053881
Act_fisica      0.803986
Cardio          0.499589
Edad           53.339140
IMC            27.412363
dtype: float64

Desviación estándar:
 Sexo           0.476821
PSis          13.093693
PDia           9.142971
Colesterol     0.680270
Glucosa        0.572246
Fumador        0.283371
Alcohol        0.225784
Act_fisica     0.396982
Cardio         0.500003
Edad           6.759621
IMC            5.064461
dtype: float64

Valor mínimo:
 Sexo           1.000000
PSis          60.000000
PDia          30.000

In [6]:
atts = list(df_procesado.columns)
atts.remove("Edad")
atts.insert(1,"Edad")


In [7]:
atts.remove("IMC")
atts.insert(2,"IMC")
df_procesado[atts]

Unnamed: 0,Sexo,Edad,IMC,PSis,PDia,Colesterol,Glucosa,Fumador,Alcohol,Act_fisica,Cardio
0,1,61.558904,28.720083,130.0,80.0,2,2,0,0,1,0
1,1,40.131507,26.722873,110.0,70.0,1,1,0,0,1,1
2,1,60.002740,25.711662,120.0,80.0,1,1,0,0,1,0
3,2,39.860274,31.221304,120.0,80.0,1,1,1,1,1,0
4,1,64.090411,25.806452,120.0,80.0,1,1,0,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...
69296,2,52.712329,26.927438,120.0,80.0,1,1,1,0,1,0
69297,1,61.920548,,140.0,90.0,2,2,0,0,1,1
69298,2,52.235616,31.353579,,90.0,3,1,0,1,0,1
69299,1,61.454795,27.099251,135.0,80.0,1,2,0,0,0,1


### Modelo

In [35]:
valores_comunes = df_procesado.mode().iloc[0]

tabla_sin_none = df_procesado.fillna(valores_comunes)

df.dropna(inplace=True)
from sklearn.impute import SimpleImputer

imputer = SimpleImputer(strategy='mean')
X = imputer.fit_transform(X)

tabla_sin_none

Unnamed: 0,Sexo,PSis,PDia,Colesterol,Glucosa,Fumador,Alcohol,Act_fisica,Cardio,Edad,IMC
0,1,130.0,80.0,2,2,0,0,1,0,61.558904,28.720083
1,1,110.0,70.0,1,1,0,0,1,1,40.131507,26.722873
2,1,120.0,80.0,1,1,0,0,1,0,60.002740,25.711662
3,2,120.0,80.0,1,1,1,1,1,0,39.860274,31.221304
4,1,120.0,80.0,1,1,0,0,1,0,64.090411,25.806452
...,...,...,...,...,...,...,...,...,...,...,...
69296,2,120.0,80.0,1,1,1,0,1,0,52.712329,26.927438
69297,1,140.0,90.0,2,2,0,0,1,1,61.920548,23.875115
69298,2,120.0,90.0,3,1,0,1,0,1,52.235616,31.353579
69299,1,135.0,80.0,1,2,0,0,0,1,61.454795,27.099251


In [36]:
import pandas as pd
import numpy as np
import os 

def get_sklenarn_data(df,class_name):
    '''
        Saca X e y del dataFrame recibido:
         - con df.drop eliminas columnas no desaeadas (class_name) para X y luego lo pasaré a array de numpy,
         y será esa columna en concreto.
    
             Parámetros
             ----------
                df: dataFrame
                class_name: titulo de la coluna del dataframe anterior

             Returns
             -------
                arrays NumPy
                    - X: array NumPy se representa como una matriz de dos dimensiones donde cada fila representa
                        unos datos asociados a una y
                    - y: array NumPy de una dimensión que será el dato de la variable objetivo correspondientes 
                        a cada instancia de entrenamiento en X
        '''
    # Extraer las características independientes
    X = df.drop(class_name, axis=1).to_numpy() #quito la columna que indica el nombre de clase, axis=1 indica que quito una columna
    
    # Extraer la clase
    y = df[class_name].to_numpy() #me quedo tan solo con un array de de la variable indicada, en este caso el que queremos predecir
    
    #convierto un Dataframe o una Serie en un array NumPy
    
    return X, y

X,y = get_sklenarn_data(df,"Cardio") 
print(X.shape)
print(y.shape)

(63225, 10)
(63225,)


In [48]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

print(X[3])

def check_fitted(clf): 
    '''
        Chequea que esté ya entrenado:
             
             Parámetros
             ----------
                clf: clasificador indicado

             Returns
             -------
                Boolean
                    - True: está entrenado
                    - False: no está entrenado
        '''
    return hasattr(clf, "classes_")

def get_predictions(model,X_test):
    '''
        Va a predecir una serie de valores (los y) a partir de unos datos X conocidos como datos de entrenamiento.
    
             Parámetros
             ----------
                model: modelo de entrenaamiento
                X_test: conjunto de datos para entrenar

             Returns
             -------
                - if True: Numpy array con el dato (y) predicho
                - else: string
        '''
    if check_fitted(model):
        y_pred = model.predict(X_test) # método predict del clasificador para obtener las predicciones del conjunto de prueba X_test.
        return y_pred
    else:
        return print("Train the model first")



from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier



ejemplo = np.array([[1,64.090411,25.806452,120.0,80.0,1,1,0,0,1,0]])


import warnings
warnings.filterwarnings("ignore")


# Crear una instancia del modelo de regresión logística
modeloLog = LogisticRegression()

# Entrenar el modelo en los datos de entrenamiento
modeloLog.fit(X_train, y_train)

# Hacer predicciones en los datos de prueba
y_pred = modeloLog.predict(ejemplo)

print(y_pred)


[  2.         120.          80.           1.           1.
   1.           1.           1.          39.86027397  31.22130395]


ValueError: X has 11 features, but LogisticRegression is expecting 10 features as input.