<img style="float:left" width="70%" src="pics/escudo_COLOR_1L_DCHA.png">
<img style="float:right" width="15%" src="pics/PythonLogo.svg">
<br style="clear:both;">

# Minería de datos

<h2 style="display: inline-block; padding: 4mm; padding-left: 2em; background-color: navy; line-height: 1.3em; color: white; border-radius: 10px;">Práctica Scikit-Learn 1</h2>

## Docentes

 - Autor: José Francisco Diez Pastor
 - Juan José Rodríguez Diez
 
## Estudiantes (1-2)

- Victor De Marco
- Alejandro Diez

## Descripción de los datos

### **Introducción al Conjunto de Datos: Cleveland Heart Disease**  

El conjunto de datos **Cleveland Heart Disease** es ampliamente utilizado en estudios de predicción de enfermedades cardíacas. Contiene información clínica de 300 individuos y se emplea para analizar la presencia y severidad de enfermedades del corazón.  

Este conjunto de datos incluye **14 columnas**. Cada columna representa diferentes variables médicas y factores de riesgo asociados a enfermedades cardiovasculares.  

### **Descripción de las Variables**  

- **Edad** (*Age*): Indica la edad del individuo.  
- **Sexo** (*Sex*): Género del individuo, donde:  
  - 1 = Hombre  
  - 0 = Mujer  
- **Tipo de dolor torácico** (*Chest-pain type*): Clasificación del tipo de dolor en el pecho:  
  - 1 = Angina típica  
  - 2 = Angina atípica  
  - 3 = Dolor no anginoso  
  - 4 = Asintomático  
- **Presión arterial en reposo** (*Resting Blood Pressure*): Valor de la presión arterial en reposo del individuo, medido en mmHg.  
- **Colesterol en sangre** (*Serum Cholesterol*): Nivel de colesterol sérico en mg/dl.  
- **Glucemia en ayunas** (*Fasting Blood Sugar*): Indica si el nivel de azúcar en sangre en ayunas es superior a 120 mg/dl:  
  - 1 = Sí (mayor a 120 mg/dl)  
  - 0 = No (menor o igual a 120 mg/dl)  
- **Electrocardiograma en reposo** (*Resting ECG*): Clasificación del resultado del ECG en reposo:  
  - 0 = Normal  
  - 1 = Anormalidad en la onda ST-T  
  - 2 = Hipertrofia ventricular izquierda  
- **Frecuencia cardíaca máxima alcanzada** (*Max heart rate achieved*): Frecuencia cardíaca máxima registrada durante el ejercicio.  
- **Angina inducida por el ejercicio** (*Exercise induced angina*): Indica si el individuo experimentó angina durante el ejercicio:  
  - 1 = Sí  
  - 0 = No  
- **Depresión del segmento ST inducida por el ejercicio en relación con el reposo** (*ST depression induced by exercise relative to rest*): Valor de depresión del segmento ST, que puede ser un número entero o decimal.  
- **Segmento ST en el ejercicio máximo** (*Peak exercise ST segment*): Clasificación de la pendiente del segmento ST durante el ejercicio:  
  - 1 = Ascendente  
  - 2 = Plano  
  - 3 = Descendente  
- **Número de vasos principales coloreados por fluoroscopia** (*Number of major vessels (0-3) colored by fluoroscopy*): Número de vasos principales observados mediante fluoroscopia, representado como un número entero o decimal.  
- **Talasemia** (*Thal*): Indica la presencia de talasemia:  
  - 3 = Normal  
  - 6 = Defecto fijo  
  - 7 = Defecto reversible  
- **Diagnóstico de enfermedad cardíaca** (*Diagnosis of heart disease*): Variable objetivo que indica la presencia de una enfermedad cardíaca:  
  - 0 = Ausencia de enfermedad  
  - 1, 2, 3, 4 = Presencia de enfermedad (varios niveles, según la gravedad)  

Este conjunto de datos es útil tanto para clasificación (clasificando los niveles o Ausencia / Presencia de la enfermedad) como para regresión.

<a id="index"></a>
## Tareas 

1. [Cargar y explorar superficialmente los datos. **(2 Punto)**](#1)
2. [Creación de una función para evaluar clasificadores.**(2.5 Puntos)**](#2)
4. [Experimentos con clasificadores. **(2.5 Puntos)**](#4)
5. [Análisis de resultados. **(3 Puntos)**](#5)

###  Tarea 1. Cargar y explorar superficialmente los datos. (2 Punto)<a id="1"></a><a href="#index"><i class="fa fa-list-alt" aria-hidden="true"></i></a>


Realizar 3 funciones, con su documentación.
- `carga_datos(url)`.   Recibe la url (que puede ser la ruta local a un fichero) y devuelve $X$ un array 2D de tamaño número de ejemplos $\times$ número de atributos e $y$ un array formado por tantos valores como ejemplos.
- `binariza_clase(y)`.  Recibe un array con valores de 1 al 5 y devuelve otro array con valores 0 y 1. El 0 es para los casos asintomáticos y el 1 para el resto de casos.
- `cuenta_valores_clase(y)`. Recibe un array de una dimensión y múltiples valores y devuelve un diccionario que asocia cada clase diferente con el número de veces que aparece.

Pista: Se puede hacer una copia profunda de un array de numpy con el método `copy`. Por ejemplo:
```Python
y_2c = y.copy()
```

In [3]:
import os
import pandas as pd
import numpy as np


def carga_datos(url: str):
    """
    Cargar los datos desde un archivo CSV. La última columna se considera la clase. Las columnas anteriores son las características.

    Args:
        url (str): Path al archivo CSV.

    Returns:
        tuple[list[list[float]], list[int]]: Matriz de características (filas: muestras, columnas: características) y vector de clases.
    """

    # Lee los datos desde un archivo CSV
    data = pd.read_csv(url)

    X = data.iloc[:, :-1].values  # Todas las columnas excepto la última
    y = data.iloc[:, -1].values  # La última columna
    return (X, y)


def binariza_clase(y):
    """
    Binariza la clase, convirtiendo los valores en 0 y 1. Si la clase es 0, se convierte en 0, si es distinto de 0, se
    convierte en 1.

    Args:
        y (list[int]): Vector de clases.

    Returns:
        list[int]: Vector de clases binarizado.
    """
    
    # Recorrer la lista de clases y binarizarlas
    return np.array([0 if clase == 0 else 1 for clase in y])


def cuenta_valores_clase(y):
    """
    Se cuentan las cantidades de clases en el vector de clases.

    Args:
        y (list[int]): Vector de clases.

    Returns:
        dict[int, int]: Diccionario con la cantidad de cada clase.
    """

    count = {}
    for val in y:
        # Si el valor ya está en el diccionario, se incrementa en 1, si no, se crea con valor 1
        if val in count:
            count[val] += 1
        else:
            count[int(val)] = 1
    return count


# Mostrar las primeras filas de X e y
url = f".{os.sep}data{os.sep}HeartDisease.csv"
X, y = carga_datos("./data/HeartDisease.csv")

display(X[:5])
display(y[:50])

# Mostrar la binarización de la clase
y_bin = binariza_clase(y)

display(y_bin[:50])

# Contar los valores de la clase
print(cuenta_valores_clase(y))
print(cuenta_valores_clase(y_bin))

array([[  0. ,  63. ,   1. ,   1. , 145. , 233. ,   1. ,   2. , 150. ,
          0. ,   2.3,   3. ,   0. ,   6. ],
       [  1. ,  67. ,   1. ,   4. , 160. , 286. ,   0. ,   2. , 108. ,
          1. ,   1.5,   2. ,   3. ,   3. ],
       [  2. ,  67. ,   1. ,   4. , 120. , 229. ,   0. ,   2. , 129. ,
          1. ,   2.6,   2. ,   2. ,   7. ],
       [  3. ,  37. ,   1. ,   3. , 130. , 250. ,   0. ,   0. , 187. ,
          0. ,   3.5,   3. ,   0. ,   3. ],
       [  4. ,  41. ,   0. ,   2. , 130. , 204. ,   0. ,   2. , 172. ,
          0. ,   1.4,   1. ,   0. ,   3. ]])

array([0, 2, 1, 0, 0, 0, 3, 0, 2, 1, 0, 0, 2, 0, 0, 0, 1, 0, 0, 0, 0, 0,
       1, 3, 4, 0, 0, 0, 0, 3, 0, 2, 1, 0, 0, 0, 3, 1, 3, 0, 4, 0, 0, 0,
       1, 4, 0, 4, 0, 0])

array([0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0,
       1, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0,
       1, 1, 0, 1, 0, 0])

{0: 164, 2: 36, 1: 55, 3: 35, 4: 13}
{0: 164, 1: 139}


El resultado esperado es:

```
array([[  0. ,  63. ,   1. ,   1. , 145. , 233. ,   1. ,   2. , 150. ,
          0. ,   2.3,   3. ,   0. ,   6. ],
       [  1. ,  67. ,   1. ,   4. , 160. , 286. ,   0. ,   2. , 108. ,
          1. ,   1.5,   2. ,   3. ,   3. ],
       [  2. ,  67. ,   1. ,   4. , 120. , 229. ,   0. ,   2. , 129. ,
          1. ,   2.6,   2. ,   2. ,   7. ],
       [  3. ,  37. ,   1. ,   3. , 130. , 250. ,   0. ,   0. , 187. ,
          0. ,   3.5,   3. ,   0. ,   3. ],
       [  4. ,  41. ,   0. ,   2. , 130. , 204. ,   0. ,   2. , 172. ,
          0. ,   1.4,   1. ,   0. ,   3. ]])

array([0, 2, 1, 0, 0, 0, 3, 0, 2, 1, 0, 0, 2, 0, 0, 0, 1, 0, 0, 0, 0, 0,
       1, 3, 4, 0, 0, 0, 0, 3, 0, 2, 1, 0, 0, 0, 3, 1, 3, 0, 4, 0, 0, 0,
       1, 4, 0, 4, 0, 0])

array([0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0,
       1, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0,
       1, 1, 0, 1, 0, 0])

{0: 164, 2: 36, 1: 55, 3: 35, 4: 13}
{0: 164, 1: 139}

```

### Tarea 2. Creación de una función para evaluar clasificadores. (2.5 Puntos)<a id="2"></a><a href="#index"><i class="fa fa-list-alt" aria-hidden="true"></i></a>

Crear y documentar las funciones: 
- `evalua(X,y,clasificador,n_folds)`
    Evalua el clasificador indicado, usando el número de folds indicado, los atributos $X$ y la clase $y$. 
    - Devuelve 3 valores: accuracy_score, precision_score y recall_score.
 
- `predicciones(X,y,clasificador,n_folds)` Obtiene las predicciones del clasificador indicado, usando el número de folds indicado, los atributos $X$ y la clase $y$. Devuelve predicciones.



```Python
print(evalua(X,y,KNeighborsClassifier(),10))
print(predicciones(X,y,KNeighborsClassifier(),10)[:10])
```

```
(0.5577557755775577, 0.5185185185185185, 0.5035971223021583)
[0 1 0 0 0 0 0 1 0 0]
```

In [None]:
from sklearn.base import BaseEstimator
from sklearn.metrics import accuracy_score, precision_score, recall_score
from sklearn.model_selection import cross_val_predict
from sklearn.neighbors import KNeighborsClassifier

def predicciones(
    X: list[list[float]], y: list[int], clasificador: BaseEstimator, n_folds: int
) -> list[int]:
    """
    Realiza predicciones mediante validación cruzada.

    Args:
        X (list[list[float]]): Matriz de características.
        y (list[int]): Vector de clases.
        clasificador (BaseEstimator): Clasificador a utilizar.
        n_folds (int): Número de particiones para la validación cruzada.

    Returns:
        list[int]: Vector de predicciones.
    """
    return cross_val_predict(clasificador, X, y, cv=n_folds)


def evalua(
    X: list[list[float]], y: list[int], clasificador: BaseEstimator, n_folds: int
) -> tuple[float, float, float]:
    """
    Evalúa el clasificador mediante validación cruzada.

    Args:
        X (list[list[float]]): Matriz de características.
        y (list[int]): Vector de clases.
        clasificador (BaseEstimator): Clasificador a utilizar.
        n_folds (int): Número de particiones para la validación cruzada.

    Returns:
        tuple[float, float, float]: Accuracy, precisión y recall.
    """

    y_pred = predicciones(X, y, clasificador, n_folds)
    accuracy = accuracy_score(y, y_pred)
    precision = precision_score(y, y_pred)
    recall = recall_score(y, y_pred)
    return (accuracy, precision, recall)

print(evalua(X, y_bin, KNeighborsClassifier(), 10))
print(predicciones(X, y_bin, KNeighborsClassifier(), 10)[:10])

(0.5577557755775577, 0.5185185185185185, 0.5035971223021583)
[0 1 0 0 0 0 0 1 0 0]


### Tarea 3. Experimentos con clasificadores. (2.5 Puntos)<a id="4"></a><a href="#index"><i class="fa fa-list-alt" aria-hidden="true"></i></a>


Usar la función anterior `evalua` con varios clasificadores de los disponibles en SkLearn, usando por lo menos los 5 clasificadores siguientes:
- Regresión Logística
- Random Forest
- KNN
- SVC (SVM Classifier)
- Arbol de Decisión.

Busca el mejor en accuracy, precision y recall.

Investiga un poco los parámetros de los algoritmos que funcionen mejor para cada uno de las medidas. Prueba cambios en los parámetros por defecto.

Ejemplo
```
KNN
Tasa de acierto 0.5578, Precision 0.5185, Recall 0.5036
Regresion logistica
Tasa de acierto 0.8383, Precision 0.8462, Recall 0.7914
Random Forest
Tasa de acierto 0.8449, Precision 0.8594, Recall 0.7914
SVC
Tasa de acierto 0.6436, Precision 0.6782, Recall 0.4245
Decision Tree
Tasa de acierto 0.7657, Precision 0.7429, Recall 0.7482

```

In [261]:
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier

k_neighbors = KNeighborsClassifier(
    n_neighbors=11, weights="distance", metric="minkowski", p=1
)
logistic_regression = LogisticRegression(
    solver="lbfgs", max_iter=5000, C=1.0, penalty="l2"
)
random_forest = RandomForestClassifier(
    n_estimators=200,
    max_depth=12,
    min_samples_split=2,
    min_samples_leaf=2,
    max_features="sqrt",
    random_state=23,
)
svc = SVC(kernel="rbf", C=10, gamma="scale")
decision_tree = DecisionTreeClassifier(
    max_depth=14, min_samples_split=7, min_samples_leaf=3, criterion="gini"
)

print(
    "KNN -> Tasa de acierto {0:.4f}, Precision {1:.4f}, Recall {2:.4f}".format(
        *evalua(X, y_bin, k_neighbors, 10)
    )
)
print(
    "Regresión logistica -> Tasa de acierto {0:.4f}, Precision {1:.4f}, Recall {2:.4f}".format(
        *evalua(X, y_bin, logistic_regression, 10)
    )
)
print(
    "Random forest -> Tasa de acierto {0:.4f}, Precision {1:.4f}, Recall {2:.4f}".format(
        *evalua(X, y_bin, random_forest, 10)
    )
)
print(
    "SVC -> Tasa de acierto {0:.4f}, Precision {1:.4f}, Recall {2:.4f}".format(
        *evalua(X, y_bin, svc, 10)
    )
)
print(
    "Decision Tree -> Tasa de acierto {0:.4f}, Precision {1:.4f}, Recall {2:.4f}".format(
        *evalua(X, y_bin, decision_tree, 10)
    )
)

KNN -> Tasa de acierto 0.6403, Precision 0.6190, Recall 0.5612
Regresión logistica -> Tasa de acierto 0.8482, Precision 0.8550, Recall 0.8058
Random forest -> Tasa de acierto 0.8383, Precision 0.8516, Recall 0.7842
SVC -> Tasa de acierto 0.6799, Precision 0.6810, Recall 0.5683
Decision Tree -> Tasa de acierto 0.7954, Precision 0.7852, Recall 0.7626


### Tarea 4. Análisis de resultados. (3 Puntos)<a id="5"></a><a href="#index"><i class="fa fa-list-alt" aria-hidden="true"></i></a>
-  Visualiza la matriz de confusión del mejor clasificador en terminos de recall, usa las predicciones que devuelve la función ``predicciones``.
    - Para que quede bonito, puedes meter la matriz de confusión dentro de un DataFrame y puedes cambiar el nombre del índice y de las columnas.
    
    |             |   Sano (N) |   Enfermo (P) |
    |:------------|-----------:|--------------:|
    | Sano (N)    |        144 |            20 |
    | Enfermo (P) |         29 |           110 |


- Sabiendo que la ausencia de enfermedad es negativo y la presencia es positivo. 
    1. Obtén los True Positive, True Negatives, False Positives y False negatives usando una función.
    2. Calcula precision como tp / (tp + fp)
    3. Calcula recall como tp / (tp + fn)
    4. Obtén comprueba que coinciden con los que te daba la función ``evalua``.

In [265]:
from sklearn.metrics import confusion_matrix

predicted = predicciones(X, y_bin, logistic_regression, 10)
cnf_matrix = confusion_matrix(y_bin, predicted)
class_names = ("Sano(N)", "Enfermo(P)")
conf_mat_df = pd.DataFrame(cnf_matrix, index=class_names, columns=class_names)

# Impresión matriz de confusión
display(conf_mat_df)

# Cálculo de la precisión y recall
tn, fp, fn, tp = cnf_matrix.ravel()
print("La cantidad de True positive es:", tp)
print("La cantidad de True negative es:", tn)
print("La cantidad de False positive es:", fp)
print("La cantidad de False negative es:", fn)
print("La precision obtenida es: ", tp / (tp + fp))
print("El recall obtenido es: ", tp / (tp + fn))

Unnamed: 0,Sano(N),Enfermo(P)
Sano(N),145,19
Enfermo(P),27,112


La cantidad de True positive es: 112
La cantidad de True negative es: 145
La cantidad de False positive es: 19
La cantidad de False negative es: 27
La precision obtenida es:  0.8549618320610687
El recall obtenido es:  0.8057553956834532
