<img style="float:left" width="70%" src="pics/escudo_COLOR_1L_DCHA.png">
<img style="float:right" width="15%" src="pics/PythonLogo.svg">
<br style="clear:both;">

# Minería de datos

<h2 style="display: inline-block; padding: 4mm; padding-left: 2em; background-color: navy; line-height: 1.3em; color: white; border-radius: 10px;">Práctica Scikit-Learn 1</h2>

## Docentes

 - Autor: José Francisco Diez Pastor
 - Juan José Rodríguez Diez
 
## Estudiantes (1-2)

- Victor De Marco
- Alejandro Diez

## Descripción de los datos

### **Introducción al Conjunto de Datos: Cleveland Heart Disease**  

El conjunto de datos **Cleveland Heart Disease** es ampliamente utilizado en estudios de predicción de enfermedades cardíacas. Contiene información clínica de 300 individuos y se emplea para analizar la presencia y severidad de enfermedades del corazón.  

Este conjunto de datos incluye **14 columnas**. Cada columna representa diferentes variables médicas y factores de riesgo asociados a enfermedades cardiovasculares.  

### **Descripción de las Variables**  

- **Edad** (*Age*): Indica la edad del individuo.  
- **Sexo** (*Sex*): Género del individuo, donde:  
  - 1 = Hombre  
  - 0 = Mujer  
- **Tipo de dolor torácico** (*Chest-pain type*): Clasificación del tipo de dolor en el pecho:  
  - 1 = Angina típica  
  - 2 = Angina atípica  
  - 3 = Dolor no anginoso  
  - 4 = Asintomático  
- **Presión arterial en reposo** (*Resting Blood Pressure*): Valor de la presión arterial en reposo del individuo, medido en mmHg.  
- **Colesterol en sangre** (*Serum Cholesterol*): Nivel de colesterol sérico en mg/dl.  
- **Glucemia en ayunas** (*Fasting Blood Sugar*): Indica si el nivel de azúcar en sangre en ayunas es superior a 120 mg/dl:  
  - 1 = Sí (mayor a 120 mg/dl)  
  - 0 = No (menor o igual a 120 mg/dl)  
- **Electrocardiograma en reposo** (*Resting ECG*): Clasificación del resultado del ECG en reposo:  
  - 0 = Normal  
  - 1 = Anormalidad en la onda ST-T  
  - 2 = Hipertrofia ventricular izquierda  
- **Frecuencia cardíaca máxima alcanzada** (*Max heart rate achieved*): Frecuencia cardíaca máxima registrada durante el ejercicio.  
- **Angina inducida por el ejercicio** (*Exercise induced angina*): Indica si el individuo experimentó angina durante el ejercicio:  
  - 1 = Sí  
  - 0 = No  
- **Depresión del segmento ST inducida por el ejercicio en relación con el reposo** (*ST depression induced by exercise relative to rest*): Valor de depresión del segmento ST, que puede ser un número entero o decimal.  
- **Segmento ST en el ejercicio máximo** (*Peak exercise ST segment*): Clasificación de la pendiente del segmento ST durante el ejercicio:  
  - 1 = Ascendente  
  - 2 = Plano  
  - 3 = Descendente  
- **Número de vasos principales coloreados por fluoroscopia** (*Number of major vessels (0-3) colored by fluoroscopy*): Número de vasos principales observados mediante fluoroscopia, representado como un número entero o decimal.  
- **Talasemia** (*Thal*): Indica la presencia de talasemia:  
  - 3 = Normal  
  - 6 = Defecto fijo  
  - 7 = Defecto reversible  
- **Diagnóstico de enfermedad cardíaca** (*Diagnosis of heart disease*): Variable objetivo que indica la presencia de una enfermedad cardíaca:  
  - 0 = Ausencia de enfermedad  
  - 1, 2, 3, 4 = Presencia de enfermedad (varios niveles, según la gravedad)  

Este conjunto de datos es útil tanto para clasificación (clasificando los niveles o Ausencia / Presencia de la enfermedad) como para regresión.

<a id="index"></a>
## Tareas 

1. [Cargar y explorar superficialmente los datos. **(2 Punto)**](#1)
2. [Creación de una función para evaluar clasificadores.**(2.5 Puntos)**](#2)
4. [Experimentos con clasificadores. **(2.5 Puntos)**](#4)
5. [Análisis de resultados. **(3 Puntos)**](#5)

###  Tarea 1. Cargar y explorar superficialmente los datos. (2 Punto)<a id="1"></a><a href="#index"><i class="fa fa-list-alt" aria-hidden="true"></i></a>


Realizar 3 funciones, con su documentación.
- `carga_datos(url)`.   Recibe la url (que puede ser la ruta local a un fichero) y devuelve $X$ un array 2D de tamaño número de ejemplos $\times$ número de atributos e $y$ un array formado por tantos valores como ejemplos.
- `binariza_clase(y)`.  Recibe un array con valores de 1 al 5 y devuelve otro array con valores 0 y 1. El 0 es para los casos asintomáticos y el 1 para el resto de casos.
- `cuenta_valores_clase(y)`. Recibe un array de una dimensión y múltiples valores y devuelve un diccionario que asocia cada clase diferente con el número de veces que aparece.

Pista: Se puede hacer una copia profunda de un array de numpy con el método `copy`. Por ejemplo:
```Python
y_2c = y.copy()
```

In [4]:
import pandas as pd
import numpy as np

import os


# Implementación de la función carga_datos
def carga_datos(url):
    # Lee los datos desde un archivo CSV
    df = pd.read_csv(url)

    # Suponemos que la última columna es el objetivo (y) y las demás son características (X)
    X = df.iloc[:, :-1]  # Todas las columnas excepto la última
    y = df.iloc[:, -1]  # La última columna (valores objetivo)

    return X, y
def binariza_clase(y, target_class=1):
    """
    Convierte las clases a formato binario tomando como referencia target_class.

    Parameters:
        y (list o array): Lista o array con las clases originales.
        target_class (int/float/str): Clase que será representada como 1 en la salida.

    Returns:
        list: Lista con valores binarios (1 y 0).
    """
    return [1 if clase == target_class else 0 for clase in y]
# NUEVA funcionalidad: definición de cuenta_valores_clase
def cuenta_valores_clase(y):
    """Cuenta la cantidad de valores únicos en un array o DataFrame."""
    # Usa pandas si es un DataFrame; si no, NumPy
    if isinstance(y, pd.Series) or isinstance(y, pd.DataFrame):
        return y.value_counts().to_dict()
    elif isinstance(y, np.ndarray) or isinstance(y, list):
        unique, counts = np.unique(y, return_counts=True)
        return dict(zip(unique, counts))
    else:
        raise TypeError("El tipo de dato de y no es compatible")


##########################################################
# Ahora puedes utilizar la función como sigue:

url = f".{os.sep}data{os.sep}HeartDisease.csv"

X, y = carga_datos(url)

print("Primeras filas de X (atributos):")
display(X[:5])

print("Primeras filas de y (valores objetivo):")
display(y[:50])


y_2c = binariza_clase(y)

display(y_2c[:50])

print(cuenta_valores_clase(y))
print(cuenta_valores_clase(y_2c))


Primeras filas de X (atributos):


Unnamed: 0.1,Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal
0,0,63,1,1,145,233,1,2,150,0,2.3,3,0.0,6.0
1,1,67,1,4,160,286,0,2,108,1,1.5,2,3.0,3.0
2,2,67,1,4,120,229,0,2,129,1,2.6,2,2.0,7.0
3,3,37,1,3,130,250,0,0,187,0,3.5,3,0.0,3.0
4,4,41,0,2,130,204,0,2,172,0,1.4,1,0.0,3.0


Primeras filas de y (valores objetivo):


0     0
1     2
2     1
3     0
4     0
5     0
6     3
7     0
8     2
9     1
10    0
11    0
12    2
13    0
14    0
15    0
16    1
17    0
18    0
19    0
20    0
21    0
22    1
23    3
24    4
25    0
26    0
27    0
28    0
29    3
30    0
31    2
32    1
33    0
34    0
35    0
36    3
37    1
38    3
39    0
40    4
41    0
42    0
43    0
44    1
45    4
46    0
47    4
48    0
49    0
Name: target, dtype: int64

[0,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 0]

{0: 164, 1: 55, 2: 36, 3: 35, 4: 13}
{np.int64(0): np.int64(248), np.int64(1): np.int64(55)}


El resultado esperado es:

```
array([[  0. ,  63. ,   1. ,   1. , 145. , 233. ,   1. ,   2. , 150. ,
          0. ,   2.3,   3. ,   0. ,   6. ],
       [  1. ,  67. ,   1. ,   4. , 160. , 286. ,   0. ,   2. , 108. ,
          1. ,   1.5,   2. ,   3. ,   3. ],
       [  2. ,  67. ,   1. ,   4. , 120. , 229. ,   0. ,   2. , 129. ,
          1. ,   2.6,   2. ,   2. ,   7. ],
       [  3. ,  37. ,   1. ,   3. , 130. , 250. ,   0. ,   0. , 187. ,
          0. ,   3.5,   3. ,   0. ,   3. ],
       [  4. ,  41. ,   0. ,   2. , 130. , 204. ,   0. ,   2. , 172. ,
          0. ,   1.4,   1. ,   0. ,   3. ]])

array([0, 2, 1, 0, 0, 0, 3, 0, 2, 1, 0, 0, 2, 0, 0, 0, 1, 0, 0, 0, 0, 0,
       1, 3, 4, 0, 0, 0, 0, 3, 0, 2, 1, 0, 0, 0, 3, 1, 3, 0, 4, 0, 0, 0,
       1, 4, 0, 4, 0, 0])

array([0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0,
       1, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0,
       1, 1, 0, 1, 0, 0])

{0: 164, 2: 36, 1: 55, 3: 35, 4: 13}
{0: 164, 1: 139}

```

### Tarea 2. Creación de una función para evaluar clasificadores. (2.5 Puntos)<a id="2"></a><a href="#index"><i class="fa fa-list-alt" aria-hidden="true"></i></a>

Crear y documentar las funciones: 
- `evalua(X,y,clasificador,n_folds)`
    Evalua el clasificador indicado, usando el número de folds indicado, los atributos $X$ y la clase $y$. 
    - Devuelve 3 valores: accuracy_score, precision_score y recall_score.
 
- `predicciones(X,y,clasificador,n_folds)` Obtiene las predicciones del clasificador indicado, usando el número de folds indicado, los atributos $X$ y la clase $y$. Devuelve predicciones.



```Python
print(evalua(X,y,KNeighborsClassifier(),10))
print(predicciones(X,y,KNeighborsClassifier(),10)[:10])
```

```
(0.5577557755775577, 0.5185185185185185, 0.5035971223021583)
[0 1 0 0 0 0 0 1 0 0]
```

In [5]:
from sklearn.neighbors import KNeighborsClassifier

# Implemente a continuación las tres funciones pedidas:


###################################    


#print(evalua(X,y_2c,KNeighborsClassifier(),10))
#print(predicciones(X,y_2c,KNeighborsClassifier(),10)[:10])

### Tarea 3. Experimentos con clasificadores. (2.5 Puntos)<a id="4"></a><a href="#index"><i class="fa fa-list-alt" aria-hidden="true"></i></a>


Usar la función anterior `evalua` con varios clasificadores de los disponibles en SkLearn, usando por lo menos los 5 clasificadores siguientes:
- Regresión Logística
- Random Forest
- KNN
- SVC (SVM Classifier)
- Arbol de Decisión.

Busca el mejor en accuracy, precision y recall.

Investiga un poco los parámetros de los algoritmos que funcionen mejor para cada uno de las medidas. Prueba cambios en los parámetros por defecto.

Ejemplo
```
KNN
Tasa de acierto 0.5578, Precision 0.5185, Recall 0.5036
Regresion logistica
Tasa de acierto 0.8383, Precision 0.8462, Recall 0.7914
Random Forest
Tasa de acierto 0.8449, Precision 0.8594, Recall 0.7914
SVC
Tasa de acierto 0.6436, Precision 0.6782, Recall 0.4245
Decision Tree
Tasa de acierto 0.7657, Precision 0.7429, Recall 0.7482

```

### Tarea 5. Análisis de resultados. (3 Puntos)<a id="5"></a><a href="#index"><i class="fa fa-list-alt" aria-hidden="true"></i></a>
-  Visualiza la matriz de confusión del mejor clasificador en terminos de recall, usa las predicciones que devuelve la función ``predicciones``.
    - Para que quede bonito, puedes meter la matriz de confusión dentro de un DataFrame y puedes cambiar el nombre del índice y de las columnas.
    
    |             |   Sano (N) |   Enfermo (P) |
    |:------------|-----------:|--------------:|
    | Sano (N)    |        144 |            20 |
    | Enfermo (P) |         29 |           110 |


- Sabiendo que la ausencia de enfermedad es negativo y la presencia es positivo. 
    1. Obtén los True Positive, True Negatives, False Positives y False negatives usando una función.
    2. Calcula precision como tp / (tp + fp)
    3. Calcula recall como tp / (tp + fn)
    4. Obtén comprueba que coinciden con los que te daba la función ``evalua``.