## Descripción de la práctica

En esta práctica se va a utilizar Sklearn para entrenar y probar modelos de clasificación y regresión.

En el caso de clasificación se van a usar:
- Los datos de la práctica 1 de KNIME, el conjunto completo.
- Heart Failure.
- Wisconsin Breast Cancer

En el caso de regresión se van a utilizar los conjuntos de datos:
- Diabetes
- Insurance
- Life expectancy WHO.




## Descripción de los datos

### Datos de clasificación

La descripción de los datos se puede consultar en los siguientes lugares.

- Heart Failure.  https://archive.ics.uci.edu/dataset/519/heart+failure+clinical+records
- Wisconsin Breast Cancer https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic
- Diabetes https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_diabetes.html
- Insurance https://www.kaggle.com/datasets/mirichoi0218/insurance


<img style="float:left" width="70%" src="pics/escudo_COLOR_1L_DCHA.png">
<img style="float:right" width="15%" src="pics/PythonLogo.svg">
<br style="clear:both;">

# Minería de datos

<h2 style="display: inline-block; padding: 4mm; padding-left: 2em; background-color: navy; line-height: 1.3em; color: white; border-radius: 10px;">Práctica Scikit-Learn 1</h2>

## Docentes

 - José Francisco Diez Pastor

## Estudiantes (1-2)

- Víctor Gonzáelez del Campo
-

<a id="index"></a>
## Tareas

1. [Carga de los datos. **(3 Puntos)**](#1)
2. [Crea una función que evalua conjuntos desbalanceados.**(1 Puntos)**](#2)
3. [Evaluar clasificadores con funciones de evaluación propias **(4 Puntos)**](#3)
4. [Experimentos con regresores. **(2 Puntos)**](#4)


###  Tarea 1. Carga de los datos (3 Puntos)<a id="1"></a><a href="#index"><i class="fa fa-list-alt" aria-hidden="true"></i></a>


Realizar 4 funciones, con su documentación (la documentación debe describir que hace la función, los argumentos de entrada y los valores de retorno).
- `load_insurance()`.
- `load_brest_cancer()`.
- `load_heart_failure()`.
- `load_mortality()`.

Estas funciones se van a crear a imagen y semajanza de las funciones que sirven para cargar los datos de ejemplo en `sklearn`.

En `sklearn` las funciones de carga de datos devuelven un diccionario con una clave `data` asociada a los atributos independientes y una clave `target`asociada a la variable dependiente o clase.

```Python
from sklearn.datasets import load_diabetes

diabetes_dataset = load_diabetes()
X = diabetes_dataset["data"]
y = diabetes_dataset["target"]

print(X[:5])
print(y[:5])
```

```
[[ 0.03807591  0.05068012  0.06169621  0.02187239 -0.0442235  -0.03482076 -0.04340085 -0.00259226  0.01990749 -0.01764613]
 [-0.00188202 -0.04464164 -0.05147406 -0.02632753 -0.00844872 -0.01916334  0.07441156 -0.03949338 -0.06833155 -0.09220405]
 [ 0.08529891  0.05068012  0.04445121 -0.00567042 -0.04559945 -0.03419447 -0.03235593 -0.00259226  0.00286131 -0.02593034]
 [-0.08906294 -0.04464164 -0.01159501 -0.03665608  0.01219057  0.02499059 -0.03603757  0.03430886  0.02268774 -0.00936191]
 [ 0.00538306 -0.04464164 -0.03638469  0.02187239  0.00393485  0.01559614  0.00814208 -0.00259226 -0.03198764 -0.04664087]]
[151.  75. 141. 206. 135.]
```


Se quiere que las 4 funciones solicitadas trabajen de una manera análoga.

Consideraciones:
- Algunos datasets tienen atributos nominales y se quieren transformar a binarios utilizando la técnica de one hot encoding. En Python es muy fácil usando el método `get_dummies()` de Pandas.
![image.png](attachment:image.png)

- En los datasets binarios (mortality, breast cancer y heart failure) queremos que los dos posibles valores de las clases sean `t`y `f`. La clase positiva (`t`) va a ser siempre la minoritaria.
- Las 4 funciones son muy similares, así que puedes pensar como implementarlas para evitar código duplicado.

Pasos:
1. Carga los datos, utiliza Pandas para ello, por ejemplo `read_csv`.
2. Separa los atributos del valor a predecir o clase.
3. Convierte los atributos nominales a binarios con get_dummies.
4. En el caso de los conjuntos de clasificación fuerza que las clases sean `t`y `f`y `t`sea la clase minoritaria.


#### Resultado esperado
![imagen.png](attachment:imagen.png)

In [2]:
from sklearn.preprocessing import LabelEncoder
from sklearn.datasets import load_diabetes
import pandas as pd
import numpy as np


def load_dataset(train_data,target_data,is_classification):
    """
    Convierte los atributos nominales a binarios con one hot encoding si es necesario.

    Argumentos:
    train_data: DataFrame. Datos de atributos independientes.
    target_data: Series o array. Datos de la variable dependiente.
    is_classification: bool. Indica si el problema es de clasificación binaria.

    Retorna:
    Un diccionario con 'data' para los atributos independientes y 'target' para la variable dependiente.
    """

    # Conviértelo a un DataFrame de Pandas
    target_data = pd.DataFrame(target_data)


    if is_classification:
        # Convertir la variable objetivo a clases t y f
        frecuencias = target_data.value_counts()

        valores = frecuencias.index
        apariciones = frecuencias.values

        menos_frecuente = valores[apariciones.argmin()]
        mas_frecuente = valores[apariciones.argmax()]
      
        target_data = target_data.replace(menos_frecuente,"t").replace(mas_frecuente,"f").values.ravel()

        

    # Convierte los atributos nominales a binarios con get_dummies
    X = pd.get_dummies(train_data).astype(float)

    return {'data': X.values, 'target': target_data}



def classification(target_data):
    """
    Devuelve true o false, en caso de ser problema de clasificacion binaria.
    """
    # Verifica si el problema es de clasificación binaria
    num_unique_values = len(np.unique(target_data))
    return num_unique_values == 2


def load_data(df,clase):
    """
    Se separa la clase de los atributos para la columna determinada como clase
    """
    # Selecciona los atributos independientes eliminando la clase (target)
    train_data = df.drop([clase], axis=1)

    # Selecciona la variable objetivo (target)
    target_data = df[clase].values

    return train_data, target_data
    


def load_insurance():
    """
    Carga los datos del conjunto de datos 'insurance.csv' y realiza la transformación necesaria de los atributos y las etiquetas de clase.

    Retorna:
    Un diccionario con 'data' para los atributos independientes y 'target' para la variable dependiente.
    """
    # Carga los datos del archivo CSV
    df = pd.read_csv('/home/conflictor/Escritorio/UNI/UBU/Mineria-de-Datos/Practicas/P2/2024_SK1_CLASS_REG/data/insurance.csv')

    #cargamos train_data y target_data
    train_data, target_data = load_data(df,"charges")

    is_classification = classification(target_data)

    # Realiza la carga del conjunto de datos y aplica transformaciones necesarias
    return load_dataset(train_data, target_data, is_classification)


def load_cancer():
    """
    Carga los datos del conjunto de datos 'wisconsin.csv' y realiza la transformación necesaria de los atributos y las etiquetas de clase.

    Retorna:
    Un diccionario con 'data' para los atributos independientes y 'target' para la variable dependiente.
    """
    # Carga los datos del archivo CSV
    df = pd.read_csv('/home/conflictor/Escritorio/UNI/UBU/Mineria-de-Datos/Practicas/P2/2024_SK1_CLASS_REG/data/wisconsin.csv')

    #cargamos train_data y target_data
    train_data, target_data = load_data(df,"diagnosis")

    is_classification = classification(target_data)

    # Realiza la carga del conjunto de datos y aplica transformaciones necesarias
    return load_dataset(train_data, target_data, is_classification)


def load_heart_failure():
    """
    Carga los datos del conjunto de datos 'heart_failure_clinical_records_dataset.csv' y realiza la transformación necesaria de los atributos y las etiquetas de clase.

    Retorna:
    Un diccionario con 'data' para los atributos independientes y 'target' para la variable dependiente.
    """
    # Carga los datos del archivo CSV
    df = pd.read_csv('/home/conflictor/Escritorio/UNI/UBU/Mineria-de-Datos/Practicas/P2/2024_SK1_CLASS_REG/data/heart_failure_clinical_records_dataset.csv')

    #cargamos train_data y target_data
    train_data, target_data = load_data(df,"DEATH_EVENT")

    is_classification = classification(target_data)

    # Realiza la carga del conjunto de datos y aplica transformaciones necesarias
    return load_dataset(train_data, target_data, is_classification)


def load_survival():

    """
    Carga los datos del all.csv y realiza las transformaciones necesarias.
    
    Retorna:
        Un diccionario con 'data' para los atributos independientes y 'target' para la variable dependiente.
    
    """

    # Carga los datos
    df = pd.read_csv('/home/conflictor/Escritorio/UNI/UBU/Mineria-de-Datos/Practicas/P2/2024_SK1_CLASS_REG/data/all.csv')

    #cargamos train_data y target_data
    train_data, target_data = load_data(df,"Class")

    is_classification = classification(target_data)

    return load_dataset(train_data,target_data,is_classification)



datasets = [load_diabetes(),load_insurance(),
            load_cancer(), load_heart_failure(),load_survival()]
nombres = ["Diabetes", "Insurance",
           "Cancer","Heart Failure","Survival"]

for dataset,nombre in zip(datasets,nombres):

    X = dataset["data"]
    y = dataset["target"]
    print(f"________{nombre}________")
    print("Primera fila",X[0])
    print("Medias X",X.mean(axis=0))
    print("Primeras ys",y[:10])
    if nombre in ["Diabetes", "Insurance"]:
        print("Media y",y.mean())
    else:
        print("Frecuencias y",np.unique(y, return_counts=True))



________Diabetes________
Primera fila [ 0.03807591  0.05068012  0.06169621  0.02187239 -0.0442235  -0.03482076
 -0.04340085 -0.00259226  0.01990749 -0.01764613]
Medias X [-1.44429466e-18  2.54321451e-18 -2.25592546e-16 -4.85408596e-17
 -1.42859580e-17  3.89881064e-17 -6.02836031e-18 -1.78809958e-17
  9.24348582e-17  1.35176953e-17]
Primeras ys [151.  75. 141. 206. 135.  97. 138.  63. 110. 310.]
Media y 152.13348416289594
________Insurance________
Primera fila [19.  27.9  0.   1.   0.   0.   1.   0.   0.   0.   1. ]
Medias X [39.20702541 30.66339686  1.09491779  0.49476831  0.50523169  0.79521674
  0.20478326  0.24215247  0.24289985  0.27204783  0.24289985]
Primeras ys              0
0  16884.92400
1   1725.55230
2   4449.46200
3  21984.47061
4   3866.85520
5   3756.62160
6   8240.58960
7   7281.50560
8   6406.41070
9  28923.13692
Media y 0    13270.422265
dtype: float64
________Cancer________
Primera fila [1.799e+01 1.038e+01 1.228e+02 1.001e+03 1.184e-01 2.776e-01 3.001e-01
 1.471e-01

### Tarea 2.Crea una función que evalua conjuntos desbalanceados (1 Puntos)<a id="2"></a><a href="#index"><i class="fa fa-list-alt" aria-hidden="true"></i></a>

En un conjunto desbalanceado, en el que el número de ejemplos de una clase es muy superior al número de ejemplos de la otra, no es tan útil utilizar el `accuracy_score` (tasa de acierto). Por ejemplo podría darse el caso de un conjunto de datos en el que tuviesemos un 99% de ejemplos pertenecientes a pacientes negativos en una determinada enfermedad y un 1% en positivos. Un clasificador poco inteligente que siempre predijese la clase mayoritaria acertaría el 99% de las veces pero no sería nada útil.

Para esos casos se utilizan medidas derivadas de la matriz de confusión.

|                 | Positiva Pred | Negativa Pred   |
|-----------------|---------------|-----------------|
| Positiva Real   |      TP       |      FN         |
| Negativa Real   |      FP       |      TN         |

- precision = TP / (TP + FP)
- recall = TP / (TP + FN)

- f1 = 2 (precision x recall) / (precision + recall)

- TNR = TN / (TN+FN)
- TPR = TP / (TP+FP)

- balanced accuracy = (TNR + TPR)/2


Como los conjuntos de datos de clasificación que se van a usar en esta práctica son desbalanceados, se pide implementar una función para la tasa de acierto balanceada

Realizar y documentar una función:
- `my_balanced_accuracy`. Recibe `y_true` los valores de las clases correctos, `y_pred` las predicciones. Devuelve la tasa de acierto balanceada.

Se puede comparar su buen funcionamiento comparandola con la oficial de `Sklearn`.

In [3]:
from sklearn.metrics import confusion_matrix

y_true = ["F", "T", "F", "F", "T", "F", "F", "T"]
y_pred = ["F", "T", "F", "F", "F", "T","T", "T"]
TN, FP, FN, TP = confusion_matrix(y_true, y_pred).ravel()

TN, FP, FN, TP

(3, 2, 1, 2)

In [4]:
from sklearn.metrics import confusion_matrix

#sklearn.metrics.confusion_matrix¶

def my_balanced_accuracy(y_true, y_pred):
    """
    Calcula la tasa de acierto balanceada.

    Argumentos:
    y_true: array. Valores de las clases correctos.
    y_pred: array. Predicciones.

    Retorna:
    La tasa de acierto balanceada.
    """
    
    TN, FP, FN, TP = confusion_matrix(y_true, y_pred).ravel()

    precision = TP / (TP + FP)
    recall = TP / (TP + FN)    
    f1 = 2*(precision * recall) / (precision + recall)
    TNR = TN / (TN+FN)
    TPR = TP / (TP+FP)
    
    return (TNR + TPR)/2
    


In [5]:
from sklearn.metrics import balanced_accuracy_score
from sklearn.metrics import confusion_matrix

y_true = [0, 1, 0, 0, 1, 0]
y_pred = [0, 1, 0, 0, 0, 1]



print(balanced_accuracy_score(y_true, y_pred))
print(my_balanced_accuracy(y_true, y_pred))



y_true = ["F", "T", "F", "F", "T", "F","T"]
y_pred = ["F", "T", "F", "F", "F", "T","T"]

print(balanced_accuracy_score(y_true, y_pred))
print(my_balanced_accuracy(y_true, y_pred))




0.625
0.625
0.7083333333333333
0.7083333333333333


### Tarea 3. Evaluar clasificadores con funciones de evaluación propias. (4 Puntos)<a id="3"></a><a href="#index"><i class="fa fa-list-alt" aria-hidden="true"></i></a>

Crear y documenta la función:

- `evalua(dataset, method, folds, metric)` La métrica indicada para cada una de las folds indicadas. Utilizando el dataset (diccionario con clave data y clave tarjet) y el método de clasificación indicado.


```Python
from sklearn.model_selection import cross_val_score
from sklearn.metrics import accuracy_score, make_scorer
from sklearn.neighbors import KNeighborsClassifier


dataset = load_cancer()

acc_scorer = make_scorer(accuracy_score)
bal_acc_scorer = make_scorer(my_balanced_accuracy)


evalua(dataset,KNeighborsClassifier(),10,bal_acc_scorer)
```

Devuelve

```
array([0.90324675, 0.84935065, 0.88690476, 0.95238095, 0.93849206,
       0.92460317, 0.96230159, 0.91468254, 0.92063492, 0.96190476])
```

In [6]:
def evalua(dataset, method, folds, metric):
    """
    Evalúa clasificadores utilizando una métrica personalizada.

    Args:
    
        dataset (dict): Diccionario con claves "data" y "target".
        
        method: Clasificador a evaluar (por ejemplo, KNeighborsClassifier()).
        
        folds (int): Número de pliegues para la validación cruzada.
        
        metric: Métrica personalizada (por ejemplo, balanced_accuracy_score).

    Returns:
        np.ndarray: Array con las métricas calculadas para cada fold.
    """


    scores = cross_val_score(method, X, y, cv=folds, scoring=metric)
    return scores

In [7]:
from sklearn.model_selection import cross_val_score
from sklearn.metrics import accuracy_score, make_scorer, f1_score
from sklearn.neighbors import KNeighborsClassifier


dataset = load_heart_failure()

acc_scorer = make_scorer(accuracy_score)
bal_acc_scorer = make_scorer(my_balanced_accuracy)
f1_scorer = make_scorer(f1_score, average='weighted')  # O el tipo de promedio que desees usar

e1 = evalua(dataset,KNeighborsClassifier(),10,bal_acc_scorer)
e2 = evalua(dataset,KNeighborsClassifier(),10,f1_scorer)
print(e1)
print(" ")
print(e2)


[0.6623097  0.65111878 0.64738729 0.63147587 0.67129764 0.65507646
 0.67241783 0.6643071  0.67020889 0.68259804]
 
[0.78629631 0.78243012 0.78257896 0.7735279  0.78869303 0.7848541
 0.79067374 0.78871322 0.79002364 0.79981939]


Haz una una tabla de resultados para cada una de las 3 medidas: tasa de acierto, tasa de acierto balanceada, F1.

![imagen.png](attachment:imagen.png)

#### Comentarios

1. Trata de hacer la tabla automáticamente utilizando DataFrames de Pandas.
2. Prueba varios clasificadores por lo menos los que se ven en la tabla: Vecinos más cercanos y árbol de decisión.
2. Los ensembles son conjuntos de clasificadores. Los ensembles pueden a menudo obtener mejores resultados que los clasificadores base de los que están formados (Investiga que ensembles hay en Sklearn y pruebalos).
    - Las ganancias obtenidas al añadir clasificadores a un ensemble son cada vez menores a medida que el ensemble crece.
3. Hay muchas estrategías para lidiar con conjuntos de datos desequilibrados. Una es reducir el tamaño de la clase mayoritaria eliminando ejemplos de forma aleatoria (Random Undersampling) y otra es aumentar el tamaño de la clase minoritaria creando ejemplos artificiales (SMOTE, Oversampling)
    - Hay ensembles que tienen incorporadas estas estrategias (https://imbalanced-learn.org/stable/references/ensemble.html), puedes intentar probarlas.


In [22]:
from sklearn.metrics import accuracy_score, balanced_accuracy_score, f1_score, make_scorer
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier

def crear_dataframe():
    # Haz una tabla para cada medida
    
    datasets = [load_diabetes, load_insurance(),
                load_cancer(),load_heart_failure(),load_survival()]
    
    nombres = [ "Diabetes","Insurance",
               "Cancer","Heart Failure","Survival"]
    
    #Asignamos los accuracy
    acc_scorer = make_scorer(accuracy_score)
    bal_acc_scorer = make_scorer(my_balanced_accuracy)
    f1_scorer = make_scorer(f1_score, average='weighted')  # O el tipo de promedio que desees usar
    
    acc_types = [(acc_scorer, "acc_scorer"), (bal_acc_scorer, "bal_acc_scorer"), (f1_scorer, "f1_scorer")]
    
    all_dataset = []
    all_clasificators = []
    all_acc = []
    all_results = []
    
    # Crear una lista con dos funciones
    clasificadores = [KNeighborsClassifier(), DecisionTreeClassifier()]
    
    for clasificador in clasificadores:
        
        for dataset, nombre in zip(datasets, nombres):
    
            for acc, acc_name in acc_types: 
        
                result = evalua(dataset,clasificador,10,acc)
        
                all_acc.append(acc_name)  # Convertimos el objeto a string para guardar el nombre
                all_dataset.append(nombre)
                all_clasificators.append(type(clasificador).__name__)  # Obtenemos el nombre de la clase del clasificador
    
                med_res = sum(result)/len(result)
                
                all_results.append(med_res)
        
    df = pd.DataFrame({"Data":all_dataset,"Method":all_clasificators,"Acc":all_acc,"Result":all_results})

    
    return df


In [25]:
df = crear_dataframe()

# Obtén la mitad del DataFrame
mitad = len(df) // 2

# Primera mitad
KNeighborsClassifier = df.iloc[:mitad, :]

# Segunda mitad
DecisionTreeClassifier = df.iloc[mitad:, :]

print(KNeighborsClassifier)
print(" ")
print(DecisionTreeClassifier)

             Data                Method             Acc    Result
0        Diabetes  KNeighborsClassifier      acc_scorer  0.809324
1        Diabetes  KNeighborsClassifier  bal_acc_scorer  0.660820
2        Diabetes  KNeighborsClassifier       f1_scorer  0.786761
3       Insurance  KNeighborsClassifier      acc_scorer  0.809324
4       Insurance  KNeighborsClassifier  bal_acc_scorer  0.660820
5       Insurance  KNeighborsClassifier       f1_scorer  0.786761
6          Cancer  KNeighborsClassifier      acc_scorer  0.809324
7          Cancer  KNeighborsClassifier  bal_acc_scorer  0.660820
8          Cancer  KNeighborsClassifier       f1_scorer  0.786761
9   Heart Failure  KNeighborsClassifier      acc_scorer  0.809324
10  Heart Failure  KNeighborsClassifier  bal_acc_scorer  0.660820
11  Heart Failure  KNeighborsClassifier       f1_scorer  0.786761
12       Survival  KNeighborsClassifier      acc_scorer  0.809324
13       Survival  KNeighborsClassifier  bal_acc_scorer  0.660820
14       S

### Tarea 4. Experimentos regresores. (2 Puntos)<a id="4"></a><a href="#index"><i class="fa fa-list-alt" aria-hidden="true"></i></a>

Realiza un experimento similar, pero esta vez utilizando los dos conjuntos de datos de regresión.

Utiliza al menos Vecinos más cercanos y árbol de decisión.

Investiga los Ensembles existentes en Sklearn para regresión.

A la hora de evaluar los regresores puedes usar R2 (sklearn.metrics.r2_score), también llamado coeficiente de determinación.

En esa métrica el mejor valor posible es 1.0 y puede obtener valores negativos. Un regresor que siempre devuelve la media, sin tener en cuenta los valores de los atributos obtendría un R2 = 0.


