<img style="float:left" width="70%" src="pics/escudo_COLOR_1L_DCHA.png">
<img style="float:right" width="15%" src="pics/PythonLogo.svg">
<br style="clear:both;">

# Minería de datos

<h2 style="display: inline-block; padding: 4mm; padding-left: 2em; background-color: navy; line-height: 1.3em; color: white; border-radius: 10px;">Práctica Scikit-Learn 2.1: Experimentos</h2>

## Docentes

 - José Francisco Diez Pastor
 - Jonas Grabbe

 
## Estudiantes (1-2)

- Estudiante 1 
- Estudiante 2

## Descripción de la práctica


La segunda prácticas de SkLearn está dividida en dos partes:
- 2.1 Experimentos
- 2.2 Implementación de algoritmos propios.

En este primer notebook solo vamos a hacer la primera parte.

## Descripción de los datos

Los experimentos para prácticar con los pipelines de selección de atributos y la optimización de parámetros se realizarán con conjuntos de datos de Sklearn que han sido modificados para que tengan atributos adicionales ruidosos.

La idea es simular conjuntos de datos reales en donde puede haber atributos mal medidos o mal almacenados en la base de datos.





In [1]:
import numpy as np
'''
Función que añade un dobla el número de atributos
añadiendo una permutación de los atributos existentes

Los nuevos atributos no van a tener una relación fuerte con la clase.
'''
def add_random_permutations(X):
    np.random.seed(seed=0)
    random_atts = np.random.permutation(X)
    return np.concatenate((X, random_atts), axis=1)


add_random_permutations(np.array([[1,2],
                                  [3,4],
                                  [5,6],
                                  [7,8],
                                  [9,10]]))

array([[ 1,  2,  5,  6],
       [ 3,  4,  1,  2],
       [ 5,  6,  3,  4],
       [ 7,  8,  7,  8],
       [ 9, 10,  9, 10]])

En la práctica se tiene que trabajar con los datasets almacenados en la lista `processed_datasets`, dicha lista contiene tuplas con nombre, `X` (atributos) e `y` (clase).

In [2]:
'''
Esta celda dobla el número de atributos creando atributos adicionales
que son permuta de los originales.
'''
from sklearn.datasets import load_iris
from sklearn.datasets import load_breast_cancer
from sklearn.datasets import load_wine

original_datasets = [("Iris",load_iris()),
                     ("Cancer",load_breast_cancer()),
                     ("Wine",load_wine())]

processed_datasets = []

for name,dataset in original_datasets:
    X = dataset["data"]
    y = dataset["target"]
    X = add_random_permutations(X)
    processed_datasets.append((name,X,y))



Ejemplo de como hacer selección de atributos utilizando un clasificador capaz de devolver la calidad de cada atributo, en el ejemplo se utiliza Random Forest.

In [3]:
from sklearn.ensemble import RandomForestClassifier

from sklearn.feature_selection import SelectFromModel

'''
Ejemplo de como usar SelectFromModel para:
1. Valorar la calidad de los atributos usando un clasificador, en este caso Random Forest.
2. Seleccionar los atributos con una calidad superior a la mediana, 
es decir, selecciona el 50% mejor de los atributos.
'''
iris = load_iris()
X_iris = iris["data"]
y_iris = iris["target"]
X_iris2 = add_random_permutations(X_iris)
sel = SelectFromModel(RandomForestClassifier(random_state=42),threshold="median").fit(X_iris2, y_iris)
# Muestro cuales serían los atributos seleccionados.
# Justamente son los originales.
sel.get_support()

array([ True,  True,  True,  True, False, False, False, False])

<a id="index"></a>
## Tareas 

1. [Pipelines con y sin selección de atributos **(2.5 Puntos)**](#1)
2. [Pipelines con selección de atributos con y sin optimizar atributos **(2.5 Puntos)**](#2)


### 1. Pipelines con y sin selección de atributos **(2 Puntos)**<a id="1"></a><a href="#index"><i class="fa fa-list-alt" aria-hidden="true"></i></a>

Pasos:
1. Hacer un experimento utilizando Random Forest, Regresión Logística, Vecinos más cercanos, Árbol de decisión, Perceptrón Multicapa y SVM.
    - Utilizando validación cruzada con 5 folds. Evaluando tasa de acierto.
    - Los parámetros por defecto aparecen en la celda de código posterior.
2. Hacer experimentos con los mismos clasificadores, pero esta vez dentro de un Pipeline cuyo primer paso sea seleccionar el 50% de los atributos (se deberían descartar los atributos añadidos artificialmente).
3. Calcular el número de veces que, en cada dataset, gana el clasificador simple o el pipeline.
4. Mostrar los resultados en forma de tabla.



Ejemplo del resultado.

(Los resultados exactos pueden variar)

<table border="1" class="dataframe">\n  <thead>\n    <tr>\n      <th></th>\n      <th colspan="2" halign="left">Iris</th>\n      <th colspan="2" halign="left">Cancer</th>\n      <th colspan="2" halign="left">Wine</th>\n    </tr>\n    <tr>\n      <th></th>\n      <th>-</th>\n      <th>Att_Sel</th>\n      <th>-</th>\n      <th>Att_Sel</th>\n      <th>-</th>\n      <th>Att_Sel</th>\n    </tr>\n    <tr>\n      <th>Cls</th>\n      <th></th>\n      <th></th>\n      <th></th>\n      <th></th>\n      <th></th>\n      <th></th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>RF</th>\n      <td>0.960000</td>\n      <td>0.966667</td>\n      <td>0.959587</td>\n      <td>0.959587</td>\n      <td>0.960794</td>\n      <td>0.972063</td>\n    </tr>\n    <tr>\n      <th>LR</th>\n      <td>0.926667</td>\n      <td>0.960000</td>\n      <td>0.950784</td>\n      <td>0.957833</td>\n      <td>0.938889</td>\n      <td>0.966667</td>\n    </tr>\n    <tr>\n      <th>KNN</th>\n      <td>0.933333</td>\n      <td>0.973333</td>\n      <td>0.889225</td>\n      <td>0.926192</td>\n      <td>0.680794</td>\n      <td>0.669048</td>\n    </tr>\n    <tr>\n      <th>DT</th>\n      <td>0.946667</td>\n      <td>0.966667</td>\n      <td>0.913864</td>\n      <td>0.919174</td>\n      <td>0.870635</td>\n      <td>0.865238</td>\n    </tr>\n    <tr>\n      <th>MLP</th>\n      <td>0.966667</td>\n      <td>0.980000</td>\n      <td>0.908601</td>\n      <td>0.926223</td>\n      <td>0.736667</td>\n      <td>0.605873</td>\n    </tr>\n    <tr>\n      <th>SVM</th>\n      <td>0.940000</td>\n      <td>0.966667</td>\n      <td>0.898075</td>\n      <td>0.912172</td>\n      <td>0.657778</td>\n      <td>0.657937</td>\n    </tr>\n    <tr>\n      <th>W/L</th>\n      <td>0.000000</td>\n      <td>6.000000</td>\n      <td>0.000000</td>\n      <td>5.000000</td>\n      <td>3.000000</td>\n      <td>3.000000</td>\n    </tr>\n  </tbody>\n</table>

In [55]:
from sklearn.pipeline import Pipeline
from sklearn.model_selection import cross_val_score
from sklearn.feature_selection import SelectPercentile, f_classif
import pandas as pd
from sklearn.pipeline import Pipeline
from sklearn.feature_selection import SelectFromModel
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.svm import SVC
from sklearn.feature_selection import SelectPercentile, f_classif
from sklearn.datasets import load_breast_cancer, load_wine

# Cargar el conjunto de datos de cáncer de mama
cancer_data = load_breast_cancer()
X_cancer = cancer_data.data
y_cancer = cancer_data.target

# Cargar el conjunto de datos de vino
wine_data = load_wine()
X_wine = wine_data.data
y_wine = wine_data.target

# Función para realizar el experimento y mostrar los resultados para un conjunto de datos dado
def experimentar(X, y, dataset_name):
    # Definir los clasificadores
    clasificadores = [
        (RandomForestClassifier(random_state=42), "RF"),
        (LogisticRegression(max_iter=1000, solver="liblinear"), "LR"),
        (KNeighborsClassifier(), "KNN"),
        (DecisionTreeClassifier(), "DT"),
        (MLPClassifier(max_iter=2000), "MLP"),
        (SVC(), "SVM")
    ]

    # Realizar experimento y mostrar resultados
    resultados = pd.DataFrame(index=[clf_name for _, clf_name in clasificadores], columns=["-"])

    for clf, clf_name in clasificadores:
        scores = cross_val_score(clf, X, y, cv=5)
        mean_score = scores.mean()
        resultados.loc[clf_name, "-"] = mean_score

    # Crear un DataFrame vacío para almacenar los resultados del Pipeline
    resultados_pipeline = pd.DataFrame(index=[clf_name for _, clf_name in clasificadores], columns=["Att_Sel"])

    # Iterar sobre cada clasificador
    for clf, clf_name in clasificadores:
        # Crear Pipeline con selección de atributos y clasificador
        pipe = Pipeline([
            ('feature_selection', SelectFromModel(RandomForestClassifier(random_state=42),threshold="median")),
            ('classification', clf)
        ])

        # Calcular la precisión del modelo utilizando validación cruzada
        scores = cross_val_score(pipe, X, y, cv=5)
        mean_accuracy = scores.mean()

        # Almacenar el resultado en el DataFrame
        resultados_pipeline.loc[clf_name, "Att_Sel"] = mean_accuracy

    # Combinar los resultados del enfoque original y del Pipeline en un solo DataFrame
    resultados_combinados = pd.concat([resultados, resultados_pipeline], axis=1)

    #Hace que aparezca una nueva columna con las restas
    resultados_combinados['Diferencia'] = resultados_combinados['-'] - resultados_combinados['Att_Sel']

    # Calcular la cuenta de números negativos en la columna 'Diferencia'
    numeros_negativos = resultados_combinados['Diferencia'][resultados_combinados['Diferencia'] < 0].count()
    
    # Calcular la suma de números positivos en la columna 'Diferencia'
    numeros_positivos = resultados_combinados['Diferencia'][resultados_combinados['Diferencia'] > 0].count()

    # Crear una nueva fila con los valores calculados
    nueva_fila = pd.DataFrame([[numeros_positivos, numeros_negativos, numeros_positivos]], columns=resultados_combinados.columns)

    # Concatenar la nueva fila al DataFrame original
    resultados_combinados = pd.concat([resultados_combinados, nueva_fila], ignore_index=True)

    # Supongamos que quieres eliminar la columna 'Diferencia'
    resultados_combinados = resultados_combinados.drop(columns=['Diferencia'])

    # Asignar valores específicos a los índices de las filas
    resultados_combinados.index = ['RF', 'LR', 'KNN', 'DT', 'MLP', 'SVM', 'W/L']

    # Configurar el formato de visualización para mostrar 6 decimales
    pd.options.display.float_format = '{:.6f}'.format

    resultados_combinados.columns = pd.MultiIndex.from_tuples([(dataset_name,"-"), (dataset_name,"Att_Sel")])

    # Mostrar los resultados combinados
    print(f"Resultados para {dataset_name}: COMPLETADO")
    return resultados_combinados
    


d1 = experimentar(X_iris, y_iris, "Iris")
d2 = experimentar(X_cancer, y_cancer, "Cancer")
d3 = experimentar(X_wine, y_wine, "Wine")




Resultados para Iris: COMPLETADO
Resultados para Cancer: COMPLETADO
Resultados para Wine: COMPLETADO


In [56]:
pd.concat([d1,d2,d3],axis=1)


Unnamed: 0_level_0,Iris,Iris,Cancer,Cancer,Wine,Wine
Unnamed: 0_level_1,-,Att_Sel,-,Att_Sel,-,Att_Sel
RF,0.966667,0.966667,0.956094,0.957833,0.972063,0.960794
LR,0.96,0.866667,0.950815,0.952569,0.961111,0.932857
KNN,0.973333,0.966667,0.927946,0.926176,0.69127,0.690635
DT,0.96,0.953333,0.920897,0.920882,0.887619,0.876508
MLP,0.98,0.96,0.927915,0.936764,0.476349,0.398413
SVM,0.966667,0.96,0.912172,0.913942,0.663492,0.669048
W/L,5.0,0.0,2.0,4.0,5.0,1.0


#### Pistas

Si se quiere hacer una tabla de resultados como la de ejemplo necesitamos "nombres de columnas dobles".

In [6]:
import pandas as pd

df1 = pd.DataFrame({"Att 1":[1,2,3,4,5],
                   "Att 2":[10,20,30,40,50],
                   "Att 3":[11,12,13,14,15],
                   "Att 4":[11,21,31,41,51]})
display(df1)

df1.columns = pd.MultiIndex.from_tuples([("Categoría A","Att 1"),
                                         ("Categoría A","Att 2"),
                                         ("Categoría B","Att 3"),
                                         ("Categoría B","Att 4")])
display(df1)

Unnamed: 0,Att 1,Att 2,Att 3,Att 4
0,1,10,11,11
1,2,20,12,21
2,3,30,13,31
3,4,40,14,41
4,5,50,15,51


Unnamed: 0_level_0,Categoría A,Categoría A,Categoría B,Categoría B
Unnamed: 0_level_1,Att 1,Att 2,Att 3,Att 4
0,1,10,11,11
1,2,20,12,21
2,3,30,13,31
3,4,40,14,41
4,5,50,15,51


In [18]:
np.logspace(-9, 3, 13)[-1]

1000.0

### 2. Pipelines con selección de atributos con y sin optimización de parámetros **(2 Puntos)**<a id="2"></a><a href="#index"><i class="fa fa-list-alt" aria-hidden="true"></i></a>

Se pide optimizar únicamente los parámetros de los clasificadores más sensibles a la elección de parámetros: SVM y Multilayer Perceptron (aunque opcionalmente se podrían optimizar otros clasificadores para comprobar que los parámetros no tienen tanto impacto)

En el caso de SVM se quieren optimizar los parámetros:
- C:
    - 0.01, 0.1, 1, ..., 1000000000
- gamma:
    - 0.00000001, 0.0000001, 0.000001, ..., 1000
Usando GridSearch con cv = 5.

En el caso del MLP:
- alpha
    - 0.00001, 0.0001, ..., 0.1
- Número de neuronas en la capa oculta
    - (50,), (100,), (200,), (500,), (1000,)

El objetivo es obtener una tabla como la del ejercio anterior, pero esta vez comparando clasificadores sin optimizar vs clasificadores con los parámetros optimizados.

#### Pistas

`linspace` y `logspace` permiten crear secuencias de números equidistantes ya sea en la escala lineal o en la escala logarítmica,

In [19]:
np.linspace(0, 100, 5)

array([  0.,  25.,  50.,  75., 100.])

In [31]:
np.logspace(-2, 2, 5)

array([1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02])