# **Selección de características en modelos predictivos**

## Inteligencia Artificial (IS) 2023/24 – Trabajo

### Autores: José María Baquero Rodríguez y Pedro Pablo Santos Domínguez

En este notebook se presenta una descripción detallada y exhaustiva en primer lugar se expone la implementación realizada para llevar a cabo el trabajo. 
Posteriormente, se muestran las pruebas realizadas utilizando los conjuntos de datos poporcionados.

## Importación de librerías y paquetes externos

Para implementar las funciones que se presentarán en este notebook, es necesrio importar una serie de bibliotecas y recursos. A continuación se detallan los elementos requeridos.

In [1]:
#poner las importaciones
import pandas as pd

import numpy as np

from sklearn.preprocessing import OrdinalEncoder, LabelEncoder

from sklearn.tree import DecisionTreeClassifier

from matplotlib import pyplot
from sklearn.tree import plot_tree
from sklearn.metrics import confusion_matrix
from sklearn.metrics import recall_score
from sklearn.model_selection import cross_validate
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import KBinsDiscretizer
from sklearn.naive_bayes import CategoricalNB

Análisis de las importaciones:

- Numpy : Se utiliza para realizar cálculos científicos y será empleado en diversas ocasiones a lo largo de la implementación.
  
- Pandas : Es un paquete Python utilizado para el análisis de datos, lectura de archivos y tratamiento de información. En nuestro caso se utilizará para el procesamiento de los datos.

Además las siguientes importaciones están relacionadas con el paquete  _scikit-learn_, que contienen funciones e implementaciones para el trabajo con aprendizaje automático en Python.

- cross_val_score : Proporcionada por  _sklearn_ permitiendo realizar un experimento de validación cruzada para obtener una tasa de acierto del algoritmo que le proporcionemos como parámetro.
  
-  DecisionTreeClassifier : Este algoritmo contruye árboles binarios y será evaluado mediante validación cruzada.
-  CategoricalNB: es una implementación del clasificador Naive Bayes para datos categóricos y será evaluado mediante validación cruzada.



***

## Implementación

### Implemetación del método de evaluación

El algortimo _rendimiento_ evalúa el desempeño de un conjunto de características en un modelo de decisión utilizando validación cruzada. Esta función permite tarabajar con dos tipos de clasificadores: árbol de decisión (CART) y clasificador Naive Bayes, permitiendo la evaluación de ambos modelos.

- Entrada:
    - atributos(dataFrame): Conjunto de datos que contiene las características predictoras.
    - objetivo: Variable respuesta.
    - feature(list): Subconjunto de características a evaluar.
    - n_exp: Número de repeticiones del experimento por validación creuzada.
    - cv: Número de pliegues utilizados en la validación cruzada.
    - naivebayes(boolean): Indica si se utiliza el clasificador Naive Bayes (True) o árbol de decisión (False).
- Salida:
    - promedio_rendimientos: Métrica de rendiemiento obtenida tras realizar las n_exp repeticiones la validación cruzada.
 

In [2]:
## codigo de la fucnion de rendimiento.
def rendimiento(atributos, objetivo, feature, n_exp, cv, naivebayes):
    rendimientos = []

    if naivebayes == False:
        clasificador_CART = DecisionTreeClassifier()
    
        for _ in range(n_exp):
            score = cross_validate(clasificador_CART, atributos[feature], objetivo, cv = cv, scoring = 'balanced_accuracy')
            rendimientos.append(score['test_score'])
    else:
        calsificador_NaiveBayes = CategoricalNB(alpha=3) # alpha es el parámetro de suavizado
        for _ in range(n_exp):
            score = cross_validate(calsificador_NaiveBayes, atributos[feature], objetivo, cv = cv, scoring = 'balanced_accuracy')
            rendimientos.append(score['test_score'])

    # Calcular el promedio de todos los experimentos
    promedio_rendimientos = np.mean(rendimientos)
    
    return promedio_rendimientos

### Implementación del algortimo de Busqueda secuelcial hacia atrás

El algoritmo de búsqueda secuencial hacia atrás es una técnica de selección de características que busca reducir el número de variables predictoras de un modelo, eliminando iterativamente las características menos importantes y evaluando el rendimiento del modelo en cada paso. Aquí se presenta una descripción detallada de su implementación:

- Descripción del Algoritmo

     - Entrada:
       - Conjunto de datos: Incluye N variables predictoras y una variable respuesta.
        - Parámetros adicionales: Número de experimentos (n_exp) y número de validaciones cruzadas (cv).
          
    - Salida:
        - Tabla de resultados: Contiene las combinaciones obtenidas en cada iteración, su tamaño y su rendimiento.
          
    - Inicialización:
        - Solución Actual (solucion_actual): Inicialmente contiene todas las variables predictoras disponibles.

    - Ejecución:
        - Iteración desde K = N hasta 1:
            - Para cada variable V en solucion_actual:
            Crear una Solución Temporal (solucion_temporal) eliminando la variable V de solucion_actual.
            Evaluar el rendimiento de solucion_temporal utilizando una evaluación robusta (validación cruzada) y guardar el rendimiento.
            - Seleccionar la Mejor Solución Temporal (la que proporcione el mayor rendimiento) y actualizar solucion_actual con esta mejor solución.
            - Guardar la Mejor Solución Temporal, su tamaño y su rendimiento en la tabla de resultados.
            - Repetir hasta que todas las variables hayan sido evaluadas y eliminadas una a una.
              
    - Devolución de Resultados:

        - La tabla de resultados contendrá K soluciones, cada una de diferente tamaño. La primera fila tendrá la solución con todas las variables y la última fila tendrá la solución con una sola variable.

In [3]:
## codigo de la busqueda
def busqueda_secuencial_hacia_atras(atributos, objetivo, n_exp=9, cv=10, naiveBayes = False):
    # Inicialización
    solucion_actual = list(atributos.columns)
    n_features = len(solucion_actual)
    resultados = []

     # Guardar el rendimiento de la solución inicial completa
    rendimiento_inicial = rendimiento(atributos, objetivo, solucion_actual, n_exp, cv, naiveBayes)
    resultados.append((solucion_actual.copy(), len(solucion_actual), rendimiento_inicial))

    
    # Ejecución
    while len(solucion_actual) > 1:
        
        mejor_rendimiento = -float('inf')
        peor_feature = None
        
        # Evaluar todas las posibles soluciones temporales
        for feature in solucion_actual:
            solucion_temporal = solucion_actual.copy()
            solucion_temporal.remove(feature)
            rendimiento_temporal = rendimiento(atributos, objetivo, solucion_temporal, n_exp, cv, naiveBayes)

            # Guardar el rendimiento de la peor característica
            if rendimiento_temporal > mejor_rendimiento:
                mejor_rendimiento = rendimiento_temporal
                peor_feature = feature
                
        
        # Actualizar la solución actual eliminando la peor característica
        solucion_actual.remove(peor_feature)

        resultados.append((solucion_actual.copy(), len(solucion_actual), mejor_rendimiento))
    
    # Crear un DataFrame con los resultados
    df_resultados = pd.DataFrame(resultados, columns=['MejorSolucionTemporal', 'Tamaño', 'Rendimiento']).sort_values(by='Rendimiento', ascending=False)
    
    # Devolver los resultados en forma de DataFrame
    return df_resultados

### Implementación del algortimo de Busqueda secuencial hacia atrás mixta

El algoritmo de búsqueda secuencial hacia atrás mixta es una técnica avanzada de selección de características que combina estrategias de eliminación y adición de variables para encontrar el subconjunto óptimo de variables predictoras. Este método incorpora un control riguroso de las variables ya procesadas para evitar bucles infinitos y asegurar una evaluación robusta del rendimiento del modelo. A continuación, se presenta una descripción detallada de su implementación:

- Entrada:
    - Conjunto de datos: Incluye N variables predictoras y una variable respuesta.
    - Parámetros adicionales: Otros parámetros necesarios para la ejecución del algoritmo.

- Salida:
    - Tabla de resultados: Contiene las combinaciones obtenidas en cada iteración, su tamaño y su rendimiento.

- Inicialización:
    - SoluciónActual: Almacena el mejor conjunto de variables obtenido en cada iteración. Inicialmente contiene todas las variables.
    - Añadidos: Almacena las variables que han sido añadidas.
    - Eliminados: Almacena las variables que han sido eliminadas.

- Ejecución:
    - Mientras no se cumpla la CondiciónDeParada:

        - Eliminar la Peor Variable:

        - Seleccionar la peor variable para eliminar de SoluciónActual. Para cada variable V de SoluciónActual que no esté en Eliminados:
        - SoluciónTemporal = SoluciónActual - V
        - Evaluar SoluciónTemporal mediante una evaluación robusta y guardar su rendimiento.
        - Seleccionar la mejor SoluciónTemporal (la que proporcione mayor rendimiento) y actualizar SoluciónActual = MejorSoluciónTemporal.
        - Actualizar Eliminados añadiendo a esta lista la variable eliminada de SoluciónActual.
    - Añadir la Mejor Variable (Solo si Hay Mejora):

        - Seleccionar la mejor variable para añadir a SoluciónActual. Para cada variable V del conjunto original de variables que no se encuentre en SoluciónActual ni en Añadidos:
        - SoluciónTemporal = SoluciónActual + V
        - Evaluar SoluciónTemporal mediante una evaluación robusta y guardar su rendimiento.
        - Seleccionar la mejor SoluciónTemporal (la que proporcione mayor rendimiento). Solo si el rendimiento de la mejor SoluciónTemporal es superior al rendimiento de la mejor solución obtenida en el paso anterior:
        - Actualizar SoluciónActual = MejorSoluciónTemporal.
        - Actualizar Añadidos añadiendo la variable añadida.
        - Evaluar la Condición de Parada.
- Condición de Parada:
La condición de parada solo puede ser cierta una vez que todas las variables han sido procesadas por el proceso de eliminación, es decir, cuando Eliminados contiene todas las variables originales. En este punto, se utiliza un contador para contar las iteraciones que transcurren sin que se añadan variables (ya no se pueden eliminar variables). Si en alguna iteración una nueva variable es añadida, el contador se resetea a cero. Si el contador alcanza un umbral, se considera que se cumple la condición de parada y se detiene el algoritmo. Este criterio de parada permite obtener soluciones más robustas, asegurando que se han añadido todas las variables relevantes.

- Devolución:
Devolver una tabla con cada una de las MejorSoluciónTemporal (obtenida al final de cada iteración), el tamaño y el rendimiento de cada una.

In [4]:
## codigo de la busqueda
def busqueda_secuencial_hacia_atras_mixta(atributos, objetivo, n_exp=6, cv=10, umbral=10, naiveBayes = False):
    # Inicialización
    solucion_actual = list(atributos.columns)
    añadidos = []
    eliminados = []
    iteraciones_sin_mejora = 0
    rendimiento_actual = rendimiento(atributos, objetivo, solucion_actual, n_exp, cv, naiveBayes)
    
    resultados = [(solucion_actual.copy(), len(solucion_actual), rendimiento_actual)]
    
    # Ejecución
    while len(eliminados) < len(atributos.columns):
        mejor_rendimiento = -float('inf')
        peor_feature = None
        
        # Evaluar todas las posibles soluciones temporales eliminando una variable
        for feature in solucion_actual:
            if feature not in eliminados:
                solucion_temporal = solucion_actual.copy()
                solucion_temporal.remove(feature)
                rendimiento_temporal = rendimiento(atributos, objetivo, solucion_temporal, n_exp, cv, naiveBayes)

                if rendimiento_temporal > mejor_rendimiento:
                    mejor_rendimiento = rendimiento_temporal
                    peor_feature = feature
        
        # Actualizar la solución actual eliminando la peor característica
        solucion_actual.remove(peor_feature)
        eliminados.append(peor_feature)
        rendimiento_actual = mejor_rendimiento

        resultados.append((solucion_actual.copy(), len(solucion_actual), rendimiento_actual))

        # Intentar añadir la mejor característica si hay mejora
        mejor_rendimiento_añadir = -float('inf')
        mejor_feature_añadir = None
        
        for feature in atributos.columns:
            if feature not in solucion_actual and feature not in añadidos:
                solucion_temporal = solucion_actual.copy()
                solucion_temporal.append(feature)
                rendimiento_temporal = rendimiento(atributos, objetivo, solucion_temporal, n_exp, cv, naiveBayes)

                if rendimiento_temporal > mejor_rendimiento_añadir:
                    mejor_rendimiento_añadir = rendimiento_temporal
                    mejor_feature_añadir = feature

        if mejor_rendimiento_añadir > rendimiento_actual:
            solucion_actual.append(mejor_feature_añadir)
            añadidos.append(mejor_feature_añadir)
            rendimiento_actual = mejor_rendimiento_añadir
            iteraciones_sin_mejora = 0
        else:
            iteraciones_sin_mejora += 1

        resultados.append((solucion_actual.copy(), len(solucion_actual), rendimiento_actual))

        # Evaluar condición de parada
        if iteraciones_sin_mejora >= umbral:
            break
    
    # Crear un DataFrame con los resultados
    df_resultados = pd.DataFrame(resultados, columns=['MejorSolucionTemporal', 'Tamaño', 'Rendimiento'])

    # Filtrar para que solo quede el mejor rendimiento por cada tamaño de conjunto
    df_resultados = df_resultados.sort_values(by=['Tamaño', 'Rendimiento'], ascending=[True, False])
    
    # Devolver los resultados en forma de DataFrame
    return df_resultados.sort_values(by=['Rendimiento'], ascending=False)

***

## Pruebas y experimentos

Para llevar a cabo las pruebas de los algoritmos y realizar experimentos, emplearemos varios conjuntos de datos suministrados por la propuesta de trabajo, los cuales ya están preprocesados.

Haremos uso de la librería Pandas, que nos permitirá tarbajar con los datos a través de DataFrames, los cuales servirán como base de información para los algoritmos que evaluaremos.

Inicialmente, cargaremos el conjunto de datos de los pasajeros del Titanic. Posteriormente, procederemos a importar el conjunto de datos relacionado con el cáncer de mama.


In [5]:
## lecturas de los 2 ficheros
def lectura_fichero(fichero):
    fichero = pd.read_csv(fichero)    
    return fichero

titanic = lectura_fichero('titanic.csv')
breast_cancer = lectura_fichero('BreastCancer.csv')

In [6]:
# Tratamiento de los datos
# Eleccion de semilla inicial aleatoria.
np.random.seed(357823)

# Atributos discretos, continuos y objetivo de titanic.csv.
atributos_discretos_titanic = ['Sex', 'Embarked', 'Alone', 'Deck']
atributos_continuos_titanic = ['Pclass', 'Age', 'SibSp', 'Parch', 'Fare', 'Initial', 
                           'Age_band', 'Family_Size', 'Fare_cat', 'Title', 'Is_Married']
atributos_titanic = titanic.loc[:, atributos_discretos_titanic + atributos_continuos_titanic]
objetivo_titanic = titanic['Survived']

# Codificación de atributos discretos y objetivo 
codificador_atributos_discretos_titanic = OrdinalEncoder() 
atributos_titanic[atributos_discretos_titanic] = codificador_atributos_discretos_titanic.fit_transform(atributos_titanic[atributos_discretos_titanic])
codificador_objetivo_titanic = LabelEncoder() 
objetivo_titanic = codificador_objetivo_titanic.fit_transform(objetivo_titanic)

#Tratamiento de datos para Naive bayes
discretizador_titanic = KBinsDiscretizer(
    n_bins= 4,  # Cada atributo se discretiza en 4 intervalos
    encode='ordinal',  # Los intervalos se codifican numéricamente
    strategy='uniform'  # Cada intervalo contiene la misma cantidad de datos
)

# Como nos interesa conservar los atributos continuos originales, realizamos
# la discretización sobre una copia del DataFrame de atributos de titanic
atributos_discretizados_titanic = atributos_titanic.copy()
atributos_discretizados_titanic[atributos_continuos_titanic] = discretizador_titanic.fit_transform(
    atributos_discretizados_titanic[atributos_continuos_titanic]
)

# Atributos discretos, continuos y objetivo de BreastCancer.csv.
atributos_continuos_breast_cancer = ['mean radius', 'mean texture', 'mean perimeter', 'mean area', 'mean smoothness', 'mean compactness', 
                           'mean concavity', 'mean concave points', 'mean symmetry', 'mean fractal dimension', 'radius error', 
                           'texture error', 'perimeter error', 'area error', 'smoothness error', 'compactness error', 'concavity error',
                           'concave points error', 'symmetry error', 'fractal dimension error', 'worst radius', 'worst texture', 
                           'worst perimeter', 'worst area', 'worst smoothness', 'worst compactness', 'worst concavity', 'worst concave points',
                           'worst symmetry', 'worst fractal dimension']
																				
atributos_breast_cancer = breast_cancer.loc[:, atributos_continuos_breast_cancer]
objetivo_breast_cancer = breast_cancer['diagnosis']

# Codificación de atributos discretos y objetivo
codificador_objetivo_breast = LabelEncoder()
objetivo_breast_cancer = codificador_objetivo_breast.fit_transform(objetivo_breast_cancer)

#Tratamiento de datos para Naive bayes
discretizador_breast = KBinsDiscretizer(
    n_bins= 2,  # Cada atributo se discretiza en 4 intervalos
    encode='ordinal',  # Los intervalos se codifican numéricamente
    strategy='uniform'  # Cada intervalo contiene la misma cantidad de datos
)

# Como nos interesa conservar los atributos continuos originales, realizamos
# la discretización sobre una copia del DataFrame de atributos de titanic
atributos_discretizados_breast = atributos_breast_cancer.copy()
atributos_discretizados_breast[atributos_continuos_breast_cancer] = discretizador_breast.fit_transform(
    atributos_discretizados_breast[atributos_continuos_breast_cancer]
)

### Pruebas básicas sobre los conjuntos de datos

Ejecutamos una estimación sobre los conjuntos de datos para comprobar su funcionamiento previo.

#### Conjunto de datos Titanic.csv

Primero probaremos el conjunto de características completo, para  después ir reduciendo el número de características y comprobar sus resultados.

In [11]:
feature =  ['Pclass', 'Age', 'SibSp', 'Parch', 'Fare', 'Initial', 'Age_band', 'Family_Size', 
            'Fare_cat', 'Title', 'Is_Married', 'Sex', 'Embarked', 'Alone', 'Deck']
rendimiento(atributos_titanic, objetivo_titanic, feature, 20, 10, False)

0.7733358302917126

In [10]:
feature =  ['Fare_cat', 'Title', 'Is_Married', 'Sex', 'Embarked', 'Alone', 'Deck']
rendimiento(atributos_titanic, objetivo_titanic, feature, 20, 10, False)

0.7603023512435277

In [12]:
feature =  ['Sex']
rendimiento(atributos_titanic, objetivo_titanic, feature, 20, 10, False)

0.7668003565062389

#### Conjunto de datos BreastCancer.csv

Actuamos de igual forma, primero probamos con todas las características y vamos reduciento el número de las mismas para probar sus resultados.

In [14]:
feature = ['mean radius', 'mean texture', 'mean perimeter', 'mean area', 'mean smoothness', 'mean compactness', 
        'mean concavity', 'mean concave points', 'mean symmetry', 'mean fractal dimension', 'radius error', 
        'texture error', 'perimeter error', 'area error', 'smoothness error', 'compactness error', 'concavity error',
        'concave points error', 'symmetry error', 'fractal dimension error', 'worst radius', 'worst texture', 
        'worst perimeter', 'worst area', 'worst smoothness', 'worst compactness', 'worst concavity', 'worst concave points',
        'worst symmetry', 'worst fractal dimension']
rendimiento(atributos_breast_cancer, objetivo_breast_cancer, feature, 20, 10, False)

0.9109967532467532

In [16]:
feature = ['mean radius', 'mean texture', 'mean perimeter', 
           'mean concavity', 'mean concave points', 'mean symmetry', 'mean fractal dimension', 'radius error', 
           'texture error', 'perimeter error', 'area error', 'smoothness error', 'compactness error', 
           'concavity error', 'concave points error', 'worst compactness', 'worst concavity', 
           'worst concave points', 'worst symmetry', 'worst fractal dimension']
rendimiento(atributos_breast_cancer, objetivo_breast_cancer, feature, 20, 10, False)

0.9327977994227993

In [17]:
feature = ['mean radius']
rendimiento(atributos_breast_cancer, objetivo_breast_cancer, feature, 20, 10, False)

0.7916919191919192

### Pruebas Búsqueda secuencial hacia atrás

Ejecutamos el algoritmo de búsqueda secuencial hacia atrás sobre los distintos conjuntos de datos.

#### Conjunto de datos Titanic.csv

##### Aplicar la búsqueda secuencial hacia atrás en los datos (Árbol de decisión)

In [13]:
# Aplicar la búsqueda secuencial hacia atrás en los datos
resultados = busqueda_secuencial_hacia_atras(atributos_titanic, objetivo_titanic)

# Mostrar los resultados en forma de tabla
resultados

Unnamed: 0,MejorSolucionTemporal,Tamaño,Rendimiento
7,"[Alone, Pclass, SibSp, Fare, Initial, Family_S...",8,0.813798
6,"[Sex, Alone, Pclass, SibSp, Fare, Initial, Fam...",9,0.813519
8,"[Alone, Pclass, SibSp, Fare, Initial, Family_S...",7,0.812818
4,"[Sex, Alone, Pclass, SibSp, Parch, Fare, Initi...",11,0.812476
9,"[Pclass, SibSp, Fare, Initial, Family_Size, Ti...",6,0.812351
5,"[Sex, Alone, Pclass, SibSp, Fare, Initial, Fam...",10,0.812164
10,"[Pclass, SibSp, Fare, Initial, Family_Size]",5,0.810955
3,"[Sex, Alone, Deck, Pclass, SibSp, Parch, Fare,...",12,0.810102
11,"[Pclass, SibSp, Fare, Initial]",4,0.808681
2,"[Sex, Embarked, Alone, Deck, Pclass, SibSp, Pa...",13,0.80838


In [14]:
# Aplicar la búsqueda secuencial hacia atrás en los datos
resultados = busqueda_secuencial_hacia_atras(atributos_titanic, objetivo_titanic, 12, 10)

# Mostrar los resultados en forma de tabla
resultados

Unnamed: 0,MejorSolucionTemporal,Tamaño,Rendimiento
7,"[Alone, Pclass, SibSp, Fare, Initial, Family_S...",8,0.812839
6,"[Sex, Alone, Pclass, SibSp, Fare, Initial, Fam...",9,0.812396
8,"[Alone, Pclass, SibSp, Fare, Initial, Family_S...",7,0.812255
9,"[Pclass, SibSp, Fare, Initial, Family_Size, Ti...",6,0.812198
5,"[Sex, Alone, Pclass, SibSp, Parch, Fare, Initi...",10,0.811556
4,"[Sex, Alone, Pclass, SibSp, Parch, Fare, Initi...",11,0.811213
10,"[Pclass, SibSp, Fare, Initial, Family_Size]",5,0.81119
3,"[Sex, Alone, Deck, Pclass, SibSp, Parch, Fare,...",12,0.809654
11,"[Pclass, SibSp, Fare, Initial]",4,0.808286
2,"[Sex, Embarked, Alone, Deck, Pclass, SibSp, Pa...",13,0.806569


##### Aplicar la búsqueda secuencial hacia atrás en los datos (Naive Bayes)

In [15]:
# Aplicar la búsqueda secuencial hacia atrás en los datos
resultados = busqueda_secuencial_hacia_atras(atributos_discretizados_titanic, objetivo_titanic,naiveBayes=True)

# Mostrar los resultados en forma de tabla
resultados

Unnamed: 0,MejorSolucionTemporal,Tamaño,Rendimiento
4,"[Sex, Embarked, Alone, Deck, Pclass, Age, Parc...",11,0.79589
2,"[Sex, Embarked, Alone, Deck, Pclass, Age, SibS...",13,0.795065
3,"[Sex, Embarked, Alone, Deck, Pclass, Age, SibS...",12,0.794981
7,"[Sex, Embarked, Alone, Deck, Initial, Age_band...",8,0.792826
5,"[Sex, Embarked, Alone, Deck, Pclass, Age, Init...",10,0.792387
6,"[Sex, Embarked, Alone, Deck, Age, Initial, Age...",9,0.792131
8,"[Sex, Alone, Deck, Initial, Age_band, Family_S...",7,0.79157
9,"[Sex, Alone, Deck, Initial, Age_band, Title]",6,0.78299
13,"[Initial, Age_band]",2,0.780246
11,"[Sex, Initial, Age_band, Title]",4,0.779337


In [16]:
# Aplicar la búsqueda secuencial hacia atrás en los datos
resultados = busqueda_secuencial_hacia_atras(atributos_discretizados_titanic, objetivo_titanic, 12, 10, naiveBayes=True)

# Mostrar los resultados en forma de tabla
resultados

Unnamed: 0,MejorSolucionTemporal,Tamaño,Rendimiento
4,"[Sex, Embarked, Alone, Deck, Pclass, Age, Parc...",11,0.79589
2,"[Sex, Embarked, Alone, Deck, Pclass, Age, SibS...",13,0.795065
3,"[Sex, Embarked, Alone, Deck, Pclass, Age, SibS...",12,0.794981
7,"[Sex, Embarked, Alone, Deck, Initial, Age_band...",8,0.792826
5,"[Sex, Embarked, Alone, Deck, Pclass, Age, Init...",10,0.792387
6,"[Sex, Embarked, Alone, Deck, Age, Initial, Age...",9,0.792131
8,"[Sex, Alone, Deck, Initial, Age_band, Family_S...",7,0.79157
9,"[Sex, Alone, Deck, Initial, Age_band, Title]",6,0.78299
13,"[Initial, Age_band]",2,0.780246
11,"[Sex, Initial, Age_band, Title]",4,0.779337


In [43]:
# Aplicar la búsqueda secuencial hacia atrás en los datos
resultados = busqueda_secuencial_hacia_atras(atributos_discretizados_titanic, objetivo_titanic, 12, 7, naiveBayes=True)

# Mostrar los resultados en forma de tabla
resultados

Unnamed: 0,MejorSolucionTemporal,Tamaño,Rendimiento
3,"[Sex, Embarked, Alone, Deck, Pclass, Age, SibS...",12,0.799087
5,"[Sex, Embarked, Alone, Deck, Pclass, Parch, In...",10,0.797949
4,"[Sex, Embarked, Alone, Deck, Pclass, Age, Parc...",11,0.797076
2,"[Sex, Embarked, Alone, Deck, Pclass, Age, SibS...",13,0.795064
6,"[Sex, Embarked, Alone, Deck, Pclass, Parch, In...",9,0.793226
7,"[Sex, Embarked, Alone, Deck, Pclass, Initial, ...",8,0.793011
9,"[Sex, Embarked, Pclass, Initial, Age_band, Title]",6,0.786958
8,"[Sex, Embarked, Deck, Pclass, Initial, Age_ban...",7,0.784276
13,"[Initial, Age_band]",2,0.780127
10,"[Sex, Pclass, Initial, Age_band, Title]",5,0.778212


#### Conclusión

Tras la ejecución de los cinco algoritmos de búsqueda hacia atrás con el conjunto de datos de titanic, y ver los resultados podemos obtener una serie de conclusiones:

- En las ejecuciones en las que se usa el mismo metodo de evaluación, es decir, los dos de árbol de decisión y los dos de Naive Bayes, no hay una gran diferencia en los rendimientos.
  
- Después encontramos que en el caso de los metodos con arbol de decisión, el rendimiento es mas alto en el que se realizan menos números de experimentos (n_exp). Ya que al tratar menos los datos no se estabilizan de la misma manera que el de mayor número de experimentos.
  
- En el caso de Naive Bayes, al contrario que el árbol de decision, observamos que es uniforme, que aunque aumentemos el número de experimentos pero no el cv, encontramos que el rendimiento se mantiene uniforme, al igual que el orden de los conjuntos. Sin embargo, al disminuir o aumentar el cv el rendimiento cambia, en este caso pasamos de 10 a 7, y observamos que el rendimiento ha aumentado.

- Por último, observamos que entrenar los datos con el árbol de decisián es más eficaz que hacerlo con Naive Bayes ya que obtenemos mayor rendimiento, aunque con Naive Bayes los conjuntos siempre estan en el mismo orden, por lo que al cambiar los hiperpárametros solo se altera el rendimiento.

#### Conjunto de datos BreastCancer.csv

##### Aplicar la búsqueda secuencial hacia atrás en los datos (Árbol de decisión)

In [17]:
# Aplicar la búsqueda secuencial hacia atrás en los datos
resultados = busqueda_secuencial_hacia_atras(atributos_breast_cancer, objetivo_breast_cancer)

# Mostrar los resultados en forma de tabla
resultados

Unnamed: 0,MejorSolucionTemporal,Tamaño,Rendimiento
13,"[mean radius, mean texture, mean smoothness, m...",17,0.955953
15,"[mean radius, mean texture, mean smoothness, m...",15,0.954848
14,"[mean radius, mean texture, mean smoothness, m...",16,0.954801
12,"[mean radius, mean texture, mean smoothness, m...",18,0.954758
17,"[mean radius, mean texture, mean smoothness, m...",13,0.954671
11,"[mean radius, mean texture, mean perimeter, me...",19,0.954462
16,"[mean radius, mean texture, mean smoothness, m...",14,0.954102
10,"[mean radius, mean texture, mean perimeter, me...",20,0.95332
18,"[mean radius, mean texture, mean concavity, me...",12,0.953284
19,"[mean radius, mean texture, mean concavity, me...",11,0.953105


In [18]:
# Aplicar la búsqueda secuencial hacia atrás en los datos
resultados = busqueda_secuencial_hacia_atras(atributos_breast_cancer, objetivo_breast_cancer, 14, 8)

# Mostrar los resultados en forma de tabla
resultados

Unnamed: 0,MejorSolucionTemporal,Tamaño,Rendimiento
23,"[mean concavity, mean concave points, concave ...",7,0.958671
22,"[mean concavity, mean concave points, concave ...",8,0.957915
21,"[mean compactness, mean concavity, mean concav...",9,0.956575
20,"[mean compactness, mean concavity, mean concav...",10,0.956154
25,"[mean concave points, concave points error, wo...",5,0.955887
18,"[mean compactness, mean concavity, mean concav...",12,0.955803
24,"[mean concave points, concave points error, wo...",6,0.955527
19,"[mean compactness, mean concavity, mean concav...",11,0.955273
16,"[mean radius, mean area, mean compactness, mea...",14,0.952844
17,"[mean radius, mean compactness, mean concavity...",13,0.952587


##### Aplicar la búsqueda secuencial hacia atrás en los datos (Naive Bayes)

In [19]:
# Aplicar la búsqueda secuencial hacia atrás en los datos
resultados = busqueda_secuencial_hacia_atras(atributos_discretizados_breast, objetivo_breast_cancer, naiveBayes=True)

# Mostrar los resultados en forma de tabla
resultados

Unnamed: 0,MejorSolucionTemporal,Tamaño,Rendimiento
22,"[mean perimeter, symmetry error, worst texture...",8,0.916522
26,"[mean perimeter, symmetry error, worst concave...",4,0.916522
25,"[mean perimeter, symmetry error, worst concave...",5,0.916522
21,"[mean perimeter, symmetry error, fractal dimen...",9,0.916522
23,"[mean perimeter, symmetry error, worst area, w...",7,0.916522
24,"[mean perimeter, symmetry error, worst compact...",6,0.916522
28,"[mean perimeter, worst concave points]",2,0.914141
27,"[mean perimeter, worst concave points, worst s...",3,0.914141
20,"[mean perimeter, symmetry error, fractal dimen...",10,0.914141
19,"[mean perimeter, mean smoothness, symmetry err...",11,0.912168


In [44]:
# Aplicar la búsqueda secuencial hacia atrás en los datos
resultados = busqueda_secuencial_hacia_atras(atributos_discretizados_breast, objetivo_breast_cancer, 14, 7, naiveBayes=True)

# Mostrar los resultados en forma de tabla
resultados

Unnamed: 0,MejorSolucionTemporal,Tamaño,Rendimiento
28,"[mean radius, worst concave points]",2,0.917561
27,"[mean radius, worst concave points, worst symm...",3,0.917561
26,"[mean radius, worst compactness, worst concave...",4,0.917561
25,"[mean radius, worst area, worst compactness, w...",5,0.917561
24,"[mean radius, worst texture, worst area, worst...",6,0.917561
23,"[mean radius, fractal dimension error, worst t...",7,0.917561
22,"[mean radius, symmetry error, fractal dimensio...",8,0.917561
21,"[mean radius, area error, symmetry error, frac...",9,0.917561
20,"[mean radius, mean concave points, area error,...",10,0.917561
19,"[mean radius, mean compactness, mean concave p...",11,0.91518


In [20]:
# Aplicar la búsqueda secuencial hacia atrás en los datos
resultados = busqueda_secuencial_hacia_atras(atributos_discretizados_breast, objetivo_breast_cancer, 14, 8, naiveBayes=True)

# Mostrar los resultados en forma de tabla
resultados

Unnamed: 0,MejorSolucionTemporal,Tamaño,Rendimiento
15,"[mean radius, mean concave points, texture err...",15,0.917698
23,"[mean radius, fractal dimension error, worst t...",7,0.917698
18,"[mean radius, area error, smoothness error, co...",12,0.917698
19,"[mean radius, smoothness error, concavity erro...",11,0.917698
20,"[mean radius, concavity error, concave points ...",10,0.917698
21,"[mean radius, concave points error, symmetry e...",9,0.917698
17,"[mean radius, perimeter error, area error, smo...",13,0.917698
22,"[mean radius, symmetry error, fractal dimensio...",8,0.917698
24,"[mean radius, worst texture, worst area, worst...",6,0.917698
25,"[mean radius, worst area, worst concavity, wor...",5,0.917698


Tras la ejecución de los cinco algoritmos de búsqueda hacia atrás con el conjunto de datos de breast cancer, y ver los resultados podemos obtener una serie de conclusiones:

- En las ejecuciones en las que se usa el mismo metodo de evaluación, es decir, los dos de árbol de decision y los dos de Naive Bayes, no hay una gran diferencia en los rendimientos.
  
- Después encontramos que en el caso de los metodos con árbol de decisión, el rendimiento es mas alto en el que se realizan mas números de experimentos (n_exp).
  
- En el caso de Naive Bayes, observamos que es similar al metodo de árbol de decisión, pero al aumentar el numero de experimentos vemos un ligero aumento del rendimiento, además de ver afectado el orden de los conjuntos. En cv no tiene un gran impacto en este conjunto de datos.

- Por último, observamos que entrenar los datos con el árbol de decisión en mas eficaz que hacerlo con Naive Bayes ya que obtenemos mayor rendimiento.

### Pruebas Búsqueda secuencial hacia atrás mixta

De forma analoga esta vez procedemos utilizando el algoritmo de búsqueda secuencial hacia atrás mixta sobre los conjuntos de datos.

#### Conjunto de datos Titanic.csv

##### Aplicar la búsqueda secuencial hacia atrás mixta en los datos (Árbol de decisión)

In [49]:
# Aplicar la búsqueda secuencial hacia atrás mixta en los datos
resultados = busqueda_secuencial_hacia_atras_mixta(atributos_titanic, objetivo_titanic)

# Mostrar los resultados en forma de tabla
resultados

Unnamed: 0,MejorSolucionTemporal,Tamaño,Rendimiento
16,"[Deck, Pclass, SibSp, Parch, Fare, Initial, Fa...",8,0.812159
13,"[Deck, Pclass, SibSp, Parch, Fare, Initial, Fa...",8,0.811782
14,"[Deck, Pclass, SibSp, Parch, Fare, Initial, Fa...",8,0.811782
10,"[Sex, Deck, Pclass, SibSp, Parch, Fare, Initia...",10,0.811669
9,"[Sex, Deck, Pclass, SibSp, Parch, Fare, Initia...",10,0.811669
12,"[Deck, Pclass, SibSp, Parch, Fare, Initial, Fa...",9,0.811666
11,"[Deck, Pclass, SibSp, Parch, Fare, Initial, Fa...",9,0.811666
18,"[Pclass, SibSp, Parch, Fare, Initial, Family_S...",8,0.811418
17,"[Pclass, SibSp, Parch, Fare, Initial, Family_S...",7,0.811417
30,"[Sex, Deck, Is_Married, Family_Size, SibSp, Pc...",8,0.811044


In [50]:
# Aplicar la búsqueda secuencial hacia atrás mixta en los datos
resultados = busqueda_secuencial_hacia_atras_mixta(atributos_titanic, objetivo_titanic, 8, 7)

# Mostrar los resultados en forma de tabla
resultados

Unnamed: 0,MejorSolucionTemporal,Tamaño,Rendimiento
10,"[Embarked, Alone, Deck, Pclass, SibSp, Parch, ...",12,0.802917
14,"[Embarked, Deck, Pclass, SibSp, Parch, Fare, I...",12,0.802069
8,"[Embarked, Alone, Deck, Pclass, SibSp, Parch, ...",12,0.80172
30,"[Sex, Is_Married, Family_Size, Alone, Title, E...",12,0.801608
26,"[Pclass, Fare, Sex, Is_Married, Family_Size, A...",12,0.801604
13,"[Embarked, Deck, Pclass, SibSp, Parch, Fare, I...",11,0.801457
6,"[Embarked, Alone, Deck, Pclass, SibSp, Parch, ...",12,0.801405
5,"[Embarked, Alone, Deck, Pclass, SibSp, Parch, ...",12,0.801405
18,"[Deck, Pclass, SibSp, Parch, Fare, Initial, Se...",12,0.801351
22,"[Deck, Pclass, SibSp, Fare, Sex, Is_Married, F...",12,0.801277


##### Aplicar la búsqueda secuencial hacia atrás mixta en los datos (Naive Bayes)

In [23]:
# Aplicar la búsqueda secuencial hacia atrás mixta en los datos
resultados = busqueda_secuencial_hacia_atras_mixta(atributos_discretizados_titanic, objetivo_titanic, naiveBayes = True)

# Mostrar los resultados en forma de tabla
resultados

Unnamed: 0,MejorSolucionTemporal,Tamaño,Rendimiento
10,"[Sex, Embarked, Alone, Deck, Pclass, Parch, In...",12,0.799087
8,"[Sex, Embarked, Alone, Deck, Pclass, Age, Parc...",12,0.799087
30,"[SibSp, Age, Parch, Pclass, Family_Size, Deck,...",12,0.799087
28,"[Sex, SibSp, Age, Parch, Pclass, Family_Size, ...",12,0.799087
26,"[Sex, Initial, SibSp, Age, Parch, Pclass, Fami...",12,0.799087
24,"[Sex, Alone, Initial, SibSp, Age, Parch, Pclas...",12,0.799087
22,"[Sex, Embarked, Alone, Initial, SibSp, Age, Pa...",12,0.799087
20,"[Sex, Embarked, Alone, Initial, Title, SibSp, ...",12,0.799087
18,"[Sex, Embarked, Alone, Initial, Age_band, Titl...",12,0.799087
16,"[Sex, Embarked, Alone, Deck, Initial, Age_band...",12,0.799087


In [45]:
# Aplicar la búsqueda secuencial hacia atrás mixta en los datos
resultados = busqueda_secuencial_hacia_atras_mixta(atributos_discretizados_titanic, objetivo_titanic, 7, 7, naiveBayes = True)

# Mostrar los resultados en forma de tabla
resultados

Unnamed: 0,MejorSolucionTemporal,Tamaño,Rendimiento
10,"[Sex, Embarked, Alone, Deck, Pclass, Parch, In...",12,0.799087
8,"[Sex, Embarked, Alone, Deck, Pclass, Age, Parc...",12,0.799087
30,"[SibSp, Age, Parch, Pclass, Family_Size, Deck,...",12,0.799087
28,"[Sex, SibSp, Age, Parch, Pclass, Family_Size, ...",12,0.799087
26,"[Sex, Initial, SibSp, Age, Parch, Pclass, Fami...",12,0.799087
24,"[Sex, Alone, Initial, SibSp, Age, Parch, Pclas...",12,0.799087
22,"[Sex, Embarked, Alone, Initial, SibSp, Age, Pa...",12,0.799087
20,"[Sex, Embarked, Alone, Initial, Title, SibSp, ...",12,0.799087
18,"[Sex, Embarked, Alone, Initial, Age_band, Titl...",12,0.799087
16,"[Sex, Embarked, Alone, Deck, Initial, Age_band...",12,0.799087


In [24]:
# Aplicar la búsqueda secuencial hacia atrás mixta en los datos
resultados = busqueda_secuencial_hacia_atras_mixta(atributos_discretizados_titanic, objetivo_titanic, 7, 10, naiveBayes = True)

# Mostrar los resultados en forma de tabla
resultados

Unnamed: 0,MejorSolucionTemporal,Tamaño,Rendimiento
6,"[Sex, Embarked, Alone, Deck, Pclass, Age, SibS...",13,0.795065
8,"[Sex, Embarked, Alone, Deck, Pclass, SibSp, Pa...",13,0.795065
30,"[Fare, Age, Pclass, SibSp, Family_Size, Parch,...",13,0.795065
28,"[Initial, Fare, Age, Pclass, SibSp, Family_Siz...",13,0.795065
26,"[Sex, Initial, Fare, Age, Pclass, SibSp, Famil...",13,0.795065
24,"[Sex, Embarked, Initial, Fare, Age, Pclass, Si...",13,0.795065
22,"[Sex, Embarked, Initial, Age_band, Fare, Age, ...",13,0.795065
20,"[Sex, Embarked, Initial, Age_band, Title, Fare...",13,0.795065
18,"[Sex, Embarked, Alone, Initial, Age_band, Titl...",13,0.795065
16,"[Sex, Embarked, Alone, Deck, Initial, Age_band...",13,0.795065


Tras la ejecución de los cinco algoritmos de búsqueda hacia atrás mixta con el conjunto de datos de titanic, y ver los resultados podemos obtener una serie de conclusiones:

- En las ejecuciones en las que se usa el mismo metodo de evaluación, es decir, los dos de árbol de decisión y los dos de Naive Bayes, encontramos bastantes diferencias al cambiarles los hiperpárametros, en las búsquedas con arbol de decisión, sobre todo en los conjuntos que devuelve como resultado.
  
- Observamos que con Naive Bayes, encontramos mucha uniformidad, sobre todo con la repetición del conjunto de 12 variables.
  
- Con Naive Bayes no hay grandes cambios al sustituir los hiperparametros. Sin embargo, con el arbol de decisión encontramos que loe conjuntos cambian bastante sobre todo al añadir numero de experimentos.

- Por ultimo, observamos que entrenar los datos con el arbol de decisión en mas eficaz que hacerlo con Naive Bayes ya que obtenemos mayor rendimiento.

#### Conjunto de datos BreastCancer.csv

##### Aplicar la búsqueda secuencial hacia atrás mixta en los datos (Árbol de decisión)

In [51]:
# Aplicar la búsqueda secuencial hacia atrás mixta en los datos
resultados = busqueda_secuencial_hacia_atras_mixta(atributos_breast_cancer, objetivo_breast_cancer)

# Mostrar los resultados en forma de tabla
resultados

Unnamed: 0,MejorSolucionTemporal,Tamaño,Rendimiento
19,"[mean radius, mean texture, mean area, mean sm...",20,0.949529
20,"[mean radius, mean texture, mean area, mean sm...",20,0.949529
17,"[mean radius, mean texture, mean area, mean sm...",21,0.948832
18,"[mean radius, mean texture, mean area, mean sm...",21,0.948832
15,"[mean radius, mean texture, mean area, mean sm...",22,0.946272
16,"[mean radius, mean texture, mean area, mean sm...",22,0.946272
13,"[mean radius, mean texture, mean area, mean sm...",23,0.942445
14,"[mean radius, mean texture, mean area, mean sm...",23,0.942445
11,"[mean radius, mean texture, mean perimeter, me...",24,0.942316
12,"[mean radius, mean texture, mean perimeter, me...",24,0.942316


In [52]:
# Aplicar la búsqueda secuencial hacia atrás mixta en los datos
resultados = busqueda_secuencial_hacia_atras_mixta(atributos_breast_cancer, objetivo_breast_cancer, 8, 8 )

# Mostrar los resultados en forma de tabla
resultados

Unnamed: 0,MejorSolucionTemporal,Tamaño,Rendimiento
12,"[mean radius, mean texture, mean perimeter, me...",24,0.949517
11,"[mean radius, mean texture, mean perimeter, me...",24,0.949517
15,"[mean texture, mean perimeter, mean area, mean...",22,0.946943
16,"[mean texture, mean perimeter, mean area, mean...",22,0.946943
19,"[mean texture, mean perimeter, mean area, mean...",20,0.946799
20,"[mean texture, mean perimeter, mean area, mean...",20,0.946799
13,"[mean texture, mean perimeter, mean area, mean...",23,0.946637
14,"[mean texture, mean perimeter, mean area, mean...",23,0.946637
10,"[mean radius, mean texture, mean perimeter, me...",25,0.945911
9,"[mean radius, mean texture, mean perimeter, me...",25,0.945911


##### Aplicar la búsqueda secuencial hacia atrás mixta en los datos (Naive Bayes)

In [55]:
# Aplicar la búsqueda secuencial hacia atrás mixta en los datos
resultados = busqueda_secuencial_hacia_atras_mixta(atributos_discretizados_breast, objetivo_breast_cancer, naiveBayes=True)

# Mostrar los resultados en forma de tabla
resultados

Unnamed: 0,MejorSolucionTemporal,Tamaño,Rendimiento
39,"[mean radius, mean perimeter, mean compactness...",12,0.902237
27,"[mean radius, mean perimeter, mean compactness...",18,0.902237
40,"[mean radius, mean perimeter, mean compactness...",12,0.902237
22,"[mean radius, mean perimeter, mean compactness...",21,0.902237
21,"[mean radius, mean perimeter, mean compactness...",21,0.902237
24,"[mean radius, mean perimeter, mean compactness...",20,0.902237
23,"[mean radius, mean perimeter, mean compactness...",20,0.902237
26,"[mean radius, mean perimeter, mean compactness...",19,0.902237
25,"[mean radius, mean perimeter, mean compactness...",19,0.902237
28,"[mean radius, mean perimeter, mean compactness...",18,0.902237


In [53]:
# Aplicar la búsqueda secuencial hacia atrás mixta en los datos
resultados = busqueda_secuencial_hacia_atras_mixta(atributos_discretizados_breast, objetivo_breast_cancer, 10, 7, naiveBayes=True)

# Mostrar los resultados en forma de tabla
resultados

Unnamed: 0,MejorSolucionTemporal,Tamaño,Rendimiento
46,"[mean radius, fractal dimension error, worst t...",10,0.917561
42,"[mean radius, concavity error, concave points ...",12,0.917561
41,"[mean radius, concavity error, concave points ...",12,0.917561
44,"[mean radius, concave points error, fractal di...",11,0.917561
43,"[mean radius, concave points error, fractal di...",11,0.917561
...,...,...,...
4,"[mean radius, mean texture, mean perimeter, me...",28,0.871397
2,"[mean radius, mean texture, mean perimeter, me...",29,0.869093
1,"[mean radius, mean texture, mean perimeter, me...",29,0.869093
0,"[mean radius, mean texture, mean perimeter, me...",30,0.863911


In [56]:
# Aplicar la búsqueda secuencial hacia atrás mixta en los datos
resultados = busqueda_secuencial_hacia_atras_mixta(atributos_discretizados_breast, objetivo_breast_cancer, 8, 8, naiveBayes=True)

# Mostrar los resultados en forma de tabla
resultados

Unnamed: 0,MejorSolucionTemporal,Tamaño,Rendimiento
45,"[mean radius, fractal dimension error, worst t...",10,0.919087
46,"[mean radius, fractal dimension error, worst t...",10,0.919087
43,"[mean radius, symmetry error, fractal dimensio...",11,0.911248
44,"[mean radius, symmetry error, fractal dimensio...",11,0.911248
33,"[mean radius, area error, smoothness error, co...",16,0.904531
28,"[mean radius, radius error, texture error, per...",19,0.904531
27,"[mean radius, radius error, texture error, per...",19,0.904531
30,"[mean radius, texture error, perimeter error, ...",18,0.904531
29,"[mean radius, texture error, perimeter error, ...",18,0.904531
32,"[mean radius, perimeter error, area error, smo...",17,0.904531


Tras la ejecución de los cinco algoritmos de búsqueda hacia atrás mixta con el conjunto de datos de breast cancer, y ver los resultados podemos obtener una serie de conclusiones:

- En las ejecuciones en las que se usa el mismo metodo de evaluacion, es decir, los dos de árbol de decision y los tres de Naive Bayes, no encontramos demasiadas diferencias al cambiarles los hiperpárametros, en las búsquedas con árbol de decisión y Naive Bayes, solo que el número de conjuntos devueltos es mucho mayor en Naive Bayes.
  
- Observamos mucha uniformidad, ya que todos los conjuntos son superiores a 10 variables.

- Por último, observamos que entrenar los datos con el árbol de decisión en mas eficaz que hacerlo con Naive Bayes ya que obtenemos mayor rendimiento.