# Selección de características en modelos predictivos

Este proyecto es para IA de Moisés Calzado Cobo y Antonio Germán Márquez Trujillo

Estos archivos contienen los algoritmos implementados, pero no los importamos ya que en esta libreta los implementamos explicando su funcionamiento


In [1]:
import pandas as pandas
import time
import numpy as np
import matplotlib.pyplot as plt
import multiprocessing as mp
from sklearn.model_selection import cross_val_score
from sklearn import tree
from funcy import join
from sklearn import preprocessing
pandas.set_option('max_colwidth', 800)

In [2]:
datos = pandas.read_csv("datos/titanic.csv")
#datos = pandas.read_csv("datos/BreastCancerDataset.csv")
datos.head()

Unnamed: 0,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked,Initial,Age_band,Family_Size,Alone,Fare_cat,Deck,Title,Is_Married,Survived
0,3,0,22.0,1,0,7.25,0,0,1,1,0,0,7,11,0,0
1,1,1,38.0,1,0,71.2833,1,1,2,1,0,3,2,12,1,1
2,3,1,26.0,0,0,7.925,0,2,1,0,1,1,7,8,0,1
3,1,1,35.0,1,0,53.1,0,1,2,1,0,3,2,12,1,1
4,3,0,35.0,0,0,8.05,0,0,2,0,1,1,7,11,0,0


In [3]:
def evaluar_soluciones(datos, solucion_actual, nueva_variable, objetivo, n_exp, cv):
    variables = solucion_actual[:]
    variables.append(nueva_variable)
    data_frame = pandas.DataFrame(data=datos)
    X = data_frame[variables]
    y = data_frame[objetivo]
    clf = tree.DecisionTreeClassifier()
    
    scores = cross_val_score(clf, X, y, cv=cv, scoring="balanced_accuracy")
    
    for i in range(n_exp-1):
        new_scores = cross_val_score(clf, X, y, cv=cv, scoring="balanced_accuracy") 
        scores = scores + new_scores
    
    scores = scores/n_exp
    clave = ', '.join(variables)
    
    diccionario_resultado = {}
    diccionario_resultado[clave] = np.mean(scores)
    return diccionario_resultado

In [4]:
def evaluar_soluciones_eliminando(datos, solucion_actual, variable_a_eliminar, objetivo, n_exp, cv):
    variables = solucion_actual[:]
    variables.remove(variable_a_eliminar)
    if len(variables) < 1:
        return
    data_frame = pandas.DataFrame(data=datos)
    X = data_frame[variables]
    y = data_frame[objetivo]
    clf = tree.DecisionTreeClassifier()
    
    scores = cross_val_score(clf, X, y, cv=cv, scoring="balanced_accuracy")
    
    for i in range(n_exp-1):
        new_scores = cross_val_score(clf, X, y, cv=cv, scoring="balanced_accuracy") 
        scores = scores + new_scores
    
    scores = scores/n_exp
    clave = ', '.join(variables)
    
    diccionario_resultado = {}
    diccionario_resultado[clave] = np.mean(scores)
    return diccionario_resultado

Algoritmo SFS paralelizado:

In [6]:
def SFS(datos, respuesta, d = 0):
    start = time.time()

    diccionario_resultado = {}
    columnas = list(datos.columns)
    columnas.remove(respuesta)
    solucion_actual = []

    k = 0
    d = d if d else len(columnas)
    
    while(k<d):
        pool = mp.Pool(mp.cpu_count())
        new_resultados = pool.starmap(evaluar_soluciones, [(datos, solucion_actual, nuevaVariable, respuesta, 15, 10) for nuevaVariable in columnas])
        pool.close()
        resultado = join(new_resultados)
        
        variable_escogida = max(resultado, key=resultado.get)
        variables_nuevas = variable_escogida.split(", ")
        solucion_actual.append(variables_nuevas[len(variables_nuevas)-1])
        columnas.remove(variables_nuevas[len(variables_nuevas)-1])

        k = k+1
        
        diccionario_resultado[variable_escogida] = resultado[variable_escogida]
    
    done = time.time()
    elapsed = done - start
    print("Tiempo empleado: ", elapsed)
    return diccionario_resultado

In [7]:
resultado_SFS = SFS(datos, "diagnosis", 3)

ValueError: list.remove(x): x not in list

Algoritmo SFFS paralelizado:

In [19]:
def SFFS(datos, respuesta):
    start = time.time()
    diccionario_resultado = {}
    soluciones_actual = []
    añadidos = []
    eliminados = []
    columnas = list(datos.columns)
    k = 0
    
    #Compruebo que la variable a predecir no esté en mi conjunto de variables a evaluar
    if respuesta in columnas:
        columnas.remove(respuesta)
    
    while(k<10):
        resultado = []
        score_resultado = 0
        score_resultado_eliminado = 0
        resultado_eliminado = []
        eliminado = ''
        
        #Actualizo el listado de columnas que tengo que evaluar
        columnas_a_evaluar = [x for x in columnas if (x not in añadidos and x not in soluciones_actual)]
        
        if columnas_a_evaluar == []:
            break
        
        #Calculamos el nuevo resultado óptimo
        pool = mp.Pool(mp.cpu_count())
        new_resultados = pool.starmap(evaluar_soluciones, [(datos, soluciones_actual, nuevaVariable, respuesta, 15, 10) for nuevaVariable in columnas_a_evaluar])
        pool.close()
        resultado = join(new_resultados)
        variable_escogida = max(resultado, key=resultado.get)
        variables_nuevas = variable_escogida.split(", ")

        score_resultado = resultado[variable_escogida]
        
        # Añadimos a nuestras soluciones la variable escogida
        soluciones_actual.append(variables_nuevas[len(variables_nuevas)-1])
        añadidos.append(variables_nuevas[len(variables_nuevas)-1])
                        
        # Pasamos a eliminar variables para comprobar si tengo mejores resultados
        if len(soluciones_actual) > 1:
            variables_a_eliminar = [x for x in soluciones_actual if x not in eliminados]

            pool = mp.Pool(mp.cpu_count())
            new_resultados = pool.starmap(evaluar_soluciones_eliminando, [(datos, soluciones_actual, variable_a_eliminar, respuesta, 15, 10) for variable_a_eliminar in variables_a_eliminar])
            pool.close()
            resultado = join(new_resultados)
            variable_a_eliminar = max(resultado, key=resultado.get)
            variables_nuevas = variable_a_eliminar.split(", ")
            
            score_resultado_eliminado = resultado[variable_a_eliminar]
            
            print("Score sin eliminar: ", score_resultado)
            print("Score eliminado: ", score_resultado_eliminado, " Variable eliminada: ", variables_nuevas[len(variables_nuevas)-1])
            print()
            
            if score_resultado < score_resultado_eliminado:
                soluciones_actual.remove(variables_nuevas[len(variables_nuevas)-1])
                eliminados.append(variables_nuevas[len(variables_nuevas)-1])
                score_resultado = score_resultado_eliminado
                k = 0
            print(eliminados)
                        
        if len(columnas) == len(datos.columns)-1:
            k = k+1
        
        if len(añadidos)<len(columnas):
            clave = ', '.join(soluciones_actual)
            diccionario_resultado[clave] = score_resultado
            
    done = time.time()
    elapsed = done - start
    print("Tiempo empleado: ", elapsed)
    return diccionario_resultado        

In [20]:
resultado_SFFS = SFFS(datos, "Survived")

Score sin eliminar:  0.8052182893359363
Score eliminado:  0.7833541295306  Variable eliminada:  Initial

[]
Score sin eliminar:  0.8077201991907874
Score eliminado:  0.8052182893359363  Variable eliminada:  SibSp

[]
Score sin eliminar:  0.8095172452819513
Score eliminado:  0.8077201991907874  Variable eliminada:  Deck

[]
Score sin eliminar:  0.8157138330079506
Score eliminado:  0.8095172452819513  Variable eliminada:  Fare_cat

[]
Score sin eliminar:  0.8159995472936649
Score eliminado:  0.8157138330079506  Variable eliminada:  Title

[]
Score sin eliminar:  0.8157138330079506
Score eliminado:  0.8159995472936649  Variable eliminada:  Sex

['Sex']


AttributeError: 'str' object has no attribute 'append'

In [None]:
def mostrar_datos(datos):
    datos_tabla = [['Mejor Solución', 'Tamaño', 'Rendimiento']]
    claves = datos.keys()
    
    for clave in claves:
        length = len(clave.split(", "))
        datos_tabla = datos_tabla +[[clave, length, datos[clave]]]

    return pandas.DataFrame(datos_tabla)

In [None]:
mostrar_datos(resultado_SFFS)