#Selección de atributos en modelos predictivos
##Introducción
El objetivo de este capítulo es explicar cómo seleccionar los atributos para el modelo predictivo.
Para ello, se utilizarán algoritmos genéticos para la selección de atributos dado un método de clasificación.
Los métodos de clasificación que se utilizarán en este capítulo son:	
* **K-Nearest Neighbors**: Un algoritmo de clasificación que utiliza una serie de puntos de entrenamiento para clasificar un nuevo punto.
* **Decision Tree**: Un algoritmo de clasificación que utiliza un árbol de decisión para clasificar un nuevo punto.
* **Naive Bayes**: Un algoritmo de clasificación que utiliza una función de probabilidad para clasificar un nuevo punto.



In [4]:
import sklearn.neighbors.kneighbors_classifier as knc
import sklearn.metrics as metrics
import sklearn.tree.decisiontree as dt
import sklearn.naive_bayes as nb


def knn(X, y, k):
    knc = knc.KNeighborsClassifier(k)
    knc.fit(X, y)
    return knc

def decision_tree(X, y):
    dtc = dt.DecisionTreeClassifier()
    dtc.fit(X, y)
    return dtc

def naive_bayes(X, y):
    nbc = nb.GaussianNB()
    nbc.fit(X, y)
    return nbc




ModuleNotFoundError: No module named 'sklearn.neighbors.kneighbors_classifier'

##Algoritmos genéticos
Los algoritmos genéticos son una forma de seleccionar los atributos de un modelo predictivo, en base a una función de evaluación o del inglés fitness function. Esta función define la aptitud de un cromosoma para ser seleccionado. Los cromosomas son posibles soluciones del problema en cuestión. En nuestro caso, los cromosomas serán los atributos a usar en el modelo predictivo.

El algoritmo genético simple sigue la siguiente estructura:
*Begin* /Comienzo del algoritmo genético simple/
Generar una población inicial de cromosomas.
Evaluar la población inicial.
*Reproducción* /Reproducción/
While (NOT condición de parada)
    *Begin* /Comienzo de la reproducción/
    For Tamaño de la población / 2
        *Begin* /Comienzo del ciclo reproductivo/
        Seleccionar dos cromosomas de la población.
        Cruza los cromosomas seleccionados con cierto porcentaje de probabilidad y genera dos nuevos cromosomas.
        Muta los cromosomas generados con cierto porcentaje de probabilidad.
        Evalua los nuevos cromosomas.
        Inserta los nuevos cromosomas en la población siguiente.
        *End* /Fin del ciclo reproductivo/
    *End* /Fin de la reproducción/
    if (condición de parada)
        *End* /Fin del algoritmo genético simple/
*End* /Fin del algoritmo genético simple/

En nuestro caso, la función de evaluación será la precisión del modelo predictivo seleccionado. Para implementar el algoritmo genético simple, se utilizará una función del framework scikit-learn pensada precisamente para resolver algoritmos genéticos.

In [10]:
import sklearngenetic.Genetic_Selection.GeneticSelectionCV as gscv
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

def load_data(path):
    data = pd.read_csv(path)
    return data

def select_attributes(data, model):
    #Seleccionar atributo de clasificación, dado los datos de entrada que se encuentra en la ultima columna de nuestros datos
    target = data.columns[-1]
    x = data.drop([target], axis=1)
    y = data[target].astype(float)
    solver = gscv.GeneticSelectionCV(model, scoring='accuracy', n_jobs=-1)
    solver.fit(x, y)
    return x.columns[solver.support_]


cancer = load_data('conjuntos_de_datos/BreastCancerDataset.csv')
model = dt.DecisionTreeClassifier()
cancer_attributes = select_attributes(cancer, model)
print(cancer_attributes)

ModuleNotFoundError: No module named 'sklearngenetic'