# Algoritmos Genéticos
Buenas referencias
https://repository.urosario.edu.co/server/api/core/bitstreams/7ae959ec-81de-435b-aca4-e9bb365e4894/content

Buena documentación (graficos)

https://www.cs.us.es/~fsancho/Blog/posts/Algoritmos_Geneticos.md.html

http://www.robolabo.etsit.upm.es/asignaturas/irin/transparencias/AG.pdf

http://www.sc.ehu.es/ccwbayes/docencia/mmcc/docs/temageneticos.pdf

https://sci2s.ugr.es/sites/default/files/files/Teaching/GraduatesCourses/Bioinformatica/Tema%2006%20-%20AGs%20I.pdf

Individuo o Cromosoma
Compuesto de Genes
Codificación de genes (Binaria, Entera, Real)

## Introducción

Los algoritmos genéticos es un método bastante común en minería de datos. Se inspiran en el **proceso natural de selección y evolución** tal y como se describe por la teoría evolucionista de la selección natural postulada por **Darwin**.

Los **principios** sobre los que se asientan los algoritmos genéticos son:

-   Los individuos mejor adaptados al entorno son aquellos que tienen una probabilidad mayor de sobrevivir y, por ende, de reproducirse.

-   Los descendientes heredan características de sus progenitores.

-   De forma esporádica y natural se producen mutaciones en el material genético de algunos individuos, provocando cambios permanentes.

Los algoritmos genéticos son adecuados para obtener buenas aproximaciones en **problemas de búsqueda, aprendizaje y optimización** \[Marczyk. 2004\].

De forma esquemática un algoritmo genético es una **función matemática** que tomando como entrada unos individuos iniciales (**población origen**) selecciona aquellos **ejemplares** (también llamados individuos o cromosomas) que **recombinándose** por algún método generarán como resultado la **siguiente generación**. Esta función se aplicará de forma **iterativa** hasta verificar alguna condición de parada, bien pueda ser un número máximo de iteraciones o bien la obtención de un individuo que cumpla unas restricciones iniciales.

## Condiciones para la aplicación de los Algoritmos Genéticos

No es posible la aplicación en toda clase de problemas de los algoritmos genéticos. Para que estos puedan aplicarse, los problemas deben cumplir las siguientes condiciones:

-   El **espacio de búsqueda ^[Recordemos que cualquier método de Data Mining se puede asimilar como una búsqueda en el espacio solución, es decir, el espacio formado por todas las posibles soluciones de un problema]** debe estar acotado, por tanto ser **finito**.

-   Es necesario poseer una **función** de aptitud, que denominaremos **fitness**, que evalúe cada solución (individuo) indicándonos de forma cuantitativa cuán buena o mala es una solución concreta.

-   Las **soluciones** deben ser **codificables** en un lenguaje comprensible para un **ordenador**, y si es posible de la forma más **compacta** y abreviada posible.

Habitualmente, la segunda condición es la más complicada de conseguir, para ciertos problemas es trivial la función de fitness (por ejemplo, en el caso de la búsqueda del máximo de una función) no obstante, en la vida real a veces es muy complicada de obtener y, habitualmente, se realizan conjeturas evaluándose los algoritmos con varias funciones de fitness.




## Ventajas e inconvenientes

**Ventajas**

-   No necesitan ningún conocimiento particular del problema sobre el que trabajan, únicamente cada ejemplar debe representar una posible solución al problema.

-   Es un algoritmo admisible, es decir, con un número de iteraciones suficiente son capaces de obtener la solución óptima en problemas de optimización.

-   Los algoritmos genéticos son bastante robustos frente a falsas soluciones ya que al realizar una inspección del espacio solución de forma no lineal (por ejemplo, si quisiéramos obtener el máximo absoluto de una función) el algoritmo no recorre la función de forma consecutiva por lo que no se ve afectada por máximos locales.

-   Altamente paralelizable, es decir, ya que el cálculo no es lineal podemos utilizar varias máquinas para ejecutar el programa y evaluar así un mayor número de casos.

-   Pueden ser incrustrables en muchos algoritmos de data mining para formar modelos híbridos. Por ejemplo para seleccionar el número óptimo de neuronas en un modelo de Perceptrón Multicapa.


**Inconvenientes**

-   Su coste computacional puede llegar a ser muy elevado, si el espacio de trabajo es muy grande.

-   En el caso de que no se haga un correcto ajuste de los parámetros pueden llegar a caer en una situación de dominación en la que se produce un bucle infinito ya que unos individuos dominan sobre los demás impidiendo la evolución de la población y por tanto inhiben la diversidad biológica.

-   Puede llegar a ser muy complicado encontrar una función de evaluación de cada uno de los individuos para seleccionar los mejores de los peores.

## Fundamentos teóricos (conceptos)

A continuación, se explican, someramente, los conceptos básicos de los algoritmos genéticos.

### Codificación de los datos

Cada **individuo o cromosoma** está formado por unos cuantos **genes**. Estos individuos con sus genes los tenemos que representar de forma que podamos codificar esa información.

Los principales métodos de representación son:
- **Binaria:** Los individuos/cromosomas están representados por una serie de genes que son bits ( valores 0 ó 1).

- **Entera:** Los individuos/cromosomas están representados por una serie de genes que son números enteros.

- **Real:** Los individuos/cromosomas están representados por una serie de genes que son números reales en coma flotante.

- **Permutacional:** Los individuos/cromosomas están representados por una serie de genes que son permutaciones de un conjunto de elementos. Se usan en aquellos problemas en los que la secuencia u orden es importante.

- **Basada en árboles:** Los individuos/cromosomas están representados por una serie de genes que son estructuras jerárquicas.


El primer paso para conseguir que un ordenador procese unos **datos** es conseguir **representarlos** de una forma apropiada. En primer término, para codificar los datos, es necesario separar las posibles configuraciones posibles del dominio del problema en un **conjunto** de **estados** **finito**.


Una vez obtenida esta clasificación el objetivo es representar cada **estado** de **forma** **unívoca** con una cadena de caracteres (compuesta en la mayoría de casos por unos y ceros).

A pesar de que cada estado puede codificarse con alfabetos de diferente cardinalidad^[La longitud de las cadenas que representen los posibles estados no es necesario que sea fija, representaciones como la de Kitano para representar operaciones matemáticas son un ejemplo de esto], uno de los resultados fundamentales de la teoría de algoritmos genéticos es el **teorema del esquema**, que afirma que la codificación **óptima** es aquella en la que los algoritmos tienen un alfabeto de cardinalidad, es decir el uso del **alfabeto** **binario**.

El enunciado del **teorema** del **esquema** es el siguiente: «*Esquemas cortos, de bajo orden y aptitud superior al promedio reciben un incremento exponencial de representantes en generaciones subsecuentes de un Algoritmo Genético.*»

Una de las ventajas de usar un alfabeto binario para la construcción de configuraciones de estados es la sencillez de los operadores utilizados para la modificación de estas. En el caso de que el alfabeto sea binario, los operadores se denominan, lógicamente, **operadores** **binarios**. Es importante destacar que variables que estén próximas en el espacio del problema deben preferiblemente estarlo en la codificación ya que la proximidad entre ellas condiciona un elemento determinante en la mutación y reproducibilidad de éstas. Es decir, dos estados que en nuestro espacio de estados del universo del problema que están consecutivos deberían estarlo en la representación de los datos, esto es útil para que cuando haya mutaciones los saltos se den entre estados consecutivos. En términos generales cumplir esta premisa mejora experimentalmente los resultados obtenidos con algoritmos genéticos.

En la práctica el factor que condiciona en mayor grado el fracaso o el **éxito** de la aplicación de algoritmos genéticos a un problema dado es una **codificación** **acorde** con los **datos**.

Otra opción muy común es establecer a cada uno de los posibles casos un **número** **natural** y luego codificar ese número en binario natural, de esta forma minimizamos el problema que surge al concatenar múltiples variables independientes en el que su representación binaria diera lugar a numerosos huecos que produjeran soluciones no válidas. Por ejemplo, tenemos 3 variables, las dos primeras tienen 3 posibles estados y la última dos, el número posible de estados es 3+3+2 = 8, combinando las 3 variables podemos codificar todo con 3 bits en comparación con los 2+2+1 = 5 bits necesarios que utilizaríamos en el caso de realizar el procedimiento anterior. En este ejemplo no sólo ahorraríamos espacio sino que además evitaríamos que se produjeran individuos cuya solución no es factible.

### Algoritmo

Un algoritmo genético implementado en **pseudo código** podría ser el siguiente:

`Generar de forma aleatoria una población inicial aleatoria. Cada individuo/cromosoma tiene sus propios genes.`

`Mientras (condición de terminación es falsa).`

`   Evaluar el fitness de cada uno de los individuos.`

`   Selección de los individuos con mejor fitness.`

`   Recombinación de los individuos.`

`   Mutación de los indiviudos.`

Un posible esquema que puede representar una posible implementación de algoritmos genéticos se muestra en la figura @fig-esquema-genetico .

![Esquema de implementación de un algoritmo genético](imagenes/geneticos/esquema_genetico.png){#fig-esquema-genetico}

A continuación, en los siguientes apartados, se hará una descripción de las fases anteriormente expuestas:

**Inicializar Población**

Como ya se ha explicado antes el primer paso es inicializar la población origen. Habitualmente la inicialización se hace de forma **aleatoria** procurando una **distribución** **homogénea** en los casos iniciales de prueba. No obstante, si se tiene un conocimiento más profundo del problema es posible obtener mejores resultados inicializando la población de una forma apropiada a la clase de soluciones que se esperan obtener.

**Evaluar Población**

Durante cada **iteración** (generación) cada gen se decodifica convirtiéndose en un grupo de parámetros del problema y se evalúa el problema con esos datos.

Pongamos por ejemplo que queremos evaluar el máximo de la función $f(x)=x²$ en el intervalo $[0,1]$ y supongamos que construimos cada gen con **6 dígitos** $(2^6=64)$ , por lo que interpretando el número obtenido en binario natural y dividiéndolo entre 64 obtendremos el punto de la función que corresponde al gen (individuo). Evaluando dicho punto en la función que queremos evaluar ($f(x)=x²$) obtenemos lo que en nuestro caso sería el **fitness**, en este caso cuanto mayor fitness tenga un gen mejor valorado está y más probable es que prospere su descendencia en el futuro. No en todas las implementaciones de algoritmos genéticos se realiza una fase de evaluación de la población tal y como aquí está descrita, en ciertas ocasiones se omite y no se genera ningún fitness asociado a cada estado evaluado. Selección La fase de selección elije los individuos a reproducirse en la próxima generación, esta selección puede realizarse por muy distintos métodos.

En el algoritmo mostrado en pseudo código anteriormente el **método** de **selección** usado depende del fitness de cada individuo. A continuación, se describen los más comunes:

**Selección elitista:** Se seleccionan los individuos con mayor fitness de cada generación. La mayoría de los algoritmos genéticos no aplican un elitismo puro, sino que en cada generación evalúan el fitness de cada uno de los individuos, en el caso de que los mejores de la anterior generación sean mejores que los de la actual éstos se copian sin recombinación a la siguiente generación.

**Selección proporcional a la aptitud:** los individuos más aptos tienen más probabilidad de ser seleccionados, asignándoles una probabilidad de selección más alta. Una vez seleccionadas las probabilidades de selección a cada uno de los individuos se genera una nueva población teniendo en cuenta éstas.

**Selección por rueda de ruleta:** Es un método conceptualmente similar al anterior. Se le asigna una probabilidad absoluta de aparición de cada individuo de acuerdo al fitness de forma que ocupe un tramo del intervalo total de probabilidad (de 0 a 1) de forma acorde a su fitness. Una vez completado el tramo total se generan números aleatorios de 0 a 1 de forma que se seleccionen los individuos que serán el caldo de cultivo de la siguiente generación.

**Selección por torneo:** se eligen subgrupos de individuos de la población, y los miembros de cada subgrupo compiten entre ellos. Sólo se elige a un individuo de cada subgrupo para la reproducción.

**Selección por rango:** a cada individuo de la población se le asigna un rango numérico basado en su fitness, y la selección se basa en este ranking, en lugar de las diferencias absolutas en el fitness. La ventaja de este método es que puede evitar que individuos muy aptos ganen dominancia al principio a expensas de los menos aptos, lo que reduciría la diversidad genética de la población y podría obstaculizar la búsqueda de una solución aceptable.

Un ejemplo de esto podría ser que al intentar maximizar una función el algoritmo genético convergiera hacía un máximo local que posee un fitness mucho mejor que el de sus congéneres de población lo que haría que hubiera una dominancia clara con la consecuente desaparición de los individuos menos aptos (con peor fitness).

**Selección generacional**: la descendencia de los individuos seleccionados en cada generación se convierte en la siguiente generación. No se conservan individuos entre las generaciones.

**Selección por estado estacionario:** la descendencia de los individuos seleccionados en cada generación vuelve al acervo genético preexistente, reemplazando a algunos de los miembros menos aptos de la siguiente generación. Se conservan algunos individuos entre generaciones.

**Búsqueda del estado estacionario:** Ordenamos todos los genes por su fitness en orden decreciente y eliminamos los últimos m genes, que se sustituyen por otros m descendientes de los demás. Este método tiende a estabilizarse y converger.

**Selección jerárquica:** los individuos atraviesan múltiples rondas de selección en cada generación. Las evaluaciones de los primeros niveles son más rápidas y menos discriminatorias, mientras que los que sobreviven hasta niveles más altos son evaluados más rigurosamente. La ventaja de este método es que reduce el tiempo total de cálculo al utilizar una evaluación más rápida y menos selectiva para eliminar a la mayoría de los individuos que se muestran poco o nada prometedores, y sometiendo a una evaluación de aptitud más rigurosa y computacionalmente más costosa sólo a los que sobreviven a esta prueba inicial.

**Recombinación**.

**Recombinación** también llamada **Cross-over o reproducción**. La recombinación es el operador genético más utilizado y consiste en el **intercambio** de **material** **genético** entre **dos** **individuos** al azar (pueden ser incluso entre el mismo elemento). El material genético se intercambia entre **bloques**. Gracias a la presión selectiva^[Presión Selectiva es la fuerza a la que se ven sometido naturalmente los genes con el paso del tiempo. Con el sucesivo paso de las generaciones los genes menos útiles estarán sometidos a una mayor presión selectiva produciéndose la paulatina desaparición de estos] irán predominando los mejores bloques génicos.

Existen diversos **tipos** de **cross-over:**

**Cross-over de 1 punto.** Los cromosomas se cortan por 1 punto y se intercambian los dos bloques de genes.

**Cross-over de n-puntos.** Los cromosomas se cortan por n puntos y el resultado se intercambia.

**Cross-over uniforme.** Se genera un patrón aleatorio en binario, y en los elementos que haya un 1 se realiza intercambio genético.

**Cross-over especializados.** En ocasiones, el espacio de soluciones no es continuo y hay soluciones que a pesar de que sean factibles de producirse en el gen no lo son en la realidad, por lo que hay que incluir restricciones al realizar la recombinación que impidan la aparición de algunas combinaciones.



**Mutación**.

Este fenómeno, generalmente muy raro en la naturaleza, se modela de la siguiente forma: cuando se genera un gen hijo se examinan uno a uno los bits del mismo y se genera un coeficiente aleatorio para cada uno. En el caso de que algún coeficiente supere un cierto umbral se modifica dicho bit. Modificando el umbral podemos variar la probabilidad de la mutación. Las mutaciones son un mecanismo muy interesante por el cual es posible generar nuevos individuos con rasgos distintos a sus predecesores.

Los **tipos** de **mutación** más conocidos son:

    En la imagen @fig-mutacion mostramos gráficamente este tipo.

    ![Esquema de mutación multibit de un algoritmo genético](imagenes/geneticos/mutacion.png){#fig-mutacion}

-   **Mutación de gen^[Gen e Individuo en este contexto es lo mismo]**: existe una única probabilidad de que se produzca una mutación de algún bit. De producirse, el algoritmo toma aleatoriamente un bit, y lo invierte.

-   **Mutación multigen:** cada bit tiene una probabilidad de mutarse o no, que es calculada en cada pasada del operador de mutación multibit.

-   **Mutación de intercambio:** Se intercambia el contenido de dos genes aleatoriamente.

-   **Mutación de barajado:** existe una probabilidad de que se produzca una mutación. De producirse, toma dos genes aleatoriamente y baraja de forma aleatoria los genes, según hubiéramos escogido, comprendidos entre los dos.



**Condición de finalización**

Una vez que se ha generado la nueva población se evalúa la misma y se selecciona a aquel individuo o aquellos que por su fitness se consideran los más aptos.

### Otros Operadores

Los operadores descritos anteriormente suelen ser operadores **generalistas** (aplicables y de hecho aplicados a todo tipo de problemas), sin embargo, para ciertos contextos suele ser más recomendable el uso de operadores específicos para realizar un recorrido por el espacio de solución más acorde a la solución buscada.

**Modificadores de la longitud de los individuos**. En ocasiones las soluciones no son una combinación de todas las variables de entrada, en estas ocasiones los individuos deberán tener una longitud variable^[En muchas ocasiones, se realizan estudios de minería de datos sobre todos los datos existentes, encontrándose en ellos variables espúreas, es decir, variables que no aportan nada de información para el problema evaluado]. Lógicamente, en este tipo de casos, es necesario modificar la longitud de los individuos, para ello haremos uso de los operadores añadir y quitar, que añadirán o quitarán a un individuo un trozo de su carga génica (es decir, un trozo de información).

### Parámetros necesarios al aplicar Algoritmos Genéticos

Cualquier algoritmo genético necesita ciertos parámetros que deben fijarse antes de cada ejecución, como:

**Tamaño de la población:** Determina el tamaño máximo de la población a obtener. En la práctica debe ser de un valor lo suficientemente grande para permitir diversidad de soluciones e intentar llegar a una buena solución, pero siendo un número que sea computable en un tiempo razonable.

**Condición de terminación:** Es la condición de parada del algoritmo. Habitualmente es la convergencia de la solución (si es que la hay), un número prefijado de generaciones o una aproximación a la solución con un cierto margen de error.

**Individuos que intervienen en la reproducción de cada generación:** se especifica el porcentaje de individuos de la población total que formarán parte del acervo de padres de la siguiente generación. Esta proporción es denominada proporción de cruces.

**Probabilidad de ocurrencia de una mutación:** En toda ejecución de un algoritmo genético hay que decidir con qué frecuencia se va a aplicar la mutación. Se debe de añadir algún parámetro adicional que indique con qué frecuencia se va a aplicar dentro de cada gen del cromosoma. La frecuencia de aplicación de cada operador estará en función del problema; teniendo en cuenta los efectos de cada operador, tendrá que aplicarse con cierta frecuencia o no. Generalmente, la mutación y otros operadores que generen diversidad se suelen aplicar con poca frecuencia; la recombinación se suele aplicar con frecuencia alta.

## Conclusiones

Los algoritmos genéticos es uno de los enfoques más originales en data mining. Su sencillez, combinada con su flexibilidad les proporciona una robustez que les hace adecuados a infinidad de problemas. No obstante, su simplicidad y sobre todo independencia del problema hace que sean algoritmos poco específicos. Recorriendo este capítulo hemos visto los numerosos parámetros y métodos aplicables a los algoritmos genéticos que nos ayudan a realizar una adaptación de los algoritmos genéticos más concreta a un problema. En definitiva, la implementación de esquemas evolutivos tal y como se describen en biología podemos afirmar que funciona.

## Algoritmos genéticos con R

**Selección de variables**

El objetivo del ejemplo es ver cómo podemos usar un algoritmo genético para hacer una selección de variables, quedándonos sólo con unas pocas.

Para ver que estamos acertados en la selección de variables vamos a tomar el ejemplo del **dataset** de **Iris**, que es un problema de **clasificación** con **3 clases**, cuenta con **150 muestras** y **4 variables** explicativas. Como queremos usarlo para selección de variables lo que vamos a realizar es meter de forma **sintética** **10 variables más**, que siguen una **distribución normal** (0,1) y veremos el comportamiento del algoritmo a ver si realmente aparecen las variables originales como parte de las más importantes.

Tendremos que, para el algoritmo genético, nuestro cromosoma o individuo será un **vector** de tamaño 14 (**14 genes**), que representa las **14 variables** del dataset que hemos preparado.

En la imagen @fig-poblacion mostramosla población en una iteración N.

![Población en iteración N](imagenes/geneticos/poblacion.png){#fig-poblacion}

**Función Fitness** (Evaluación)

Cuando estamos trabajando con selección de variables, el objetivo es conseguir el conjunto de variables que mejor modelo construyan según nuestro dataset. En este caso, al ser un problema de **clasificación**, veremos cual es la combinación de variables que nos da **menos errores al clasificar**.

Nuestra función fitness deberá seguir estos **pasos**:

\- Recibe una **variable** llamada **indices** que tiene el tamaño del numero de variables (el tamaño del cromosoma) que hay en el dataframe (en nuestro caso 14) de datos.

 - Los valores son **1** si esa variable se va a **usar** y **0** si **no** se va a **usar**.

\- Se construye un **modelo**, en este caso usamos **LDA** (Análisis Discriminante Lineal) con las **variables** que tienen **valor 1**.

\- Calculamos el **error** que queremos minimizar (número de fallos)

\- Para este caso del LDA cogemos los valores **\$posterior** que nos dan la probabilidad de cada clase para cada entrada de la muestra

\- Calculamos cual es el **máximo** y así le asignamos esa **clase** como su solución. También podríamos coger directamente el valor de \$class con la clase dada como predicción.

\- Verificamos cuantos hemos fallado y lo dividimos por el número de muestras para ver el **porcentaje** de **fallos**

\- Devolvemos el **porcentaje de fallos**. El resultado de la ejecución del algoritmo evolutivo (rbga.bin())) nos dará un objeto del que tendremos que obtener que variables son las que queremos usar.

@fig-poblacion_final

![Población Final](imagenes/geneticos/poblacion_final.png){#fig-poblacion_final fig-align="center"}

Una vez que nuestro algoritmo pare, deberíamos tener la población que mejor se ha adaptado según el fitness que habíamos definido.

En nuestro caso estarán las 100 mejores combinaciones de variables, que dan el menor error al clasificar. De esta manera si para cada variable contamos cuantas veces ha salido en cada elemento de la población, sabremos cuantas veces se ha usado en las combinaciones de variables de esta última iteración (que es la mejor hasta ese momento). Con lo cual podremos saber cuales han sido las **variables** **más** **usadas** en la población final.

El objeto **modelo_evolutivo**, que nos devuelve rbga.bin, tiene una variable **population** de dimensiones tamaño_población x numero_variables , en nuestro caso de 100x14, que tiene la información de la población de la **última iteración del algoritmo**, que en un principio debería ser la mejor. Este population contiene para cada fila (elemento en la población), 0 o 1 en la posición que corresponde a cada variable.

Para ver cuales son las variables que más se han usado tenemos que sumar por columnas y ese dato nos dará para cada columna (corresponde con una variable) la cantidad de veces que se ha usado en esta población. Una vez tenemos estos datos ya podemos quedarnos con el número de variables que deseemos cogiendo las que más alto valor tienen.

Algunos de los **parámetros** que tenemos que definir y que algunos pueden afectar al rendimiento:

-   **size:** Número de genes, en nuestro caso, número de variables

-   **popsize:** Tamaño de la población con la que se trabaja en cada iteración. Cuanto más alto sea este valor, más tiempo tardará la ejecución. En este caso vamos a usar 100 elementos en la población, es decir, en cada iteración habrá 100 combinaciones de variables.

-   **iters:** Número de iteraciones del algoritmo. Va a depender del problema pero seguramente entre 50 y 100 tendríamos una buena solución. Cuanto mayor sea esta variable, mayor será el tiempo de ejecución.

-   **zeroToOneRatio:** Con esta variable le indicamos al algoritmo cual es el ratio de ceros frente a unos cuando se generan elementos de la población, es decir, más o menos nos tiene que dar una idea de cuantas variables se van a usar a la vez (las que tienen unos). Podríamos estimar que si tenemos 14 variables y queremos reducir a tener alrededor de 4, deberíamos intentar en cada iteración tener un rango parecido a ese. La forma de conseguirlo sería poner un valor a esta variable de 1, es decir, cada 1 cero hay 1 uno. Lo que más o menos nos dejaría alrededor de 7 variables con 1. Como esto se genera de forma aleatoria, más o menos estaremos en un rango de variables útil parecido a lo que queremos.

-   **verbose:** Esta variable si la ponemos a TRUE se encargará de sacarnos información de la evolución del algoritmo. La recomendación es dejarla a FALSE ya que incrementa mucho el tiempo de ejecución.

|                                                |
|:-----------------------------------------------|
| \`\`\`r                                        |
| {{< codigo/geneticos/seleccion_variables.R >}} |
| \`\`\`                                         |

``` r
library(genalg) library(MASS)
```

``` r
data(iris) set.seed(999) # Alas variables reales del dataset, les añadimos 10 variables más ficiticas (normal 0,1) # Ponemos estas variables al principio X <- cbind(scale(iris[,1:4]),matrix(rnorm(10*150), 150, 10)) Y <- iris[,5]
```

``` r
iris.evaluate <- function(indices) {
```

``` r
result = 1 # Tiene que haber al menos 2 variables if (sum(indices) > 2) {
```

``` r
# Creamos un modelo de clasificación con LDA usando sólo las variables que vienen
# marcadas en la variablindices con valor 1
# El LDA tiene el valor $posterior que devuelve la probabilidad de cada clase (tenemos tres clases en Y)
# Podríamos usar el valor de $class y así tendríamos directamente la clase.
modelo_lda <- lda(X[,indices==1], Y, CV=TRUE)$posterior

# Cogemos la probabilidad más alta apply(modelo_lda, 1,function(x)which(x == max(x))), para cada fila (150 muestras)
# Comprobamos cuantos hemos fallado y lo dividimos por el tamaño de Y (150 muestras)
# El objetivo es que sea mínimo este número de fallos
result = sum(Y != dimnames(modelo_lda)[[2]][apply(modelo_lda, 1,function(x)which(x == max(x)))]) / length(Y)}
```

``` r
result }
```

``` r
Ejecutamos el algoritmo evolutivo
```

``` r
system.time({ modelo_evolutivo <- rbga.bin(size=14, mutationChance=0.05, zeroToOneRatio=1,evalFunc=iris.evaluate, verbose=FALSE, iters = 50, popSize = 100) }) ## user system elapsed ## 17.05 0.72 22.03
```

``` r
Veamos como ha quedado el resultado de la población segúnla gráfica que nos da cuantas veces aparece cada variable en la población final. library(ggplot2)
```

``` r
Mostramos cual es el que ha aparecido más veces en la última iteración
```

``` r
uso_variables <- colSums(modelo_evolutivo$population)
```

``` r
Visualizamos cuanto se ha usado cada variable en esta última población
```

``` r
Construimos un dataframe con los datos
```

``` r
datos <- data.frame(variables=c(1:14),uso=uso_variables)
```

``` r
ggplot(datos,aes(x=variables,y=uso, fill=uso)) + geom_bar(stat="identity") + theme_minimal()
```

``` r
Obtenemos ahora cuales son las variables con los valores más altos. Primero vemos las suma de las columnas, que nos dará los valores de cuantas veces aparece cada variable, y luego hacemos una función que nos dice cuales son las variables más usadas pasándole como parámetro el vector de uso_variables y luego cuantas variables queremos quedarnos. # Creamos una función que nos da de un vector los índices de posición # donde están las X variables más usadas # Le pasamos como parámetro el vector y cuantas variables queremos que devuelva


```

@fig-frecuencia_variables

![Frecuencia de las Variables](imagenes/geneticos/frecuencia_variables.png){#fig-frecuencia_variables}

``` r
posicion_maximos <- function(datos, cuantos) { variables <- NULL if( cuantos>0) { for( i in 1:cuantos ) { variables[i] <- which.max(datos) datos[variables[i]] <- 0 }
```

``` r
} variables
```

``` r
}
```

``` r
Obtenemos ahora cuales son las 6 variables más usados
```

``` r
posicion_maximos(uso_variables, 6) ## [1] 2 4 1 3 8 13 
```

### Algoritmos genéticos en Python


In [None]:
import os import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns

from genetic_selection import GeneticSelectionCV

from sklearn.preprocessing import StandardScaler from sklearn.model_selection import train_test_split from sklearn.metrics import confusion_matrix

**Cargar datos de trabajo**
```{{python}}

os.chdir('C:/Users/p_san/Desktop/Máster_2020/Módulo_5') #directorio datos=pd.read_csv('german_credit.csv',encoding = 'ISO-8859-1', index_col=None)
```

Todas las variables son categóricas salvo:

duration

credit_amount

residence_since

age

existing_credits

num_dependents

Conversión a variables categóricas

```{{python}}
datos\['checking_status'\]=datos\['checking_status'\].astype('category') datos\['credit_history'\]=datos\['credit_history'\].astype('category') datos\['purpose'\]=datos\['purpose'\].astype('category') datos\['savings_status'\]=datos\['savings_status'\].astype('category') datos\['employment'\]=datos\['employment'\].astype('category') datos\['personal_status'\]=datos\['personal_status'\].astype('category') datos\['other_parties'\]=datos\['other_parties'\].astype('category') datos\['property_magnitude'\]=datos\['property_magnitude'\].astype('category') datos\['other_payment_plans'\]=datos\['other_payment_plans'\].astype('category') datos\['housing'\]=datos\['housing'\].astype('category') datos\['job'\]=datos\['job'\].astype('category') datos\['property_magnitude'\]=datos\['property_magnitude'\].astype('category') datos\['own_telephone'\]=datos\['own_telephone'\].astype('category') datos\['foreign_worker'\]=datos\['foreign_worker'\].astype('category') datos\['class'\]=datos\['class'\].astype('category')
```

La variable class es una variable reservada en diferentes módulos de Python -\> reemplazar por por target

```{{python}}
datos.rename(columns={'class': 'target'}, inplace=True) datos\['target'\]=np.where(datos\['target'\]=='good', 0, 1) \# cambio en la codificación por sencillez en el preprocesado
```

Definición de la muestra de trabajo

```{{python}}
datos_entrada=datos.drop('target', axis=1) \# Datos de entrada datos_entrada= pd.get_dummies(datos_entrada, drop_first=True) #conversión a variables dummy
```
datos de salida

```{{python}}
respuesta=datos.loc\[:, 'target'\]
```

Escalado de las variables, partición de la muestra y Cross Validation

```{{python}}
seed=123 \# Escalado de los datos de entrada x_esc=StandardScaler().fit_transform(datos_entrada) x_esc=pd.DataFrame(x_esc, columns=datos_entrada.columns)
```

Partición de la muestra

test_size=0.3 #muestra para el test x_train, x_test, y_train, y_test = train_test_split(x_esc,respuesta, test_size=test_size, random_state=seed, stratify=respuesta) Usando un modelo Cart from sklearn.tree import DecisionTreeClassifier cart=DecisionTreeClassifier(max_depth=5, random_state=seed) cart_algoritmo_gen=GeneticSelectionCV(cart, cv=5, \# 5 particiones verbose=0, \# no se muestran los resultados en la pantalla scoring="roc_auc", \# ejemplo métrica para evaluar max_features=15, \# número de variables máximas en la selección de\
\# características n_population=50, \# tamaño de la población crossover_proba=0.5, \# probabilidad de cruce entre parejas de genes mutation_proba=0.2, #probabilidad de mutación n_generations=40, #número de generaciones crossover_independent_proba=0.5, \# prob. cruce para genes \# independientes mutation_independent_proba=0.05, \# prob. mutación de genes \# independientes tournament_size=3, #tamaño de los grupos n_gen_no_change=10, \# genes que se mantienen -\> no pasan a \# la segunda generación caching=True, n_jobs=1)

cart_algoritmo_gen=cart_algoritmo_gen.fit(x_train, y_train)\
ajuste del modelo usando algoritmo genéticos para la selección de variables \# Variables Seleccionadas print('Num. Var:', cart_algoritmo_gen.n_features\_) \# print(cart_algoritmo_gen.support\_)\
\# Resultados matriz numpy -\> mala visualización. Los resultados se \# convierten a df de pandas df=pd.DataFrame(cart_algoritmo_gen.support\_, columns=\['Variables'\], index=x_train.columns) df=df.loc\[\~df\['Variables'\].isin(\[False\])\] #se elimina del df las variables no seleccionadas por el algoritmo list(df.index) \# variables seleccionadas por el algoritmo

Num. Var: 9 \['checking_status_0\<=X\<200', 'checking_status\_\<0', "credit_history\_'critical/other existing credit'", "purpose\_'used car'", 'savings_status\_\>=1000', "personal_status\_'male single'", 'other_parties_guarantor', 'other_payment_plans_stores', 'job_skilled'\]

Resultados test - predicción & Matriz de confusión (modelo CART con selección de variables a través de Algoritmos Genéticos)

pred=cart_algoritmo_gen.predict(x_test)

confusion_matrix(y_test, pred) \# Matriz de confusión

array(\[\[173, 37\], \[ 46, 44\]\], dtype=int64)