# Memoria Práctica 3

Autores: Román García y Patricia Losana

In [1]:
from Datos import Datos
from EstrategiaParticionado import *
from Clasificador import *
from ClasificadorAG import *
from Roc import *
import numpy as np
from sklearn import preprocessing 
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import train_test_split
import pprint
import matplotlib.pyplot as plt
from itertools import cycle
from sklearn.metrics import accuracy_score
from plotModel import plotModel
import matplotlib.pyplot as plt

## 1. Implementación

A continuación se muestran algunos detalles de la implementación llevada a cabo del algoritmo genético.

### 1.1 Generación de la población inicial

Para generar la población inicial es necesario especificar el set de datos a utilizar, y el número de individuos y de generaciones que se desea. 

~~~~
ag = ClasificadorAG(n_cromosomas, dataset, n_generaciones)
~~~~

En ese momento se creará una instancia de la clase ClasificadorAG, donde se generará la población inicial de individuos (cromosomas) con el método generarPoblacion(). 

~~~~
def generarPoblacion(self, n_cromosomas, dataset, regla_entera):
    for _ in range(n_cromosomas):
        self.cromosomas.append(self.Cromosoma(dataset = dataset, regla_entera=regla_entera))
~~~~

Ese método guarda un array de objetos de la clase Cromosoma (donde cada uno de los cuales es un individuo) en el clasificador. Se ha establecido cromosoma como un conjunto de reglas distintas (set()): 
~~~~
class Cromosoma:
    def __init__(self, dataset, reglas = None, regla_entera = True):
        self.regla_entera = regla_entera
        self.n_attrs = len(dataset.nombreAtributos) - 1  #nº attrs menos la clase
        self.rlen = randint(1, pow(dataset.k, self.n_attrs))
        self.datos = dataset.convertirAIntervalos(dataset.datos)
        self.n_intervalos = dataset.k
        self.dataset = dataset
        if reglas != None:
            self.reglas = reglas
        else:
            self.reglas = set()
            self.generarReglas(dataset)

        self.fit = -1
~~~~
El método generarReglas crea objetos de la clase Regla dentro del cromosoma. 

**Número de reglas:** Para cada cromosoma se ha establecido un número aleatorio entre 1 y 100. Se ha probado con un número aleatorio entre 1 y 20, y también con todas las posibles combinaciones distintas de intervalos para cada atributo (nº atributos^(k + 1)). El último no ha sido viable de mantener a nivel computacional, y el primero También se hicieron pruebas con un número aleatorio entre 1 y 20, y los resultados son significativamente mejores en la primera implementación. El principal problema es su elevado coste a nivel temporal.

~~~~
class Regla():
    def __init__(self,dataset, regla_entera = True):
        self.regla_entera = regla_entera
        self.valores = []
        self.n_intervalos = dataset.k  #nº attrs menos la clase

        if regla_entera:
            self.valores = np.append(np.random.randint(dataset.k + 1, size = len(dataset.nombreAtributos)-1), np.random.randint(len(dataset.diccionarios['Class']), size = 1))
        else:
            regla = []
            for _ in range(len(dataset.nombreAtributos)-1):
                regla.append(np.random.randint(2, size = dataset.k).tolist())
            regla.append(np.random.randint(len(dataset.diccionarios['Class']), size = 1)[0])
            self.valores = regla
~~~~          
                    
En cuanto al número de reglas 

### 1.2 Mecanismo de cruce implementado

El mecanismo de cruce implementado es entre dos cromosomas por un punto de cruce.



En **clasificador** se llama al recombinar de cromosoma:
~~~~
def recombinar(self):
    poblacion = []
    ruleta = ClasificadorAG.ruleta_rusa(self.cromosomas,len(self.cromosomas))
    for cromosoma in self.cromosomas:
        poblacion.append(cromosoma.recombinar(ruleta.pop(random.randint(0, len (ruleta) - 1))))
    return poblacion
~~~~
Donde el mecanismo de ruleta está basado en:

~~~~
def ruleta_rusa(cromosomas, n_individuos):
    seleccion, probabilidades = [], []

    total_fitness = 0
    for cromosoma in cromosomas:
        total_fitness += cromosoma.fitness()

    if total_fitness == 0:
        return cromosomas
    for cromosoma in cromosomas:
        probabilidades.append(cromosoma.fitness()/total_fitness)
    seleccion = np.random.choice(cromosomas, n_individuos, p=probabilidades)
    return seleccion.tolist()
~~~~

En **cromosoma** se obtiene la probabilidad 
~~~~   
def recombinar(self, cromosoma):
    if tirarDado(99) < 80:
        return self.recombinar_cromosomas(cromosoma)
    return self
~~~~
Donde tirar dado es
~~~~
def tirarDado(caras, ini = 0):
    return random.randint(ini,caras)
~~~~

Y recombinar_cromosomas es:
~~~~
def recombinar_cromosomas(self, cromosoma):
    medio = round(len(self.reglas)/2)
    medio_other = round(len(cromosoma.reglas)/2)

    return ClasificadorAG.Cromosoma(self.dataset, reglas = set(list(self.reglas)[:medio] + list(cromosoma.reglas)[:medio_other]), regla_entera = self.regla_entera )
~~~~


### 1.3 Mecanismo de mutación implementado

El mecanismo de mutación sigue una estrategia parecida al de recombinación: lo que cambia es la probabilidad de ocurrencia. Primero, dentro del **clasificador**
~~~~
def mutar(self):
    poblacion = []
    for cromosoma in self.cromosomas:
        cromosoma.mutar()
~~~~
Después, en **cromosoma**:
~~~~
def mutar(self, porcentaje = 4):
    for regla in self.reglas:
        if tirarDado(99) < porcentaje:
            regla.mutar(porcentaje)
~~~~
Finalmente, a nivel de **regla** se tiene en cuenta si el tipo de regla es binaria o entera:
~~~~
def mutar(self, porcentaje = 4):
    if self.regla_entera:
        for indice, intervalo in enumerate(self.valores[:-1]):
            if tirarDado(99) > porcentaje:
                self.valores[indice] = tirarDado(self.n_intervalos)
    else: 
        for index_attr, attr in enumerate(self.valores[:-1]):
            for index_intervalo, intervalo in enumerate(attr):
                if tirarDado(99) > porcentaje:
                    self.valores[index_attr][index_intervalo] = tirarDado(1)
~~~~

## 2. Resultados de la clasificación

### a) Tamaño de la población = 100; Generaciones = 100

In [14]:
dataset = [Datos("ConjuntosDatos/example1.data"),Datos("ConjuntosDatos/example3.data") , Datos("ConjuntosDatos/example4.data"), Datos("ConjuntosDatos/wdbc-10.data")]
generaciones = [100, 500, 1000]
poblaciones = [100,200]

In [15]:
for data in dataset:
    a, k = data.crearIntervalos(data.datos)
    for poblacion in poblaciones:
        for generacion in generaciones:
            print("-------------------------------------------------------------------")
            print("Reglas enteras: \n")
            print("Tamaño de la poblacion = ", poblacion, "; \nGeneración = ", generacion)
            
            ag = ClasificadorAG(poblacion, data, generacion)
            val = ag.validacion(ValidacionSimple(), data, ag)
            print(val)
            print("\nPromedio del error = ", round(np.array(val).mean(),4), "\tDesviación típica = ", round(np.array(val).std(), 4))
            
            print("\nReglas binarias: \n")
            print("Tamaño de la poblacion = ", poblacion, "; \tGeneraciones = ", generaciones)
            ag = ClasificadorAG(poblacion, data, generacion, regla_entera = False)
            val = ag.validacion(ValidacionSimple(), data, ag)
            print(val)
            print("\nPromedio del error = ", round(np.array(val).mean(),4), "\tDesviación típica = ", round(np.array(val).std(), 4))


-------------------------------------------------------------------
Reglas enteras: 

Tamaño de la poblacion =  100 ; 
Generación =  100
	Generacion  0
	Generacion  1
	Generacion  2
	Generacion  3
	Generacion  4
	Generacion  5
	Generacion  6
	Generacion  7
	Generacion  8
	Generacion  9
	Generacion  10
	Generacion  11
	Generacion  12
	Generacion  13
	Generacion  14
	Generacion  15
	Generacion  16
	Generacion  17
	Generacion  18
	Generacion  19
	Generacion  20
	Generacion  21
	Generacion  22
	Generacion  23
	Generacion  24
	Generacion  25
	Generacion  26
	Generacion  27
	Generacion  28
	Generacion  29
	Generacion  30
	Generacion  31
	Generacion  32
	Generacion  33
	Generacion  34
	Generacion  35
	Generacion  36
	Generacion  37
	Generacion  38
	Generacion  39
	Generacion  40
	Generacion  41
	Generacion  42
	Generacion  43
	Generacion  44
	Generacion  45
	Generacion  46
	Generacion  47
	Generacion  48
	Generacion  49
	Generacion  50
	Generacion  51
	Generacion  52
	Generacion  53
	Generaci

AttributeError: 'list' object has no attribute 'any'

In [None]:
for poblacion in poblaciones:
    for generacion in generaciones:
        print("-------------------------------------------------------------------")
        #estrategia = ValidacionCruzada()
        knn = ClasificadorAG(k, normaliza=False)
        val = knn.validacion(estrategia,dataset[0],knn)

        print("Tamaño de la poblacion = ", poblacion, "; \tGeneraciones = ", generaciones)
        print("\nPromedio del error = ", round(np.array(val).mean(),4), "\tDesviación típica = ", round(np.array(val).std(), 4))


In [None]:
for poblacion in poblaciones:
    for generacion in generaciones:
        print("-------------------------------------------------------------------")
        #estrategia = ValidacionCruzada()
        knn = ClasificadorAG(k, normaliza=False)
        val = knn.validacion(estrategia,dataset[0],knn)

        print("Tamaño de la poblacion = ", poblacion, "; \tGeneraciones = ", generaciones)
        print("\nPromedio del error = ", round(np.array(val).mean(),4), "\tDesviación típica = ", round(np.array(val).std(), 4))


In [None]:
for poblacion in poblaciones:
    for generacion in generaciones:
        print("-------------------------------------------------------------------")
        #estrategia = ValidacionCruzada()
        knn = ClasificadorAG(k, normaliza=False)
        val = knn.validacion(estrategia,dataset[0],knn)

        print("Tamaño de la poblacion = ", poblacion, "; \tGeneraciones = ", generaciones)
        print("\nPromedio del error = ", round(np.array(val).mean(),4), "\tDesviación típica = ", round(np.array(val).std(), 4))


### b) Tamaño de la población = 100; Generaciones = 500

### c) Tamaño de la población = 100; Generaciones = 1000

### d) Tamaño de la población = 200; Generaciones = 100

### e) Tamaño de la población = 200; Generaciones = 500

### f) Tamaño de la población = 200; Generaciones = 1000

## 3. Análisis de los resultados

Importancia del número de reglas

Importancia del tamaño de la población

Importancia de las generaciones

Importancia de las tasas de cruce y mutación

Importancia de la representación (enteros o cadenas binarias)

## 4. Representaciones gráficas

### a) Evolución del fitness del mejor individuo

Para cada generación mostrar en pantalla el número de generación y el fitness del mejor individuo

### b) Evolución del fitness medio de la población

Para cada generación mostrar en pantalla el número de generación y el fitness del mejor individuo