# Algorithme génétique

## Les algorithmes évolutifs

### Algorithmes génétiques

Le Machine Learning peut apparaître complexe de prime abord, et pour cause certains des algorithmes qui constituent cet ensemble sont très loin d’être accessibles.

Ceci étant, il existe un type d’algorithme évolutif plus simple à saisir parmi ceux-ci: les algorithmes génétiques (ou AG).

### Principes

Comme leur nom l'indique, les AGs ont certains points communs avec la génétique en biologie.

Un individu est un ensemble de données concaténées, chacune de ses données représente un gène.

L'ensemble des individus représente la population, tandis que chacune des populations (une par étape de l'algorithme est une génération.

D'une génération à l'autre, l'individu le plus apte à répondre à la problématique est conservé tandis que les autres sont obtenus via le croisement des individus de la génération précédente. Au terme de ces croisements, des modifications peuvent avoir lieu: les mutations.

## Comment faire?

Au final, les AGs ne sont pas particulièrement compliqués à implémenter, et ce TD vous permettra de créer un exemple simple.

**Attention: Le contenu que vous produirez ici sera réutilisé lors du TD Examen AG, qui sera noté. Veillez à la modularité de votre code.**

**Egalement, pensez à commenter votre code et à le rendre lisible (voir la norme PEP8)**

### Objectif

A la fin de ce TD, votre code sera capable de trouver, de lui-même, une chaîne de caractères définie. Bien sûr, l'utilité est faible, mais il s'agit de pouvoir traiter ensuite toute sorte de données, comme par exemple, utiliser l'AG pour estimer une courbe à partir d'un ensemble de points fournis.

Pour ce TD, le code devra retrouver la chaîne de caractères "Hello World".

### Description

Pour fonctionner, l'AG a besoin:
- d'une fonction d'évaluation permettant d'indiquer la proximité ou l'erreur entre l'individu et la solution optimale. Dans notre cas, la distance entre chaque caractère sera utilisée, la fonction d'évaluation pour une distance optimale vaudra donc 0.
- d'une fonction de croisement qui permet d'obtenir une nouvelle génération à partir d'une génération pré-existante, prenant une partie de deux individus pour en former un nouveau, et ce pour l'ensemble de la population.
- de paramètres de mutation, indiquant les chances pour un nouvel individu d'être altéré, et la force de cette altération.

### Avant le code

In [3]:
# tous les imports de ce TD devront être placés ici
import random
import time
import csv
import os
clear = lambda: os.system('clear')
# le mot à trouver
test_length = 10
target = "Hello World Hello Wo" 
tab_size = 0
target = getCSV()
#pattern = re.compile(r'.')
        

### Création des méthodes

#### Calcul de distance et localisation du meilleur individu

Avant toute chose, il faut réfléchir à la manière de représenter nos données.

Nous traiterons des chaînes de caractères. En Python, une chaîne de caractères fonctionne (presque) exactement comme une liste de caractères, et ces caractères peuvent être remplacés par leur code ASCII, qui est numérique.

Comme dit précédemment, nous allons définir notre individu cible comme la liste des codes ASCII de "H", "e", "l", "l", ... "d", qui aura comme distance 0.

Puisque nous avons les codes ASCII des caractères à disposition, il est simple de trouver, pour chaque indice de la liste, la distance entre le caractère cible et le caractère courant, qui n'est rien de plus qu'une simple différence. De même, la distance globale de la chaîne est une somme des distances.

Une fois les distances d'un ensemble de chaînes obtenues, celles-ci peuvent être ordonnées.

In [2]:
# la fonction de conversion d'une chaîne de caractères en liste de valeurs ASCII vous est founie
def string_to_int_list(string):
    return [ord(character) for character in list(string)]

##### Exo 1:
- Lire le fichier CSV

In [17]:
##TD2
def getDistance(coeffs):
    #print(coeffs)
    result = 0
    compteur = 0
    j=0
    while result == 0 and j < len(target):
        sum = 0
        for i in range (1,len(coeffs)-1):
            sum += target[j][i]*coeffs[i-1]
        if sum == target[j][5]:
            compteur += 1
        result += abs(abs(sum) - abs(target[j][5]))
    if compteur > 1:
        print(compteur)
    return result# * (len(target) - compteur) # result * 2500000 (len(target) - compteur)

def getCSV() :
    tab = [[0 for i in range(6)] for j in range(100)]
    with open('ExamColl.csv') as csv_file:
        csv_reader = csv.reader(csv_file, delimiter=',')
        ligne_count = 0
        for row in csv_reader:
            if row[0] == "abel":
                check = 1
                for i in range(1, 7):
                        if row[i] == "0" or row[i].find(".") != -1 or row[i] == "":
                            check = 0
                        if check == 1:
                            if i < 6:
                                if float(row[i]) > 1000 or float(row[i]) < -1000:
                                    check = 0
                            else:
                                if float(row[i]) > 5000000 or float(row[i]) < -5000000:
                                    check = 0

                if check == 1:   
                    #print(f'{row[0]} || {row[1]} || {row[2]} || {row[3]} || {row[4]} || {row[5]} || {row[6]} || {ligne_count}')
                    tab[ligne_count][0] = int(row[1])
                    tab[ligne_count][1] = int(row[2])
                    tab[ligne_count][2] = int(row[3])
                    tab[ligne_count][3] = int(row[4])
                    tab[ligne_count][4] = int(row[5])
                    tab[ligne_count][5] = int(row[6])
                    ligne_count += 1
        return tab

liste = getCSV()
#for item in liste:
#    print(item)
#print("nbligne = ", tab_size)

Maintenant qu'il est possible d'attribuer une valeur de distance entre deux mots, nous pouvons ordonner des mots grâce à cette valeur.

##### Exo 2:
- **Créez la méthode permettant de retrouver le mot le plus proche d'une cible et la valeur de cette distance**
- **Testez avec une liste de mots définie par vos soins, et la cible "Hello World"**

In [4]:
##TD1
# la fonction qui determine le mot le plus proche d'un autre dans une liste    
def getBest(liste):
    return sorted(liste, key=getDistance)

#### Création d'une première génération

Bien que nous connaissions le mot cible, nous partirons d'une population constituée d'un ensemble de mots générés aléatoirement.

Gardez à l'esprit que la taille de votre population définira la vitesse d'exécution de votre code. Ainsi, bien qu'un ensemble d'individus important  aura la diversité pour atteindre rapidement (en termes d'itérations) la solution, un ensemble plus restreint passera chacune des itérations rapidement.

##### Exo 3:
- **Créez la méthode d'initialisation d'une liste de mots aléatoires**
- **Utilisez cette méthode pour générer aléatoirement un ensemble de mots, et comparez-les à la cible.**

In [5]:

##TD2
def coeff_init():
    listSize = 400
    listeCoeff = [[0 for i in range(5)] for j in range(400)]
    for i in range(0, listSize):
        for j in range (1, 5):
            listeCoeff[i][j] = random.randint(-1000, 1000)
    return listeCoeff

#liste = coeff_init()
#print(liste)
        

#### Passage d'une génération à une autre

Les opérations de base sont maintenant établies, il est temps de rendre notre système évolutif.

D'une génération à l'autre, les individus doivent évoluer. Mais, il n'est pas certain que cette évolution se fasse dans la direction espérée.

La théorie de l'évolution dans le domaine biologique indique que l'espèce la plus adaptée à son environnement survivra plus probablement que d'autres. Dans notre cas, nous pouvons discerner l'individu le plus proche de la solution et le conserver (il "survit"). Ainsi, le meilleur individu d'une génération ne peut pas être moins adapté que celui d'une génération passée (principe de non-régression).

Le reste de la population de la nouvelle génération est produite comme dans le cas de la biologie. Deux parties complémentaires (chromosomes) de deux individus (parents) seront combinées pour obtenir un nouvel individu (enfant).

##### Exo 4:
- **Créez la méthode de transition entre deux générations. Notez que:**
 - **Le meilleur individu (ou les x meilleurs individus) devrait être conservé.**
 - **Les individus restants devraient être un croisement d'individus de la liste des mots précédente (meilleur mot précédent compris).**
 - **La liste de mots résultante devrait être de même longueur que la précédente.**
- **Appliquez la méthode de manière itérative, en indiquant à chaque fois le meilleur élément de la génération et la distance avec la cible.**
- **Au bout d'un certain nombre d'itérations, que se passe-t-il?**

In [8]:
##TD2

def crossover(mot1, mot2):
    mot3 = [0]*5 
    for i in range(0, len(mot3)-1): #Je parcours le mot (Enfant)
        unDeux = random.randint(1, 2) #De quel parent j'herite de la char
        if unDeux == 1:
            mot3[i] = mot1[i] #Parent 1
        else:
            mot3[i] = mot2[i] #Parent 2
    return mot3

def newGeneration(liste):
    oldG = liste
    newG = [0] * len(liste)
    percent = round(len(oldG)*0.1)
    for i in range(0, percent):
        newG[i] = oldG[i]
    for i in range(percent, len(oldG)):
        mot1 = oldG[random.randint(0, len(oldG) - 1)]
        mot2 = oldG[random.randint(0, len(oldG) - 1)]
        newG[i] = crossover(mot1, mot2)                    
    return mutation(newG)

#### Créer la diversité génétique

Le principe de mutation permet d'ajouter de la diversité lors de l'évolution de l'AG. En effet, avec une faible population, il est presque certain que le croisement normal d'éléments finisse dans une impasse, on parle de minimum local.

Dans notre cas, la notion de minimum local n'a pas véritable lieu d'être. Il nous suffit d'ajouter de nouveaux éléments innovants pour permettre à l'AG de reprendre son évolution.

Cette innovation prend la forme d'une altération d'un (ou plusieurs) caractère(s) d'un individu lors de sa création pour une nouvelle génération. Pour s'assurer que l'on ne dégrade pas le meilleur individu, il est conseillé de lui éviter cette étape.

La mutation est définie suivant deux paramètres principaux. Tout d'abord, sa probabilité, entre 0 et 1, définit sa fréquence. Aussi, sa force définit l'effet de la mutation, et peut prendre n'importe quelle forme, de +1/-1 à une réaffectation aléatoire. Cette mutation peut s'appliquer lettre par lettre, sur le mot entier, ou sur un ensemble de lettres aléatoires.

##### Exo final:
- **Créez une méthode permettant de définir le procédé de mutation**
- **Utilisez cette méthode pour obtenir la terminaison de votre AG (réduire la distance du meilleur mot à 0)**
- **Votre code est complet, faites varier certains de vos paramètres afin de le rendre plus efficace, si vous le souhaitez**
- **Rendez votre code adaptatif, capable d'acception diverses longueurs de chaînes de caractères.**

In [24]:
def mutation(generation):
    for i in range (0,round(len(generation)*0.3)):
        rand_coeff = random.randint(round(len(generation)*0.1),len(generation)-1)
        rand_coeff2 = random.randint(0,4)
        #generation[rand_coeff][rand_coeff2] = random.randint(-1000, 1000)
        generation[rand_coeff][rand_coeff2] = generation[rand_coeff][rand_coeff2] + 20 
    return generation




Le bloc suivant vous permet de tester l'exécution de votre code dans les conditions de test finales. Les paramètres des méthodes "word_list_init", "get_distance" et "new_generation" sont à compléter.

La valeur de la variable "test_length" sera modifiée lors de l'évaluation du code.

In [26]:
# espace de test et d'exécution final
start = time.time()
i = 0

population = coeff_init()
distance = getDistance(getBest(population)[0])
while(distance > 0):
    population = newGeneration(population)
    distance = getDistance(getBest(population)[0])
    print (distance)



print("Finished with coeff ", getBest(population)[0]," in", start)

3628
230
2590
800
9800
461
1685
1685
1411
9025
1685
1685
2326
83
734
1670
2381
140
6489
2590
4259
182
461
3144
31
6806
166
2591
2483
2483
11930
15937
13424
83
3895
615
1845
2113
2388
3922
3922
3922
3327
3327
734
734
734
4259
3470
1439
166
2417
2417
3386
83
83
166
2429
2591
3922
7921
6689
4380
3386
8997
1328
52
8754
1804
3314
337
2655
1914
2655
4595
8966
5439
1
4065
845
3470
5608
5608
2590
526
584
845
4065
52
166
31
565
4090
1995
2542
2542
2026
7466
4290
9505
2417
2417
930
8192
3023
770
770
2783
999
417
417
739
2026
1969
2026
3471
9520
7021
739
739
739
92
6179
6179
15937
1545
1545
7984
734
2655
6806
8826
497
5056
13303
92
52
52
52
52
52
3023
3023
7984
394
468
2849
734
734
734
11441
2596
734
2590
1322
1322
5439
6177
5120
9530
930
930
930
4510
31
31
31
2271
2271
1439
250
83
83
1871
2535
2905
1439
2535
497
92
92
83
92
1854
3314
83
83
2785
83
83
3052
3038
83
9077
166
468
3038
2849
2591
2849
2591
83
83
2591
31
6683
6834
83
739
5759
2826
3052
2849
2591
10651
9214
2591
1050
8999
1694
3011
4769

KeyboardInterrupt: 

IMPORTANT:

Ce TD est noté (note bonus).
L'évaluation sera effectuée par le redémarrage du noyau et l'exécution complète du code. Vérifiez la validité de votre travail avec "Noyau" -> "Redémarrer & tout exécuter". Tout code ne fonctionnant pas en suivant cette procédure vaudra 0.

Le barème est le suivant:
- **L'exécution complète attribuera au plus 12 points.** 2 points sont attribués pour chaque méthode correctement implémentée.
- **Les codes terminant seront mis en compétition** 0 à 6 points seront attribués en fonction du classement.
- **La propreté** (respect du PEP8) **vaudra 2 points.** Un code non propre peut faire perdre jusqu'à 3 points.
- Le code doit respecter le côté aléatoire du sujet. Cela inclut la génération initiale, le croisement et la mutation. Toute méthode parmi les trois indiquées ne respectant pas ce point vaudra 0.

Attention, tout jour de retard pour le rendu de ce travail entraînera une pénalité de 5 points.

Aussi ce code devant être utilisé pour le TD Examen AG, il est conseillé d'y mettre du soin.

Le rendu prend la forme de ce notebook, à envoyer par mail.