### Vérifier si 2 mots sont des anagrammes

La syntaxe et les fonctions builtins de Python facilitent grandement cette partie-là, qui aurait sans doute été plus complexe à résoudre dans d'autres langages.

On part du principe qu'__un mot est représenté par une chaîne de caractères constituée de caractères allant de "a" à "z"__. On ignore les majuscules pour que les lignes soient plus rapides à écrire et s'épargner l'usage systématique de la fonction lower() qui transforme tous les caractères majuscules d'une chaîne en miniscule.

In [1]:
# Vérifier que 2 chaînes de caractères sont des anagrammes
a, b = "niche", "chien"
print(sorted(a) == sorted(b))

True


En Python, l'opérateur __==__ suffit à vérifier l'égalité entre 2 chaînes. Quant à la fonction __sorted__, elle sert à trier dans l'ordre alphabétique tous les caractères d'une chaîne, ce qui permet dans l'exemple ci-dessus de comparer "niche"->"cehin" à "chien"->"cehin"

### Énumération des anagrammes possibles

#### Combien d'anagrammes sont possibles ?

Partons des cas basiques avec un petit nombres de caractères tous uniques, et d'énumérer les combinaisons possibles.

2 caractères, "a" et "b": => 2 combinaisons possibles
- "ab"
- "ba"

3 caractères, "a", "b" et "c": => 6 combinaisons possibles
- "abc"
- "acb"
- "bac"
- "bca"
- "cab"
- "cba"

4 caractères, "a", "b", "c" et "d": => 4x6 = 24 combinaisons possibles
- "<font color='#993333'>__d__</font>abc", "<font color='#993333'>__d__</font>acb", "<font color='#993333'>__d__</font>bac", "<font color='#993333'>__d__</font>bca", "<font color='#993333'>__d__</font>cab", "<font color='#993333'>__d__</font>cba"
- "a<font color='#993333'>__d__</font>bc", "a<font color='#993333'>__d__</font>cb", "b<font color='#993333'>__d__</font>ac", "b<font color='#993333'>__d__</font>ca", "c<font color='#993333'>__d__</font>ab", "c<font color='#993333'>__d__</font>ba"
- "ab<font color='#993333'>__d__</font>c", "ac<font color='#993333'>__d__</font>b", "ba<font color='#993333'>__d__</font>c", "bc<font color='#993333'>__d__</font>a", "ca<font color='#993333'>__d__</font>b", "cb<font color='#993333'>__d__</font>a"
- "abc<font color='#993333'>__d__</font>", "acb<font color='#993333'>__d__</font>", "bac<font color='#993333'>__d__</font>", "bca<font color='#993333'>__d__</font>", "cab<font color='#993333'>__d__</font>", "cba<font color='#993333'>__d__</font>"


Dans cette énumération à 4 caractères, on peut regrouper les combinaisons par groupe de 6 car on commence à voir un cas récursif intéressant.\
On prend les combinaisons possibles avec "abc", puis on va essayer pour chacune de ces combinaisons d'ajouter "d" à chaque position possible dans une chaîne de 4 caractères.

Cette récursivité va nous aider à comprendre 2 choses:
- énumérer les combinaisons d'une chaîne à "n" caractères à partir de l'énumération des combinaisons possibles à n-1 caractères
- le nombre de combinaisons correspond à la fonction factorielle: 4! combinaisons possibles pour 4 caractères différents

#### Mais des caractères peuvent se répéter dans une chaîne

En effet, la solution trouvée ci-dessus est parfaite lorsque les caractères de la chaîne sont uniques, mais les mots du dictionnaire utilisent souvent plusieurs fois la même lettre.

Reprenons donc l'exemple à 4 caractères en remplaçant le "d" par un 2ème "a":
- "aabc", "aacb", "abac", "abca", "acab", "acba"
- ~~"aabc"~~, ~~"aacb"~~, "baac", "baca", "caab", "caba"
- ~~"abac"~~, ~~"acab"~~, "~~baac"~~, "bcaa", ~~"caab"~~, "cbaa"
- ~~"abca"~~, ~~"acba"~~, ~~"baca"~~, ~~"bcaa"~~, ~~"caba"~~, ~~"cbaa"~~

En barrant tous les doublons, on voit qu'il nous reste 12 combinaisons, soit la moitié du résultat précédent.

Et avec un 3ème "a", à la place de "c" par exemple:
- __"aaba"__, __"aaab"__, __"abaa"__, ~~"abaa"~~, ~~"aaab"~~, ~~"aaba"~~
- ~~"aabc"~~, ~~"aacb"~~, __"baaa"__, ~~"baaa"~~, ~~"aaab"~~, ~~"aaba"~~
- ~~"abac"~~, ~~"acab"~~, "~~baac"~~, ~~"baaa"~~, ~~"caab"~~, ~~"abaa"~~
- ~~"abca"~~, ~~"acba"~~, ~~"baca"~~, ~~"bcaa"~~, ~~"caba"~~, ~~"cbaa"~~

Cette fois-ci, on voit qu'il nous reste 4 combinaisons, soit la 3x moins que résultat précédent, donc 6x moins qu'avec "abcd".

Le cas générique pointe le bout de son nez. Un caractère répété __k__ fois dans une chaîne de __n__ caractères divise par __k!__ le nombre de combinaisons de caractères uniques qui est égal à __n!__.

Cependant, plusieurs caractères peuvent apparaitre plusieurs fois. Par exemple, on pourrait avoir 2 "b" et 2 "a". Essayons donc d'énumérer les cas où "a" remplace "d" et "b" remplace "c":
- "aabb", <font color='#CC0000'>~~"aabb"~~</font>, "abab", "abba", <font color='#CC0000'>~~"abab"~~</font>, <font color='#CC0000'>~~"abba"~~</font>
- ~~"aabb"~~, ~~"aabb"~~, "baab", "baba", <font color='#CC0000'>~~"baab"~~</font>, <font color='#CC0000'>~~"baba"~~</font>
- ~~"abab"~~, ~~"abab"~~, "~~baab"~~, "bbaa", ~~"baab"~~, <font color='#CC0000'>~~"bbaa"~~</font>
- ~~"abba"~~, ~~"abba"~~, ~~"baba"~~, ~~"bbaa"~~, ~~"baba"~~, ~~"bbaa"~~

En rouge les répétitions trouvées par rapport au précédent exemple avec "aabc".\
On trouve 6 combinaisons restantes, soit 2 fois moins qu'avec "aabc", soit 2x2 fois moins qu'avec "abcd".\
Là encore, un cas générique apparait. En reprenant la formule précédente, on peut déduire qu'une chaîne de __n__ caractères a un nombre de combinaisons égal à __n!__ divisé par __ka__, le nombre de répétition de a dans n, divisé par __kb__, le nombre de répétition de a dans n, etc...

$$\dfrac{n!}{ka!kb!...kz!}$$

#### Et en Python ?

Pour appliquer la formule, nous avons besoin de la fonction factorielle qu'on va appeler __fac(n)__.

In [2]:
def fac(n):
    return n*fac(n-1) if n else 1

for i in range(1,8):
    print(f"fac({i}) = {fac(i)}", end="\t")

fac(1) = 1	fac(2) = 2	fac(3) = 6	fac(4) = 24	fac(5) = 120	fac(6) = 720	fac(7) = 5040	

Ensuite, créons une fonction qui permet de calculer les combinaisons possibles.\
Partons du cas de base où tous les caractères de la chaîne sont uniques:

In [3]:
maCh = "niche"
nbCombi = fac(len(maCh))
print(nbCombi)

120


Ensuite, divisons ce nombre de combinaisons par les répétitions de chaque caractère présent dans la chaîne. Pour cela, trouvons toutes ces répétitions à l'aide de la fonction count():

In [4]:
maCh = "banane"
nbRepetB = maCh.count("b")
nbRepetA = maCh.count("a")
nbRepetN = maCh.count("n")
nbRepetE = maCh.count("e")
nbCombi = fac(len(maCh)) / (fac(nbRepetB) * fac(nbRepetA) * fac(nbRepetN) * fac(nbRepetE))
print(nbCombi)

180.0


Ne reste plus qu'à généraliser ces calculs pour écrire la fonction:

In [5]:
def nb_anagrammes(chaine):
    nbCombi = fac(len(chaine))
    carUniques = set(chaine)
    for char in carUniques:
        nbCombi /= chaine.count(char)
    return int(nbCombi)

print(nb_anagrammes("niche"))
print(nb_anagrammes("banane"))

120
180


In [6]:
# Fonction énumérant tous les anagrammes possibles
# TODO: expliquer la fonction

def get_anagrammes(chaine):
    lis1 = [chaine[0]]
    lis2 = []
    global nb_ope

    for i in range(1,len(chaine)):
        for w in lis1:
            for j in range(len(w)+1):
                lis2.append(w[:j] + chaine[i] + w[j:])
                nb_ope += 1
        lis1, lis2 = list(set(lis2[::])), []
            
    return lis1

nb_ope = 0
anag = get_anagrammes("niche")
print(len(anag), nb_ope)

120 152


TODO: Pourquoi ça pose problème ?
-> complexité factorielle
-> beaucoup de chaînes n'ont aucun sens en tant que mot

TODO: Comment vérifier si c'est un vrai anagramme ?
-> trouver une bibliothèque qui donne tous les mots du dictionnaire
-> optimiser le code, notamment lorsqu'on a des mots de 8 lettres ou plus le programme actuel devrait galérer

In [7]:
l = ["ab","ba"]
i = 1
c = "c"
print(list(map(lambda x: x[:i] + c + x[i:], l)))

['acb', 'bca']


In [8]:
# Fonction énumérant tous les anagrammes possibles
# TODO: expliquer la fonction

def get_anagrammes(chaine):
    lis1 = [chaine[0]]
    lis2 = []
    global nb_ope

    for i in range(1,len(chaine)):
        for j in range(len(lis1[0])+1):
            lis2 += list(map(lambda x: x[:j] + chaine[i] + x[j:], lis1))
            nb_ope += 1
        lis1, lis2 = list(set(lis2[::])), []
            
    return lis1

nb_ope = 0
anag = get_anagrammes("niche")
print(len(anag), anag, nb_ope)

120 ['heicn', 'ehinc', 'enihc', 'hncei', 'hcnie', 'ehnci', 'inche', 'cnihe', 'cihne', 'hicne', 'ihcen', 'cineh', 'ihcne', 'hcnei', 'ihnce', 'enich', 'echni', 'chein', 'eihnc', 'eicnh', 'cinhe', 'chnei', 'nhcei', 'hecin', 'iecnh', 'hcein', 'ecihn', 'ehnic', 'hienc', 'nehic', 'hncie', 'einch', 'ncehi', 'ihenc', 'ceinh', 'nheci', 'ceihn', 'nchie', 'nhice', 'cnieh', 'hneic', 'ichne', 'nheic', 'inech', 'enhic', 'iench', 'eichn', 'iechn', 'enhci', 'ciehn', 'iehnc', 'hince', 'niehc', 'einhc', 'icnhe', 'chine', 'nehci', 'enchi', 'nceih', 'inehc', 'ecnhi', 'niche', 'ihnec', 'hneci', 'nihec', 'ihecn', 'hicen', 'cnhei', 'hecni', 'cienh', 'cehin', 'hceni', 'heinc', 'nhcie', 'ncihe', 'hcien', 'niceh', 'ehicn', 'nhiec', 'neihc', 'echin', 'chien', 'hcine', 'ecnih', 'cneih', 'eihcn', 'hnice', 'nchei', 'ichen', 'cenhi', 'ecinh', 'chnie', 'ehcni', 'hniec', 'ehcin', 'hinec', 'nihce', 'cheni', 'cihen', 'hiecn', 'icneh', 'henic', 'icehn', 'cnhie', 'encih', 'cehni', 'iehcn', 'nechi', 'inhec', 'henci', 'ince

In [9]:
import enchant

d = enchant.Dict("fr-FR")

anag2 = get_anagrammes("aeegmnrrtu")

l = list(filter(lambda x: d.check(x), anag2))

#print(l)

In [10]:
def get_anagrams(chaine):
    lis1 = [chaine[0]]
    lis2 = []

    for i in range(1,len(chaine)):
        for j in range(len(lis1[0])+1):
            lis2 += list(map(lambda x: x[:j] + chaine[i] + x[j:], lis1))
        lis1, lis2 = list(set(lis2[::])), []

    return lis1


anag = get_anagrams("niche")
print(len(anag), anag)

120 ['heicn', 'ehinc', 'enihc', 'hncei', 'hcnie', 'ehnci', 'inche', 'cnihe', 'cihne', 'hicne', 'ihcen', 'cineh', 'ihcne', 'hcnei', 'ihnce', 'enich', 'echni', 'chein', 'eihnc', 'eicnh', 'cinhe', 'chnei', 'nhcei', 'hecin', 'iecnh', 'hcein', 'ecihn', 'ehnic', 'hienc', 'nehic', 'hncie', 'einch', 'ncehi', 'ihenc', 'ceinh', 'nheci', 'ceihn', 'nchie', 'nhice', 'cnieh', 'hneic', 'ichne', 'nheic', 'inech', 'enhic', 'iench', 'eichn', 'iechn', 'enhci', 'ciehn', 'iehnc', 'hince', 'niehc', 'einhc', 'icnhe', 'chine', 'nehci', 'enchi', 'nceih', 'inehc', 'ecnhi', 'niche', 'ihnec', 'hneci', 'nihec', 'ihecn', 'hicen', 'cnhei', 'hecni', 'cienh', 'cehin', 'hceni', 'heinc', 'nhcie', 'ncihe', 'hcien', 'niceh', 'ehicn', 'nhiec', 'neihc', 'echin', 'chien', 'hcine', 'ecnih', 'cneih', 'eihcn', 'hnice', 'nchei', 'ichen', 'cenhi', 'ecinh', 'chnie', 'ehcni', 'hniec', 'ehcin', 'hinec', 'nihce', 'cheni', 'cihen', 'hiecn', 'icneh', 'henic', 'icehn', 'cnhie', 'encih', 'cehni', 'iehcn', 'nechi', 'inhec', 'henci', 'ince

In [12]:
import enchant
import time

d = enchant.Dict("fr-FR")

def check_anag(liste, chaine):
    word_list = liste[::]
    res = []
    for i in range(len(word_list[0])-1, 1, -1):
        res += list(filter(lambda x: d.check(x), word_list))
        #print("-----")
        #print("avant:", len(word_list))
        word_list = list(set(map(lambda x: x[:i], word_list)))
        if res and not(len(res) == 1 and res[0] == chaine):
            #print()
            return res
        #print("après:", len(word_list))
    return res

mot = "geant"
start = time.time()
res = check_anag(get_anagrams(mot), mot)
print(time.time()-start)
print(res)

mot = "banane"
start = time.time()
res = check_anag(get_anagrams(mot), mot)
print(time.time()-start)
print(res)

0.0018768310546875
['agent', 'gante']
0.004256010055541992
['banane', 'banna', 'benna', 'banne']


In [13]:
fac(10)//fac(2)//fac(2)

907200

In [14]:
fac(10)//fac(3)//fac(1)

604800