# Anagrammes
Un écrit ou un récit ? un vélo volé... acheter un hectare, suivre la trace sur la carte... avec l'esprit ou les tripes ? 

Ceci est un programme permettant de lister (presque tout) les anagrammes du Français à partir d'un dictionnaire donné (c'est-à-dire une liste de mots)...

## Chargement et dépoussiérage du dictionnaire

In [2]:
#fichier = 'liste_mots_mix.txt' #295088 mots - http://www.lexique.org/listes/liste_mots.php
fichier = 'liste_francais.txt' # 22740 mots

In [3]:
with open(fichier, encoding="ISO-8859-1") as f:
    dictionnaire = f.readlines()
    
len(dictionnaire)

22740

Sont retirés, entre autre, les noms propres (majuscule), les mots avec une apostrophe ou un tiret...

In [4]:
import re

In [6]:
sacdemots = set()
for ligne in dictionnaire:
    if not re.search( r"[#()'0-9\.\-A-Z!]", ligne) :
        mot = ligne.strip(' \r\n')
        if len(mot)>2 :
            sacdemots.add( mot )
            
liste_mots = list( sacdemots )

In [7]:
print( len( liste_mots ) )
print( ', '.join( liste_mots[:10] ) + ', ...etc' )

21039
dispositifs, organe, frugalité, attiré, humaniste, néon, démerder, améliorations, défavorisés, gastronomique, ...etc


### Recheche des anagrammes
La liste des anagrammes est créée en triant, pour chaque mot, ses lettres par ordre alphabétique. 

In [17]:
liste_anagrammes = [  ''.join( sorted( mot ) ).strip() for mot in liste_mots  ]
print( ', '.join( liste_anagrammes[:10] ) + ', ...etc' )

dfiiiopssst, aegnor, afgilrtué, airtté, aehimnstu, nnoé, ddeemrré, aaiilmnoorsté, adfiorssvéé, aegimnooqrstu, ...etc


Les anagrammes sont ensuite triés, en conservant le mot correspondant attaché avec (`zip`). 

In [9]:
Z = sorted( zip(liste_anagrammes, liste_mots ), key=lambda x:x[0] )
print( Z[:10] )

[('aaaaabbcdnrrt', 'abracadabrant'), ('aaaabcclrtué', 'baccalauréat'), ('aaaabdeeijnrszï', 'azerbaïdjanaise'), ('aaaabdeijnrszï', 'azerbaïdjanais'), ('aaaabkllï', 'balalaïka'), ('aaaacilnrrsvé', 'caravansérail'), ('aaaagilmmnot', 'amalgamation'), ('aaaaiipprsst', 'apparaissait'), ('aaaailmnrsst', 'marais salant'), ('aaaanprtuv', 'auparavant')]


et enfin le coeur du problème, les mots ayant le même anagramme sont cherchés de proche en proche:

In [11]:
multi = []
A = Z[0]
same = False
for B in Z[1:]:
    if A[0] == B[0] and same == False:
        same = True
        famille = [A[1], B[1]] 
    elif A[0] == B[0] and same == True:
        famille.append( B[1] )        
    elif A[0] != B[0] and same == True:
        multi.append(famille)
        same = False

    A = B

In [12]:
len( multi )

768

In [13]:
print( sorted( multi, key=lambda x:len(x[0]) )[:10] )

[['abc', 'bac'], ['cal', 'lac'], ['arc', 'car'], ['sac', 'cas'], ['agi', 'gai'], ['ami', 'mai'], ['rai', 'ira', 'air'], ['sec', 'ces'], ['cor', 'roc'], ['dru', 'dur']]


### Résultats
Les mots ayant le plus d'anagrammes possible :

In [14]:
print( sorted( multi, key=lambda x:len(x), reverse=True)[:20] )

[['arme', 'mare', 'amer', 'rame'], ['rats', 'tsar', 'star', 'arts'], ['eurent', 'retenu', 'neutre', 'teneur'], ['spore', 'prose', 'poser', 'repos'], ['repu', 'pure', 'puer', 'peur'], ['user', 'ruse', 'suer', 'rues'], ['aplatir', 'partial', 'parlait'], ['baltes', 'stable', 'tables'], ['chanter', 'chantre', 'tranche'], ['tacher', 'archet', 'charte'], ['calmer', 'carmel', 'clamer'], ['créature', 'créateur', 'réacteur'], ['sceau', 'sauce', 'cause'], ['aider', 'raide', 'aride'], ['égards', 'gradés', 'gardés'], ['regain', 'ignare', 'graine'], ['pareil', 'palier', 'plaire'], ['animer', 'manier', 'marine'], ['ranimer', 'merrain', 'mariner'], ['marie', 'maire', 'aimer']]


Les anagrammes des mots les plus longs:

In [15]:
print( sorted( multi, key=lambda x:len(x[0]), reverse=True )[:20] )

[['rectification', 'certification'], ['ratification', 'tarification'], ['conversation', 'conservation'], ['représentait', 'présenterait'], ['agriculteur', 'agriculture'], ['législature', 'législateur'], ['resquillant', 'tranquilles'], ['transfusion', 'fournissant'], ['viticulteur', 'viticulture'], ['saturation', 'autorisant'], ['chauffeurs', 'surchauffe'], ['importance', 'comprenait'], ['nonciature', 'continuera'], ['scénariste', 'résistance'], ['légalement', 'allégement'], ['trouverait', 'retrouvait'], ['consterner', 'rencontres'], ['constituer', 'construite'], ['inventeurs', 'intervenus'], ['impression', 'permission']]


Et la liste de tous les anagrammes:

In [16]:
S = sorted( multi, key=lambda x:len(x[0]) )
Sa = [ '/'.join(u) for u in S ]
print( '; '.join( Sa ) )

abc/bac; cal/lac; arc/car; sac/cas; agi/gai; ami/mai; rai/ira/air; sec/ces; cor/roc; dru/dur; sud/dus; les/sel; une/nue; est/tes; use/eus; tue/eut; ouf/fou; ils/lis; tri/rit/tir; mon/nom; mot/tom; son/nos; not/ton/ont; top/pot; aube/beau; abri/brai; bars/bras; cave/avec; cash/chas; acmé/camé; made/dame; dira/raid; dais/sida; ange/nage; rage/gare; aime/amie; raie/aire; arme/mare/amer/rame; nase/anse; tape/apte; sera/rase; tare/rate; saxe/axes; veau/aveu; fait/fiat; gars/gras; mali/lima; mais/amis; anis/sain; pair/ripa/pari; rais/airs; vrai/ravi; vais/visa/avis; rapt/part; rats/tsar/star/arts; taré/raté; snob/bons; lice/ciel; crie/cire; noce/once; cols/clos; coté/écot; turc/truc; ride/dire; tend/dent; dure/rude; life/fiel/file; fers/serf; orge/ogre; miel/lime; line/lien; lier/lire; mien/mine; mise/semi; rein/nier/rien; sein/sien/sine; prie/pire; tire/rite; rive/ivre; vies/vise; lest/tels; zone/onze; sent/nets; nues/unes; rose/ores/oser; veto/vote; repu/pure/puer/peur; pute/peut; rets/ser

#### Remarques:
- le résultat dépend beaucoup du dictionnaire utilisé. Il existe beaucoup de mots non courant, permettant de former beaucoup plus d'anagrammes... plutôt incomprehensibles.
- Comment faire pour autoriser une ou deux lettres de différence ? Ou en travaillant sur la phonétique plutôt que l'orthographe exacte ?