## Sur l'utilisation des dictionnaires en Python

Tout object "immuable" peut être utilisé comme clef d'un dictionnaire Python

In [1]:
memo = {}
memo[1] = 10
memo['bla'] = 0
memo

{1: 10, 'bla': 0}

Cependant les lists ne sont pas des objets immuables !

In [2]:
l = [1,2,3,4,5]
memo[l] = -1

TypeError: unhashable type: 'list'

En effet, Python associée un hashé à tous les objets immuables, mais pas aux objets dits *"unashable"*

In [3]:
hash('bla')

4314334462842797946

In [4]:
hash(2**1000)

16777216

In [5]:
hash(l)

TypeError: unhashable type: 'list'

Voici une solution pour utiliser des listes comme clefs dans un dictionnaire Python: les convertir en chaînes de caractères

In [6]:
str(l)

'[1, 2, 3, 4, 5]'

In [7]:
l

[1, 2, 3, 4, 5]

In [8]:
memo[str(l)] = 100
memo

{1: 10, 'bla': 0, '[1, 2, 3, 4, 5]': 100}

## Exercice 1

### solution récursive naïve

Avec le meilleur parenthèsage en bonus !

In [9]:
def opt(seq):
    if len(seq) <= 2:
        return 0, '(X·X)'
    m = float("inf")  # Valeur spéciale "infini" (Python-only)
    shape = None
    for i in range(1, len(seq)-1):
        A, shl = opt(seq[:i+1])
        B, shr = opt(seq[i:])
        n = A + B + seq[0]*seq[i]*seq[-1]
        if n < m:
            m = n
            shape = '(%s·%s)' % (shl,shr)
    return m, shape

In [10]:
%time opt([5,10,3,12,5,50,6])

CPU times: user 157 µs, sys: 30 µs, total: 187 µs
Wall time: 189 µs


(2010, '(((X·X)·(X·X))·(((X·X)·(X·X))·((X·X)·(X·X))))')

### solution récursive avec mémoisation

À partir de maintenant, on donne juste le coût optimal, pour simplicité. La modification pour avoir le parenthèsage est immédiate.

In [11]:
def opt_memo(seq, memo):  # memo est la table de hachage à utiliser pour la mémoisation,
                          # passer un dictionnaire vide lorsqu'on appelle la fonction
    cle = str(seq)
    if cle in memo:
        return memo[cle]
    if len(seq) <= 2:
        return 0
    m = float("inf")  # Valeur spéciale "infini" (Python-only)
    for i in range(1, len(seq)-1):
        n = opt_memo(seq[:i+1], memo) + opt_memo(seq[i:], memo) + seq[0]*seq[i]*seq[-1]
        if n < m:
            m = n
    memo[cle] = m
    return m

In [12]:
%time opt_memo([5,10,3,12,5,50,6], {})

CPU times: user 106 µs, sys: 0 ns, total: 106 µs
Wall time: 109 µs


2010

comparons les performances sur une entrée un peu plus consistante (une partie de la différence est due au fait que `opt` renvoie le parenthésage alors que `opt_memo` ne le fait pas, mais l'impact est négligeable face au gain dû à la mémoisation).

In [13]:
import random

In [14]:
l = random.sample(range(2,100), 15)
l

[97, 95, 16, 4, 14, 94, 66, 41, 25, 57, 45, 81, 8, 26, 75]

In [15]:
%time opt(l)

CPU times: user 1.14 s, sys: 0 ns, total: 1.14 s
Wall time: 1.14 s


(158808,
 '(((X·X)·((X·X)·(X·X)))·(((((((((((X·X)·(X·X))·(X·X))·(X·X))·(X·X))·(X·X))·(X·X))·(X·X))·(X·X))·(X·X))·(X·X)))')

In [16]:
memo = {}
%time opt_memo(l, {})

CPU times: user 247 µs, sys: 906 µs, total: 1.15 ms
Wall time: 1.16 ms


158808

### solution dérécursivisée "bottom-up"

À l'analyse de `opt_memo` on reconnaît que la fonction est appellée sur toutes les sous-suites de la suite d'entrée, de longueur $>=2$.

Plutôt que stocker ces valeurs dans une table de hachage, dispendieuse en mémoire, on va utiliser une liste de listes (`bests`, dans le code) occupant le strict minimum de mémoire. Le tableau `bests` est structuré comme ceci : la liste `best[width]` contient les coûts optimaux pour chacune des sous-suites de largeur `width`, de gauche à droite.

Ainsi, pour la suite $(10~5~4~7~8~9~5~3~11)$ en entrée, `bests[4][2]` contiendra le coût optimal pour la troisième suite de longueur $4$, c'est à dire $(4~7~8~9)$.

On ajoute dans le code quelques affichages de debug, pour nous aider à visualiser le tableau `bests` au fur et à mesure qu'il est construit. Lisez la documentation sur le [formatage de chaînes de caractères en Python](https://docs.python.org/3.5/library/string.html#formatspec) pour comprendre la façon dont ces affichages sont construits.

In [17]:
def opt_derec(seq, debug=True):
    if debug:
        print("".join('{:^8}'.format(s) for s in seq))
        print("–" * 8 * len(seq))
    bests = [[], [], [0] * (len(seq) - 1)]
    if debug:
        print(" "*4 + "".join('{:^8}'.format(c) for c in bests[-1]))
    for width in range(3, len(seq) + 1):
        level = []
        for i in range(len(seq) - width + 1):
            cost = min(bests[split + 1][i]
                       + bests[width - split][i + split] 
                       + seq[i]*seq[i+split]*seq[i+width-1]
                       for split in range(1, width - 1))
            level.append(cost)
        bests.append(level)
        if debug:
            print(" "*4*(width-1) + "".join('{:^8}'.format(c) for c in bests[-1]))
    return bests[-1][0]

In [18]:
%time opt_derec(l)

   97      95      16      4       14      94      66      41      25      57      45      81      8       26      75   
––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––
       0       0       0       0       0       0       0       0       0       0       0       0       0       0    
         147440   6080    896     5264   86856   254364  67650   58425   64125   207765  29160   16848   15600  
             42940   11400   11280   30080   124740  222750  161700  110250  155250  49680   38520   64200  
                 48372   47064   34304   40904   139090  356700  206025  238275  61080   61536   71760  
                     84676   61240   43528   45004   159040  392625  356550  69280   66280   99480  
                         98628   62564   46604   50704   194950  568350  90928   77808   91680  
                             99752   60584   54352   60964   245980  140560  104656  109480 
                       

158808

On voit que le gain devient considéreable lorsqu'on augmente la taille des entrées

In [19]:
l = random.sample(range(2,100), 30)
%time opt_memo(l, {})
%time opt_derec(l, debug=False)

CPU times: user 12 ms, sys: 0 ns, total: 12 ms
Wall time: 11.9 ms
CPU times: user 1.94 ms, sys: 0 ns, total: 1.94 ms
Wall time: 1.95 ms


462044

**Exercice:** avec ce code, il est très simple maintenant d'analyser la complexité de l'algorithme ; donnez-en une estimation asymptotique.