# Troisième séance : spécificités du langage

- auteur : <a href="mailto:lentz@insa-toulouse.fr">A. Lentz</a>
- date : 2023

Maintenant que vous maîtrisez la syntaxe fondamentale du langage, nous allons étudier ses spécificités, ses forces et ses faiblesses.

## 1) Langage interprété

### a) Langage machine et assembleur

Votre machine ne parle ni le français, ni le Python, et encore moins l'espéranto. Elle utilise ce qu'on appelle un langage machine. Ce dernier permet de lui donner directement des instructions. Les instructions sont des séquences de 0 et de 1, ce qui rend le langage complètement illisible. 

On les représente dans un langage d'assemblage (assembleur), dont vous avez déjà eu un aperçu en première année en TD d'algorithmique. Un petit exemple :

Ce langage est dit très bas niveau (le plus bas) : c'est le plus proche du langage machine. Vous vous doutez que développer avec est souvent laborieux. On utilise généralement des langages plus haut niveau (plus proche d'un langage humain) : on contrôle moins ce qui se passe derrière mais on développe plus vite. 

Par exemple, en Python, on ne contrôle pas l'utilisation de la mémoire, ce qui n'est pas optimal. Mais coder un parseur de fichier (on en parlera à la fin de ce TD) devient infiniment plus simple en Python qu'en assembleur.

Il existe deux grandes familles de langages de programmation : les langages compilés et les langages interprétés.

### b) Langages compilés

Pour ces langages, il y a deux étapes :

1. Une étape de compilation qui consiste à traduire le code en langage machine. Par exemple, en ADA, vous écrivez votre code dans un fichier `.adb` (ada body, c'est le corps de votre programme). Votre machine n'y comprend rien. En cliquant sur "build" dans Emacs, vous lancez la compilation, qui génère un exécutable. Ce dernier contient la traduction de votre code en langage machine. Rien n'est exécuté, votre programme ne tourne pas.

2. Une étape d'exécution. Cette fois, vous faites tourner votre programme en demandant au système d'exploitation de lancer les instructions qui sont dans l'exécutable. C'est à ce moment là que vous testez votre programme. En algo-prog, cette étape correspond au bouton "run" avec Emacs.

<u>Exemples</u> : ADA, C, Fortran.

L'étape de compilation permet deux autres choses :
- une vérification partielle de la correction de votre code (avez vous refermé les parenthèses que vous avez ouvertes ?),
- des optimisations de votre programme.

Un exemple d'optimisation :

In [None]:
n = 10
somme = 0
for i in range(n):
    somme += i
print(somme)

# équivalent à sum(range(n))

**Question :** essayer de condenser les lignes 2 à 5 en **une seule** (la valeur affichée doit dépendre de n). Pas le droit d'utiliser une technique spécifique à Python, en particulier la fonction `sum` comme à la ligne 7. Vos connaissances mathématiques devraient vous suffire à éviter toute boucle (explicite ou cachée).

In [None]:
n = 10
print(int(n*(n-1)/2))

### c) Langages interprétés

Les langages interprétés exécutent directement le code : la traduction est faite à la volée. Il faut un interpréteur spécifique à la machine utilisée.

<u>Exemples</u> : Python, Javascript, Prolog.

**Remarque :** certains langages sont entre les deux, comme Java. Il y a une première étape de compilation qui traduit non pas en langage machine mais dans un langage proche, le bytecode java (identique pour toutes les machines). Puis une machine virtuelle Java interprète ce bytecode pour s'adapter aux spécificités de votre machine.

### d) Avantages et inconvénients

<u>Avantages des langages compilés</u> :
- Si vous devez exécuter votre programme de nombreuses fois mais que vous ne le modifiez pas, pas besoin de le recompiler à chaque fois. Vous gagnez du temps. C'est le cas des applications que vous utilisez au quotidien.
- Un deuxième gain de temps : la compilation détecte en amont certaines erreurs, pas besoin d'attendre une longue exécution. On verra un exemple avec le typage dans la partie suivante. 
- Jamais deux sans trois : la compilation se fait sur le code complet, ce qui lui permet d'optimiser plus facilement.
- Le langage machine étant illisible, on peut masquer les techniques de développement utilisées dans un programme propriétaire. La traduction inverse (appelée rétro-ingénierie ou reverse engineering) est non triviale et parfois même illégale selon la licence qui protège le programme.

<u>Avantages des langages interprétés</u> :
- Ils sont dynamiques : on peut ajouter des fonctionnalités peu à peu, on peut changer d'avis, sans avoir à recompiler.
- Un même programme est interprétable sur n'importe quelle machine (munie d'un interpréteur).
- Ils sont souvent plus simples à prendre en main.

### e) Utiliser un interpréteur directement

Ouvrez un terminal et taper `python3`. Félicitations, vous venez d'ouvrir un interpréteur Python. 

**Note :** sous Windows, lancez l'invite de commande (cmd pour les intimes). Il est possible qu'il faille taper `python` tout court. Par contre, sous unix, `python` tout court peut faire référence à la version 2 si elle est installée. Ce n'est pas ce que vous voulez. 

**Remarque sur l'utilisation d'un interpréteur :**
- pensez à indenter correctement (par la suite, vous risquez d'avoir plusieurs niveaux d'indentation)
- pour finir la définition d'une fonction, tapez Entrée une fois de plus : votre interpréteur devrait remplacer les points `...` par des chevrons `>>>`,
- les flèches haut/bas vous permettent de reprendre une ligne déjà tapée (comme en unix).

**Une première illustration :** tapez dans l'interpréteur (dans votre terminal) le code suivant.

In [None]:
a=2
def cube(x):
    return x**3
print(cube(a))

Ah mais non, je voulais voir pour a=3 en fait... Pas besoin réecrire la fonction cube, ni de recompiler comme en ADA (sauf si vous n'avez pas exécuté la cellule précédente). Ecrivez simplement :

In [None]:
print(cube(3))

**Exercice (à faire dans votre terminal) :**

1. Un prédicat est une fonction booléenne, c'est à dire qu'elle renvoie un booléen. Soit $g$ un certain prédicat que vous ne définirez **pas**. Dans votre interpréteur, écrire une fonction `tous_vrai` qui prend en paramètre une liste $L$ et renvoie si pour tout élément $x$ de $L$, $g(x)$ renvoie Vrai.
3. La fonction `tous_vrai` est-elle un prédicat ?
2. La définition de cette fonction dans l'interpréteur pose-t'elle problème ? Le devrait-elle ?
3. Testez votre fonction avec une liste d'entiers. Que se passe t'il ?
4. Définissez un prédicat $g$, qui prend en paramètre un entier et renvoie si il est pair.
5. Testez à nouveau `tous_vrai`.
6. Redéfinisez `g` pour qu'il renvoie Vrai si et seulement si son paramètre est positif.
7. Retestez : le résultat a t'il changé ?
8. En Python, les fonctions peuvent elles aussi être affectée dans des variables, et être passée en paramètre d'une fonction. Redéfinissez `tous_vrai` pour qu'elle prenne maintenant deux paramètres : une liste et un prédicat. Elle renvoie vrai si et seulement si le prédicat appliqué à chaque élément de la liste renvoie Vrai.
9. Testez à nouveau `tous_vrai`, en lui donnant la fonction g en paramètre.

In [None]:
#question 1
def tous_vrai(L):
    for x in L:
        if not g(x):
            return False
    return True

#question 2
#tous_vrai renvoie un booléen, c'est donc un prédicat

#question 3
#aucune problème, la fonction n'est pas exécutée donc l'interpréteur ne vérifie pas si g existe

#question 4
#tous_vrai([1,3,8]) #g is not defined

#question 5
def g(n):
    return n%2==0

#question 6
assert(tous_vrai([0,8,6])==True)
assert(tous_vrai([2,7,8])==False)

#question 7 #a mettre dans une nouvelle cellule si vous avez déjà exécuté mypy ci-dessous
def g(n):
    return n>=0

#question 8
assert(tous_vrai([0,6,6])==True)
assert(tous_vrai([2,7,8])==True)
assert(tous_vrai([0,6,-6])==False)
assert(tous_vrai([2,-7,8])==False)

#question 9
def tous_vrai(L,pred):
    for x in L:
        if not pred(x):
            return False
    return True

#question 10
assert(tous_vrai([0,6,6],g)==True)
assert(tous_vrai([2,7,8],g)==True)
assert(tous_vrai([0,6,-6],g)==False)
assert(tous_vrai([2,-7,8],g)==False)

### f) Les scripts Python

Utilisez un interpréteur de la sorte est pratique pour tester rapidement un petit code. Mais vous avez peut-être déjà eu des difficultés à écrire les fonctions de l'exercice précédent. Pour un code plus conséquent, on utilise généralement des IDE (IDLE, Thonny, Spyder, et beaucoup d'autres). 

Ou si le fait de rajouter dynamiquement du code ne nous sert à rien, on peut simplement écrire des scripts, à lancer une fois terminés.

**Exercice :**

Question 1 :
Créez un fichier `exemple.py`. Ouvrez le avec votre éditeur de texte préféré. Si vous ne voulez pas vous lancer dans ce genre de débat, utilisez Emacs. Implémentez l'algorithme suivant en Python, **sans utiliser de fonction Python qui réduirait drastiquement le nombre de lignes.** Le reconnaissez vous ? 

1.  <u>Algorithme</u>
2.  Entrée : $Phrase$ une chaîne de caractère indicée de $0$ à $n-1$
3.  Sortie : Liste de chaînes de caractères
4.  $position \leftarrow 0$
5.  $debutMot \leftarrow 0$
6.  $motEnCours \leftarrow$ Faux
7.  $resultat \leftarrow$ Liste vide
8.  Tant que $position < n$ Faire
9.  &emsp; Si $Phrase[position]=$"&ensp;" et $motEnCours$ Alors
10. &emsp;&emsp; Ajouter à $resultat$ le sous-mot de *Phrase*, allant des indices $debut$ à ($pos-1$) inclus.
11. &emsp;&emsp; $motEnCours \leftarrow $ Faux
12. &emsp; Sinon si $Phrase[position]\neq$"&ensp;" et non $motEnCours$ Faire
12. &emsp;&emsp; $motEnCours \leftarrow $ Vrai
13. &emsp;&emsp; $debut \leftarrow pos$ 
14. &emsp; Fin si
15. &emsp;$pos \leftarrow pos +1$
16. Fin Tant que
17. Si motEnCours alors
18. &emsp; Ajouter à $resultat$ le sous-mot de *Phrase*, des indices $debut$ à ($pos-1$) inclus.
19. Fin si
20. Renvoyer $resultat$.

In [None]:
def separ(L):
    pos = 0
    debut = 0
    result = []
    motEnCoursDeLecture = False
    while pos < len(L):
        if L[pos]==" " and motEnCoursDeLecture :
            result.append(L[debut:pos])
            motEnCoursDeLecture = False
        elif L[pos]!=" " and not motEnCoursDeLecture :
            motEnCoursDeLecture = True
            debut = pos
        pos += 1
    if motEnCoursDeLecture:
        result.append(L[debut:pos])
    return result

**Réponse :** Cet algorithme prend un string `phrase` en entrée et renvoie la liste des mots qui composent `phrase` dans l'ordre, les mots étant délimités par des espaces. Par exemple, si l'entrée est `["a b c"]`, la fonction renvoie `["a","b","c"]`.

Question 2 : Ajouter des tests à votre script en utilisant des `print` dans un premier temps. Exécuter le script en tapant dans le terminal la commande `python3~exemple.py` et vérifiez que les tests sont cohérents. 

In [None]:
print(separ("a b c"))
print(separ("a b c "))
print(separ(" a b c "))

Question 3 : La fonction que vous venez de coder existe déjà en Python : c'est une méthode du type `string`, qui s'appelle `split`. Essayez de comprendre comment l'utiliser et testez votre fonction avec des `assert` et `split`.

In [None]:
assert(separ("vous avez trouvé ?")=="vous avez trouvé ?".split(" "))
assert(separ("ça devrait être faux")!="ça devrait être vrai".split(" "))

## 2) Typage dynamique

Une autre partition des langages concerne le typage.

### a) Les langages à typage statique

Le mot **statique** se réfère à la compilation. Les langages statiquement typés sont des langages pour lesquels une analyse des types est faite avant l'exécution. Lors de la compilation :
- La cohérence des types est vérifiée. Par exemple, si `f` est une fonction prenant un entier en paramètre, `f(mot)` avec mot un string sera vu comme une erreur dès la compilation. Cela implique une plus grande fiabilité.
- La compilation peut optimiser par rapport aux types utilisés. 
- L'exécution peut se révéler plus efficace (en temps et en mémoire).


Cette vérification peut à première vue paraître très rigide mais c'est en pratique un énorme gain de temps : les erreurs risquent d'arriver bien plus tard sans la compilation.

### b) Les langages à typage dynamique

Cette fois, on peut écrire un peu n'importe quoi pour le typage, ce n'est qu'à l'exécution d'une instruction qu'on se rend compte des problèmes. 

Les avantages sont la simplicité du développement et l'assouplissement : l'écriture d'une fonction ne nécessite pas de connaître le type des variables manipulées. On peut y voir une forme de généricité.

On peut deviner les inconvénients après avoir lu la partie sur les langages à typage statique :
- Code peu fiable, perte de temps à débuger via des tests qui ne peuvent en général pas être exhaustifs.
- Perte de performances.

Une première illustration des problèmes rencontrés :

In [None]:
def milieu(l):
    m = len(l)/2
    return l[m]

print(milieu([9,2,1,3,7,3,9])) #m vaut 3.5, ce n'est pas un entier
print(milieu([1,8,9,0,2,8])) # m vaut 3.0, Python ne fera pas de conversion implicite

Un problème plus gênant : une exécution longue avant le bug. Le code ci-dessous attend 5 secondes avant d'exécuter la fonction `f`. Or cette fonction n'a de sens qu'avec des types numériques, donc avec pas les chaînes de caractères. Exécutez cette cellule. Vous constatez qu'il faut attendre les 5 secondes pour que l'erreur soit détectée.

**Remarque :** la fonction sleep permet de mettre votre programme en pause, comme en bash.

In [None]:
import time #ne vous occupez pas de cette ligne pour l'instant

def f(x):
    return x*x

time.sleep(5)

f("ah")

C'est particulièrement problématique si vous lancez des expériences pendant une semaine et que votre programme plante à la toute fin en tentant de sauvegarder les résultats.

### c) Rajouter explicitement les types

On peut écrire explicitement les types mais cela n'a aucun impact.

In [None]:
import time #ne vous occupez pas de cette ligne pour l'instant

def f(x:int) -> int: 
    return x*x

print(f(2))

time.sleep(5)

print(f("ah"))

Mais avec la syntaxe précédente, on peut utiliser `mypy` pour vérifier le typage statiquement. Exécutez la cellule suivante qui installe `mypy`.

In [None]:
%pip install mypy astor
%pip install --user nb_mypy
%load_ext nb_mypy
%nb_mypy On

Une fois l'installation terminée, réessayez.

In [None]:
import time

def f(x:int) -> int: 
    return x*x

time.sleep(30)
mot : tuple = "test" #mot est un tuple et on essaie de mettre un string dedans 
f(mot) # f prend un entier en paramètre

Ouf ! Pas besoin d'attendre pour corriger les problèmes. Mais votre programme sera quand même exécuté et plantera au bout de 30 secondes.

## 3) Gestion des exceptions d'autant plus nécessaire

Les problèmes présentés dans les deux parties précédentes imposent une grande rigueur. Mais qui est à l'abri d'une erreur ? Afin de renforcer le contrôle de l'exécution d'un programme, vous venez de voir la manipulation des exceptions en ADA. Ces dernières sont cruciales en Python.

Pour récupérer une exception, on a un bloc `try`, qui comme son nom l'indique essaie d'exécuter un code. Puis un bloc `except` qui récupère les exceptions que le bloc `try` a pu provoquer. Un premier exemple pour comprendre la syntaxe :

In [None]:
def div_eucl(a,b):
    try:
        return a//b, a%b
    except ZeroDivisionError: #si b vaut 0, a//b lève une exception de type ZeroDivisionError
        print("Tu veux diviser par zéro...")

div_eucl(10,0)

On peut lever une exception avec le mot clé `raise`. Après un bloc `except`, deux autres mots clés parfois utiles : 
- `else` : bloc qui s'exécute si aucune exception n'a été rattrapé,
- `finally` : bloc qui s'exécute après `except` ou `else`, dans tous les cas.

In [None]:
note = 90

def valide(x):
    if 0<=x<=20:
        return x>=10
    else:
        raise Exception('Note incorrecte')
    
try:
    resultat = valide(note)
except Exception:
    print("Vous avez dû faire une typo en écrivant la note : " + str(note))
    raise #propage l'exception, qui ne sera pas rattrapée
else: #n'est considéré que si l'exception n'est pas levée
    if resultat:
        print("Bravo !")
    else:
        print("Courage, on se revoit en juin !")
finally:
    print("La raclette n'a pas de saison.")  #s'affiche même si l'exception est levée et que le programme plante

**Un exemple un peu plus complet :** pour tuer le temps, votre ordinateur decide tout seul d'aller rendre visite à une certaine Sarah Connor. Il parcourt l'annuaire afin de trouver son adresse. 

Prenez le temps de comprendre cet exemple. Lors de la recherche dans l'annuaire, deux problèmes peuvent arriver. Identifiez les et modifiez le programme afin d'observer la gestion de ces erreurs avec des exceptions.

In [None]:
addresses = [
    ("James Cameron","Awa'atlu, Pandora"),
    ("Sarah Connor","14239 Hill Street, Los Angeles"),
    ("Sarah Connor","Hamlin Hamlin and McGill Street, Los Angeles"),
    ("Sharon Williams","41°43'57' N 49° 56'49' W, Atlantic Ocean"),
    ("Sarah Connor","420 South Lafayette Park Place, Los Angeles"),
    ("Arnold Schwarzenegger","California Governor's Mansion, Sacramento")
]

def find_address(l,name): #address prend deux d en anglais 
    for x in l:
        try:
            if x[0]==name:
                return x[1]
        except Exception as e:
            raise TypeError("TypeError : " + str(x) +" is not a pair")
    raise ValueError
        
def out_of_control(name):
    try:
        destination = find_address(addresses,name)
    except TypeError as t:
        print(t.args) #devinez ce que args contient
        print("Please give a correct address book")
    except ValueError as e:
        print(name+" is not in address book")
        print("Please give a complet address book")
    else:
        start_GPS(locate_myself(),destination)
    finally:
        print("On second thought, we'll stay in the computer room.") 
        
def locate_myself():
    return "135 Avenue de Rangueil, Toulouse"

def start_GPS(source,destination): 
    print("Chemin de " + source + " à " + destination)
    print("You will learn how to compute trips next year.\
          \nYou can't walk there anyway.")
        
out_of_control("Sarah Connor")

## 4) Lecture/écriture de fichier

Un intérêt incontournable de Python est la simplicité avec laquelle on peut lire et modifier des fichiers.

Pour cette section, pensez à récupérer l'indispensable recette de `moussaka`, disponible sur Moodle. Placez la dans le même dossier que votre notebook. Les fichiers générés seront crées dans ce dossier aussi.

In [None]:
fichier = open("moussaka")
for i in fichier:
    print(i) #le print rajoute un saut à la ligne en plus de celui à la fin de chaque ligne du fichier
fichier.close() #la fermeture est une méthode, syntaxe différente de l'ouverture

La fonction `read` renvoie un string contenant tout le fichier.

In [None]:
fichier = open("moussaka")
print(fichier.read())
fichier.close()

On peut récupérer les lignes une par une avec la méthode `readline`. 

**Point important sur la lecture de fichier :** la variable `fichier` contient un curseur, initialement placé au début du fichier. Chaque appel à `readline` récupère la ligne au niveau du curseur, et fait avancer le curseur sur la ligne suivante. Cela permet de simplement rappeler `readline` pour avancer dans la lecture du fichier. Essayez d'utiliser `read` après avoir fait deux `readline` pour bien comprendre.

**Remarque :** Le paramètre facultatif `end` de la fonction `print` permet de choisir le motif ajouté à la fin de l'affichage (par défaut "\n"). Il suffit de donner une chaîne de caractère vide pour éviter de sauter à la ligne.

**Autre remarque :** on peut mettre pour condition un string. Un string vide est considéré comme `False` tandis qu'un string non vide est considéré comme `True`. Donc la boucle `while` ci-dessous tourne tant que `readline` ne renvoie pas un string vide (lecture terminée).

In [None]:
fichier = open("moussaka")
num_ligne=1
ligne = fichier.readline()
while(ligne):
    print("Ligne numéro " + str(num_ligne) + " : ", end="")
    print(ligne,end="")
    num_ligne += 1
    ligne = fichier.readline()

fichier.close()

Par défaut, l'ouverture d'un fichier se fait en mode lecture. On peut spécifier le mode en rajoutant un paramètre facultatif :
- "r" pour lire (read),
- "w" pour écrire, écrase le contenu déjà dans le fichier (write),
- "a" ajoute à la fin du fichier (append).

Pour l'écriture, le fichier est crée si il n'existe pas. L'écriture se fait avec la méthode `write` comme suit :

In [None]:
fichier = open("entiers","w")
for i in range(10):
    fichier.write(str(i)+"\n") #write ne rajoute pas de saut à la ligne par défaut, retirer \n pour vérifier
fichier.close()

**Exercice :** Ecrire une fonction qui prend en entrée un nom de fichier correspondant à une recette et créer un nouveau fichier contenant la même recette, mais pour le double de personnes. Le format du fichier est le même que celui du fichier `moussaka`. Certaines lignes ne contiennent pas de doses. **Gérer ce cas avec une exception.**

La recette de la moussaka fournie est pour 4 personnes (qui ont faim), tester votre fonction pour inviter 7 personnes à manger dès que les tomates seront de saison.

**Note :** la fonction `input` permet de demander à l'utilisateur de donner une chaîne de caractère. Utilisez la afin de récupérer le nom de la recette, et avec des exceptions, redemander à l'utilisateur tant que la recette n'existe pas.

In [None]:
def double_ligne(ligne):
    parts = ligne.split(" ")
    try:
        dose = int(parts[0])
    except ValueError:
        return ligne
    else:
        #return " ".join(parts[1:])
        return str(2*dose) + ligne[len(parts[0]):]

def double(filename):
    try:
        recetteIn = open(filename,"r")
        recetteOut = open(filename+"Double","w")
    except FileNotFoundError:
        print("Le fichier n'existe pas !")
        raise
    else:
        ligne = recetteIn.readline()
        while(ligne):
            nouvelle_ligne = double_ligne(ligne)
            recetteOut.write(nouvelle_ligne)
            ligne = recetteIn.readline()
    recetteIn.close()
    recetteOut.close()

toDo = True
while(toDo):
    filename = input()
    try : 
        double(filename)
        toDo=False
    except FileNotFoundError:
        print("Essayez encore !")


## 5) Exercice de compression de fichier (inspiré du zip).

On va travailler sur le parsing de fichier en compressant des fichiers avec une technique inspirée de la compression *zip*. Pour chaque question, écrivez dans un premier temps sans gestion d'exception, puis avec, en prenant soin de couvrir le plus de cas possibles.

i) Le fichier *dumas* sur Moodle contient le roman *Le Compte de Monte Cristo*. En l'ouvrant vous remarquez que des underscores intempestifs se sont ajoutés, cela arrive souvent lors d'un copié-coller. Ecrire une fonction `cleanDumas`qui génère le fichier *dumasClean*, où l'on a retiré ces odieux caractères.

In [None]:
def cleanFile(filename):
    def cleanLine(line):
        parts = line.split("_")
        return " ".join(parts)


    fin = open("dumas","r")
    fout = open("dumasClean","w")

    d = dict()
    line = fin.readline()
    while(line):
        fout.write(cleanLine(line))
        line = fin.readline()
    fin.close()
    fout.close()


ii) Ecrire une fonction `dictQuantity` qui prend un nom de fichier en paramètre et renvoie un dictionnaire associant à chaque mot du fichier son nombre d'occurence. Pensez à retirer les "\n".

In [None]:
def dictQuantity(filename):
    d = dict()
    f = open(filename,"r")
    line = f.readline()
    while(line):
        parts = line[:-1].split(" ") #-1 pour retirer le saut à la ligne
        for mot in parts:
            if mot in d:
                d[mot] += 1
            else:
                d[mot] = 1
        line = f.readline()
    f.close()
    return d

In [None]:
d_test1 = {'3': 1,'aubergines': 1,'7': 1,'tomates': 1,'2': 1,'oignons': 1,'500': 1,
     'g': 3,'de': 5,'pommes': 1,'terre': 1,'1': 1,'kg': 1,"d'agneau": 1,
     'haché': 1,'60': 1,'beurre': 1,'20': 1,'farine': 1,'50': 1,'cl': 1,
     'lait': 1,'huile': 1,"d'olive": 1,'cannelle': 1,'muscade': 1,'sel': 1,
     'poivre': 1}

assert(d_test1==dictQuantity("moussaka"))

iii) Ecrire une fonction `mean` qui prend en entrée un dictionnaire d'occurrence (comme ceux générés par la question précédente), et renvoie la taille moyenne des mots du fichier associé.

In [None]:
def mean(d):
    acc = 0
    nb_mot = 0
    for mot in d:
        acc += len(mot)*d[mot]
        nb_mot += d[mot]
    return acc/nb_mot

In [None]:
#assert(mean(dict_genere("moussaka"))==3.7941176470588234) #ce n'est pas très propre...
#assert(mean(dict_genere("dumasClean"))==4.66710627142569)
assert(abs(mean(dictQuantity("moussaka"))-3.79)<0.1) 
assert(abs(mean(dictQuantity("dumasClean"))-4.67)<0.1)

iv) Ecrire une fonction qui :
- Prend un nom de fichier en paramètre.
- Renvoie un dictionnaire qui associe à chaque mot un unique identifiant. Cet identifiant est un entier entre $0$ et $n-1$, avec $n$ le nombre de mots distincts dans le fichier. Le premier mot vu aura $0$ pour identifiant, le deuxième $1$, etc...

In [None]:
def dictId(filename):
    id = 0
    d = dict()
    f = open(filename,"r")
    line = f.readline()
    while(line):
        parts = line[:-1].split(" ")
        for mot in parts:
            if mot not in d:
                d[mot] = id
                id += 1 #on passe à l'id suivant
        line = f.readline()
    f.close()
    return d

In [None]:
d_test2 = {'3': 0,'aubergines': 1,'7': 2,'tomates': 3,'2': 4,'oignons': 5,'500': 6,'g': 7,
     'de': 8,'pommes': 9,'terre': 10,'1': 11,'kg': 12,"d'agneau": 13,'haché': 14,'60': 15,
     'beurre': 16,'20': 17,'farine': 18,'50': 19,'cl': 20,'lait': 21,'huile': 22,
     "d'olive": 23,'cannelle': 24,'muscade': 25,'sel': 26,'poivre': 27}
assert(d_test2 == dictId("moussaka"))

v) On veut remplacer les mots du texte initial par leur identifiant. Créer une structure de liste de liste, chaque liste interne représentant une ligne, contenant les identifiants des mots de la ligne.

In [None]:
def convertTextToId(filename):
    newListe = []
    d = dictId(filename)
    f = open(filename,"r")
    line = f.readline()
    while(line):
        newListe.append([]) #on ajoute une ligne
        parts = line[:-1].split(" ") 
        for mot in parts:
            newListe[-1].append(d[mot])
        line = f.readline()
    f.close()
    return newListe

In [None]:
l_test = [[0, 1],[2, 3],[4, 5],[6, 7, 8, 9, 8, 10],[11, 12, 13, 14],[15, 7, 8, 16],
     [17, 7, 8, 18],[19, 20, 8, 21],[22, 23],[24],[25],[26],[27]]

assert(l_test==convertTextToId("moussaka"))

vi) Ecrire une fonction qui prend en entrée un nom de fichier *filename* et créer un fichier *filenameZip* pour y écrire le dictionnaire des identifiants suivi de la liste de liste des identifiants. On veut que le format soit le suivant (exemple avec *moussakaZip*) :

In [None]:
def writeDict(file,dico):
    file.write("Dictionnaire:\n")
    for key in dico:
        file.write(str(key) + " : " + str(dico[key]) + "\n")
    file.write("\n")
        
def writeTexte(file,txt):
    file.write("Texte:\n")
    for line in txt:
        for x in line:
            file.write(str(x)+' ')
        file.write("\n")
    file.write("\n")
        

def zip(filename):
    fc = open(filename+"Zip","w")
    dico = dictId(filename)
    writeDict(fc,dico)
    texte = convertTextToId(filename)
    writeTexte(fc,texte)
    fc.close()

vii) Vous remarquez que le fichier "moussakaZip" est plus gros que "moussaka". C'est logique pour un petit fichier avec peu de doublons. Quel est le gain pour fichier "dumas" ?

Réponse : le gain devrait être proche de $1$ car la longueur des entiers utilisés (nombre de caractères) n'est en moyenne pas très différent de celle des mots. 

viii) Proposez une amélioration simple sur l'affectation des identifiants.

On peut donner les plus petits identifiants (ceux qui prennent le moins d'espace) aux mots les plus courants. Par exemple, trier par value le dictionnaire calculé par dictQuantity.

ix) Ecrire une fonction de décompression. Les deux fichiers sont-ils bien identiques ? Sous Unix, la commande `diff` peut vous être utile.

In [None]:
def decompress(filename):
    fzip = open(filename)
    d = dict()
    line = fzip.readline() #premiere ligne : Dictionnaire
    line = fzip.readline() #debut du dictionnaire
    while(line!='\n'):
        (k,v) = line[:-1].split(' : ')
        d[v]=k  #on inverse pour trouver le mot a partir de l'identifiant
        line = fzip.readline()
        
    funzip = open(filename+'Unzip','w')
    line = fzip.readline() #premiere ligne : Texte
    line = fzip.readline()
    while(line):
        lineList = line[:-1].split()
        for i in lineList[:-1]: #pas d'espace après le dernier mot
            funzip.write(d[i])
            funzip.write(' ')
        if(len(lineList)!=0):
            funzip.write(d[lineList[-1]])
        funzip.write('\n')
        line = fzip.readline()

In [None]:
decompress("dumasCleanZip")