***Auditeur: Jonny SAYKOSY, UTC 503, Pour le: 10/06/2023***


# Controle continu - compter les mots (à rendre)

## Énoncé 

Ecrire une fonction map_reduce(phrases) qui renvoie chaque mot avec son occurence sous forme de dictionnaire.

On testera avec la fable de La Fontaine "la cigale et la fourmi" jointe ci-dessous ou au format fichier.
Dans une première étape on cherchera à nettoyer (préparer) les données par une fonction preprocessing(chaine) qui prend en entrée le texte et renvoie la liste des mots du texte ainsi nettoyés :

- la ponctuation ne doit pas compter comme mots
- les mots séparés par des tirets doivent compter commme autant de mots
- les mots contractés seront remplacés par leur équivalent non contractés :
`'d':'de', 's':'se', 'l':'le', 'j':'je', 'n':'ne', 'c':'ce'`

### Texte :

In [8]:
ch = '''
     La Cigale, ayant chanté
     Tout l'Été,
     Se trouva fort dépourvue
     Quand la bise fut venue.
    Pas un seul petit morceau
    De mouche ou de vermisseau.
    Elle alla crier famine
    Chez la Fourmi sa voisine,
    La priant de lui prêter
    Quelque grain pour subsister
    Jusqu'à la saison nouvelle.
    Je vous paierai, lui dit-elle,
    Avant l'Oût, foi d'animal,
    Intérêt et principal.
    La Fourmi n'est pas prêteuse ;
    C'est là son moindre défaut.
    « Que faisiez-vous au temps chaud ?
    Dit-elle à cette emprunteuse.
    — Nuit et jour à tout venant
    Je chantais, ne vous déplaise.
    — Vous chantiez ? j'en suis fort aise.
    Eh bien !dansez maintenant. »
  '''

Jean de La Fontaine, Les fables de La Fontaine

## Réponse

In [9]:
import re

def map_reduce(phrases):
    """
    Renvoie chaque mot avec son occurence sous forme de dictionnaire.
    """
    
    # Étape 1: on extrait des sous-chaînes délimitées par un des caractères spéciaux (espaces, virgules, etc...)
    # définies dans l'expression régulière suivante: [ ,\n\'?!—«».;\-]+ , tout en filtrant les chaînes vides
    substrings = [x for x in re.split('[ ,\n\'?!—«».;\-]+', phrases) if x]
    
    # Étape 2: tout mettre en minuscules
    words_iterator = map(lambda x: x.lower(), substrings)
    
    # Étape 3: remplacer les mots contractés par l'équivalent non contracté
    to_replace = {'d':'de', 's':'se', 'l':'le', 'j':'je', 'n':'ne', 'c':'ce', 'jusqu': 'jusque'}
    words = list(map(lambda x: to_replace[x] if x in to_replace else x, words_iterator))
    
    # on retourne un dictionnaire avec le set de mots en clés et le nombre d'occurences en valeurs
    return  dict((x , words.count(x)) for x in set(words))

In [11]:
map_reduce(ch)

{'petit': 1,
 'je': 3,
 'déplaise': 1,
 'son': 1,
 'dit': 2,
 'dansez': 1,
 'fort': 2,
 'vermisseau': 1,
 'chez': 1,
 'intérêt': 1,
 'dépourvue': 1,
 'alla': 1,
 'fut': 1,
 'venue': 1,
 'faisiez': 1,
 'défaut': 1,
 'quand': 1,
 'que': 1,
 'fourmi': 2,
 'animal': 1,
 'chaud': 1,
 'cigale': 1,
 'avant': 1,
 'subsister': 1,
 'morceau': 1,
 'maintenant': 1,
 'suis': 1,
 'un': 1,
 'eh': 1,
 'moindre': 1,
 'chanté': 1,
 'principal': 1,
 'chantais': 1,
 'chantiez': 1,
 'grain': 1,
 'saison': 1,
 'ne': 2,
 'tout': 2,
 'ayant': 1,
 'elle': 3,
 'emprunteuse': 1,
 'nuit': 1,
 'pas': 2,
 'quelque': 1,
 'seul': 1,
 'mouche': 1,
 'paierai': 1,
 'là': 1,
 'en': 1,
 'été': 1,
 'se': 1,
 'cette': 1,
 'sa': 1,
 'oût': 1,
 'aise': 1,
 'prêteuse': 1,
 'bien': 1,
 'vous': 4,
 'de': 4,
 'prêter': 1,
 'ce': 1,
 'trouva': 1,
 'et': 2,
 'venant': 1,
 'la': 6,
 'à': 3,
 'bise': 1,
 'le': 2,
 'est': 2,
 'famine': 1,
 'ou': 1,
 'priant': 1,
 'foi': 1,
 'voisine': 1,
 'nouvelle': 1,
 'crier': 1,
 'lui': 2,
 'jusqu