In [28]:
dico = {'d' : 'de',
        's' : 'se',
        'l' : 'le',
        'j' : 'je',
        'n' : 'ne',
        'c' : 'ce'}

def read_file(path):
    descripteur = open(path,"r",encoding='utf8')
    
    ## Ici pour favoriser le traitement de données on mettra tout le texte en minuscule
    ## sera beaucoup plus simple pour compter les mots et utiliser les fonctions intermédiaires
    raw_text_to_lower = map(lambda s : s.lower().strip(),descripteur.readlines())
    
    return raw_text_to_lower

with open("stopwords_fr.txt", "r", encoding='utf8') as f:
    ## en transformant stop_words en set, l'accession de données se fait beaucoup plus rapidement qu'avec une liste
    stop_words = set(f.read().split())
    
def remove_punctuation_word(word):
    characters = list(word) # "word" -> "["w","o","r","d"]"
    
    ## on remplace toute la ponctuation par " " (pour gérer le tiret) en gardant les caractères alphanumériques
    ## Puis on retire les espaces inutiles au début et à la fin
    return "".join(map(lambda c : c if c.isalnum() else " ",characters)).strip()

def remove_punctuation(text):
    
    t = " ".join(text).split()
    return " ".join([remove_punctuation_word(word) for word in t])


def stemming(word):
    ## Si le mot est de longueur une et est dans le dico alors on retourne sa valeur associée
    if len(word) == 1 and word in dico:
        return dico[word]
    ## sinon on retourne le même mot
    else:
        return word
    
def replace_contracted_words(text):
    return map(stemming,text.split())
  
def remove_stop_words(text):
    
    return filter(lambda word : word not in stop_words and len(word) > 2  and not word.isspace(),text)

def cleaning(path):
    ## on lit le fichier voulu
    raw_text = read_file(path) 
    
    ## on enlève toute la ponctuation
    punctuation_removed = remove_punctuation(raw_text) 
    
    ## on convertit les mots à une lettre grâce au dico
    contracted_words_replaced = replace_contracted_words(punctuation_removed) 
    
    ## on enleve tous les stop_words du fichier, tous les mots de longueur < 2 et tous les espaces superflus
    stop_words_removed = remove_stop_words(contracted_words_replaced)
    
    
    return list(stop_words_removed)



def reduce(cleaned_words):
    ## les mots sont déjà tous en minuscule donc on peut directement effectuer le décompte
    word_count = {}
    for word in cleaned_words:
        word_count[word] = word_count.get(word, 0) + 1
    return word_count


word_count = reduce(cleaning("livre01.txt"))

word_count = sorted(word_count.items(), key= lambda item : item[1], reverse=True)

word_count


107
107


[('est', 48),
 ('dit', 38),
 ('plus', 26),
 ('bien', 25),
 ('fable', 21),
 ('deux', 14),
 ('fort', 13),
 ('point', 13),
 ('fait', 13),
 ('était', 12),
 ('comme', 12),
 ('loup', 12),
 ('sont', 11),
 ('peut', 10),
 ('autre', 9),
 ('avait', 9),
 ('rien', 9),
 ('fut', 8),
 ('maître', 8),
 ('bon', 8),
 ('encore', 8),
 ('notre', 8),
 ('homme', 8),
 ('miroirs', 8),
 ('trouva', 7),
 ('temps', 7),
 ('jour', 7),
 ('aussi', 7),
 ('être', 7),
 ('mort', 7),
 ('renard', 6),
 ('peu', 6),
 ('beau', 6),
 ('belle', 6),
 ('vit', 6),
 ('gens', 6),
 ('toujours', 6),
 ('dire', 6),
 ('étant', 6),
 ('étaient', 6),
 ('chacun', 6),
 ('dieux', 6),
 ('cigogne', 6),
 ('petit', 5),
 ('jusqu', 5),
 ('suis', 5),
 ('corbeau', 5),
 ('faire', 5),
 ('assez', 5),
 ('avoir', 5),
 ('beaucoup', 5),
 ('sire', 5),
 ('logis', 5),
 ('cause', 5),
 ('cela', 5),
 ('nos', 5),
 ('fit', 5),
 ('hirondelle', 5),
 ('rat', 5),
 ('aventure', 5),
 ('affaire', 5),
 ('tête', 5),
 ('frelons', 5),
 ('fourmi', 4),
 ('grain', 4),
 ('animal', 4),
