# Résoudre un problème

Écrire une fonction qui compte le nombre de mots qui apparaissent une seule fois dans un texte (cela signifie détecter les apax).

Face à un tel objectif, il existe de nombreuses solutions. Certaines vont être évidentes. D'autres plus compliquées. Certaines vont nécessiter beaucoup de lignes de code avec des commandes simples. D'autres utilisent des formulation plus compactes spécifiques au langage Python ou à des bibliothèques.

En dernier recours, l'important est d'écrire une solution qui fonctionne.

## Première solution

Une première étape est de faire étape par étape ce que l'on souhaite

D'abord se donner une phrase

In [8]:
phrase = "Je vais décomposer cette phrase, puis je vais compter le nombre de mots dans cette phrase."

Puis trouver une manière d'identifier les mots. Le plus simple est de considérer qu'un espace sépare deux mots, donc :

In [6]:
mots = phrase.split(" ")

In [7]:
mots

['Je',
 'vais',
 'décomposer',
 'cette',
 'phrase',
 'puis',
 'je',
 'vais',
 'compter',
 'le',
 'nombre',
 'de',
 'mots',
 'dans',
 'cette',
 'phrase.']

On remarque qu'il y a des majuscules qui font que deux mots identiques sont identifiés différemment. Et aussi qu'il y a de la ponctuation. Peut-être sera-t-il nécessaire de modifier la phrase initiale pour avoir un résultat plus homogène. Par exemple, mettre en minuscule

In [14]:
phrase = phrase.lower()
phrase = phrase.replace(".","")
phrase = phrase.replace(",","")

mots = phrase.split(" ")

Maintenant, je veux trouver uniquement les mots uniques dans ma phrase. Comment faire ? Une idée simple est de se dire : je vais prendre chaque mot de la phrase, regarder combien de fois il apparaît, s'il n'apparaît qu'une fois, le garder. 

Cela est facile avec la méthode *count* des chaînes de caractères

In [20]:
# définir une liste vide
mots_uniques = []

# faire une boucle sur les mots et ajouter uniquement une fois chaque mots
for mot in mots:
    nombre_presence = phrase.count(mot)
    if nombre_presence == 1:
        mots_uniques.append(mot)
mots_uniques

['décomposer', 'puis', 'compter', 'le', 'nombre', 'de', 'mots', 'dans']

## Deuxième solution

Une solution plus compacte peut être fait avec la notation de compréhension de liste

In [21]:
[mot for mot in mots if phrase.count(mot)==1]

['décomposer', 'puis', 'compter', 'le', 'nombre', 'de', 'mots', 'dans']

## Troisième solution

Vous vous dites que cette situation est un cas particulier d'une situation plus générale : compter le nombre de fois où un mots est présent dans un texte, et filtrer ensuite suivant un critère (une fois).

Donc peut-être est-il intéressant de construire une structure qui récapitule pour chaque mot sa fréquence. Un lien entre une entrée et une valeur peut se mettre sous la forme d'un dictionnaire.

In [22]:
frequence_mots = {}
for mot in mots:
    # Si le mot n'est pas dans le dictionnaire, le mettre
    if not mot in frequence_mots:
        frequence_mots[mot] = 1
    else:
        frequence_mots[mot] += 1

frequence_mots

{'je': 2,
 'vais': 2,
 'décomposer': 1,
 'cette': 2,
 'phrase': 2,
 'puis': 1,
 'compter': 1,
 'le': 1,
 'nombre': 1,
 'de': 1,
 'mots': 1,
 'dans': 1}

Il reste plus qu'a garder les mots qui ont une apparition de 1

In [24]:
[mot for mot in frequence_mots if frequence_mots[mot]==1]

['décomposer', 'puis', 'compter', 'le', 'nombre', 'de', 'mots', 'dans']

## Quatrième solution

Finalement, compter le nombre d'éléments dans un ensemble, c'est une opération assez basique. Sûrement qu'il existe une manière de le faire avec une bibliothèque. C'est le cas.

In [27]:
from collections import Counter
frequence_mots = Counter(mots)
frequence_mots

Counter({'je': 2,
         'vais': 2,
         'décomposer': 1,
         'cette': 2,
         'phrase': 2,
         'puis': 1,
         'compter': 1,
         'le': 1,
         'nombre': 1,
         'de': 1,
         'mots': 1,
         'dans': 1})

J'ai directement le dictionnaire (enveloppé dans un objet de type Counter).

## Mettre tout ça sous une fonction

Pour pouvoir l'utiliser ensuite plus systématiquement

In [30]:
def apax(texte):
    mots = texte.lower().replace(".","").replace(",","").split(" ")
    frequence_mots = Counter(mots)
    return [mot for mot in frequence_mots if frequence_mots[mot]==1]

Utiliser la fonction

In [33]:
apax("Il est arrivé. Il est parti.")

['arrivé', 'parti']