# Python en action

<img src="https://cdn.pixabay.com/photo/2017/01/31/23/21/animal-2028134_960_720.png" alt="The command line" width="100%" >


## Anatomie d'un code Python

Voici un extrait de code Python. Ces lignes, une fois réunies, accomplissent quelque chose de simple mais important. Elles comptent et affichent les mots les plus fréquents dans un fichier texte. L'exemple ci-dessous compte et affiche les 40 mots les plus fréquents dans le roman de Maurice Leblanc, "Arsene Lupin gentleman cambrioleur" (1907).

In [2]:
import re
from collections import Counter

def decouper_en_mots(un_morceau_de_texte):
    texte_minuscule = un_morceau_de_texte.lower()
    mots_separes = re.split("\W+", texte_minuscule)
    return mots_separes

chemin_du_texte = "../data/txt/1907_Leblanc-Maurice_Arsene-Lupin-gentleman-cambrioleur.txt"
nombre_de_mots_voulu = 40

mots_vides = [
    'je', 'tu', 'il', 'elle', 'on', 'nous', 'vous', 'ils', 'elles',
    'le', 'la', 'les', 'un', 'une', 'des', 'mon', 'ma', 'mes', 'ton', 'ta', 'tes',
    'son', 'sa', 'ses', 'notre', 'votre', 'leurs', 'de', 'du', 'l', 'à', 'au', 'aux', 'en', 'par', 'pour', 'avec',
    'sur', 'sous', 'dans', 'vers', 'contre', 'à travers', 'après', 'avant', 'pendant',
    'alors', 'quand', 'si', 'comme', 'parce que', 'parce', 'mais', 'ou', 'et', 'donc',
    'si', 'car', 'lorsque', 'puisque', 'qu', 'quel', 'quelle', 'quels', 'quelles',
    'ainsi', 'autant', 'autre', 'autres', 'celui', 'celle', 'ceux', 'celles',
    'chaque', 'ci', 'ça', 'cela', 'ce', 'ceci', 'celui-ci', 'celle-ci',
    'celui-là', 'celle-là', 'cent', 'certain', 'certaine', 'certaines', 'certains',
    'ceux-ci', 'ceux-là', 'chaque', 'combien', 'comme', 'd', 'dans', 'des', 'du', 'deux',
    'devant', 'donc', 'dont', 'duquel', 'elle', 'elles', 'en', 'encore', 'entre',
    'envers', 'est', 'et', 'eu', 'eux', 'fin', 'fut', 'hormis', 'hui', 'huit', 'ici',
    'il', 'ils', 'je', 'jusque', 'l', 'la', 'le', 'les', 'leur', 'leurs', 'lors',
    'lui', 'là', 'ma', 'mais', 'me', 'même', 'mes', 'moi', 'moins', 'mon', 'ne', 'ni',
    'nombreuses', 'nombreux', 'notre', 'nous', 'ou', 'où', 'par', 'parmi', 'pas',
    'peu', 'plus', 'plupart', 'pour', 'pourquoi', 'quand', 'que', 'quel', 'quelle',
    'quelles', 'quels', 'qui', 'quoi', 'sa', 'sans', 'se', 'sept', 'ses', 'si',
    'sien', 'soi', 'soit', 'son', 'sont', 'sous', 'soyez', 'sujet', 'sur', 'ta',
    'tandis', 'te', 'tel', 'telle', 'telles', 'tels', 'tes', 'toi', 'ton', 'tous',
    'tout', 'toute', 'toutes', 'un', 'une', 'va', 'vers', 'voici', 'voilà', 'vont',
    'votre', 'vous', 'vu', 'ça', 's', 'n', 'c', 'a', 'm', 'j', 'y', 't', 'ces', 
    'dit', 'cet', 'oui', 'non', 'était', 'est', 'être', 'été', 'ai', 'puis', 'avez', 
    'avait', 'avais', 'eût', 'très', 'cette', 'point', 'fois', 'fit', 'aussi', 'suis' 
]


texte_complet = open(chemin_du_texte, encoding="utf-8").read()

tous_les_mots = decouper_en_mots(texte_complet)
mots_significatifs = [mot for mot in tous_les_mots if mot not in mots_vides]
conteur_mots_significatifs = Counter(mots_significatifs)
mots_significatifs_frequents = conteur_mots_significatifs.most_common(nombre_de_mots_voulu)

mots_significatifs_frequents


[('lupin', 295),
 ('arsène', 269),
 ('bien', 159),
 ('monsieur', 109),
 ('homme', 108),
 ('ganimard', 88),
 ('rien', 78),
 ('heures', 65),
 ('comment', 63),
 ('fait', 63),
 ('trois', 62),
 ('yeux', 57),
 ('jour', 55),
 ('andermatt', 55),
 ('devanne', 54),
 ('quelques', 52),
 ('porte', 52),
 ('temps', 51),
 ('coup', 49),
 ('nom', 48),
 ('nuit', 48),
 ('lettres', 48),
 ('peut', 47),
 ('varin', 47),
 ('daspry', 46),
 ('chose', 45),
 ('dire', 45),
 ('faire', 45),
 ('eut', 45),
 ('main', 44),
 ('ah', 44),
 ('petit', 43),
 ('cependant', 42),
 ('baron', 42),
 ('êtes', 42),
 ('personne', 42),
 ('jusqu', 42),
 ('heure', 41),
 ('affaire', 41),
 ('jamais', 39)]

<div class="admonition pythonreview" name="html-admonition" style="background: lightgreen; padding: 10px">
  <p class="title">Relecture d'un code Python</p>
  <p>Il est important de souligner que le code ci-dessus n'est qu'*une* façon de compter les mots dans un fichier texte avec Python. Ce n'est pas la seule bonne façon. Il n'y a pas de bonne manière de compter les mots dans un fichier texte ou de faire quoi que ce soit d'autre en Python.</p>
  <p>Au lieu de demander "Ce code est-il *correct*?", demandez-vous :
  - "Ce code est-il efficace ?"
  - "Ce code est-il lisible ?"
  - "Ce code m'aide-t-il à atteindre mon objectif ?"
  </p>
  <p>Parfois, vous privilégierez l'une de ces préoccupations par rapport à une autre. Peut-être que votre code n'est pas aussi efficace que possible, mais s'il fait le travail et que vous le comprenez, vous ne vous soucierez peut-être pas de l'efficacité maximale. Notre objectif principal pour ce cours est d'étudier la culture et d'argumenter à ce sujet, et non (nécessairement) de devenir les développeurs de logiciels les plus efficaces.</p>
</div>


## Anatomie d'un code Python

### Import Libraries/Packages/Modules

**Prêt pour une excellente nouvelle en Python ?** Vous n'avez pas à coder tout par vous-même à partir de zéro ! Beaucoup d'autres personnes ont écrit du code Python que vous pouvez `importer` dans votre propre code, ce qui vous fera gagner du temps et effectuera beaucoup de travail en arrière-plan.



In [5]:
import re
from collections import Counter

**Nous appelons le code écrit et empaqueté par d'autres personnes une "bibliothèque", "paquet" ou "module".** Nous en parlerons plus dans une leçon ultérieure. Pour l'instant, sachez simplement que vous `importez` les bibliothèques/paquets/modules en haut d'un script Python pour une utilisation ultérieure.

- [`Counter`](https://stackabuse.com/introduction-to-pythons-collections-module/) m'aidera à compter les mots.
- 
- [`re`](https://docs.python.org/3/library/re.html#regular-expression-syntax), abrégé d'expressions régulières, est essentiellement une fonction de recherche et de remplacement sophistiquée qui m'aidera à diviser "The Yellow Wallpaper" en mots individuels et à supprimer la ponctuation finale.

### Définir une Fonction

Après avoir `importé` des modules et des bibliothèques, vous définissez généralement vos "fonctions" avec `def`. Les fonctions sont une manière astucieuse de regrouper du code afin de pouvoir les réutiliser ultérieurement. Les fonctions permettent également de garder votre code propre et bien organisé.

In [7]:
def decouper_en_mots(un_morceau_de_texte):
    texte_minuscule = un_morceau_de_texte.lower()
    mots_separes = re.split("\W+", texte_minuscule)
    return mots_separes

Ici, nous créons une fonction appelée decouper_en_mots, qui prend n'importe quel morceau de texte, transforme ce texte en minuscules, et divise le texte en une liste de mots propres sans ponctuation ni espaces. Nous n'utilisons pas encore cette fonction.

### Définir les chemins de fichier et affecter les variables

In [2]:
chemin_du_texte = "../data/txt/1907_Leblanc-Maurice_Arsene-Lupin-gentleman-cambrioleur.txt"
nombre_de_mots_voulu = 40

mots_vides = ['je', 'moi', 'mon', 'moi-même', 'nous', 'notre', 'à nous', 'nous-mêmes', 'tu', 'ton', 'tes',
 'toi-même', 'vous', 'votre', 'vôtre', 'vous-mêmes', 'il', 'lui', 'son', 'lui-même', 'elle', 'sa', 'ses',
 'elle-même', 'cela', 'ses', 'cela-même', 'ils', 'eux', 'leur', 'les leurs', 'eux-mêmes',
 'quoi', 'lequel', 'qui', 'à qui', 'ce', 'cette', 'ces', 'ceux', 'suis', 'es', 'est',
 'était', 'étaient', 'être', 'été', 'étant', 'avoir', 'as', 'a', 'avait', 'ayant', 'faire', 'fait',
 'faisait', 'faisaient', 'fait', 'faisant', 'un', 'une', 'le', 'et', 'mais', 'si', 'ou', 'parce que', 'comme', 'jusqu’à',
 'pendant', 'avant', 'après', 'au-dessus', 'en dessous', 'à', 'de', 'vers', 'dans', 'à propos', 'contre', 'entre', 'dans',
 'à travers', 'pendant', 'avant', 'après', 'au-dessus', 'en dessous', 'vers', 'haut', 'bas',
 'dans', 'hors', 'sur', 'au-dessus', 'sous', 'encore', 'plus loin', 'puis', 'une fois', 'ici',
 'là', 'quand', 'où', 'pourquoi', 'comment', 'tout', 'tout', 'les deux', 'chaque', 'peu', 'plus',
 'la plupart', 'autre', 'certains', 'tel', 'aucun', 'ni', 'pas', 'seulement', 'propre', 'même', 'tellement',
 'que', 'trop', 'très', 's', 't', 'pouvoir', 'volonté', 'juste', 'ne', 'devrait', 'maintenant', 'avoir', 'amp']

Enfin, nous créons également une variable appelée mots_vides et y insérons une liste de "mots vides" courants de la langue anglaise, c'est-à-dire une liste de certains des mots les plus fréquemment utilisés en anglais. Les mots vides sont généralement supprimés d'un texte avant l'analyse informatique afin de mettre l'accent sur des mots moins fréquemment utilisés et plus "significatifs".

```{margin}
Quelles sont les conséquences de l'exclusion des mots vides de notre analyse ? Quand pourrions-nous vouloir inclure de tels mots dans une analyse ?
```

### Lire le Fichier

In [10]:
texte_complet = open(chemin_du_texte, encoding="utf-8").read()

La ligne ci-dessus ouvre "1907_Leblanc-Maurice_Arsene-Lupin-gentleman-cambrioleur.txt", lit le roman et l'assigne à la variable `texte_complet`.

### Manipulation et Analyse du Fichier

Pour compter les mots dans "Arsène Lupin", nous devons découper le texte complet en mots individuels. Voici comment nous appelons la fonction `decouper_en_mots`, que nous avons créée précédemment, et l'utilisons pour diviser le `texte_complet` du récit en mots individuels. Ensuite, nous attribuons cette valeur à la variable `tous_les_mots`.

In [7]:
tous_les_mots = decouper_en_mots(texte_complet)

In [9]:
tous_les_mots

['',
 'l',
 'étrange',
 'voyage',
 'il',
 'avait',
 'si',
 'bien',
 'commencé',
 'cependant',
 'pour',
 'ma',
 'part',
 'je',
 'n',
 'en',
 'fis',
 'jamais',
 'qui',
 's',
 'annonçât',
 'sous',
 'de',
 'plus',
 'heureux',
 'auspices',
 'la',
 'provence',
 'est',
 'un',
 'transatlantique',
 'rapide',
 'confortable',
 'commandé',
 'par',
 'le',
 'plus',
 'affable',
 'des',
 'hommes',
 'la',
 'société',
 'la',
 'plus',
 'choisie',
 's',
 'y',
 'trouvait',
 'réunie',
 'des',
 'relations',
 'se',
 'formaient',
 'des',
 'divertissements',
 's',
 'organisaient',
 'nous',
 'avions',
 'cette',
 'impression',
 'exquise',
 'd',
 'être',
 'séparés',
 'du',
 'monde',
 'réduits',
 'à',
 'nous',
 'mêmes',
 'comme',
 'sur',
 'une',
 'île',
 'inconnue',
 'obligés',
 'par',
 'conséquent',
 'de',
 'nous',
 'rapprocher',
 'les',
 'uns',
 'des',
 'autres',
 'et',
 'nous',
 'nous',
 'rapprochions',
 'avez',
 'vous',
 'jamais',
 'songé',
 'à',
 'ce',
 'qu',
 'il',
 'y',
 'a',
 'd',
 'original',
 'et',
 'd',


Ensuite, nous supprimons les mots vides de notre liste. La ligne de code ci-dessous crée une nouvelle liste de mots qui inclut chaque mot dans tous_les_mots s'il n'apparaît pas dans mots_vides (c'est-à-dire qu'elle exclut les mots vides).

In [18]:
mots_significatifs = [mot for mot in tous_les_mots if mot not in mots_vides]

Maintenant, nous sommes prêts à compter ! Nous utilisons mots_significatifs dans notre objet Counter, ce qui nous donne un décompte du nombre de fois où chaque mot de l'histoire apparaît.

In [12]:
conteur_mots_significatifs = Counter(mots_significatifs)

In [13]:
conteur_mots_significatifs

Counter({'lupin': 295,
         'arsène': 269,
         'bien': 159,
         'monsieur': 109,
         'homme': 108,
         'ganimard': 88,
         'rien': 78,
         'heures': 65,
         'comment': 63,
         'fait': 63,
         'trois': 62,
         'yeux': 57,
         'jour': 55,
         'andermatt': 55,
         'devanne': 54,
         'quelques': 52,
         'porte': 52,
         'temps': 51,
         'coup': 49,
         'nom': 48,
         'nuit': 48,
         'lettres': 48,
         'peut': 47,
         'varin': 47,
         'daspry': 46,
         'chose': 45,
         'dire': 45,
         'faire': 45,
         'eut': 45,
         'main': 44,
         'ah': 44,
         'petit': 43,
         'cependant': 42,
         'baron': 42,
         'êtes': 42,
         'personne': 42,
         'jusqu': 42,
         'heure': 41,
         'affaire': 41,
         'jamais': 39,
         'depuis': 39,
         'étaient': 38,
         'soir': 37,
         'louis': 37,
         'a

### Résultats de la sortie : 

Enfin, nous extrayons les 40 mots les plus fréquemment rencontrés à partir de notre décompte complet. Nous créons une dernière variable et récupérons nos 40 premiers mots, comme nous l'avions établi précédemment.

In [14]:
mots_significatifs_frequents = conteur_mots_significatifs.most_common(nombre_de_mots_voulu)

Nous pouvons afficher nos résultats en exécutant une cellule avec le nom de variable mots_plus_frequents.

In [15]:
mots_significatifs_frequents

[('lupin', 295),
 ('arsène', 269),
 ('bien', 159),
 ('monsieur', 109),
 ('homme', 108),
 ('ganimard', 88),
 ('rien', 78),
 ('heures', 65),
 ('comment', 63),
 ('fait', 63),
 ('trois', 62),
 ('yeux', 57),
 ('jour', 55),
 ('andermatt', 55),
 ('devanne', 54),
 ('quelques', 52),
 ('porte', 52),
 ('temps', 51),
 ('coup', 49),
 ('nom', 48),
 ('nuit', 48),
 ('lettres', 48),
 ('peut', 47),
 ('varin', 47),
 ('daspry', 46),
 ('chose', 45),
 ('dire', 45),
 ('faire', 45),
 ('eut', 45),
 ('main', 44),
 ('ah', 44),
 ('petit', 43),
 ('cependant', 42),
 ('baron', 42),
 ('êtes', 42),
 ('personne', 42),
 ('jusqu', 42),
 ('heure', 41),
 ('affaire', 41),
 ('jamais', 39)]

In [24]:
print(mots_significatifs_frequents)

[('lupin', 295), ('arsène', 269), ('bien', 159), ('monsieur', 109), ('homme', 108), ('ganimard', 88), ('rien', 78), ('heures', 65), ('comment', 63), ('fait', 63), ('trois', 62), ('yeux', 57), ('jour', 55), ('andermatt', 55), ('devanne', 54), ('quelques', 52), ('porte', 52), ('temps', 51), ('coup', 49), ('nom', 48), ('nuit', 48), ('lettres', 48), ('peut', 47), ('varin', 47), ('daspry', 46), ('chose', 45), ('dire', 45), ('faire', 45), ('eut', 45), ('main', 44), ('ah', 44), ('petit', 43), ('cependant', 42), ('baron', 42), ('êtes', 42), ('personne', 42), ('jusqu', 42), ('heure', 41), ('affaire', 41), ('jamais', 39)]


### Ajouter des commentaires : 
`#` ou `""" """`

### Editeur de texte —> Ligne de commandes

Vous pouvez également exécuter un script Python en l'écrivant dans un éditeur de texte, puis en l'exécutant à partir de la ligne de commande.

Si vous copiez et collez le code ci-dessus dans un éditeur de texte simple (comme TextEdit ou NotePad) et que vous nommez le fichier avec l'extension ".py" (l'extension de fichier pour le code Python), après cela on peut exécuter le script depuis votre ligne de commande.

In [16]:
!python script_conteur_de_mots.py

Les 40 mots les plus fréquents sont :
[('lupin', 295), ('arsène', 269), ('bien', 159), ('monsieur', 109), ('homme', 108), ('ganimard', 88), ('rien', 78), ('heures', 65), ('comment', 63), ('fait', 63), ('trois', 62), ('yeux', 57), ('jour', 55), ('andermatt', 55), ('devanne', 54), ('quelques', 52), ('porte', 52), ('temps', 51), ('coup', 49), ('nom', 48), ('nuit', 48), ('lettres', 48), ('peut', 47), ('varin', 47), ('daspry', 46), ('chose', 45), ('dire', 45), ('faire', 45), ('eut', 45), ('main', 44), ('ah', 44), ('petit', 43), ('cependant', 42), ('baron', 42), ('êtes', 42), ('personne', 42), ('jusqu', 42), ('heure', 41), ('affaire', 41), ('jamais', 39)]


+ enregistrer les résultats dans un fichier txt/csv/json