<a href="https://colab.research.google.com/github/OdysseusPolymetis/initiation_programmation/blob/main/3_fichiers_et_modules.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Les fichiers

Dans beaucoup de cas, vous aurez à recourir à des fichiers de données externes. Dans ce cours, nous allons beaucoup faire appel à des fichiers `.txt`, c'est-à-dire des fichiers textes bruts.
<br>Mais vous pouvez aussi avoir accès à tout autre type de fichiers, comme des excel ou des html.
<br>Pour ouvrir un fichier, il vous faut simplement utiliser la fonction `.open()`.
<br>Exemple :
```python
fichier = open('l_avare.txt')
```
Tentez de lancer la commande. Expliquez ce que vous obtenez.

Pour obtenir un fichier qui soit analysable par votre programme il faut :


*   si vous êtes dans un programme que vous exécutez localement, mettre le fichier en question de préférence dans le même dossier que votre programme (ou dans un sous-dossier), et en retrouver le chemin.
*   si vous êtes dans un environnement virtuel distant comme avec google colab, mettre votre fichier dans l'icône dossier sur le côté gauche, ou, mieux, télécharger votre fichier.



Vous avez plusieurs manières d'acquérir un fichier en ligne, la commande la plus simple étant `wget` (ou aussi `curl`). Attention, il s'agit d'une commande qu'on dit "bash", et qui donc n'est pas à proprement parler du python : pour l'utiliser dans un code python, il faut la faire précéder de "!".
```python
!wget https://raw.githubusercontent.com/OdysseusPolymetis/initiation_programmation/main/l_avare.txt -O l_avare.txt
```

Normalement, à l'issue de cette commande, si vous refaites la toute première commande `open()`, vous n'aurez plus d'erreur. Attention, en colab, le chemin de votre fichier (qui sera à mettre dans la chaîne de caractères qui comporte le nom du fichier) est `/content/l_avare.txt`.
<br>Mais attention, ça ne veut pas forcément dire que vous aurez "quelque chose".
<br>Maintenant que votre fichier est instancié en revanche, vous pouvez le lire. Avec cette commande :
```python
fichier.read()
```
Normalement vous verrez le contenu s'afficher.



Tentez maintenant ce bout et dites-moi ce que ça fait :
```python
for ligne in fichier:
    print(str(len(ligne)) + ' caractères : ' + ligne)
fichier.close()
```
Essayez d'expliquer.

Maintenant, essayez d'écrire, en vous aidant de ce qu'on a fait lors du notebook précédent, quelques lignes qui vous permettent de trouver combien il y a de lignes dans votre fichier.

Vous pouvez tout aussi bien écrire dans un fichier, la méthode est la suivante :
```python
fichier = open('/content/fichier.txt', 'w') #le paramètre 'w' indique que l'on ouvre le fichier en mode éciture  (write)
fichier.write('un peu de texte')
fichier.write('encore un peu de texte\n')#si l'on veut revenir à ligne, il faut écrire le caractère retour à la ligne, qui s'écrit \n
fichier.write("et l'on termine")
fichier.close()#il faut explicitement fermer le fichier, sinon on est pas sûr que ce que l'on a écrit est bien enregistré
```
Essayez en écrivant un peu ce que vous voulez dans le fichier.

Maintenant que vous savez importer ou écrire du texte, vous allez pouvoir le manipuler un peu, et faire un peu d'analyse simple.

# Les modules

Un module c'est une suite de fonctions et de programmes plus larges écrits par d'autres pour vous éviter de réinventer la roue. Vous avez des tas de modules qui sont référencés dans [pypi](https://pypi.org/).
<br>Ici on va faire des expériences avec le module de traitement automatique de la langue `nltk`.

Pour installer un module qui n'est pas présent par défaut dans votre environnement, c'est très simple, vous utilisez une commande bash et vous faites `!pip install nomDuModule`.

Ici, si vous voulez installer `nltk`, faites `!pip install nltk`. Que constatez-vous ?

Il ne s'agit pas seulement de télécharger les modules, il faut que le programme sache qu'il doit les utiliser.
<br>Pour utiliser un module, on l'importe, comme ça :
```python
import nltk
```
Ou si on n'a pas besoin de tout le module :
```python
from nltk import particular_module
```
Du coup importez tout `nltk`.

Il faut savoir que selon vos usages, il manquera peut-être des données à `nltk`. Le cas échéant, il vous en informe. Et la plupart du temps, vous pouvez résoudre l'erreur avec ce type de commande :
```python
nltk.download('punkt')
```
où `punkt` est la série de données manquante.
<br>Faites-le ici.

Le module `nltk` vous permet de faire pas mal de choses simples avec un texte. Je vais vous en montrer certains des composants.

## Concordance avec `nltk`

La concordance, c'est le fait d'afficher un mot dans son contexte à partir d'un texte.
<br>Pour être sûre que tout soit bien au clair, reprenons l'ouverture de notre fichier depuis le début, comme ça :
```python
fichier = open('/content/l_avare.txt')
texte = fichier.read()
```
Notez que nous avons mis le contenu du fichier dans une variable `texte`.
<br>Faites-le dans la cellule ci-dessous.

In [None]:
fichier = open('/content/l_avare.txt')
texte = fichier.read()

Ensuite, pour que `nltk` puisse analyser le texte, il faut faire de ce texte une liste de mots. C'est ce qu'on appelle "tokéniser" un texte, c'est-à-dire le découper en éléments-mots distincts, les "tokens".
<br>On fait donc comme suit :
```python
tokens = nltk.word_tokenize(texte)
```
Cela fait, l'analyse à proprement parler peut commencer, avec une fonction pré-implémentée dans `nltk`, à savoir `.Text(votreListe)`.
<br>Essayez, avec ce que vous avez à disposition.
<br>Encapsulez le résultat de la fonction `.Text()` dans la variable `avare`.

Une fois que vous avez trouvé comment faire, vous pouvez utiliser une des fonctions accessible à votre nouvel objet `avare`, la fonction `.concordance(lemotquevouscherchez)`.

Autre exemple, vous pouvez voir combien de fois un mot ou une expression apparaît dans un texte. C'est la fonction `.count(lemotrecherche)`. Faites-le.

Vous pouvez aussi rapidement voir quels termes sont souvent déterminants dans un texte, et souvent ensemble. On appelle ça la détection de collocations. Par défaut, `nltk` va chercher les paires de mots, mais vous pouvez changer ce paramètre.
<br>Voici un exemple :
```python
avare.collocation_list()
```

Vous pouvez aussi voir les mots qui partagent un contexte similaire, et donc qui potentiellement sont sémantiquement liés. Cela se fait avec la fonction `.similar(motrecherche)`.

Vous pouvez aussi représenter les fréquences des mots. Cela se fait avec la fonction `.FreqDist(vostokens)`.
<br>Il faudra d'abord importer cette sous-fonction de `nltk` comme ça :
```python
from nltk import FreqDist
```
Encapsulez le résultat dans une variable `freq`.

Ensuite, dans une variable `n`, dites combien vous voulez représenter de mots fréquents.
<br>Puis utilisez votre objet `freq` comme suit :
```python
freq.plot(n, cumulative=False, title=f'Les {n} mots les plus fréquents')
```