# Lecture Fichier et Encodage

## Ouvrir un fichier

Si vous souhaitez lire ou écrire un fichier texte avec Python, il est nécessaire d'ouvrir d'abord le fichier. Pour ouvrir un fichier, vous pouvez utiliser la fonction intégrée `open()` de Python.

In [17]:
open('fichier_test.txt', encoding='utf-8').read()

'Ceci et une phrase'

À l'intérieur des parenthèses de la fonction `open()`, vous insérez le chemin du fichier à ouvrir entre guillemets. Vous devriez également spécifier un encodage de caractères, sur lequel nous discuterons plus en détail ci-dessous. Cette fonction retourne ce qu'on appelle un *objet fichier*.


## Lire un fichier


Un objet fichier ne contient pas de texte lisible. Pour lire cet objet fichier comme du texte, vous devez utiliser la méthode `.read()`.


In [24]:
test = open('fichier_test.txt', mode='r', encoding='utf-8')

In [1]:
fichier_verne = open('../corpus/1905_Verne-Jules_Le-Phare-du-Bout-du-Monde.txt', encoding='utf-8').read()

In [2]:
fichier_verne[:100]

'Le soleil allait disparaître derrière les collines qui limitaient la vue à l’ouest. Le temps était b'

In [18]:
fichier_lerouge = open('/home/crazyjeannot/Documents/cours/2025/Python4DH/corpus/1905_Le-Rouge-Gustave_L-Espionne-du-grand-Lama.txt', encoding='utf-8').read()

In [21]:
fichier_lerouge[:100]

' L’ESPIONNE DU GRAND LAMA  1905  Malgré la chaleur torride de cet après-midi, le quai et les rues de'

### Bonne pratique: refermer instantanément les fichiers lus !

In [25]:
test.close()

#### Encore mieux :

In [28]:
with open('../corpus/1905_Verne-Jules_Le-Phare-du-Bout-du-Monde.txt', encoding='utf-8') as fichier_lecture:
    text = fichier_lecture.read()

In [29]:
text[:100]

'Le soleil allait disparaître derrière les collines qui limitaient la vue à l’ouest. Le temps était b'

## Écrire un fichier

Le mode par défaut pour la fonction `open()` est la lecture des fichiers texte : `mode = 'r'`.

Cependant, vous pouvez également utiliser la fonction `open()` pour écrire des fichiers. Il suffit de définir le mode d'écriture : `mode = 'w'`.

In [30]:
open('un_nouveau_fichier.txt', mode='w', encoding='utf-8')

<_io.TextIOWrapper name='un_nouveau_fichier.txt' mode='w' encoding='utf-8'>

Pour écrire quelque chose dans ce fichier texte nouvellement ouvert, vous pouvez utiliser la méthode `.write()`.

In [31]:
open('un_nouveau_fichier.txt', mode='w', encoding='utf-8').write('Ceci est une nouvelle ligne')

27

Si nous lisons ce fichier texte nouvellement créé, nous pouvons constater que la méthode `.write()` a fonctionné correctement.

In [None]:
open('un_nouveau_fichier.txt', mode='r', encoding='utf-8').read()

## Encodage de Caractère

In [None]:
encoding='utf-8'

On doit inclure `encoding='utf-8'` pour ouvrir notre fichier texte, car UTF-8 est un codage de caractères (un type spécifique d'Unicode). On doit spécifier un codage de caractères parce que — oh surprise ! — les ordinateurs ne savent pas réellement ce qu'est du texte. Les codages de caractères sont des systèmes qui cartographient des caractères en nombres. Chaque caractère reçoit un numéro d'identification spécifique. De cette manière, les ordinateurs peuvent réellement lire et comprendre les caractères.

Vous pouvez vérifier le "point de code" de n'importe quel caractère, c'est-à-dire sa place dans l'univers Unicode, avec la fonction `ord()`.

In [26]:
ord("a")

97

In [27]:
ord("A")

65

In [31]:
chr(97)

'a'

In [28]:
ord("💩")

128169

In [29]:
ord("ত")

2468

In [30]:
ord("!")

33

### Spécifier l'encodage (UTF-8)

c'est toujours une bonne pratique de spécifier l'encodage UTF-8 lorsque l'on ouvre un fichier

In [6]:
test_encodage = open('encodage_de_caractere.txt', encoding='utf-8').read()

In [7]:
print(test_encodage)

***
Voici un exemple de guillemets courbes :
« Elle a dit, 'Je ne vais pas gaffer dans l'encodage !' »
***

***
Un exemple d'emoji:
💩
***

***
Voici un exemple en bengali :
আদিত্য মুখোপাধ্যায় পোপ টাইপ করতে পারেন তবে তাঁর নাম বানান করতে পারবেন না
(Aditya Mukerjee peut taper le mot "caca" mais ne peut pas épeler son propre nom)
***

***Ceci est un exemple en russe :
Говорили, что на набережной появилось новое лицо: дама с собачкой.
(Il était dit qu'une nouvelle personne était apparue sur le front de mer : une dame avec un petit chien.)
***

***
C'est un exemple en chinois :
如果我们想学习中文短篇小说怎么办？
(Que faire si nous voulons étudier des nouvelles chinoises ?)
***


Voyez ce qui se passe si nous lisons exactement le même texte avec un codage différent.

In [34]:
test_encodage_iso = open('encodage_de_caractere.txt', encoding='iso-8859-1').read()
print(test_encodage_iso)

***
Voici un exemple de guillemets courbes :
Â« Elle a dit, 'Je ne vais pas gaffer dans l'encodage !' Â»
***

***
Un exemple d'emoji:
ð©
***

***
Voici un exemple en bengali :
à¦à¦¦à¦¿à¦¤à§à¦¯ à¦®à§à¦à§à¦ªà¦¾à¦§à§à¦¯à¦¾à¦¯à¦¼ à¦ªà§à¦ª à¦à¦¾à¦à¦ª à¦à¦°à¦¤à§ à¦ªà¦¾à¦°à§à¦¨ à¦¤à¦¬à§ à¦¤à¦¾à¦à¦° à¦¨à¦¾à¦® à¦¬à¦¾à¦¨à¦¾à¦¨ à¦à¦°à¦¤à§ à¦ªà¦¾à¦°à¦¬à§à¦¨ à¦¨à¦¾
(Aditya Mukerjee peut taper le mot "caca" mais ne peut pas Ã©peler son propre nom)
***

***Ceci est un exemple en russe :
ÐÐ¾Ð²Ð¾ÑÐ¸Ð»Ð¸, ÑÑÐ¾ Ð½Ð° Ð½Ð°Ð±ÐµÑÐµÐ¶Ð½Ð¾Ð¹ Ð¿Ð¾ÑÐ²Ð¸Ð»Ð¾ÑÑ Ð½Ð¾Ð²Ð¾Ðµ Ð»Ð¸ÑÐ¾: Ð´Ð°Ð¼Ð° Ñ ÑÐ¾Ð±Ð°ÑÐºÐ¾Ð¹.
(Il Ã©tait dit qu'une nouvelle personne Ã©tait apparue sur le front de mer : une dame avec un petit chien.)
***

***
C'est un exemple en chinois :
å¦ææä»¬æ³å­¦ä¹ ä¸­æç­ç¯å°è¯´æä¹åï¼
(Que faire si nous voulons Ã©tudier des nouvelles chinoises ?)
***


In [35]:
test_encodage_ascii = open('encodage_de_caractere.txt', encoding='ascii').read()
print(test_encodage_ascii)

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 45: ordinal not in range(128)

Comme l'écrit David C. Zentgraf dans son article utile sur les [encodages de caractères](http://kunststube.net/encoding/):

> Si vous ouvrez un document et qu'il ressemble à ceci [voir ci-dessus], il n'y a qu'une seule raison à cela : Votre éditeur de texte, navigateur, traitement de texte ou tout autre logiciel essayant de lire le document suppose le mauvais encodage. C'est tout. Le document n'est pas corrompu... vous n'avez pas de formule magique à effectuer, vous devez simplement sélectionner le bon encodage pour afficher le document.

Pas de magie ! Vérifiez simplement l'encodage.

## Plus avancé : Ouvrir et lire tous les fichiers dans un répertoire
Nous n'avons pas encore complètement discuté des modules Python et des boucles `for`, mais une fois que vous êtes à l'aise avec ces concepts, il est utile de savoir comment travailler avec tous les fichiers d'un répertoire.
**Importer la bibliothèque Path**

In [37]:
from pathlib import Path

In [38]:
chemin_dossier = '../corpus/'

**Parcourir tous les fichiers dans le répertoire avec le caractère étoile `*`, qui correspond à ''tout''**

In [39]:
for chemin_fichier in Path(chemin_dossier).glob('*'):
    print(chemin_fichier)

../corpus/1902_Loti-Pierre_Les-derniers-jours-de-Pekin.txt
../corpus/1906_Gide-Andre_Amyntas.txt
../corpus/1933_Veuzit-Max-du_Vers-l'unique.txt
../corpus/1938_Larbaud-Valery_Aux-couleurs-de-Rome.txt
../corpus/1905_Farrere-Claude_Les-civilises.txt
../corpus/1955_Delly_Ourida.txt
../corpus/1904_Le-Rouge-Gustave_L-Esclave-amoureuse.txt
../corpus/1913_Delly_Entre-deux-ames.txt
../corpus/1912_Loti-Pierre_Un-pelerin-d-Angkor 2.txt
../corpus/1908_Veuzit-Max-du_Le-mystere-de-Malbackt.txt
../corpus/2008_Rolin-Olivier_La-Chambre-des-cartes.txt
../corpus/1913_Delly_Dans-l'ombre-du-mystere.txt
../corpus/1913_Dombre-Roger_Un-tuteur-embarrasse.txt
../corpus/1903_Vogue-Eugene-Melchior-de_Le-Maitre-de-la-mer.txt
../corpus/1902_Le-Rouge-Gustave_La-Princesse-des-airs_Tome-II.txt
../corpus/1905_Lermina-Jules_To-Ho-Le-Tueur-d-or.txt
../corpus/1905_Le-Rouge-Gustave_L-Espionne-du-grand-Lama.txt
../corpus/1912_Loti-Pierre_Un-pelerin-d-Angkor.txt
../corpus/1932_Veuzit-Max-du_Petite-comtesse.txt
../corpus/1900

**Parcourir tous les fichiers `*.txt` dans le dossier**

In [40]:
for chemin_fichier in Path(chemin_dossier).glob('*.txt'):
    print(chemin_fichier)

../corpus/1902_Loti-Pierre_Les-derniers-jours-de-Pekin.txt
../corpus/1906_Gide-Andre_Amyntas.txt
../corpus/1933_Veuzit-Max-du_Vers-l'unique.txt
../corpus/1938_Larbaud-Valery_Aux-couleurs-de-Rome.txt
../corpus/1905_Farrere-Claude_Les-civilises.txt
../corpus/1955_Delly_Ourida.txt
../corpus/1904_Le-Rouge-Gustave_L-Esclave-amoureuse.txt
../corpus/1913_Delly_Entre-deux-ames.txt
../corpus/1912_Loti-Pierre_Un-pelerin-d-Angkor 2.txt
../corpus/1908_Veuzit-Max-du_Le-mystere-de-Malbackt.txt
../corpus/2008_Rolin-Olivier_La-Chambre-des-cartes.txt
../corpus/1913_Delly_Dans-l'ombre-du-mystere.txt
../corpus/1913_Dombre-Roger_Un-tuteur-embarrasse.txt
../corpus/1903_Vogue-Eugene-Melchior-de_Le-Maitre-de-la-mer.txt
../corpus/1902_Le-Rouge-Gustave_La-Princesse-des-airs_Tome-II.txt
../corpus/1905_Lermina-Jules_To-Ho-Le-Tueur-d-or.txt
../corpus/1905_Le-Rouge-Gustave_L-Espionne-du-grand-Lama.txt
../corpus/1912_Loti-Pierre_Un-pelerin-d-Angkor.txt
../corpus/1932_Veuzit-Max-du_Petite-comtesse.txt
../corpus/1900

**Pour lire ces fichiers texte, il suffit d'ajouter la fonction `open()` et la méthode `.read()`**

In [41]:
for chemin_fichier in Path(chemin_dossier).glob('*.txt'):
    with open(chemin_fichier, encoding='utf-8') as fichier:
        print(fichier.read()[:100])
        #print(chemin_fichier)

 Première partie  ARRIVÉE DANS LA MER JAUNE  L ’EXTRÊME MATIN, SUR UNE mer calme et sous un ciel d’é
 André Gide  AMYNTAS  (1906)  à M. A. G.  Mopsus  AVRIL 1899  Incipe, Mopse, prior…  Virgile.  Mopsu
Max du Veuzit     Vers l’unique roman       Vers l’unique   – Êtes-vous contente d’Isabelle ? s’info
 Valery Larbaud  Aux couleurs  de Rome  Gallimard  Puissantes, lourdes, chargées sont les couleurs m
 A Monsieur Pierre Louÿs.  MON CHER AMI,  L'an passé, je risquais mon premier livre; et ce livre,—tr
  L’automobile de la princesse Falnerra montait lentement la côte qui s’allongeait entre les hêtres 
 Chapitre 1  I l y avait plus de soixante ans que l’empereur Napoléon, pressé d’argent, avait vendu 
ÀMonsieur Charles FoleyAmical et reconnaissant hommage. Les membres du Jockey-Club venaient de fêter
 Pierre Loti  Un pèlerin d'Angkor  A MONSIEUR PAUL DOUMER  Cher ami,  Vous gouverniez là-bas – et av
 Le mystère de Malbackt Édition de référence :Librairie Jules Tallandier, 1974.    À M. Aug

#### Encore mieux:

In [13]:
from glob import glob

In [14]:
chemin_dossier = '../corpus/*.txt'

In [15]:
for chemin_fichier in glob(chemin_dossier):
    with open(chemin_fichier, encoding='utf-8') as fichier:
        print(fichier.read()[:100])

 Première partie  ARRIVÉE DANS LA MER JAUNE  L ’EXTRÊME MATIN, SUR UNE mer calme et sous un ciel d’é
 André Gide  AMYNTAS  (1906)  à M. A. G.  Mopsus  AVRIL 1899  Incipe, Mopse, prior…  Virgile.  Mopsu
Max du Veuzit     Vers l’unique roman       Vers l’unique   – Êtes-vous contente d’Isabelle ? s’info
 Valery Larbaud  Aux couleurs  de Rome  Gallimard  Puissantes, lourdes, chargées sont les couleurs m
 A Monsieur Pierre Louÿs.  MON CHER AMI,  L'an passé, je risquais mon premier livre; et ce livre,—tr
  L’automobile de la princesse Falnerra montait lentement la côte qui s’allongeait entre les hêtres 
 Chapitre 1  I l y avait plus de soixante ans que l’empereur Napoléon, pressé d’argent, avait vendu 
ÀMonsieur Charles FoleyAmical et reconnaissant hommage. Les membres du Jockey-Club venaient de fêter
 Pierre Loti  Un pèlerin d'Angkor  A MONSIEUR PAUL DOUMER  Cher ami,  Vous gouverniez là-bas – et av
 Le mystère de Malbackt Édition de référence :Librairie Jules Tallandier, 1974.    À M. Aug