# Lecture Fichier et Encodage

## Ouvrir un fichier

Si vous souhaitez lire ou écrire un fichier texte avec Python, il est nécessaire d'ouvrir d'abord le fichier. Pour ouvrir un fichier, vous pouvez utiliser la fonction intégrée `open()` de Python.

In [1]:
open('fichier_test.txt', encoding='utf-8')

<_io.TextIOWrapper name='fichier_test.txt' mode='r' encoding='utf-8'>

À l'intérieur des parenthèses de la fonction `open()`, vous insérez le chemin du fichier à ouvrir entre guillemets. Vous devriez également spécifier un encodage de caractères, sur lequel nous discuterons plus en détail ci-dessous. Cette fonction retourne ce qu'on appelle un *objet fichier*.


## Lire un fichier


Un objet fichier ne contient pas de texte lisible. Pour lire cet objet fichier comme du texte, vous devez utiliser la méthode `.read()`.


In [2]:
test = open('fichier_test.txt', mode='r', encoding='utf-8')

In [3]:
fichier_sand = open('../data/txt/1841_Sand-George_Un-hiver-a-Majorque.txt', encoding='utf-8').read()

In [4]:
fichier_sand[:100]

'Sédentaire par devoir, tu crois, mon cher François, qu’emporté par le fier et capricieux dada de l’i'

In [6]:
fichier_sand_2 = open('/home/crazyjeannot/Documents/cours/2024/Python4DH/data/txt/1841_Sand-George_Un-hiver-a-Majorque.txt', encoding='utf-8').read()

In [7]:
fichier_sand_2[:100]

'Sédentaire par devoir, tu crois, mon cher François, qu’emporté par le fier et capricieux dada de l’i'

### Bonne pratique: refermer instantanément les fichiers lus !

In [16]:
test.close()

#### Encore mieux :

In [1]:
with open('../data/txt/1841_Sand-George_Un-hiver-a-Majorque.txt', encoding='utf-8') as f:
    texte_sand = f.read()
    print(texte_sand[:20])


Sédentaire par devoi


## Écrire un fichier

Le mode par défaut pour la fonction `open()` est la lecture des fichiers texte : `mode = 'r'`.

Cependant, vous pouvez également utiliser la fonction `open()` pour écrire des fichiers. Il suffit de définir le mode d'écriture : `mode = 'w'`.

In [None]:
open('un_nouveau_fichier.txt', mode='w', encoding='utf-8')

Pour écrire quelque chose dans ce fichier texte nouvellement ouvert, vous pouvez utiliser la méthode `.write()`.

In [None]:
open('un_nouveau_fichier.txt', mode='w', encoding='utf-8').write('Ceci est une nouvelle ligne')

Si nous lisons ce fichier texte nouvellement créé, nous pouvons constater que la méthode `.write()` a fonctionné correctement.

In [None]:
open('un_nouveau_fichier.txt', mode='r', encoding='utf-8').read()

## Encodage de Caractère

In [None]:
encoding='utf-8'

On doit inclure `encoding='utf-8'` pour ouvrir notre fichier texte, car UTF-8 est un codage de caractères (un type spécifique d'Unicode). On doit spécifier un codage de caractères parce que — oh surprise ! — les ordinateurs ne savent pas réellement ce qu'est du texte. Les codages de caractères sont des systèmes qui cartographient des caractères en nombres. Chaque caractère reçoit un numéro d'identification spécifique. De cette manière, les ordinateurs peuvent réellement lire et comprendre les caractères.

Vous pouvez vérifier le "point de code" de n'importe quel caractère, c'est-à-dire sa place dans l'univers Unicode, avec la fonction `ord()`.

In [26]:
ord("a")

97

In [27]:
ord("A")

65

In [31]:
chr(97)

'a'

In [28]:
ord("💩")

128169

In [29]:
ord("ত")

2468

In [30]:
ord("!")

33

### Spécifier l'encodage (UTF-8)

c'est toujours une bonne pratique de spécifier l'encodage UTF-8 lorsque l'on ouvre un fichier

In [32]:
test_encodage = open('encodage_de_caractere.txt', encoding='utf-8').read()

In [33]:
print(test_encodage)

***
Voici un exemple de guillemets courbes :
« Elle a dit, 'Je ne vais pas gaffer dans l'encodage !' »
***

***
Un exemple d'emoji:
💩
***

***
Voici un exemple en bengali :
আদিত্য মুখোপাধ্যায় পোপ টাইপ করতে পারেন তবে তাঁর নাম বানান করতে পারবেন না
(Aditya Mukerjee peut taper le mot "caca" mais ne peut pas épeler son propre nom)
***

***Ceci est un exemple en russe :
Говорили, что на набережной появилось новое лицо: дама с собачкой.
(Il était dit qu'une nouvelle personne était apparue sur le front de mer : une dame avec un petit chien.)
***

***
C'est un exemple en chinois :
如果我们想学习中文短篇小说怎么办？
(Que faire si nous voulons étudier des nouvelles chinoises ?)
***


Voyez ce qui se passe si nous lisons exactement le même texte avec un codage différent.

In [34]:
test_encodage_iso = open('encodage_de_caractere.txt', encoding='iso-8859-1').read()
print(test_encodage_iso)

***
Voici un exemple de guillemets courbes :
Â« Elle a dit, 'Je ne vais pas gaffer dans l'encodage !' Â»
***

***
Un exemple d'emoji:
ð©
***

***
Voici un exemple en bengali :
à¦à¦¦à¦¿à¦¤à§à¦¯ à¦®à§à¦à§à¦ªà¦¾à¦§à§à¦¯à¦¾à¦¯à¦¼ à¦ªà§à¦ª à¦à¦¾à¦à¦ª à¦à¦°à¦¤à§ à¦ªà¦¾à¦°à§à¦¨ à¦¤à¦¬à§ à¦¤à¦¾à¦à¦° à¦¨à¦¾à¦® à¦¬à¦¾à¦¨à¦¾à¦¨ à¦à¦°à¦¤à§ à¦ªà¦¾à¦°à¦¬à§à¦¨ à¦¨à¦¾
(Aditya Mukerjee peut taper le mot "caca" mais ne peut pas Ã©peler son propre nom)
***

***Ceci est un exemple en russe :
ÐÐ¾Ð²Ð¾ÑÐ¸Ð»Ð¸, ÑÑÐ¾ Ð½Ð° Ð½Ð°Ð±ÐµÑÐµÐ¶Ð½Ð¾Ð¹ Ð¿Ð¾ÑÐ²Ð¸Ð»Ð¾ÑÑ Ð½Ð¾Ð²Ð¾Ðµ Ð»Ð¸ÑÐ¾: Ð´Ð°Ð¼Ð° Ñ ÑÐ¾Ð±Ð°ÑÐºÐ¾Ð¹.
(Il Ã©tait dit qu'une nouvelle personne Ã©tait apparue sur le front de mer : une dame avec un petit chien.)
***

***
C'est un exemple en chinois :
å¦ææä»¬æ³å­¦ä¹ ä¸­æç­ç¯å°è¯´æä¹åï¼
(Que faire si nous voulons Ã©tudier des nouvelles chinoises ?)
***


In [35]:
test_encodage_ascii = open('encodage_de_caractere.txt', encoding='ascii').read()
print(test_encodage_ascii)

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 45: ordinal not in range(128)

Comme l'écrit David C. Zentgraf dans son article utile sur les [encodages de caractères](http://kunststube.net/encoding/):

> Si vous ouvrez un document et qu'il ressemble à ceci [voir ci-dessus], il n'y a qu'une seule raison à cela : Votre éditeur de texte, navigateur, traitement de texte ou tout autre logiciel essayant de lire le document suppose le mauvais encodage. C'est tout. Le document n'est pas corrompu... vous n'avez pas de formule magique à effectuer, vous devez simplement sélectionner le bon encodage pour afficher le document.

Pas de magie ! Vérifiez simplement l'encodage.

## Plus avancé : Ouvrir et lire tous les fichiers dans un répertoire
Nous n'avons pas encore complètement discuté des modules Python et des boucles `for`, mais une fois que vous êtes à l'aise avec ces concepts, il est utile de savoir comment travailler avec tous les fichiers d'un répertoire.
**Importer la bibliothèque Path**

In [8]:
from pathlib import Path

In [9]:
chemin_dossier = '../data/txt/'

**Parcourir tous les fichiers dans le répertoire avec le caractère étoile `*`, qui correspond à ''tout''**

In [10]:
for chemin_fichier in Path(chemin_dossier).glob('*'):
    print(chemin_fichier)

../data/txt/1845_Balzac-Honore-de_Le-Chef-d-oeuvre-inconnu.txt
../data/txt/1907_Leblanc-Maurice_Arsene-Lupin-gentleman-cambrioleur.txt
../data/txt/1830_Stendhal_Le-Rouge-et-le-noir.txt
../data/txt/1909_Zevaco-Michel_Nostradamus.txt
../data/txt/1843_Balzac-Honore-de_Illusions-perdues.txt
../data/txt/1844_Balzac-Honore-de_Sarrasine.txt
../data/txt/1892_Verne-Jules_Le-Chateau-des-Carpathes.txt
../data/txt/.ipynb_checkpoints
../data/txt/1841_Sand-George_Un-hiver-a-Majorque_morse.txt
../data/txt/1841_Sand-George_Un-hiver-a-Majorque.txt
../data/txt/1930_Colette_Sido.txt
../data/txt/1883_Guy-de-Maupassant_Contes-de-la-Becasse.txt
../data/txt/1843_Balzac-Honore-de_Le-Pere-Goriot.txt
../data/txt/1843_Balzac-Honore-de_Eugenie-Grandet.txt


**Parcourir tous les fichiers `*.txt` dans le dossier**

In [11]:
for chemin_fichier in Path(chemin_dossier).glob('*.txt'):
    print(chemin_fichier)

../data/txt/1845_Balzac-Honore-de_Le-Chef-d-oeuvre-inconnu.txt
../data/txt/1907_Leblanc-Maurice_Arsene-Lupin-gentleman-cambrioleur.txt
../data/txt/1830_Stendhal_Le-Rouge-et-le-noir.txt
../data/txt/1909_Zevaco-Michel_Nostradamus.txt
../data/txt/1843_Balzac-Honore-de_Illusions-perdues.txt
../data/txt/1844_Balzac-Honore-de_Sarrasine.txt
../data/txt/1892_Verne-Jules_Le-Chateau-des-Carpathes.txt
../data/txt/1841_Sand-George_Un-hiver-a-Majorque_morse.txt
../data/txt/1841_Sand-George_Un-hiver-a-Majorque.txt
../data/txt/1930_Colette_Sido.txt
../data/txt/1883_Guy-de-Maupassant_Contes-de-la-Becasse.txt
../data/txt/1843_Balzac-Honore-de_Le-Pere-Goriot.txt
../data/txt/1843_Balzac-Honore-de_Eugenie-Grandet.txt


**Pour lire ces fichiers texte, il suffit d'ajouter la fonction `open()` et la méthode `.read()`**

In [14]:
for chemin_fichier in Path(chemin_dossier).glob('*.txt'):
    with open(chemin_fichier, encoding='utf-8') as fichier:
        print(fichier.read()[:100])
        #print(chemin_fichier)

…………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………
 L’étrange voyage ! Il avait si bien commencé cependant ! Pour ma part, je n’en fis jamais qui s’ann
La vérité, l’âpre vérité.DANTON.Put thousands togetherLess bad,But the cage less gay.HOBBES.La petit
 PREMIER CHAPITRE – LA SORCIÈRE.  I – LES AMOUREUX  Une claire et tiède matinée d’automne en l’an 15
Vous qui, par le privilége des Raphaël et des Pitt, étiez déjà grand poète à l’âge où les hommes son
J’étais plongé dans une de ces rêveries profondes qui saisissent tout le monde, même un homme frivol
Cette histoire n’est pas fantastique, elle n’est que romanesque. Faut-il en conclure qu’elle ne soit
... . -.. . -. - .- .. .-. .   .--. .- .-.   -.. . ...- --- .. .-.   - ..-   -.-. .-. --- .. ...   -
Sédentaire par devoir, tu crois, mon cher François, qu’emporté par le fier et capricieux dada de l’i
 – Et pourquoi cesserais-je d’être de mon village ? Il n’y faut pas compter. Te voilà bien 

#### Encore mieux:

In [42]:
from glob import glob

In [43]:
chemin_dossier = '../data/txt/*.txt'

In [44]:
for chemin_fichier in glob(chemin_dossier):
    with open(chemin_fichier, encoding='utf-8') as fichier:
        print(fichier.read()[:100])

 L’étrange voyage ! Il avait si bien commencé cependant ! Pour ma part, je n’en fis jamais qui s’ann
La vérité, l’âpre vérité.DANTON.Put thousands togetherLess bad,But the cage less gay.HOBBES.La petit
 PREMIER CHAPITRE – LA SORCIÈRE.  I – LES AMOUREUX  Une claire et tiède matinée d’automne en l’an 15
Cette histoire n’est pas fantastique, elle n’est que romanesque. Faut-il en conclure qu’elle ne soit
Sédentaire par devoir, tu crois, mon cher François, qu’emporté par le fier et capricieux dada de l’i
 – Et pourquoi cesserais-je d’être de mon village ? Il n’y faut pas compter. Te voilà bien fière, mo
Le vieux baron des Ravots avait été pendant quarante ans le roi des chasseurs de sa province. Mais, 
