# Lecture Fichier et Encodage

## Ouvrir un fichier

Si vous souhaitez lire ou √©crire un fichier texte avec Python, il est n√©cessaire d'ouvrir d'abord le fichier. Pour ouvrir un fichier, vous pouvez utiliser la fonction int√©gr√©e `open()` de Python.

In [3]:
open('fichier_test.txt', encoding='utf-8')

<_io.TextIOWrapper name='fichier_test.txt' mode='r' encoding='utf-8'>

√Ä l'int√©rieur des parenth√®ses de la fonction `open()`, vous ins√©rez le chemin du fichier √† ouvrir entre guillemets. Vous devriez √©galement sp√©cifier un encodage de caract√®res, sur lequel nous discuterons plus en d√©tail ci-dessous. Cette fonction retourne ce qu'on appelle un *objet fichier*.


## Lire un fichier


Un objet fichier ne contient pas de texte lisible. Pour lire cet objet fichier comme du texte, vous devez utiliser la m√©thode `.read()`.


In [15]:
test = open('fichier_test.txt', mode='r', encoding='utf-8')

In [8]:
fichier_sand = open('../data/txt/1841_Sand-George_Un-hiver-a-Majorque.txt', encoding='utf-8').read()

In [10]:
fichier_sand[:100]

'S√©dentaire par devoir, tu crois, mon cher Fran√ßois, qu‚Äôemport√© par le fier et capricieux dada de l‚Äôi'

In [9]:
fichier_sand_2 = open('/home/crazyjeannot/Documents/cours/Python4DH/data/txt/1841_Sand-George_Un-hiver-a-Majorque.txt', encoding='utf-8').read()

In [11]:
fichier_sand_2[:100]

'S√©dentaire par devoir, tu crois, mon cher Fran√ßois, qu‚Äôemport√© par le fier et capricieux dada de l‚Äôi'

### Bonne pratique: refermer instantan√©ment les fichiers lus !

In [16]:
test.close()

#### Encore mieux :

In [1]:
with open('../data/txt/1841_Sand-George_Un-hiver-a-Majorque.txt', encoding='utf-8') as f:
    texte_sand = f.read()
    print(texte_sand[:20])


S√©dentaire par devoi


## √âcrire un fichier

Le mode par d√©faut pour la fonction `open()` est la lecture des fichiers texte : `mode = 'r'`.

Cependant, vous pouvez √©galement utiliser la fonction `open()` pour √©crire des fichiers. Il suffit de d√©finir le mode d'√©criture : `mode = 'w'`.

In [22]:
open('un_nouveau_fichier.txt', mode='w', encoding='utf-8')

<_io.TextIOWrapper name='un_nouveau_fichier.txt' mode='w' encoding='utf-8'>

Pour √©crire quelque chose dans ce fichier texte nouvellement ouvert, vous pouvez utiliser la m√©thode `.write()`.

In [23]:
open('un_nouveau_fichier.txt', mode='w', encoding='utf-8').write('Ceci est une nouvelle ligne')

27

Si nous lisons ce fichier texte nouvellement cr√©√©, nous pouvons constater que la m√©thode `.write()` a fonctionn√© correctement.

In [25]:
open('un_nouveau_fichier.txt', mode='r', encoding='utf-8').read()

'Ceci est une nouvelle ligne'

## Encodage de Caract√®re

In [None]:
encoding='utf-8'

On doit inclure `encoding='utf-8'` pour ouvrir notre fichier texte, car UTF-8 est un codage de caract√®res (un type sp√©cifique d'Unicode). On doit sp√©cifier un codage de caract√®res parce que ‚Äî oh surprise ! ‚Äî les ordinateurs ne savent pas r√©ellement ce qu'est du texte. Les codages de caract√®res sont des syst√®mes qui cartographient des caract√®res en nombres. Chaque caract√®re re√ßoit un num√©ro d'identification sp√©cifique. De cette mani√®re, les ordinateurs peuvent r√©ellement lire et comprendre les caract√®res.

Vous pouvez v√©rifier le "point de code" de n'importe quel caract√®re, c'est-√†-dire sa place dans l'univers Unicode, avec la fonction `ord()`.

In [26]:
ord("a")

97

In [27]:
ord("A")

65

In [31]:
chr(97)

'a'

In [28]:
ord("üí©")

128169

In [29]:
ord("‡¶§")

2468

In [30]:
ord("!")

33

### Sp√©cifier l'encodage (UTF-8)

c'est toujours une bonne pratique de sp√©cifier l'encodage UTF-8 lorsque l'on ouvre un fichier

In [32]:
test_encodage = open('encodage_de_caractere.txt', encoding='utf-8').read()

In [33]:
print(test_encodage)

***
Voici un exemple de guillemets courbes :
¬´ Elle a dit, 'Je ne vais pas gaffer dans l'encodage !' ¬ª
***

***
Un exemple d'emoji:
üí©
***

***
Voici un exemple en bengali :
‡¶Ü‡¶¶‡¶ø‡¶§‡ßç‡¶Ø ‡¶Æ‡ßÅ‡¶ñ‡ßã‡¶™‡¶æ‡¶ß‡ßç‡¶Ø‡¶æ‡¶Ø‡¶º ‡¶™‡ßã‡¶™ ‡¶ü‡¶æ‡¶á‡¶™ ‡¶ï‡¶∞‡¶§‡ßá ‡¶™‡¶æ‡¶∞‡ßá‡¶® ‡¶§‡¶¨‡ßá ‡¶§‡¶æ‡¶Å‡¶∞ ‡¶®‡¶æ‡¶Æ ‡¶¨‡¶æ‡¶®‡¶æ‡¶® ‡¶ï‡¶∞‡¶§‡ßá ‡¶™‡¶æ‡¶∞‡¶¨‡ßá‡¶® ‡¶®‡¶æ
(Aditya Mukerjee peut taper le mot "caca" mais ne peut pas √©peler son propre nom)
***

***Ceci est un exemple en russe :
–ì–æ–≤–æ—Ä–∏–ª–∏, —á—Ç–æ –Ω–∞ –Ω–∞–±–µ—Ä–µ–∂–Ω–æ–π –ø–æ—è–≤–∏–ª–æ—Å—å –Ω–æ–≤–æ–µ –ª–∏—Ü–æ: –¥–∞–º–∞ —Å —Å–æ–±–∞—á–∫–æ–π.
(Il √©tait dit qu'une nouvelle personne √©tait apparue sur le front de mer : une dame avec un petit chien.)
***

***
C'est un exemple en chinois :
Â¶ÇÊûúÊàë‰ª¨ÊÉ≥Â≠¶‰π†‰∏≠ÊñáÁü≠ÁØáÂ∞èËØ¥ÊÄé‰πàÂäûÔºü
(Que faire si nous voulons √©tudier des nouvelles chinoises ?)
***


Voyez ce qui se passe si nous lisons exactement le m√™me texte avec un codage diff√©rent.

In [34]:
test_encodage_iso = open('encodage_de_caractere.txt', encoding='iso-8859-1').read()
print(test_encodage_iso)

***
Voici un exemple de guillemets courbes :
√Ç¬´ Elle a dit, 'Je ne vais pas gaffer dans l'encodage !' √Ç¬ª
***

***
Un exemple d'emoji:
√∞¬ü¬í¬©
***

***
Voici un exemple en bengali :
√†¬¶¬Ü√†¬¶¬¶√†¬¶¬ø√†¬¶¬§√†¬ß¬ç√†¬¶¬Ø √†¬¶¬Æ√†¬ß¬Å√†¬¶¬ñ√†¬ß¬ã√†¬¶¬™√†¬¶¬æ√†¬¶¬ß√†¬ß¬ç√†¬¶¬Ø√†¬¶¬æ√†¬¶¬Ø√†¬¶¬º √†¬¶¬™√†¬ß¬ã√†¬¶¬™ √†¬¶¬ü√†¬¶¬æ√†¬¶¬á√†¬¶¬™ √†¬¶¬ï√†¬¶¬∞√†¬¶¬§√†¬ß¬á √†¬¶¬™√†¬¶¬æ√†¬¶¬∞√†¬ß¬á√†¬¶¬® √†¬¶¬§√†¬¶¬¨√†¬ß¬á √†¬¶¬§√†¬¶¬æ√†¬¶¬Å√†¬¶¬∞ √†¬¶¬®√†¬¶¬æ√†¬¶¬Æ √†¬¶¬¨√†¬¶¬æ√†¬¶¬®√†¬¶¬æ√†¬¶¬® √†¬¶¬ï√†¬¶¬∞√†¬¶¬§√†¬ß¬á √†¬¶¬™√†¬¶¬æ√†¬¶¬∞√†¬¶¬¨√†¬ß¬á√†¬¶¬® √†¬¶¬®√†¬¶¬æ
(Aditya Mukerjee peut taper le mot "caca" mais ne peut pas √É¬©peler son propre nom)
***

***Ceci est un exemple en russe :
√ê¬ì√ê¬æ√ê¬≤√ê¬æ√ë¬Ä√ê¬∏√ê¬ª√ê¬∏, √ë¬á√ë¬Ç√ê¬æ √ê¬Ω√ê¬∞ √ê¬Ω√ê¬∞√ê¬±√ê¬µ√ë¬Ä√ê¬µ√ê¬∂√ê¬Ω√ê¬æ√ê¬π √ê¬ø√ê¬æ√ë¬è√ê¬≤√ê¬∏√ê¬ª√ê¬æ√ë¬Å√ë¬å √ê¬Ω√ê¬æ√ê¬≤√ê¬æ√ê¬µ √ê¬ª√ê¬∏√ë¬Ü√ê¬æ: √ê¬¥√ê¬∞√ê¬º√ê¬∞ √ë¬Å √ë¬Å√ê¬æ√ê¬±√ê¬∞√ë¬á√ê¬∫√ê¬æ√ê¬π.
(Il √É¬©tait dit qu'une nouvelle personne √É¬©tait apparue sur le front de mer : u

In [35]:
test_encodage_ascii = open('encodage_de_caractere.txt', encoding='ascii').read()
print(test_encodage_ascii)

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 45: ordinal not in range(128)

Comme l'√©crit David C. Zentgraf dans son article utile sur les [encodages de caract√®res](http://kunststube.net/encoding/):

> Si vous ouvrez un document et qu'il ressemble √† ceci [voir ci-dessus], il n'y a qu'une seule raison √† cela : Votre √©diteur de texte, navigateur, traitement de texte ou tout autre logiciel essayant de lire le document suppose le mauvais encodage. C'est tout. Le document n'est pas corrompu... vous n'avez pas de formule magique √† effectuer, vous devez simplement s√©lectionner le bon encodage pour afficher le document.

Pas de magie ! V√©rifiez simplement l'encodage.

## Plus avanc√© : Ouvrir et lire tous les fichiers dans un r√©pertoire
Nous n'avons pas encore compl√®tement discut√© des modules Python et des boucles `for`, mais une fois que vous √™tes √† l'aise avec ces concepts, il est utile de savoir comment travailler avec tous les fichiers d'un r√©pertoire.
**Importer la biblioth√®que Path**

In [37]:
from pathlib import Path

In [36]:
chemin_dossier = '../data/txt/'

**Parcourir tous les fichiers dans le r√©pertoire avec le caract√®re √©toile `*`, qui correspond √† ''tout''**

In [38]:
for chemin_fichier in Path(chemin_dossier).glob('*'):
    print(chemin_fichier)

../data/txt/1907_Leblanc-Maurice_Arsene-Lupin-gentleman-cambrioleur.txt
../data/txt/1830_Stendhal_Le-Rouge-et-le-noir.txt
../data/txt/1909_Zevaco-Michel_Nostradamus.txt
../data/txt/1892_Verne-Jules_Le-Chateau-des-Carpathes.txt
../data/txt/.ipynb_checkpoints
../data/txt/1841_Sand-George_Un-hiver-a-Majorque.txt
../data/txt/1930_Colette_Sido.txt
../data/txt/1883_Guy-de-Maupassant_Contes-de-la-Becasse.txt


**Parcourir tous les fichiers `*.txt` dans le dossier**

In [39]:
for chemin_fichier in Path(chemin_dossier).glob('*.txt'):
    print(chemin_fichier)

../data/txt/1907_Leblanc-Maurice_Arsene-Lupin-gentleman-cambrioleur.txt
../data/txt/1830_Stendhal_Le-Rouge-et-le-noir.txt
../data/txt/1909_Zevaco-Michel_Nostradamus.txt
../data/txt/1892_Verne-Jules_Le-Chateau-des-Carpathes.txt
../data/txt/1841_Sand-George_Un-hiver-a-Majorque.txt
../data/txt/1930_Colette_Sido.txt
../data/txt/1883_Guy-de-Maupassant_Contes-de-la-Becasse.txt


**Pour lire ces fichiers texte, il suffit d'ajouter la fonction `open()` et la m√©thode `.read()`**

In [40]:
for chemin_fichier in Path(chemin_dossier).glob('*.txt'):
    with open(chemin_fichier, encoding='utf-8') as fichier:
        print(fichier.read()[:100])

 L‚Äô√©trange voyage ! Il avait si bien commenc√© cependant ! Pour ma part, je n‚Äôen fis jamais qui s‚Äôann
La v√©rit√©, l‚Äô√¢pre v√©rit√©.DANTON.Put thousands togetherLess bad,But the cage less gay.HOBBES.La petit
 PREMIER CHAPITRE ‚Äì LA SORCI√àRE.  I ‚Äì LES AMOUREUX  Une claire et ti√®de matin√©e d‚Äôautomne en l‚Äôan 15
Cette histoire n‚Äôest pas fantastique, elle n‚Äôest que romanesque. Faut-il en conclure qu‚Äôelle ne soit
S√©dentaire par devoir, tu crois, mon cher Fran√ßois, qu‚Äôemport√© par le fier et capricieux dada de l‚Äôi
 ‚Äì Et pourquoi cesserais-je d‚Äô√™tre de mon village¬†? Il n‚Äôy faut pas compter. Te voil√† bien fi√®re, mo
Le vieux baron des Ravots avait √©t√© pendant quarante ans le roi des chasseurs de sa province. Mais, 


#### Encore mieux:

In [42]:
from glob import glob

In [43]:
chemin_dossier = '../data/txt/*.txt'

In [44]:
for chemin_fichier in glob(chemin_dossier):
    with open(chemin_fichier, encoding='utf-8') as fichier:
        print(fichier.read()[:100])

 L‚Äô√©trange voyage ! Il avait si bien commenc√© cependant ! Pour ma part, je n‚Äôen fis jamais qui s‚Äôann
La v√©rit√©, l‚Äô√¢pre v√©rit√©.DANTON.Put thousands togetherLess bad,But the cage less gay.HOBBES.La petit
 PREMIER CHAPITRE ‚Äì LA SORCI√àRE.  I ‚Äì LES AMOUREUX  Une claire et ti√®de matin√©e d‚Äôautomne en l‚Äôan 15
Cette histoire n‚Äôest pas fantastique, elle n‚Äôest que romanesque. Faut-il en conclure qu‚Äôelle ne soit
S√©dentaire par devoir, tu crois, mon cher Fran√ßois, qu‚Äôemport√© par le fier et capricieux dada de l‚Äôi
 ‚Äì Et pourquoi cesserais-je d‚Äô√™tre de mon village¬†? Il n‚Äôy faut pas compter. Te voil√† bien fi√®re, mo
Le vieux baron des Ravots avait √©t√© pendant quarante ans le roi des chasseurs de sa province. Mais, 
