<a href="https://colab.research.google.com/github/opentrainingcamp/python/blob/main/Notebook/fichiers/fichiers_python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Complément : manipulation de fichiers et dossiers en Python

## Persister des données

Le moyen essentiel de faire persister vos données sont les fichiers.

Dans ce complément, vous apprendrez:

* Qu'est-ce qui compose un fichier et pourquoi c'est important en Python
* Les bases de la lecture et de l'écriture de fichiers en Python
* Quelques exemples de lecture et d'écriture de fichiers

## Pour ceux qui ne le savent pas, Qu'est-ce qu'un fichier?

Avant de pouvoir utiliser des fichiers en Python, il est important de comprendre ce qu'est exactement un fichier et comment les systèmes d'exploitation modernes gèrent certains de leurs aspects.

À la base, un fichier est un ensemble contigu **d'octets** utilisé pour stocker des données. Ces données sont organisées dans un format spécifique et peuvent être quelque chose d'aussi simple qu'un fichier texte ou aussi compliqué qu'un exécutable de programme.

Les fichiers sur la plupart des systèmes de fichiers modernes sont composés de trois parties principales:

* **En-tête:** métadonnées sur le contenu du fichier (nom du fichier, taille, type, etc.)
* **Données:** contenu du fichier tel qu'écrit par le créateur ou l'éditeur
* **Fin de fichier (EOF)**: caractère spécial qui indique la fin du fichier

![Structure fichbier](https://github.com/lipug/lipug.github.io/raw/main/Python/fichiers/strcture_fichier.png)

# Chemins de fichiers, le PATH

Lorsque vous accédez à un fichier sur un système d'exploitation, un chemin d'accès au fichier est requis. Le chemin du fichier est une chaîne qui représente l'emplacement d'un fichier. Il est divisé en trois parties principales:

* Chemin du dossier: l'emplacement du dossier de fichiers sur le système de fichiers où les dossiers suivants sont séparés par une barre oblique / (Unix) ou une barre oblique inverse \ (Windows)
* Nom du fichier: le nom réel du fichier
* Extension: la fin du chemin du fichier précédée d'un point (.) Utilisé pour indiquer le type de fichier

Un dossier possède une définition résursive: il contient des fichiers ou d'autres dossiers. 

$DOSSIER ::= {CONTENU}^* $

$ CONTENU ::= fichier | DOSSIER $

Le système de fichier commence par un dossier racine, Le fichier représente un npoeud terminal. À partir du dossier racine nous retrouvons tous les fichiers du système de fichier. 

In [None]:
chemindef2 = '/content/sample_data/dossier1/dossier2/f2'

# Les fichiers textes, introduction à l'encodage

Un fichier est une suite d'octet, mais les fichiers texte (suite de caractères) ont une particularité, il possède des codages (octets spéciaux) permettant de faire du formatage par exemple la tabulation, passage à la ligne etc...

Un code => indique un caractère => le caractère possède un glyphe.

*Un glyphe (du grec : γλυφή ; « ciselure », « gravure ») est une représentation graphique (parmi une infinité possible) d'un signe typographique, autrement dit d'un caractère (glyphe de caractère) ou d'un accent (glyphe d'accent), ou bien d'une ligature de ces caractères (y compris pour une syllabe ou un mot tout entier, dans les écritures cursives et jointives où on ne peut pas produire facilement et proprement les signes par une simple juxtaposition de plusieurs glyphes conçus séparément).*

Prenons cette chaine de caractère sur plusieurs lignes:

### Premier contact

In [None]:
texte = '''
un texte de plusieurs lignes

ligne 3

ligne4 une tabulation    elle est invisible ici mais j'ai
  taper sur la touche Tab

Donc voila
'''

In [None]:
texte

In [None]:
texte2="abc\ncde\n\tetc..."

In [None]:
print(texte2)

In [None]:
texte2

# Codages de caractères
Un autre problème courant auquel vous pouvez être confronté est le codage des données d'octets. Un encodage est une traduction de données d'octets en caractères lisibles par l'homme. Cela se fait généralement en attribuant une valeur numérique pour représenter un caractère. Les deux encodages les plus courants sont les formats ASCII et UNICODE. ASCII ne peut stocker que 128 caractères, tandis que Unicode peut contenir jusqu'à 1 114 112 caractères.

ASCII est en fait un sous-ensemble d'Unicode (UTF-8), ce qui signifie que ASCII et Unicode partagent les mêmes valeurs numériques à caractères. Il est important de noter que l’analyse d’un fichier avec un codage de caractères incorrect peut entraîner des échecs ou une fausse représentation du caractère. Par exemple, si un fichier a été créé à l'aide du codage UTF-8 et que vous essayez de l'analyser à l'aide du codage ASCII, s'il y a un caractère qui est en dehors de ces 128 valeurs, une erreur sera générée.

# ENCODAGES CARACTÈRE Et UNICODE dans PYTHON
1. Qu'est-ce qu'un encodage?
2. ASCII et un peu d'histoire
3. Spécification des bits sous forme de valeurs binaires, oct et hexadécimales
4. Unicode et UTF-8
5. Comment UTF-8 encode un point de code
6. Combinaison de points de code en un seul glyphe
7. Fonctions Python intégrées qui vous aident
8. UTF-16, UTF-32, Latin-1, CP1252

Les ordinateurs ne comprennent que les nombres
* Les encodages de caractères sont un moyen de représenter du texte: un mappage (une association) entre un nombre et un caractère
* ASCII était la norme par excellence
* N'encode vraiment que l'alphabet latin
* Unicode est une norme internationale

# Rappel: Les bits et octets

Les ordinateurs ne comprennent que les nombres
* suite de bits! (2 valeurs, nombre binaire)
  * Vrai / Faux
  * Marche / Arrêt
  * 1/0
* Un «octet» est un regroupement de bits, dans les PC, il s'agissait de 8 bits par octet
* Un octet de 8 bits peut contenir $2^8$ (256) combinaisons
* c'est-à-dire les nombres 0 - 255


# Les origines de l'encodage

* IBM a introduit le codage BCD (Binary Coded Decimal) en 1959
  * BCD utilisait 6 bits pour représenter un caractère
* IBM BCD étendu avec EBCDIC (Extended Binary Coded Decimal Code d'échange) en 1963
  * Utilisé 8 bits
  * Était si avancé qu'il incluait des lettres minuscules!
* ASCII (American Standard Code for Information Interchange) créé en 1963
  * Utilisé 7 bits, mais la plupart des ordinateurs l'ont représenté par 8
  * Adopté en tant que norme internationale en 1967, comporte plusieurs itérations et
plusieurs extensions
  * Le PC l'a utilisé

# Un peu de terminology pour bien nous comprendre

* **Caractère:** "unité minimale de texte ayant une valeur sémantique"
* **Jeu de caractères**: collection de caractères, souvent utilisée par plusieurs langues
  * Jeu de caractères latins vs jeu de caractères grecs vs jeu de caractères russes
* **Code Point**: un nombre qui représente un seul caractère dans un ensemble de caractères encodés
  * «A» en ASCII est le point de code décimal 65
* **Unité de code**, encodage: séquence de bits représentant un point de code
  * Les unités de code ASCII ont une longueur de 7 bits - numérotées de 0 à 127
  * Unicode prend en charge différents encodages avec des unités de code de longueur variable
  * UTF-8 est de 8 bits mais son point de code peut être mappé à 1, 2, 3 ou 4 unités de code


# Notion code caractère (Code Point) `ord`, représentation caractère `chr` 

In [None]:
help(ord)

In [None]:
help(chr)

In [None]:
print(bin(ord('A')), ord('A'), hex(ord('A')))

In [None]:
print(bin(ord('ö')), ord('ö'), hex(ord('ö')))

In [None]:
print(bin(ord('أ')), ord('أ'), hex(ord('أ')))

In [None]:
[chr(cp) for cp in [65, 246, 1571]]

# VIDEO 4

# Les bases de chaines de carctères : ASCII et le module de chaîne Python

## ASCII
* Le PC a commencé avec ASCII
* Alphabet latin de base - pas de caractères accentués
* 128 caractères

| Code Point | Classe | Valeur |
| ---------- | ------ | ------ | 
|0 - 31  | Controle/non-imprimable | | 
| 32 - 64| Space, symbols, numbers |  !”#$%&’()*+,-./0123456789:;<=>?@ |
|65 - 90 | Uppercase English alphabet  | ABCDEFGHIJKLMNOPQRSTUVWXYZ  | 
| 91 - 96 | More symbols | [\\]^_` | 
| 97 - 122 |  Lowercase English alphabet | abcdefghijklmnopqrstuvwxyz|
| 123 - 126 | More symbols | \{\|\}~ | 
| 127 | \<DEL\> | | 
 

# ASCII étendu
* ASCII n'utilise que 128 nombres: tient sur 7 bits
  * Octets 8 bits utilisés par le PC
  * 8ème bit utilisé pour les contrôles de transmission (bit de parité)
* L'ASCII étendu a utilisé les 8 bits
  * Ajout de caractères accentués communs pour prendre en charge la plupart des Langues latine et germaniques (par exemple À, ê, ç, ...)
* Latin-1 (ISO-8859-1) était une autre extension
* Windows-1252, alias CP-1252, était une autre extension
* Extended ASCII, Latin-1, CP-1252 et Unicode utilisent tous les 128 premiers codes points ASCII

# Le module string de Python

string — Opérations usuelles sur des chaînes (ASCII)

Chaînes constantes
Les constantes définies dans ce module sont :

**string.ascii_letters**
La concaténation des constantes ascii_lowercase et ascii_uppercase décrites ci-dessous. Cette valeur n'est pas dépendante de l'environnement linguistique.

**string.ascii_lowercase**
Les lettres minuscules 'abcdefghijklmnopqrstuvwxyz'. Cette valeur ne dépend pas de l'environnement linguistique et ne changera pas.

**string.ascii_uppercase**
Les lettres majuscules 'ABCDEFGHIJKLMNOPQRSTUVWXYZ'. Cette valeur ne dépend pas de l'environnement linguistique et ne changera pas.

**string.digits**
La chaîne '0123456789'.

**string.hexdigits**
La chaîne '0123456789abcdefABCDEF'.

**string.octdigits**
La chaîne '01234567.

**string.punctuation**
Chaîne de caractères ASCII considérés comme ponctuation dans l'environnement linguistique C : !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~.

**string.printable**
Chaîne de caractères ASCII considérés comme affichables. C'est une combinaison de digits, ascii_letters, punctuation, et whitespace.

**string.whitespace**
Une chaîne comprenant tous les caractères ASCII considérés comme espaces. Sont inclus les caractères espace, tabulations, saut de ligne, retour du chariot, saut de page, et tabulation verticale.

In [None]:
import string

type(string.punctuation)
string.punctuation

# Encodage et codage: Bits, Octets, Ocatal (oct), Hexadécimal (hex), Binaire (bin)

Les nombres en Python peuvent être en héxadecimal commence par 0x, décimal, octal comence par 0o et binaire commence par 0b 

In [None]:
n = 539
print(bin(n),oct(n),n,hex(n))

| Base | Valeur |  facteurs |
| ---- | -----  | ------    |
| | | ------------------------------------------------------------------ | 
| 2 |  **0b1000011011** | $ 2^9 + 2^4 + 2^3 + 2^1 + 2^0 $ | 
| 8 | **0o1033** | $1*8^3 + 3*8^1 + 3*8^0$ |
| 10 | **539** | $5*10^2 + 3*10^1 + 9*10^0$ |
| 16 | **0x21B** | $2*16^2 + 1*16^1 + 11*16^0$ | 

## utilisation de formatted string `f'... '`



In [None]:
number = 653
f'{number}'

In [None]:
f'{number:0b}'

In [None]:
f'{number:0o}'

In [None]:
print(f'{number:0x}', f'{number:0X}')


In [None]:
int('653')


In [None]:
int('653', base=16)


In [None]:
int('653', base=2)

In [None]:
int('11', base=2)

In [None]:
for i in range(0,16):
  print(f'{i:02d}\t0b{i:04b}\t0x{i:02x}')

In [None]:
' '.join(f'{ord(c):08x}' for c in 'un petit texte é è á à ï و أحرف 👍')

In [None]:
# J'utiliserais cette fonction dans la suite pour récuperer 
# le code point en hexadécimal
def code_point_hex(texte):
  return '.'.join(f'{ord(c):06x}' for c in texte)

In [None]:
code_point_hex("Voila l'exemple و أحرف 👍")

In [None]:
code_point_hex('cet été')

In [None]:
# une syntaxe python escape \u ou \U
# \u 4 digits
# \U 8 digits
'cet \u00e9t\u00e9'

# Revenons au codage des caractères : L'unicode et Python3



Python 3 représente les données textuelle sous forme de chaîne(suite de caractères) ou d'octet (suite d'octets). Dans cette partie, on va voir léffet de  encode() et decode(), qui vous permettront de convertir entre les deux. Vous allez également commencer à travailler avec Unicode et découvrir la différence entre un encodage et un point de code. Unicode spécifie des points de code pour les caractères mais pas leurs encodages. Il existe plusieurs manières d'encoder Unicode. UTF-8 est le plus courant et est la valeur par défaut dans Python 3.

## Les code point unicode
* ASCII a 128 points de code, pas assez pour toutes les langues humaines
* Unicode a 1 114 112 points de code possibles
  * 17 * 216 - 1
  * 0 - 0x10FFFF
  * Les 128 premiers points de code sont ASCII - rétrocompatibles
* ce n'est pas un encodage

## L'encodage

* Unicode est l'asociation des points de code et des caractères
* Encodages multiples
* UTF-8
* UTF-16, UTF-32 et plus


## Séquence de caractères (str) ou séquence d'octets (bytes)

* Python 3 a deux représentations pour les données texte: des chaînes et des octets
* L'encodage / décodage est le processus de déplacement entre eux

In [None]:
type('bonjour')

In [None]:
type(b'bonjour')

In [None]:
type('bonjour'.encode())

une chaîne Unicode est une séquence de points de code, qui sont des nombres de 0 à 0x10FFFF (1 114 111 en décimal). Cette séquence de points de code doit être stockée en mémoire sous la forme d'un ensemble de unités de code, et les unités de code sont ensuite transposées en octets de 8 bits. Les règles de traduction d'une chaîne Unicode en une séquence d'octets sont appelées un encodage de caractères ou simplement un encodage.

Cette représentation est simple mais son utilisation pose un certain nombre de problèmes.

* Elle n’est pas portable ; des processeurs différents ordonnent les octets différemment.

* Elle gâche beaucoup d'espace. Dans la plupart des textes, la majorité des points de code sont inférieurs à 127, ou à 255, donc beaucoup d'espace est occupé par des octets 0x00. La chaîne ci-dessus occupe 24 octets, à comparer aux 6 octets nécessaires pour une représentation en ASCII. L'utilisation supplémentaire de RAM n'a pas trop d'importance (les ordinateurs de bureau ont des gigaoctets de RAM et les chaînes ne sont généralement pas si grandes que ça), mais l'accroissement de notre utilisation du disque et de la bande passante réseau par un facteur de 4 est intolérable.

* Elle n’est pas compatible avec les fonctions C existantes telles que strlen(), il faudrait donc utiliser une nouvelle famille de fonctions, celle des chaînes larges (wide strings).

* Par conséquent, cet encodage n'est pas très utilisé et d'autres encodages, plus efficaces et pratiques comme UTF-8, sont plutôt choisis.

In [None]:
'bonjour'.encode('utf-8')

In [None]:
encbonj = 'bonjour'.encode('utf-8')
print(type(encbonj), encbonj , type('bonjour'))

In [None]:
enccara = 'Caractères éèáàöï'.encode('utf-8')
enccara

In [None]:
print(ord('é'), hex(ord('é')), 'é'.encode('utf-8'))

In [None]:
print(ord('€'), hex(ord('€')), '€'.encode('utf-8'))

In [None]:
print(ord('a'), hex(ord('a')), 'a'.encode('utf-8'))

In [None]:
print(ord('ح'), hex(ord('ح')), 'ح'.encode('utf-8'))

In [None]:
'\u062d'

In [None]:
chr(1581)

In [None]:
b'Caract\xc3\xa8res \xc3\xa9\xc3\xa8\xc3\xa1\xc3\xa0\xc3\xb6\xc3\xaf'.decode('utf-8')

In [None]:
b'Caract\xc3\xa8res \xc3\xa9\xc3\xa8\xc3\xa1\xc3\xa0\xc3\xb6\xc3\xaf'.decode('latin1')

In [None]:
import sys
print(sys.getsizeof("Caractères éèáàöï et d'autres texte") )
print(sys.getsizeof("Caractères éèáàöï et d'autres texte".encode('utf-8')) )

In [None]:
u'\U0001F947'

In [None]:
u'\U0001f44d'

# Python 3 par défaut UNICODE et UTF-8

Comme nous avoins vu une str est en fait une suite de code point unicode, la plupart des code point unicode peuvent convenir pour créer des identifiants (des noms)

In [None]:
help(''.encode)

In [None]:
'caractères'.encode('utf-8')

In [None]:
'caractères'.encode('ascii')

In [None]:
type(b'abc')

In [None]:
type(u'ab\xc3\xb6c')

In [None]:
code_a = ord('a')
char_a = chr(ca)

In [None]:
ca

In [None]:
chr(98)

# Ouvrir, lire, écrire dans un fichier (sérialiser/déserialiser)

## Les entrées/sorties

Il existe bien des moyens de présenter les sorties d'un programme ; les données peuvent être affichées sous une forme lisible par un être humain ou sauvegardées dans un fichier pour une utilisation future. Nous allons voir quelques possibilités.

*Remarque: l'entrée et la sortie standard (clavier et écran sont pour Python comme pour Unix) des fichiers. À ce titre grace à print et input, vous les avez probablement déjà utilisé...*


Python permet de créer un objet fichier d'interface permettant la manipulation des fichiers.

Les fonctions de bases sont:

* **open()** : La fonction open() renvoie un objet fichier et est le plus souvent utilisée avec deux arguments : open(nomfichier, mode). L'objet fichier est manipulé au moyen des méthodes:
   * **f.read()** : Pour lire le contenu d'un fichier
   * **f.readline()** : f.readline() lit une seule ligne du fichier
   * **f.write()** : écrit le contenu de chaine dans le fichier et renvoie le nombre de caractères écrits.

Open -> write

![](https://lipug.cofares.net/Python/fichiers/write.png)

Open -> read

![](https://lipug.cofares.net/Python/fichiers/read.jpg)

# La fonction open

`open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)`

## signification de quelques pareamètres, les essentiels pour débuter

**file** est un objet représentant un chemin du système de fichiers donnant le chemin (absolu ou relatif au répertoire courant) du fichier à ouvrir ou un nombre entier représentant le descripteur de fichier à envelopper (par exemple un socket...).

**mode** est une chaîne optionnelle permettant de spécifier dans quel mode le fichier est ouvert. Par défaut, mode vaut 'r' qui signifie «ouvrir en lecture pour du texte». 'w' est aussi une valeur classique, permettant d'écrire (en effaçant le contenu du fichier s'il existe), ainsi que 'x' permettant une création exclusive et 'a' pour ajouter à la fin du fichier (ce qui, sur certains systèmes Unix, signifie que toutes les écritures seront des ajouts en fin de fichier, sans tenir compte de la position demandée). En mode texte, si encoding n'est pas spécifié, l'encodage utilisé dépend de la plate-forme : locale.getpreferredencoding(False) est appelée pour obtenir l'encodage défini par les paramètres régionaux (pour lire et écrire des octets bruts, utilisez le mode binaire sans préciser encoding non spécifié). Les modes disponibles sont :

| Caractère | Signification 
| --------- | ------------- 
| 'r'|ouvre en lecture (par défaut) |
| 'w' |ouvre en écriture, en effaçant le contenu du fichier
|'x' |ouvre pour une création exclusive, échouant si le fichier existe déjà
|'a'|ouvre en écriture, ajoutant à la fin du fichier s'il existe
|'b'|mode binaire
|'t'|mode texte (par défaut)
|'+'|ouvre en modification (lecture et écriture)

Python fait la différence entre les entrées-sorties binaires et textes. Les fichiers ouverts en mode binaire (avec 'b' dans mode) donnent leur contenu sous forme de bytes sans codage et décodage. En mode texte (par défaut, ou lorsque 't' est dans le mode), le contenu du fichier est donné sous forme de str, les octets ayant été décodés au préalable en utilisant un encodage déduit de l'environnement ou encoding s'il est donné.

**encoding** est le nom de l'encodage utilisé pour encoder ou décoder le fichier. Il doit seulement être utilisé en mode texte. L'encodage par défaut dépend de la plateforme (ce que locale.getpreferredencoding() donne), mais n'importe quel encodage de texte pris en charge par Python peut être utilisé. Voir codecs pour une liste des encodages pris en charge.




Résumé: 
Le premier argument est une chaîne contenant le nom du fichier. Le deuxième argument est une autre chaîne contenant quelques caractères décrivant la façon dont le fichier est utilisé. mode peut être 'r' quand le fichier n'est accédé qu'en lecture, 'w' en écriture seulement (un fichier existant portant le même nom sera alors écrasé) et 'a' ouvre le fichier en mode ajout (toute donnée écrite dans le fichier est automatiquement ajoutée à la fin). 'r+' ouvre le fichier en mode lecture/écriture. L'argument mode est optionnel, sa valeur par défaut est 'r'.

Normalement, les fichiers sont ouverts en mode texte, c'est-à-dire que vous lisez et écrivez des chaînes de caractères depuis et dans ce fichier, suivant un encodage donné. Si aucun encodage n'est spécifié, l'encodage par défaut dépend de la plateforme. 'b' collé à la fin du mode indique que le fichier doit être ouvert en mode binaire c'est-à-dire que les données sont lues et écrites sous formes d'octets (type bytes). Ce mode est à utiliser pour les fichiers contenant autre chose que du texte.

En mode texte, le comportement par défaut, à la lecture, est de convertir les fin de lignes spécifiques à la plateforme (\n sur Unix, \r\n sur Windows, etc.) en simples \n. Lors de l'écriture, le comportement par défaut est d'appliquer l'opération inverse : les \n sont convertis dans leur équivalent sur la plateforme courante. Ces modifications effectuées automatiquement sont normales pour du texte mais détérioreraient des données binaires contenues dans un fichier de type JPEG ou EXE. Soyez particulièrement attentifs à ouvrir ces fichiers binaires en mode binaire.

C'est une bonne pratique d'utiliser le mot-clé with lorsque vous traitez des fichiers. Vous fermez ainsi toujours correctement le fichier, même si une exception est levée. Utiliser with est aussi beaucoup plus court que d'utiliser l'équivalent avec des blocs try…finally :

```python
with open('workfile') as f:
     read_data = f.read()
```

au lieu de

```python
f = open('workfile')
try:
  read_data = f.read()
finally:
  f.close()
```

In [None]:
f = open('workfile', 'w')

In [None]:
f

## La méthode write

`f.write(data)` écrit le contenu de data dans le fichier et renvoie le nombre de caractères ou d'octets écrits.

data est soit une chaîne (séquence de caractères en mode texte), soit un séquences d'octet en mode binaire

Les autres types doivent être convertis, soit en une chaîne (en mode texte), soit en objet bytes (en mode binaire) avant de les écrire

## Lire depuis un fichier : La méthode read. readline

Pour lire le contenu d'un fichier, appelez `f.read(taille)`, cette dernière lit une certaine quantité de données et la renvoie sous forme de chaîne (en mode texte) ou d'objet bytes (en mode binaire). taille est un argument numérique facultatif. Lorsque taille est omis ou négatif, la totalité du contenu du fichier sera lue et renvoyée ; c'est votre problème si le fichier est deux fois plus grand que la mémoire de votre machine. Sinon, au maximum taille caractères (en mode texte) ou taille octets (en mode binaire) sont lus et renvoyés. Si la fin du fichier est atteinte, f.read() renvoie une chaîne vide ('').

`f.readline()` lit une seule ligne du fichier ; un caractère de fin de ligne (\n) est laissé à la fin de la chaîne. Il n'est omis que sur la dernière ligne du fichier si celui-ci ne se termine pas un caractère de fin de ligne. Ceci permet de rendre la valeur de retour non ambigüe : si f.readline() renvoie une chaîne vide, c'est que la fin du fichier a été atteinte, alors qu'une ligne vide est représentée par '\n' (une chaîne de caractères ne contenant qu'une fin de ligne).

Pour lire ligne à ligne, vous pouvez aussi boucler sur l'objet fichier. C'est plus efficace en termes de gestion mémoire, plus rapide et donne un code plus simple :

In [None]:
# exemple /content/sample_data/README.md
with open('/content/sample_data/README.md', 'r') as f:
  for l in f:
    print(l, end='')

Pour construire une liste avec toutes les lignes d'un fichier, il est aussi possible d'utiliser list(f) ou f.readlines().

In [None]:
# exemple
with open('/content/sample_data/README.md', 'r') as f:
  all = list(f)

In [None]:
f

In [None]:
all

In [None]:
f = open('/content/sample_data/README.md', 'r')
mots = [m for l in f for m in l.split()]
f.close()
mots

In [None]:
'abcd efg skdjfh lskjdfg sldkjf '.split('s')

# Sérialiser / déserialiser

Les chaînes de caractères peuvent facilement être écrites dans un fichier et relues. Les nombres nécessitent un peu plus d'effort, car la méthode read() ne renvoie que des chaînes. Elles doivent donc être passées à une fonction comme int(), qui prend une chaîne comme '123' en entrée et renvoie sa valeur numérique 123. Mais dès que vous voulez enregistrer des types de données plus complexes comme des listes, des dictionnaires ou des instances de classes, le traitement lecture/écriture à la main devient vite compliqué.

## Utulisation de repr et eval



Les 2 méthodes des objets repr et str permette de transformer, un objet Python en représentation lisible donc texte.

L'objectif de __repr__ est d'être sans ambiguïté
L'objectif de __str__ est d'être lisible

Nous allons utiliser l'astuce dútiliser repr pour reformer l'objet initial

Le processus est

ObjetPython => repr(ObjetPython) => archiver (write) => lire => recontruire l'objet avec eval

In [None]:
l = [1,2,3]
representation = repr(l)
type(representation)

In [None]:
representation

In [None]:
eval('2 + 3')

In [None]:
listorigine = eval(representation)
print(listorigine , type(listorigine))

# généralisons par un exemple simple

In [None]:
class X:
  def __init__(self, x, y):
    self._x,self._y = x,y

  def __str__(self):
    'pour un objet X lisible'
    return f'Objet X : x={self._x} et y={self._y}'

  def __repr__(self):
    'doit être utilisable avec eval'
    return f'X({self._x},{self._y})'

  @property
  def x(self):
    return _x

  @x.setter
  def x(self, vx):
    _x = vx
    
  @property
  def y(self):
    return _y

  @y.setter
  def y(self, vy):
    _y = vy

In [None]:
ox = X(10,20)
ox

In [None]:
print(ox)

In [None]:
print(f'{ox}')

In [None]:
str(ox)

In [None]:
print(ox)

In [None]:
repdeox = repr(ox)
repdeox

In [None]:
objetxorigine = eval(repdeox)
type(objetxorigine)

In [None]:
objetxorigine.x=1000
print(objetxorigine)

## Sauvegarde/lecture de données structurées avec le module json 

Plutôt que de passer son temps à écrire et déboguer du code permettant de sauvegarder des types de données compliqués, Python permet d'utiliser JSON (*JavaScript Object Notation*), un format répandu de représentation et d'échange de données. Le module standard appelé json peut transformer des données hiérarchisées Python en une représentation sous forme de chaîne de caractères. Ce processus est nommé sérialiser. Reconstruire les données à partir de leur représentation sous forme de chaîne est appelé déserialiser. Entre sa sérialisation et sa dé-sérialisation, la chaîne représentant les données peut avoir été stockée ou transmise à une autre machine

module json et les méthodes
1. json.dumps et json.dump
2. json.loads et json.load

Si vous avez un objet x, vous pouvez voir sa représentation JSON en tapant simplement :


```python
import json
json.dumps([1, 'simple', 'list'])
```

Une variante de la fonction dumps(), nommée dump(), sérialise simplement l'objet donné vers un fichier texte. Donc si f est un fichier texte ouvert en écriture, il est possible de faire :

```json.dump(x, f)```

Pour reconstruire l'objet, si f est cette fois un fichier texte ouvert en lecture :

```x = json.load(f)```

Cette méthode de sérialisation peut sérialiser des listes et des dictionnaires. Mais sérialiser d'autres types de données requiert un peu plus de travail. La documentation du module json explique comment faire.

# Etude de cas et exemples

In [None]:
import sys 

class X:
  def __init__(self, x, y):
    self._x,self._y = x,y

  def __str__(self):
    'pour un objet X lisible'
    return f'Objet X : x={self._x} et y={self._y}'

  def __repr__(self):
    'doit être utilisable avec eval'
    return f'X(x={self._x},y={self._y})'

  @property
  def x(self):
    return _x

  @x.setter
  def x(self, vx):
    _x = vx
    
  @property
  def y(self):
    return _y

  @y.setter
  def y(self, vy):
    _y = vy

# stdout assigned to a variable 
out = sys.stdout 
ox = X(10,20)

# printing everything in the same line 
out.write(repr(ox))



In [None]:
eval(repr(ox))

SUITE TODO alho UNICODE <-> UTF-8 le demander en commentaire de cette vidéo

In [None]:
# unicode string
string = 'pythön!'

# print string
print('The string is:', string)

# default encoding to utf-8
string_utf = string.encode()

# print result
print('The encoded version is:', string_utf)

In [None]:
x = hex(ord('ö'))
x

In [None]:
b'pyth\xc3\xb6n!'.decode()

In [None]:
b'\xc3\xb6'.decode()

In [None]:
'é'.encode()

In [None]:
hex(ord('\t'))

In [None]:
b'\x09'.decode()

In [None]:
print(1, b'\x09'.decode(), 2)

In [None]:
# unicode string
string = 'pythön!'

# print string
print('The string is:', string)

# ignore error
print('The encoded version (with ignore) is:', string.encode("ascii", "ignore"))

# replace error
print('The encoded version (with replace) is:', string.encode("ascii", "replace"))