# Lecture des fichiers

Les fichiers textes sont organisés sous forme de ligne et peuvent contenir des caractères ASCII ou alors des caractères unicode (UTF-8).

**Lecture des fichiers**

Pour lire un fichier texte, il suffit d'utiliser la fonction **open** en spécifiant le chemin du fichier comme premier argument, le deuxième argument peut être omis et représente le mode de lecture du fichier.
Si la fonction **open** est utilisée sans l'entourer de with, le fichier est lu mais n'est pas fermé à la fin, en utilisant **with**, une fois la lecture est terminée, le fichier est fermé automatiquement. 

In [None]:
!echo -e "Audi\nBMW\nMercedes\nHonda\nHuyndai" > cars.txt

In [None]:
!cat cars.txt

Audi
BMW
Mercedes
Honda
Huyndai


Sans utiliser l'instruction with, le fichier est verouillé et on ne peut pas le modifier.

In [None]:
f = open('cars.txt')

for line in f:
  print(line)

Audi

BMW

Mercedes

Honda

Huyndai



Pour fermer un fichier ouvert, il suffit d'utiliser la fonction **close**

In [None]:
f.close()

En utilisant **with**, le fichier est ouvert mais fermé à la fin de sa lecture.

In [None]:
with open('cars.txt') as f:
  for line in f:
    print(line)

Audi

BMW

Mercedes

Honda

Huyndai



On peut lire d'autres formats de fichiers comme les fichiers CSV, les fichiers JSON et les fichiers XML.

In [None]:
!echo -e "Audi;01/01/2019;150;2;4\nHONDA;01/04/2015;150;4;4\nBMW;01/01/2012;150;4;4" > cars-details.csv

In [None]:
!cat cars-details.csv

Audi;01/01/2019;150;2;4
HONDA;01/04/2015;150;4;4
BMW;01/01/2012;150;4;4


In [None]:
with open('cars-details.csv') as f:
  for line in f:
    print(line)

Audi;01/01/2019;150;2;4

HONDA;01/04/2015;150;4;4

BMW;01/01/2012;150;4;4



Et pour récupérer les valeurs pour chaque champs, il suffit d'utiliser la fonction split pour chaque ligne.

In [None]:
with open('cars-details.csv') as f:
  for line in f:
    car, _, horses, _, _ = line.split(";")
    print(f"La voiture {car} a {horses}")

La voiture Audi a 150
La voiture HONDA a 150
La voiture BMW a 150


Et si on avait un fichier JSON

In [None]:
!echo -e "{"name": 'Audi', 'production': '12/01/2013', 'horses': 130, 'doors': 2, 'places': 4}" > cars.json

In [None]:
!cat cars.json

{"name": 'Audi', "production": '12/01/2013', "horses": 130, "doors": 2, "places": 4}


In [None]:
with open('cars.json') as f:
  for line in f:
    print(line)

{"name": 'Audi', "production": '12/01/2013', "horses": 130, "doors": 2, "places": 4}



Afin de pouvoir exploiter les champs du fichier JSON, on peut utiliser la bibliothèque **json**

In [None]:
import json

**json** contient plusieurs fonctions qui permettent de lire ou d'enregistrer un contenu sous forme JSON.

Afin de lire un fichier JSON, on peut utiliser l'une des deux fonctions:

* load permet de lire le fichier en précisant son chemin.
* loads permet de lire le JSON à partir d'une chaîne de caractères.

In [None]:
with open('cars.json') as f:
  content = json.load(f)
  print(f"La voiture {content['name']} a {content['horses']} chevaux.")

La voiture Audi a 130 chevaux.


In [None]:
line = "{\"name\": \"Audi\", \"production\": \"12/01/2013\", \"horses\": 130, \"doors\": 2, \"places\": 4}"

In [None]:
content = json.loads(line)

In [None]:
print(content)

{'name': 'Audi', 'production': '12/01/2013', 'horses': 130, 'doors': 2, 'places': 4}


In [None]:
print(content['doors'])

2


Le contenu lu depuis un fichier JSON à travers open est un texte, il faut impérativement utiliser le package json afin de pouvoir accéder aux différents champs.

In [None]:
with open('cars.json') as f:
  for line in f:
    print(line)
    print(line['doors'])

{"name": "Audi", "production": "12/01/2013", "horses": 130, "doors": 2, "places": 4}



TypeError: ignored

Et si on avait un fichier JSON Line "JSONL"

In [None]:
with open('cars.jsonl') as f:
  cars = json.load(f)

In [None]:
print(cars)

[{'name': 'Audi', 'production': '12/01/2013', 'horses': 110, 'doors': 2, 'places': 4}, {'name': 'BMW', 'production': '12/01/2013', 'horses': 100, 'doors': 2, 'places': 4}, {'name': 'Mercedes', 'production': '12/01/2013', 'horses': 140, 'doors': 2, 'places': 4}, {'name': 'Honda', 'production': '12/01/2013', 'horses': 150, 'doors': 2, 'places': 4}, {'name': 'Huyndai', 'production': '12/01/2013', 'horses': 110, 'doors': 2, 'places': 4}]


In [None]:
print(type(cars))

<class 'list'>


In [None]:
print(type(cars[0]))

<class 'dict'>


**Fichiers XML**

Les fichiers XML sont des fichiers hierarchiques organisés sous forme de "parent/fils" permettent de stocker des données en utilisant des balises "tags". Pour chaque tag on peut préciser un certain nombre de propriétés "properties" et chaque tag peut être composer d'un ou plusieurs tags.

Exemple:


```

<cars>
  <car>
    <name>Audi</name>
    <production>01/01/2014</production>
    <doors>2</doors>
    <horses>110</horses>
  </car>
  <car>
    <name>BMW</name>
    <production>01/01/2014</production>
    <doors>2</doors>
    <horses>110</horses>
  </car>
</cars>

```


  

Pour lire/écrire des fichiers XML, on peut utiliser l'un des deux packages:

* xml: permet de lire les fichiers XML
* lxml: permet de lire les fichiers XML et HTML

In [None]:
import xml.etree.ElementTree as ET

content = ET.parse('cars.xml')

cars = content.getroot()

In [None]:
for car in cars:
  children = car.getchildren()
  for child in list(car):
    print(child.tag, child.text)
    counter += 1
  

name Audi
production 01/01/2014
doors 2
horses 110
name BMW
production 01/01/2014
doors 2
horses 110


In [None]:
!tar -czvf cars.gz ./car* 

./cars-details.csv
./cars.json
./cars.jsonl
./cars.txt
./cars.xml


# Ecriture des fichiers

L'écriture dans les fichiers textes permet de créer de nouveaux fichier ou de les mettre à jour.

La fonction **open** accepte deux arguments, le nom et le chemin du fichier et le mode d'accès au fichier. Les modes d'accès aux fichiers sont:

* r: "read" permet la lecture depuis un fichier, c'est le mode par défaut
* w: "write" permet la création d'un fichier s'il n'existe pas, et l'écriture dans ce fichier. Si le fichier existe déjà, il sera écrasé.
* a: "append" permet d'ajouter du contenu à un fichier pré-existant 

Une fois on a un pointeur vers le fichier, on peut écrire dedans en utilisant la fonction **write**.

In [None]:
with open('employees.txt', 'w') as f:
  f.write("10;Jacques;Prévert;100;SA_REP\n10;Willey;Smith;100;IT_PROG")

Afin d'écrire un contenu json dans un fichier, on peut utiliser le package json.
La fonction **dump** permet de sérialiser le contenu en utilisant un dictionnaire par exemple. 

* La fonction **dump** permet de convertir un objet vers une chaîne de caractères et sauvegarder le résultat dans un fichier.
* La fonction **dumps** permet de convertir un objet vers une chaîne de caractères mais sans l'enregistrer dans un fichier.

In [None]:
import json

In [None]:
employees = [
             {'first_name': 'Jacques', 'last_name': 'Prévert', 'department_id': 100, 'job_id': 'SA_REP'},
             {'first_name': 'Alfredo', 'last_name': 'Kimberley', 'department_id': 200, 'job_id': 'IT_PROG'},
             {'first_name': 'Willy', 'last_name': 'Smith', 'department_id': 300, 'job_id': 'MANAGER'}
]

In [None]:
print(type(employees))

<class 'list'>


In [None]:
print(type(employees[0]))

<class 'dict'>


In [None]:
with open('employees.jsonl', 'w') as f:
  json.dump(employees, f)

In [None]:
content = json.dumps(employees)

In [None]:
print(content)

[{"first_name": "Jacques", "last_name": "Pr\u00e9vert", "department_id": 100, "job_id": "SA_REP"}, {"first_name": "Alfredo", "last_name": "Kimberley", "department_id": 200, "job_id": "IT_PROG"}, {"first_name": "Willy", "last_name": "Smith", "department_id": 300, "job_id": "MANAGER"}]


# Fichiers binaires

On peut être amenés à lire des fichiers binaires, dans ce cas on a besoin d'un package afin de lire le fichier.

Exemples:

Fichiers XLS, on peut utiliser le package **pandas** pour les lires
Fichier Pickle, on peut utiliser le package pickle pour les lire.
...

# Intéragir avec le système d'exploitation

On peut utiliser plusieurs packages en Python, certains sont natifs "natives" (os, sys, ...) et d'autres mis à disposition par des tiers (pandas).

Afin de pouvoir intéragir avec le système d'exploitation, on peut utiliser le package **os**

In [None]:
import os

**Lister les fichiers d'un répertoire**

La fonction **listdir** permet d'afficher un listing des fichiers et des dossiers contenus dans un répertoire spécifié.

In [None]:
os.listdir('./')

['.config',
 'cars-details.csv',
 'cars.jsonl',
 'cars.json',
 '.ipynb_checkpoints',
 'employees.jsonl',
 'cars.xml',
 'cars.gz',
 'cars.txt',
 'employees.txt',
 'sample_data']

La fonction **walk** permet de parcourir l'arborescence des fichiers et des dossiers.

In [None]:
import os

for root, dirnames, filenames in os.walk('/'):
  print(root, dirnames, filenames)

[1;30;43mLe flux de sortie a été tronqué et ne contient que les 5000 dernières lignes.[0m
/tools/node/lib/node_modules/npm/node_modules/duplexify/node_modules ['readable-stream', 'string_decoder'] []
/tools/node/lib/node_modules/npm/node_modules/duplexify/node_modules/readable-stream ['lib', 'doc'] ['LICENSE', 'writable-browser.js', 'writable.js', 'passthrough.js', 'duplex.js', 'README.md', 'transform.js', 'GOVERNANCE.md', 'CONTRIBUTING.md', 'readable.js', 'duplex-browser.js', 'package.json', '.travis.yml', 'readable-browser.js']
/tools/node/lib/node_modules/npm/node_modules/duplexify/node_modules/readable-stream/lib ['internal'] ['_stream_duplex.js', '_stream_transform.js', '_stream_writable.js', '_stream_passthrough.js', '_stream_readable.js']
/tools/node/lib/node_modules/npm/node_modules/duplexify/node_modules/readable-stream/lib/internal ['streams'] []
/tools/node/lib/node_modules/npm/node_modules/duplexify/node_modules/readable-stream/lib/internal/streams [] ['BufferList.js', 'd

**Créer des dossiers**

Pour créer un dossier, il suffit d'utiliser la fonction **mkdir** en précisant le chemin dans lequel on veut créer le dossier.

In [None]:
os.mkdir('./samples')

**Décompresser des fichiers compressés**

In [None]:
import zip

ModuleNotFoundError: ignored

**Package sys**

Il contient toute la configuration du système.

exemple:

On peut accéder aux variables d'environnement.

In [None]:
import sys

sys.path

['',
 '/env/python',
 '/usr/lib/python36.zip',
 '/usr/lib/python3.6',
 '/usr/lib/python3.6/lib-dynload',
 '/usr/local/lib/python3.6/dist-packages',
 '/usr/lib/python3/dist-packages',
 '/usr/local/lib/python3.6/dist-packages/IPython/extensions',
 '/root/.ipython']

Pour vérifier le système d'exploitation, on peut utiliser la fonction **platform**.

In [None]:
sys.platform

'linux'

In [None]:
import os

In [None]:
os.getenv('PATH')

'/usr/local/nvidia/bin:/usr/local/cuda/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/tools/node/bin:/tools/google-cloud-sdk/bin:/opt/bin'