# Séance 6 : Fichiers et Repertoires, formats CSV et Json

## Tester si un fichier ou un repertoire existent

In [24]:
import os
os.path.exists("../data/")

True

In [25]:
os.path.exists("../data/arrondissements.geojson")

True

In [26]:
os.path.exists("../data/communes.geojson")

False

## os.sep et  os.path.join

In [27]:
os.sep

'\\'

In [28]:
root = "..\data"
print(root)

..\data


#### Construire un chemin à partir de noms de repertoire ou de fichier

Pas terrible : 

In [29]:
folder = root + "\93"
print(folder)
os.path.exists(folder)

..\data\93


True

Déjà mieux : utiliser os.sep pour être sûr que le séparateur sera adapté au système d'exploitation qui execute le code python

In [30]:
folder = root + os.sep + "93"
print(folder)
os.path.exists(folder)

..\data\93


True

A utiliser : **os.path.join**

In [31]:
folder = os.path.join( root ,"93")
print(folder)
os.path.exists(folder)

..\data\93


True

#### Manipuler un Path avec os.path

In [32]:
import os
path = 'c:\\home\\guillaume\\data\\paris\\arrondissement.csv'

In [33]:
os.path.dirname(path)

'c:\\home\\guillaume\\data\\paris'

In [34]:
os.path.basename(path)

'arrondissement.csv'

In [35]:
os.path.split(path)

('c:\\home\\guillaume\\data\\paris', 'arrondissement.csv')

In [36]:
os.path.abspath(".")

'D:\\Master_1_G2M\\Python\\Seances\\Seance06_cours'

## Créer un repertoire

In [37]:
root = "..\data"
folder = os.path.join( root ,"temp")
print(folder)

..\data\temp


os.mkdir pour créer un repertoire.

In [38]:
os.mkdir(folder)

Soit 2 autres repertoires à créer : temp1 et temp2 (qui est dans temp1)

In [39]:
folder1 = os.path.join( root ,"temp1")
print(folder1)
folder2 = os.path.join( folder1 ,"temp2")
print(folder2)

..\data\temp1
..\data\temp1\temp2


mkdir : si on commence par la création d'un repertoire sans que tous les dossier parents existent ...

In [40]:
os.mkdir(folder2)

FileNotFoundError: [WinError 3] Le chemin d’accès spécifié est introuvable: '..\\data\\temp1\\temp2'

mkdirs : permet de créer tous les niveaux de repertoires necessaires

In [41]:
os.makedirs(folder2)

Créer un dossier qui existe déjà entraine une erreur : 

In [42]:
os.makedirs(folder2)

FileExistsError: [WinError 183] Impossible de créer un fichier déjà existant: '..\\data\\temp1\\temp2'

## Supprimer un repertoire

In [43]:
print(folder)
os.rmdir(folder)

..\data\temp


La suppression avec os.rmdir ne marche pas si le repertoire n'est pas vide

In [44]:
print(folder1)
os.rmdir(folder1)

..\data\temp1


OSError: [WinError 145] Le répertoire n’est pas vide: '..\\data\\temp1'

D'autres modules permettent une suppression plus puissante 

In [45]:
import shutil
print(folder1)
shutil.rmtree(folder1)

..\data\temp1


## Supprimer un fichier

In [46]:
os.remove("..\\data\\untitled.txt")

FileNotFoundError: [WinError 2] Le fichier spécifié est introuvable: '..\\data\\untitled.txt'

## Déplacer ou Copier/Coller un fichier
Aller voir la documentation python

## Lister les fichiers et sous-repertoires d'un repertoire avec 'os'

In [47]:
import os
repertoire = '..\\data'

### os.listdir pour lister le strict contenu d'un repertoire

In [48]:
for element in os.listdir(repertoire):
    print(element)

.ipynb_checkpoints
93
api
arbresremarquablesparis.csv
arbresremarquablesparis.geojson
arrondissements.geojson


In [49]:
# on peut concaténer le repertoire et le noms des dossiers/fichiers trouvés 
for element in os.listdir(repertoire):
    print(os.path.join(repertoire, element))

..\data\.ipynb_checkpoints
..\data\93
..\data\api
..\data\arbresremarquablesparis.csv
..\data\arbresremarquablesparis.geojson
..\data\arrondissements.geojson


In [50]:
# on peut ensuite tester le type de ressource locale (fichier ou repertoire) 
for element in os.listdir(repertoire):
    # on construit le chemin relatif complet : 
    file_path = os.path.join(repertoire, element)
    # on test ce que c'est : 
    if os.path.isfile(file_path) :
        print(f"c'est un fichier : {element}")
    elif os.path.isdir(file_path):
        print(f"c'est un dossier : {element}")
    else:
        print(f"Ni dossier ni fichier : {element}")

c'est un dossier : .ipynb_checkpoints
c'est un dossier : 93
c'est un dossier : api
c'est un fichier : arbresremarquablesparis.csv
c'est un fichier : arbresremarquablesparis.geojson
c'est un fichier : arrondissements.geojson


### os.walk pour lister les fichiers en prenant en compte les sous-repertoires

In [51]:
for subdir, dirs, files in os.walk(repertoire):
    for file in files:
        print(os.path.join(subdir, file))

..\data\arbresremarquablesparis.csv
..\data\arbresremarquablesparis.geojson
..\data\arrondissements.geojson
..\data\.ipynb_checkpoints\arbresremarquablesparis-checkpoint.csv
..\data\.ipynb_checkpoints\arrondissements-checkpoint.geojson
..\data\.ipynb_checkpoints\untitled-checkpoint.txt
..\data\93\departement.geojson
..\data\93\Departement93_creches_departementales_2015.geojson
..\data\api\reverse.csv


### Autre méthode avec glob (pour rechercher selon un motif) et tri sur nom des fichiers
utilisé dans le cadre suivant : 
- script développé sous windows les repertoires sont listés par ordre alphabétique
- mais lancé sous Linux ce n'était plus le cas 

Or il s'agissait de fichier par années à traiter dans le bon ordre.

Il fallait donc maitriser cet ordre.

In [52]:
import glob
for infile in sorted(glob.glob(os.path.join(repertoire, '*.geojson') )):
    print(infile)

..\data\arbresremarquablesparis.geojson
..\data\arrondissements.geojson


# Ouvrir un fichier texte en lecture et parcourir les lignes

## Avec déclarations d'ouverture et de fermeture du fichier

In [54]:
# Ouverture du fichier
fp = open('../data/arbresremarquablesparis.csv', 'r')
# lecteure de la première ligne
line = fp.readline()
# initialisation du compteur de lignes lues
nb = 1
# boucle, tant que la variable line ne pointe pas vers un objet null (après la dernière ligne du fichier)
while line:
    print("Ligne {}: {}".format(nb, line.strip()))
    if nb > 5:
        break
    # on lit la ligne suivante et on incrémente le compteur
    line = fp.readline()
    nb += 1
fp.close()

Ligne 1: Geo point;GENRE;ESPECE;ADRESSE;IDBASE;TYPEEMPLACEMENT;DOMANIALITE;ARRONDISSEMENT;COMPLEMENTADRESSE;NUMERO;IDEMPLACEMENT;CIRCONFERENCE EN CM;HAUTEUR EN M;STADEDEVELOPPEMENT;PEPINIERE;VARIETE OU CULTIVAR;DATEPLANTATION;REMARQUABLE;OBJECTID;LIBELLEFRANCAIS
Ligne 2: 48.8736809161,2.29025241063;Quercus;ilex;JARDIN DE L AVENUE FOCH / 10 AVENUE FOCH;114867.0;Arbre;Jardin;PARIS 16E ARRDT;PELOUSE 10 - 20 Ã  26;;000206003 / 16-32;204.0;10.0;M;Inconnue;;1700-01-01T01:02:49+00:53;1;25049;ChÃªne
Ligne 3: 48.8577764958,2.31452314446;Platanus;x hispanica;SQUARE D''AJACCIO;109021.0;Arbre;Jardin;PARIS 7E ARRDT;07-13;;00000039;480.0;25.0;M;Inconnue;;1700-01-01T01:02:49+00:53;1;35593;Platane
Ligne 4: 48.8678069026,2.38883414897;Prunus;dulcis;CENTRE D''ANIMATION LES AMANDIERS / 110 RUE DES AMANDIERS;2013640.0;Arbre;DAC;PARIS 20E ARRDT;;;0000001;240.0;9.0;M;Inconnue;;2000-01-01T02:00:00+01:00;1;42390;Amandier
Ligne 5: 48.8183891866,2.43791851368;Quercus;ilex;PENTE DE GRAVELLE - AVENUE DE GRAVELLE 

#### Attention à l'encoding
Observer la dernière ligne, elle comporte des chaines avec des caractères spéciaux mal décodés : ChÃªne (sur la dernière ligne)

Il faut toujours veiller à préciser l'encoding des fichier pour ne pas avoir de surprise

ici cela se fait en utilisant un paramètre encoding et de lui passer le type d'encoding du fichier : 'utf8'

In [56]:
# Ouverture du fichier
fp = open('../data/arbresremarquablesparis.csv', 'r', encoding='utf8')
# lecteure de la première ligne
line = fp.readline()
# initialisation du compteur de lignes lues
nb = 1
# boucle, tant que la variable line ne pointe pas vers un objet null (après la dernière ligne du fichier)
while line:
    print("Ligne {}: {}".format(nb, line.strip()))
    if nb > 5:
        break
    # on lit la ligne suivante et on incrémente le compteur
    line = fp.readline()
    nb += 1
fp.close()

Ligne 1: Geo point;GENRE;ESPECE;ADRESSE;IDBASE;TYPEEMPLACEMENT;DOMANIALITE;ARRONDISSEMENT;COMPLEMENTADRESSE;NUMERO;IDEMPLACEMENT;CIRCONFERENCE EN CM;HAUTEUR EN M;STADEDEVELOPPEMENT;PEPINIERE;VARIETE OU CULTIVAR;DATEPLANTATION;REMARQUABLE;OBJECTID;LIBELLEFRANCAIS
Ligne 2: 48.8736809161,2.29025241063;Quercus;ilex;JARDIN DE L AVENUE FOCH / 10 AVENUE FOCH;114867.0;Arbre;Jardin;PARIS 16E ARRDT;PELOUSE 10 - 20 à 26;;000206003 / 16-32;204.0;10.0;M;Inconnue;;1700-01-01T01:02:49+00:53;1;25049;Chêne
Ligne 3: 48.8577764958,2.31452314446;Platanus;x hispanica;SQUARE D''AJACCIO;109021.0;Arbre;Jardin;PARIS 7E ARRDT;07-13;;00000039;480.0;25.0;M;Inconnue;;1700-01-01T01:02:49+00:53;1;35593;Platane
Ligne 4: 48.8678069026,2.38883414897;Prunus;dulcis;CENTRE D''ANIMATION LES AMANDIERS / 110 RUE DES AMANDIERS;2013640.0;Arbre;DAC;PARIS 20E ARRDT;;;0000001;240.0;9.0;M;Inconnue;;2000-01-01T02:00:00+01:00;1;42390;Amandier
Ligne 5: 48.8183891866,2.43791851368;Quercus;ilex;PENTE DE GRAVELLE - AVENUE DE GRAVELLE / 

## avec With

In [57]:
# On ouvre le fichier via un With avec derrière une indentation à la fin du with le fichier sera fermé automatiquement (pas de cloze)
with open('../data/arbresremarquablesparis.csv', 'r', encoding='utf8') as fp :
    line = fp.readline()
    nb = 1
    while line:
        print("Ligne {}: {}".format(nb, line.strip()))
        if nb > 5:
            break
        # on lit la ligne suivante et on incrémente le compteur
        line = fp.readline()
        nb += 1


Ligne 1: Geo point;GENRE;ESPECE;ADRESSE;IDBASE;TYPEEMPLACEMENT;DOMANIALITE;ARRONDISSEMENT;COMPLEMENTADRESSE;NUMERO;IDEMPLACEMENT;CIRCONFERENCE EN CM;HAUTEUR EN M;STADEDEVELOPPEMENT;PEPINIERE;VARIETE OU CULTIVAR;DATEPLANTATION;REMARQUABLE;OBJECTID;LIBELLEFRANCAIS
Ligne 2: 48.8736809161,2.29025241063;Quercus;ilex;JARDIN DE L AVENUE FOCH / 10 AVENUE FOCH;114867.0;Arbre;Jardin;PARIS 16E ARRDT;PELOUSE 10 - 20 à 26;;000206003 / 16-32;204.0;10.0;M;Inconnue;;1700-01-01T01:02:49+00:53;1;25049;Chêne
Ligne 3: 48.8577764958,2.31452314446;Platanus;x hispanica;SQUARE D''AJACCIO;109021.0;Arbre;Jardin;PARIS 7E ARRDT;07-13;;00000039;480.0;25.0;M;Inconnue;;1700-01-01T01:02:49+00:53;1;35593;Platane
Ligne 4: 48.8678069026,2.38883414897;Prunus;dulcis;CENTRE D''ANIMATION LES AMANDIERS / 110 RUE DES AMANDIERS;2013640.0;Arbre;DAC;PARIS 20E ARRDT;;;0000001;240.0;9.0;M;Inconnue;;2000-01-01T02:00:00+01:00;1;42390;Amandier
Ligne 5: 48.8183891866,2.43791851368;Quercus;ilex;PENTE DE GRAVELLE - AVENUE DE GRAVELLE / 

# Ouvrir un fichier texte pour y écrire des lignes

En ouvrant un fichier en mode w (write)

In [59]:
fout = open('../data/test_ecriture.txt', 'w')
fout.write('Cours de python')
fout.close()

Ou comme avec la lecture on peut utiliser With :

In [60]:
with open('../data/test_ecriture2.txt', 'w') as fout:
    fout.write('Cours de python')

# Travailler avec un fichier CSV

In [61]:
import csv

In [63]:
with open('../data/arbresremarquablesparis.csv', 'r',encoding='utf8') as fp :
    reader = csv.reader(fp, delimiter=';')
    nb = 1
    for row in reader:
        print(row)
        nb += 1
        if nb > 10 :
            break

['Geo point', 'GENRE', 'ESPECE', 'ADRESSE', 'IDBASE', 'TYPEEMPLACEMENT', 'DOMANIALITE', 'ARRONDISSEMENT', 'COMPLEMENTADRESSE', 'NUMERO', 'IDEMPLACEMENT', 'CIRCONFERENCE EN CM', 'HAUTEUR EN M', 'STADEDEVELOPPEMENT', 'PEPINIERE', 'VARIETE OU CULTIVAR', 'DATEPLANTATION', 'REMARQUABLE', 'OBJECTID', 'LIBELLEFRANCAIS']
['48.8736809161,2.29025241063', 'Quercus', 'ilex', 'JARDIN DE L AVENUE FOCH / 10 AVENUE FOCH', '114867.0', 'Arbre', 'Jardin', 'PARIS 16E ARRDT', 'PELOUSE 10 - 20 à 26', '', '000206003 / 16-32', '204.0', '10.0', 'M', 'Inconnue', '', '1700-01-01T01:02:49+00:53', '1', '25049', 'Chêne']
['48.8577764958,2.31452314446', 'Platanus', 'x hispanica', "SQUARE D''AJACCIO", '109021.0', 'Arbre', 'Jardin', 'PARIS 7E ARRDT', '07-13', '', '00000039', '480.0', '25.0', 'M', 'Inconnue', '', '1700-01-01T01:02:49+00:53', '1', '35593', 'Platane']
['48.8678069026,2.38883414897', 'Prunus', 'dulcis', "CENTRE D''ANIMATION LES AMANDIERS / 110 RUE DES AMANDIERS", '2013640.0', 'Arbre', 'DAC', 'PARIS 20E AR

On voit que chaque ligne du fichier est une liste.
la prenière ligne étant la liste des noms des attributs il faut pouvoir la distinguer des autres lignes : 

In [64]:
with open('../data/arbresremarquablesparis.csv', 'r', encoding='utf8') as fp :
    reader = csv.reader(fp,  delimiter=';')
    # récupération de la première ligne
    header = next(reader)
    nb = 1
    print(header)
    print()
    # boucle sur les lignes suivantes
    for row in reader:
        print(row)
        nb += 1
        if nb > 10 :
            break

['Geo point', 'GENRE', 'ESPECE', 'ADRESSE', 'IDBASE', 'TYPEEMPLACEMENT', 'DOMANIALITE', 'ARRONDISSEMENT', 'COMPLEMENTADRESSE', 'NUMERO', 'IDEMPLACEMENT', 'CIRCONFERENCE EN CM', 'HAUTEUR EN M', 'STADEDEVELOPPEMENT', 'PEPINIERE', 'VARIETE OU CULTIVAR', 'DATEPLANTATION', 'REMARQUABLE', 'OBJECTID', 'LIBELLEFRANCAIS']

['48.8736809161,2.29025241063', 'Quercus', 'ilex', 'JARDIN DE L AVENUE FOCH / 10 AVENUE FOCH', '114867.0', 'Arbre', 'Jardin', 'PARIS 16E ARRDT', 'PELOUSE 10 - 20 à 26', '', '000206003 / 16-32', '204.0', '10.0', 'M', 'Inconnue', '', '1700-01-01T01:02:49+00:53', '1', '25049', 'Chêne']
['48.8577764958,2.31452314446', 'Platanus', 'x hispanica', "SQUARE D''AJACCIO", '109021.0', 'Arbre', 'Jardin', 'PARIS 7E ARRDT', '07-13', '', '00000039', '480.0', '25.0', 'M', 'Inconnue', '', '1700-01-01T01:02:49+00:53', '1', '35593', 'Platane']
['48.8678069026,2.38883414897', 'Prunus', 'dulcis', "CENTRE D''ANIMATION LES AMANDIERS / 110 RUE DES AMANDIERS", '2013640.0', 'Arbre', 'DAC', 'PARIS 20E A

Mais selon les usages quand on est sur une ligne en plein milieu du fichier il faut pouvoir se souvenir du nom de l'attribut qui était dans la première ligne ...

Pour cela il y a des méthode de lecture de fichiers CSV différentes

## DictReader

In [65]:
from csv import DictReader

with open('../data/arbresremarquablesparis.csv', 'r', encoding='utf8') as fp :
    csv_dict_reader = DictReader(fp,  delimiter=';')
    # la liste des nom des attrbuts : 
    column_names = csv_dict_reader.fieldnames
    print(column_names)
    print()
    nb = 1
    
    # avec le DictReader chaque ligne va être un objet particulier
    # de type OrderedDict qui va avoir des comportements proches des dict 
    # que l'on connait bien 
    for row in csv_dict_reader:
        #print(row)
        print(row["GENRE"])
        print()
        nb += 1
        if nb > 10 :
            break

['Geo point', 'GENRE', 'ESPECE', 'ADRESSE', 'IDBASE', 'TYPEEMPLACEMENT', 'DOMANIALITE', 'ARRONDISSEMENT', 'COMPLEMENTADRESSE', 'NUMERO', 'IDEMPLACEMENT', 'CIRCONFERENCE EN CM', 'HAUTEUR EN M', 'STADEDEVELOPPEMENT', 'PEPINIERE', 'VARIETE OU CULTIVAR', 'DATEPLANTATION', 'REMARQUABLE', 'OBJECTID', 'LIBELLEFRANCAIS']

Quercus

Platanus

Prunus

Quercus

Quercus

Salix

Platanus

Cedrus

Platanus

Fraxinus



# Gérer un fichier Json / GeoJson

#### En lecture 

In [66]:
import json
fichier = '../data/arrondissements.geojson'

In [67]:
data = json.load(open(fichier, 'r',encoding='utf8'))
type(data)

dict

In [68]:
with open(fichier) as f:
    data = json.load(f)
data

{'type': 'FeatureCollection',
 'features': [{'type': 'Feature',
   'geometry': {'type': 'Polygon',
    'coordinates': [[[2.299322310264648, 48.852174427333274],
      [2.300883913456113, 48.851176131084145],
      [2.300964661201576, 48.85123012651538],
      [2.303746047913422, 48.84943929154836],
      [2.306149310004038, 48.84789994583024],
      [2.307339709005096, 48.847139376795404],
      [2.3080419591723302, 48.84739225374763],
      [2.308219888290114, 48.847434925901986],
      [2.310378251508753, 48.84795218786006],
      [2.310525952151246, 48.84798758363206],
      [2.311155377296785, 48.84757938949668],
      [2.311260835819493, 48.847510996658556],
      [2.311486631207579, 48.847368855176626],
      [2.311625847644086, 48.847281216555366],
      [2.311767709159531, 48.84719033639172],
      [2.312091028580114, 48.846983212758936],
      [2.313641280957853, 48.845990046203234],
      [2.313729873598172, 48.84593328656336],
      [2.316097509191232, 48.84666304155859],
  

#### En ecriture (json.dumps et json.dump)

soi un dictionnaire ou une liste de dictionnaire (ce qui est le cas ici) : 

In [69]:
fruits = [{'nom': 'ananas', 
          'poids' : 500,
          'origine' : 'venezuela'
         },
          {'nom': 'banane', 
          'poids' : 50,
          'origine' : 'martinique'
         },
          {'nom': 'fraise', 
          'poids' : 250,
          'origine' : 'espagne'
         },
         {'nom': 'melon', 
          'poids' : 735,
          'origine' : 'espagne'
         }]

fruits

[{'nom': 'ananas', 'poids': 500, 'origine': 'venezuela'},
 {'nom': 'banane', 'poids': 50, 'origine': 'martinique'},
 {'nom': 'fraise', 'poids': 250, 'origine': 'espagne'},
 {'nom': 'melon', 'poids': 735, 'origine': 'espagne'}]

Le module Json permet de transformer l'objet en un echaine json avec la methode json.dumps()

In [70]:
import json
fruits_str = json.dumps(fruits)
fruits_str

'[{"nom": "ananas", "poids": 500, "origine": "venezuela"}, {"nom": "banane", "poids": 50, "origine": "martinique"}, {"nom": "fraise", "poids": 250, "origine": "espagne"}, {"nom": "melon", "poids": 735, "origine": "espagne"}]'

On pourrait s'en servir pour écrire la chaine dans un fichier texte avec l'extension .json

Mais il y a aussi json.dump() qui permet de faire la même chose et de remplir le fichier ouvert en écriture

In [71]:
with open('../data/test.json', 'w') as fout:
    json.dump(fruits, fout)

## Autres formats de fichier

Excel : https://xlrd.readthedocs.io/en/latest/

Remarque : si c'est pour gérer des données tabulaires autant prendre le temps d'apprendre Pandas.