___
# Manipulation de fichiers
___

# open

Le mode est donné sous la forme d'une chaîne de caractères. Voici les principaux modes :

    'r' : ouverture en lecture (Read).

    'w' : ouverture en écriture (Write). Le contenu du fichier est écrasé. Si le fichier n'existe pas, il est créé.

    'a' : ouverture en écriture en mode ajout (Append). On écrit à la fin du fichier sans écraser l'ancien contenu du fichier. Si le fichier n'existe pas, il est créé.
    

In [8]:
f = open("toto.txt",'w')
f.write('yep')

3

# close

Lorsque l'on a fini de manipuler un fichier ouvert, il est normalement necessaire de le fermer, pour liberer les ressources liées à ce fichier

In [9]:
f.close()

# with

La "vraie" maniere de faire consiste a utiliser le mot-clé "with". Ceci evite d'avoir à fermer explicitement le fichier avec close

In [10]:

with open("toto.txt",'r') as f:  # le fichier existe à l'avance sinon error
    print(f.closed) ## closed (et pas 'close') est un marqueur booleen indiquant si le fichier est ouvert ou fermé
print(f.closed) 


False
True


# read

In [11]:
### je veux voir le contenu de mon fichier
with open("toto.txt",'r') as f:
    val = f.read() 
print('val : ', val)

val :  yep


tout le contenu du fichier est lu d'un coup

In [12]:
### la chaine de caratere est en realité une liste de caratères
print(val[0])
print(val[1])
print(val[-1]) ### c'est le dernier charactère

y
e
p


In [6]:
### on peut tester la valeur de chaque caractere
for i,car in enumerate(val):
    if car == "u" :
        break
    print(i, car)
print("fini!")

fini!


# readlines

In [8]:
### je veux voir le contenu de mon fichier ligne par ligne
f = open("toto.txt",'r')
print(f.readlines())
f.close()


['Coucou !\n', 'Ca va ?']


chaque ligne est stockée comme un element d'une liste python
!Attention, une fois le readlines effectué, on est la fin du fichier!

la segmentation du fichier par caractere n'est pas tres interessante pour un fichier texte 
(ca peut l'etre pour un fichier binaire)

En revanche la segmentation par mots (i.e. groupe de carateres separés par des espaces) est intéressante

In [11]:
with open("toto.txt") as f:
    for line in f.readlines():
        print (line.split("\n"))

['Coucou !', '']
['Ca va ?']


on a chaque mot segmenté dans une liste de chaine de caractères

In [15]:
## pour eviter d'avoir le retour a la ligne '\n' on peut utiliser la commande strip() sur la ligne
with open("toto.txt") as f:
    for line in f.readlines():
        line = line.strip()
        print(line)
        if 'Ca' in line.split(" "):
            print("j'ai trouvé 'CA' !")
            break ### stop si on trouve 'Ca' dans la ligne
            


Coucou !
Ca va ?
j'ai trouvé 'CA' !


In [17]:
### on peut aussi boucler sur la liste apres .split

list_mots_sans_ou = []
with open("toto.txt") as f:
    for line in f.readlines():
        for word in line.strip().split(" "):
            print(word)
            if word.endswith("ou"):                
                print ("found 'ou'") ### stop si le mot finit par 'ou'
                
            else:
                list_mots_sans_ou.append(word)
print (list_mots_sans_ou)

                

Coucou
found 'ou'
!
Ca
va
?
['!', 'Ca', 'va', '?']


In [18]:
### Encore plus court (facultatif, si list comrehension a été vu...)
with open("toto.txt") as f :
    list_mots_sans_te = [word for line in f.readlines() for word in line.strip().split(" ") if not word.endswith("te")]
print(list_mots_sans_te)

['Coucou', '!', 'Ca', 'va', '?']


# Exercice: write, write append

A) write  et "w"

    A1) Ouvrir un fichier en mode write, 

    A2) Ecrire dans ce fichier:
    
"Ceci est la premiere ligne ajoutee"

    A3) Fermer le fichier

    A4) Relire le contenu du fichier
    
B) with, write et "w"

    B1) Ouvrir le fichier en mode write avec with

    B2) Ecrire dans le fichier 
    
"Ceci est la deuxieme ligne ajoutee"

    B3) Relire le contenu du fichier

C) with, write et "a"

    C1) Ouvrir le fichier en mode append avec with
    
    C2) Ecrire dans le fichier
    
"Ceci est la deuxieme ligne ajoutee"

    C3) Relire le contenu du fichier
    

In [24]:
# A
f = open("alex.txt",'w')
f.write("Ceci est la premiere ligne ajoutee")
f.close()

f = open("alex.txt",'r')
val_A = f.read()
f.close()

print('val_A : ', val_A)

# B
with open("alex.txt",'w') as f:
    f.write("Ceci est la deuxieme ligne ajoutee")
    f.write('\n')

with open("alex.txt",'r') as f:
    val_B = f.read()
    
print('val_B : ', val_B)  # On a donc écrasé l'ancien contenu de notre fichier !!

# C 
with open("alex.txt",'a') as f:
    #f.write('\n')
    f.write("Ceci est la deuxieme ligne ajoutee")

with open("alex.txt",'r') as f:
    val_C = f.read()
    
print('val_C : ', val_C)

val_A :  Ceci est la premiere ligne ajoutee
val_B :  Ceci est la deuxieme ligne ajoutee

val_C :  Ceci est la deuxieme ligne ajoutee
Ceci est la deuxieme ligne ajoutee


# Lecture de données

## "A l'ancienne"

In [28]:
import numpy as np
with open('./data/Coords.txt', 'r') as f:
    
    tab = []
    for line in f.readlines():
        
        val = line.strip().split('\t') # on découpe la ligne autours des \t sans les caractères en plus (\n)
        val = list(map(int,val)) ### string to integer
        
        tab.append(val)
        
    data = np.array(tab)
    
    print (data.shape)
    print(data)
    

(20, 3)
[[-12  56   4]
 [  6  50  12]
 [  8  36   2]
 [ 24  24 -18]
 [-12  22  28]
 [-12  22  26]
 [-32  20 -18]
 [-28  16  32]
 [-48  14   8]
 [-10  10  44]
 [-34   8  38]
 [  4   6  50]
 [  4   6  50]
 [ 10   4  74]
 [ -2   4  44]
 [ 24   4 -10]
 [ 24   4 -16]
 [ 40   2  62]
 [-54   2  38]
 [-26  -4  70]]


# csv

In [35]:
import csv

with open('./data/Coords.txt', 'r') as f:
    
    reader = csv.reader(f)
    
    for row in reader:
        print (row)


['-12\t56\t4']
['6\t50\t12']
['8\t36\t2']
['24\t24\t-18']
['-12\t22\t28']
['-12\t22\t26']
['-32\t20\t-18']
['-28\t16\t32']
['-48\t14\t8']
['-10\t10\t44']
['-34\t8\t38']
['4\t6\t50']
['4\t6\t50']
['10\t4\t74']
['-2\t4\t44']
['24\t4\t-10']
['24\t4\t-16']
['40\t2\t62']
['-54\t2\t38']
['-26\t-4\t70']


In [40]:
### par default, 
with open('./data/Coords.txt', 'r') as f:
   
    reader = csv.reader(f,delimiter = '\t')
    list_vals = []
    
    for row in reader:
        list_vals.append(list(map(int,row)))
    
    print(list_vals)
    
    data= np.array(list_vals)
    print(data)
    
    


[[-12, 56, 4], [6, 50, 12], [8, 36, 2], [24, 24, -18], [-12, 22, 28], [-12, 22, 26], [-32, 20, -18], [-28, 16, 32], [-48, 14, 8], [-10, 10, 44], [-34, 8, 38], [4, 6, 50], [4, 6, 50], [10, 4, 74], [-2, 4, 44], [24, 4, -10], [24, 4, -16], [40, 2, 62], [-54, 2, 38], [-26, -4, 70]]
[[-12  56   4]
 [  6  50  12]
 [  8  36   2]
 [ 24  24 -18]
 [-12  22  28]
 [-12  22  26]
 [-32  20 -18]
 [-28  16  32]
 [-48  14   8]
 [-10  10  44]
 [-34   8  38]
 [  4   6  50]
 [  4   6  50]
 [ 10   4  74]
 [ -2   4  44]
 [ 24   4 -10]
 [ 24   4 -16]
 [ 40   2  62]
 [-54   2  38]
 [-26  -4  70]]


# Lecture string/bytes et importance de l'encoding (UTF-8)


In [44]:
chaine1 = b"Ceci est une chaine d'octets"

print(chaine1)
print(type(chaine1))
print(chaine1[0])

chaine2 = "Ceci est une chaine de caractères particuliers 你好"

print(chaine2)
print(type(chaine2))
print(chaine2[0])

f = open("chaine.txt",'wb')
f.write(chaine1)
f.close()

f = open("chaine.txt",'a')
f.write('\n')
f.write(chaine2)
f.close()

b"Ceci est une chaine d'octets"
<class 'bytes'>
b"Ceci est une chaine d'octets"
Ceci est une chaine de caractères particuliers 你好
<class 'str'>
C


In [48]:
with open('chaine.txt', mode= 'r', encoding='utf8') as f:
    txt = f.read()
    print(txt, type(txt), len(txt))
    
with open('chaine.txt', mode='rb') as f:
    b = f.read()
    print(b, type(b), len(b))
    
    txt2 = b.decode('utf8')
    print(txt2, type(txt2))   
 

Ceci est une chaine d'octets
Ceci est une chaine de caractères particuliers 你好 <class 'str'> 78
b"Ceci est une chaine d'octets\nCeci est une chaine de caract\xc3\xa8res particuliers \xe4\xbd\xa0\xe5\xa5\xbd" <class 'bytes'> 83
Ceci est une chaine d'octets
Ceci est une chaine de caractères particuliers 你好 <class 'str'>


# Sauvegarde et lecture avec numpy : format texte


## loadtxt 

In [49]:
import numpy as np

data = np.loadtxt('./data/Coords.txt') 
print (data)



[[-12.  56.   4.]
 [  6.  50.  12.]
 [  8.  36.   2.]
 [ 24.  24. -18.]
 [-12.  22.  28.]
 [-12.  22.  26.]
 [-32.  20. -18.]
 [-28.  16.  32.]
 [-48.  14.   8.]
 [-10.  10.  44.]
 [-34.   8.  38.]
 [  4.   6.  50.]
 [  4.   6.  50.]
 [ 10.   4.  74.]
 [ -2.   4.  44.]
 [ 24.   4. -10.]
 [ 24.   4. -16.]
 [ 40.   2.  62.]
 [-54.   2.  38.]
 [-26.  -4.  70.]]


### par default, delimiter = "any whitespace", c.a.d. un ou plusieurs espace et/ou tabulations

!!! on ne specifie pas le format avec loadtxt. Il a y de fortes chances que l'on ait a le modifier avec:
np.array(data,dtype = 'int') par exemple

In [50]:
data_int = np.array( np.loadtxt('./data/Coords.txt') ,dtype = 'int') ### attention quand meme au type 'int'; pour les grandes valeurs, il vaut mieux preferer int64
print(data_int)

[[-12  56   4]
 [  6  50  12]
 [  8  36   2]
 [ 24  24 -18]
 [-12  22  28]
 [-12  22  26]
 [-32  20 -18]
 [-28  16  32]
 [-48  14   8]
 [-10  10  44]
 [-34   8  38]
 [  4   6  50]
 [  4   6  50]
 [ 10   4  74]
 [ -2   4  44]
 [ 24   4 -10]
 [ 24   4 -16]
 [ 40   2  62]
 [-54   2  38]
 [-26  -4  70]]


## savetxt

In [51]:
bigmat = np.zeros(shape = (1000,1000), dtype = "float64")

print(bigmat)

[[0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]



numpy.savetxt

!!!  Attention à l'ordre: fichier et ensuite ndarray

fmt est le format d'ecriture: %d pour un entier, %f pour un float (nombre a virgule), %s pour une chaine de carateres

In [52]:
bigmat_f = np.array(bigmat,dtype = 'float')
filename3 ="bigmat_f.txt"

np.savetxt(filename3, bigmat_f, fmt = "%f")
### bigmat_f.txt 9.0Mo

In [54]:
##on peut aussi sauver le tableau de nombres a virgule sous forme d'entiers
filename = "mat.txt"

np.savetxt(filename,bigmat_f, fmt = "%d")

# Sauvegarde et lecture avec numpy : format .npy, load et save

numpy dispose directement d'un format compressé, non lisible dans un editeur de texte, mais permettant d'etre transmis et lu facilement sur un autre systeme.

L' extension de ces fichiers compressé est ".npy"


In [55]:
### save

filename3 ="bigmat_f.npy"

np.save(filename3,bigmat_f)

### bigmat_f.npy 8.0Mo

In [61]:
### relecture avec load
bigmat_f = np.load(filename3)

print(bigmat_f)

[[0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]


!!! là encore, on ne spécifie pas le type de données en lecture, donc il y a de fortes chances que l'on ait à forcer le dtype du tableau

In [62]:
bigmat = np.array(bigmat_f,dtype = 'int')

print(bigmat)

[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]


# Concept d'Arborescence

![Image](./img/mac_tree.png)     ![Image](./img/win_tree.jpg)    ![Image](./img/linux-tree.png)

Racine :

    mac et linux : /
    
    windows : C:\
            


Chemin absolu :
    
    linux : /home/alex/projets/formation_python/
    
    windows : C:\\Users\\alex\\projets\\formation_python\\   (double\ car caractère d'échapement)
    
    mac : /Disque dur/Users/alex/projets/formation_python/

Chemin relatif :

    ./          là ou je suis actuellement
    ./../       je remonte d'un dossier par rapport à là ou je suis
    
    idem windows mais avec \
    
    
    exemple : np.loadtxt('./data/Coords.txt') 
    
    

___
## Le module os (Operating System)
___


### 1 - Prendre de l'information sur le sysème de fichiers

+ import os


+ os.uname() : infos système


+ os.getcwd() : pour obtenir le répertoire en cours


+ os.path.abspath(path) : retourne une version absolue du chemin path


+ os.path.relpath(path[, start]) : retourne une version relative du chemin path. Par défaut, par rapport au working dir, sinon : spécifier un argument start qui sera le répertoire de base


### 2 - Faire des actions sur le système de fichiers

+ os.chdir(foldername)  : va dans le répertoire spécifié


+ os.mkdir(’mydir’) : crée le répertoire mydir


+ os.rename(oldname, newname) : renomme oldname en newname


+ os.remove(filename) : efface le fichier filename


### 3 - Utilitaires

+ os.path.join(morceau1, morceau2) : colle deux morceaux de chemin ensemble  en utilisant les caractères adaptés au système


+ os.path.expanduser("~") : retourne le chemin vers le répertoire "Home" de l'utilisateur sur la machine


+ os.path.split(racine/nomfichier_ou_rep) : permet de séparer la dernière branche de la racine, résultat sous forme de tuple
    *ex : (filepath, filename) = os.path.split("/Users/admin/Desktop") 
    *filename: "Desktop"


+ os.path.splitext(nomfichier.extension) : sépare le nom de l'extension. Résultat sous forme de tuple


+ os.listdir(path) :  prend un nom de chemin et retourne une liste du contenu du répertoire.


+ os.path.isfile : pour séparer les fichiers des répertoires. (os.path.isdir existe aussi). isfile prend un nom de chemin et :
     *retourne 1 / True si le chemin représente un fichier
     *0 / False dans le cas contraire. 


+ os.walk(top, topdown=True) : à parir de top (repertoire racine), parcourt l'arborescence en descendant si topdown=True, en montant sinon, et renvoie un tuple : (dirpath, dirnames, filenames) qui contient tous les répertoires dirnames rencontrés avec les fichiers filenames qui s'y trouvent

>for dossier, sous_dossiers, fichiers in os.walk('/tmp/test'):

>        for fichier in fichiers:

>            print(os.path.join(dossier, fichier))

## Le module pathlib

In [5]:
from pathlib import Path

home = Path.home()
home


PosixPath('/home/samuel')

In [6]:
doc = home / 'Documents'
doc

PosixPath('/home/samuel/Documents')

In [10]:
for item in Path('/').iterdir():
    print(item)

/mnt
/dev
/boot
/usr
/lost+found
/root
/sys
/lib64
/etc
/vmlinuz.old
/bin
/srv
/media
/lib
/lib32
/cdrom
/proc
/opt
/run
/home
/swapfile
/var
/sbin
/vmlinuz
/initrd.img.old
/initrd.img
/tmp
/snap


In [22]:
file_path = Path('/home/samuel/Figure_1.png')

print(file_path.is_file())

print(file_path.stem)
print(file_path.suffix)
print(file_path.parent)
print(file_path.parents[0])
print(file_path.parents[1])
print(file_path.parents[2])



True
Figure_1
.png
/home/samuel
/home/samuel
/home
/


# Exercice 1 - Navigation

* Récuperez le chemin de votre répertoire "home".
* Créez une variable contenant le chemin vers votre bureau.
* A partir de cette deuxième variable, récuperez le chemin de votre "home"
* faites afficher le chemin vers vos documents
* faites afficher le chemin vers le répertoire parent de Documents

# Solution 1 :

# Exercice 2 - liste de répertoires

* Placez vous dans le répertoire Home
* faites afficher la liste de tous les répertoires
* puis : tous les répertoires qui ne commencent pas par "." (sous mac ou linux), 
* ou tous ceux qui commencent par une lettre de votre choix


# Solution 2 :

# Exercice 3 - Fichiers et extensions

Faites afficher la liste de tous les fichiers 
ayant pour extensions .doc ou .docx de votre répertoire documents

# Solution 3 :

# Exercice 4 - Walk

Sans changer le cwd, parcourez le répertoire Desktop (avec sous-répertoires) et faites afficher :

- la liste des sous-répertoires contenus sur le Desktop
- la liste de tous les fichiers (y compris ceux qui sont dans les sous-répertoires) qui contiennent au moins un "C" majuscule


# Solution 4 :

# Exercice 5 - Abspath

Faire lister le chemin absolu de tous les éléments dans le répertoire courant (voir ci-dessous les chemins Unix-Style)

# Solution 5 :

___
## Le module glob
___


### 0 - glob 
+ os.listdir : prend simplement un chemin de répertoire et retourne la liste de tous les fichiers et répertoires qu'il contient. On peut ensuite filtrer par compréhension de listes mais ce n'est pas toujours simple
    
    
    > list_RT_files=[el for el in os.listdir(os.getcwd()) if (os.path.isfile(el) & el.count("a"))]
    
    > print(list_RT_files)

+ Le module glob est beaucoup plus simple pour accéder à certains fichiers. Il prend un joker et retourne le chemin complet de tous les fichiers et répertoires qui lui correspondent. 

### 1 - glob et jokers
+ Joker : 
    * caractère * = toutes les chaines
    * s* = toutes celles qui commencent par "s"
    * *3 = toutes celles qui finissent par 3
    * [1-4] = 1, 2 3 ou 4
    * [0123456789] = [0-9]
    * [ert] = e, r , ou t
    * ? : un seul caractère
    
+ for name in glob.glob('dir/file?.txt'):

+ plot*[1-4]*.dat : plotfoo2er.dat, plot1.dat mais pas plotFOoFoo8.dat, ni ploploplo2.dat


+ Et chemin relatif, Unix-style : 
    * . = ici
    * .. = au dessus
    * caractère * : monrep, monfichier, monfichier.extension
    * \*.\* : monfichier.extension

# Exercice 6 - liste de mp3

Vous avez surement des mp3 sur votre ordinateur, ne mentez pas.

Si vous êtes ordonnés ils sont peut-être rangés dans des répertoires correspondant aux albums.

Faites afficher "proprement", à l'aide d'un seul glob la liste de tous vos mp3 contenus dans votre répertoire Music, sans passer par les chemins absolus

Faites ensuite afficher tous les morceaux :
+ contenant un i ou un y ou un ï
+ tous ceux contenant un chiffre de 1 à 9
+ tous ceux avec un chiffre puis un blanc pluis une parenthèse
etc...

# Solution 6 