___
# Manipulation de fichiers
___

# open

Le mode est donné sous la forme d'une chaîne de caractères. Voici les principaux modes :

    'r' : ouverture en lecture (Read).

    'w' : ouverture en écriture (Write). Le contenu du fichier est écrasé. Si le fichier n'existe pas, il est créé.

    'a' : ouverture en écriture en mode ajout (Append). On écrit à la fin du fichier sans écraser l'ancien contenu du fichier. Si le fichier n'existe pas, il est créé.
    

In [2]:
f = open("toto.txt",mode='w')
f.write('yep')

3

# close

Lorsque l'on a fini de manipuler un fichier ouvert, il est normalement necessaire de le fermer, pour liberer les ressources liées à ce fichier

In [3]:
f.close()

# with

La "vraie" maniere de faire consiste a utiliser le mot-clé "with". Ceci evite d'avoir à fermer explicitement le fichier avec close

In [4]:
with open("toto.txt",'r') as f:  # le fichier existe à l'avance sinon error
    print(f.closed) ## closed (et pas 'close') est un marqueur booleen indiquant si le fichier est ouvert ou fermé
print(f.closed)


False
True


# read

In [7]:
### je veux voir le contenu de mon fichier
with open("toto.txt",'r') as f:
    val = f.read() 
print('val : ', val)

val :  yep


tout le contenu du fichier est lu d'un coup

# readlines

In [11]:
# let write a multi line
txt = """yep
yop
yip
"""
with open("toto2.txt",'w') as f:
    f.write(txt)

In [12]:
### je veux voir le contenu de mon fichier ligne par ligne
f = open("toto2.txt",'r')
lines = f.readlines()
f.close()
print(lines)

['yep\n', 'yop\n', 'yip\n']


# Lecture de données

## "A l'ancienne"

In [13]:
import numpy as np
with open('./data/Coords.txt', 'r') as f:
    
    tab = []
    for line in f.readlines():
        
        val = line.strip().split('\t') # on découpe la ligne autours des \t sans les caractères en plus (\n)
        val = list(map(int,val)) ### string to integer
        
        tab.append(val)
        
    data = np.array(tab)
    
    print (data.shape)
    print(data)
    

(20, 3)
[[-12  56   4]
 [  6  50  12]
 [  8  36   2]
 [ 24  24 -18]
 [-12  22  28]
 [-12  22  26]
 [-32  20 -18]
 [-28  16  32]
 [-48  14   8]
 [-10  10  44]
 [-34   8  38]
 [  4   6  50]
 [  4   6  50]
 [ 10   4  74]
 [ -2   4  44]
 [ 24   4 -10]
 [ 24   4 -16]
 [ 40   2  62]
 [-54   2  38]
 [-26  -4  70]]


# csv

In [14]:
import csv

with open('./data/Coords.txt', 'r') as f:
    
    reader = csv.reader(f)
    
    for row in reader:
        print (row)


['-12\t56\t4']
['6\t50\t12']
['8\t36\t2']
['24\t24\t-18']
['-12\t22\t28']
['-12\t22\t26']
['-32\t20\t-18']
['-28\t16\t32']
['-48\t14\t8']
['-10\t10\t44']
['-34\t8\t38']
['4\t6\t50']
['4\t6\t50']
['10\t4\t74']
['-2\t4\t44']
['24\t4\t-10']
['24\t4\t-16']
['40\t2\t62']
['-54\t2\t38']
['-26\t-4\t70']


In [15]:
### par default, 
with open('./data/Coords.txt', 'r') as f:
   
    reader = csv.reader(f,delimiter = '\t')
    list_vals = []
    
    for row in reader:
        list_vals.append(list(map(int,row)))
    
    print(list_vals)
    
    data= np.array(list_vals)
    print(data)
    
    


[[-12, 56, 4], [6, 50, 12], [8, 36, 2], [24, 24, -18], [-12, 22, 28], [-12, 22, 26], [-32, 20, -18], [-28, 16, 32], [-48, 14, 8], [-10, 10, 44], [-34, 8, 38], [4, 6, 50], [4, 6, 50], [10, 4, 74], [-2, 4, 44], [24, 4, -10], [24, 4, -16], [40, 2, 62], [-54, 2, 38], [-26, -4, 70]]
[[-12  56   4]
 [  6  50  12]
 [  8  36   2]
 [ 24  24 -18]
 [-12  22  28]
 [-12  22  26]
 [-32  20 -18]
 [-28  16  32]
 [-48  14   8]
 [-10  10  44]
 [-34   8  38]
 [  4   6  50]
 [  4   6  50]
 [ 10   4  74]
 [ -2   4  44]
 [ 24   4 -10]
 [ 24   4 -16]
 [ 40   2  62]
 [-54   2  38]
 [-26  -4  70]]


# Lecture string/bytes et importance de l'encoding (UTF-8)


In [18]:
chaine1 = b"Ceci est une chaine d'octets"

print(chaine1)
print(type(chaine1))
print(chaine1[-1])

chaine2 = "Ceci est une chaine de caractères particuliers 你好"

print(chaine2)
print(type(chaine2))
print(chaine2[-1])


b"Ceci est une chaine d'octets"
<class 'bytes'>
115
Ceci est une chaine de caractères particuliers 你好
<class 'str'>
好


In [21]:
# lets put this 2 object in the same file
with open("chaine.txt",'wb') as f:
    f.write(chaine1)

with open("chaine.txt",'a') as f:
    f.write('\n')
    f.write(chaine2)

In [25]:
with open('chaine.txt', mode= 'r', encoding='utf8') as f:
    txt = f.read()
print(txt, type(txt), len(txt))

Ceci est une chaine d'octets
Ceci est une chaine de caractères particuliers 你好 <class 'str'> 78


In [26]:
with open('chaine.txt', mode='rb') as f:
    b = f.read()
print(b, type(b), len(b))

b"Ceci est une chaine d'octets\nCeci est une chaine de caract\xc3\xa8res particuliers \xe4\xbd\xa0\xe5\xa5\xbd" <class 'bytes'> 83


In [27]:
txt2 = b.decode('utf8')
print(txt2, type(txt2))

Ceci est une chaine d'octets
Ceci est une chaine de caractères particuliers 你好 <class 'str'>


# Sauvegarde et lecture avec numpy : format texte


## loadtxt 

In [28]:
import numpy as np

data = np.loadtxt('./data/Coords.txt') 
print (data)


[[-12.  56.   4.]
 [  6.  50.  12.]
 [  8.  36.   2.]
 [ 24.  24. -18.]
 [-12.  22.  28.]
 [-12.  22.  26.]
 [-32.  20. -18.]
 [-28.  16.  32.]
 [-48.  14.   8.]
 [-10.  10.  44.]
 [-34.   8.  38.]
 [  4.   6.  50.]
 [  4.   6.  50.]
 [ 10.   4.  74.]
 [ -2.   4.  44.]
 [ 24.   4. -10.]
 [ 24.   4. -16.]
 [ 40.   2.  62.]
 [-54.   2.  38.]
 [-26.  -4.  70.]]


### par default, delimiter = "any whitespace", c.a.d. un ou plusieurs espace et/ou tabulations

!!! on ne specifie pas le format avec loadtxt. Il a y de fortes chances que l'on ait a le modifier avec:
np.array(data,dtype = 'int') par exemple

In [29]:
data_int = np.array( np.loadtxt('./data/Coords.txt') ,dtype = 'int') ### attention quand meme au type 'int'; pour les grandes valeurs, il vaut mieux preferer int64
print(data_int)

[[-12  56   4]
 [  6  50  12]
 [  8  36   2]
 [ 24  24 -18]
 [-12  22  28]
 [-12  22  26]
 [-32  20 -18]
 [-28  16  32]
 [-48  14   8]
 [-10  10  44]
 [-34   8  38]
 [  4   6  50]
 [  4   6  50]
 [ 10   4  74]
 [ -2   4  44]
 [ 24   4 -10]
 [ 24   4 -16]
 [ 40   2  62]
 [-54   2  38]
 [-26  -4  70]]


## savetxt

In [41]:
bigmat = np.zeros(shape = (1000,1000), dtype = "float32")
print(bigmat)

[[0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]


In [42]:
np.savetxt("bigmat_f.txt", bigmat_f, fmt = "%f")

# Sauvegarde et lecture avec numpy : format .npy, load et save

In [43]:
np.save("bigmat_f.npy", bigmat_f)

# Concept d'Arborescence

![Image](./img/mac_tree.png)     ![Image](./img/win_tree.jpg)    ![Image](./img/linux-tree.png)

Racine :

    mac et linux : /
    
    windows : C:\
            


Chemin absolu :
    
    linux : /home/alex/projets/formation_python/
    
    windows : C:\\Users\\alex\\projets\\formation_python\\   (double\ car caractère d'échapement)
    
    mac : /Disque dur/Users/alex/projets/formation_python/

Chemin relatif :

    ./          là ou je suis actuellement
    ../       je remonte d'un dossier par rapport à là ou je suis
    
    idem windows mais avec \
    
    
    exemple : np.loadtxt('./data/Coords.txt') 
    
    

___
## Le module os (Operating System)
___


### 1 - Prendre de l'information sur le sysème de fichiers

+ import os


+ os.uname() : infos système


+ os.getcwd() : pour obtenir le répertoire en cours


+ os.path.abspath(path) : retourne une version absolue du chemin path


+ os.path.relpath(path[, start]) : retourne une version relative du chemin path. Par défaut, par rapport au working dir, sinon : spécifier un argument start qui sera le répertoire de base


### 2 - Faire des actions sur le système de fichiers

+ os.chdir(foldername)  : va dans le répertoire spécifié


+ os.mkdir(’mydir’) : crée le répertoire mydir


+ os.rename(oldname, newname) : renomme oldname en newname


+ os.remove(filename) : efface le fichier filename


### 3 - Utilitaires

+ os.path.join(morceau1, morceau2) : colle deux morceaux de chemin ensemble  en utilisant les caractères adaptés au système


+ os.path.expanduser("~") : retourne le chemin vers le répertoire "Home" de l'utilisateur sur la machine


+ os.path.split(racine/nomfichier_ou_rep) : permet de séparer la dernière branche de la racine, résultat sous forme de tuple
    *ex : (filepath, filename) = os.path.split("/Users/admin/Desktop") 
    *filename: "Desktop"


+ os.path.splitext(nomfichier.extension) : sépare le nom de l'extension. Résultat sous forme de tuple


+ os.listdir(path) :  prend un nom de chemin et retourne une liste du contenu du répertoire.


+ os.path.isfile : pour séparer les fichiers des répertoires. (os.path.isdir existe aussi). isfile prend un nom de chemin et :
     *retourne 1 / True si le chemin représente un fichier
     *0 / False dans le cas contraire. 


+ os.walk(top, topdown=True) : à parir de top (repertoire racine), parcourt l'arborescence en descendant si topdown=True, en montant sinon, et renvoie un tuple : (dirpath, dirnames, filenames) qui contient tous les répertoires dirnames rencontrés avec les fichiers filenames qui s'y trouvent

>for dossier, sous_dossiers, fichiers in os.walk('/tmp/test'):

>        for fichier in fichiers:

>            print(os.path.join(dossier, fichier))

In [26]:
import os
os.listdir('./')

['file_manipulation.ipynb',
 'data',
 'mafigure.svg',
 'loop_index_slice.ipynb',
 'xarray.ipynb',
 'matplotlib_base.ipynb',
 'sklearn.ipynb',
 'img',
 'numpy_indexing.ipynb',
 'mat.txt',
 'example.nc',
 'numpy_advanced.ipynb',
 'Base_language.ipynb',
 'numpy_base.ipynb',
 'scipy_overview.ipynb',
 'toto.txt',
 '.ipynb_checkpoints',
 'bigmat_f.txt',
 'bigmat_f.npy',
 'jupyter_intro.ipynb',
 'pandas_base.ipynb',
 'alex.txt',
 'chaine.txt']

## Le module pathlib

In [44]:
from pathlib import Path

home = Path.home()
home


PosixPath('/home/samuel')

In [45]:
ici = Path('.').absolute()
ici

PosixPath('/home/samuel/Documents/gdr_neuralnet_school_2021_day1_python/notebooks')

In [46]:
doc = home / 'Documents'
doc

PosixPath('/home/samuel/Documents')

In [47]:
for item in Path('/').iterdir():
    print(item)

/mnt
/dev
/boot
/usr
/lost+found
/root
/sys
/lib64
/etc
/vmlinuz.old
/bin
/srv
/media
/lib
/lib32
/cdrom
/proc
/opt
/run
/home
/swapfile
/var
/sbin
/vmlinuz
/initrd.img.old
/initrd.img
/tmp
/snap


In [48]:
file_path = Path('/home/samuel/Figure_1.png')

print(file_path.is_file())

print(file_path.stem)
print(file_path.suffix)
print(file_path.parent)
print(file_path.parents[0])
print(file_path.parents[1])
print(file_path.parents[2])



True
Figure_1
.png
/home/samuel
/home/samuel
/home
/


In [50]:
ici = Path('.').absolute()

for file in ici.glob('n*.ipynb'):
    print(file)

/home/samuel/Documents/gdr_neuralnet_school_2021_day1_python/notebooks/numpy_base.ipynb
/home/samuel/Documents/gdr_neuralnet_school_2021_day1_python/notebooks/numpy_indexing.ipynb
/home/samuel/Documents/gdr_neuralnet_school_2021_day1_python/notebooks/numpy_advanced.ipynb
