# Manipulation de fichiers


## open

Le mode est donné sous la forme d'une chaîne de caractères. Voici les principaux modes :

    'r' : ouverture en lecture (Read).

    'w' : ouverture en écriture (Write). Le contenu du fichier est écrasé. Si le fichier n'existe pas, il est créé.

    'a' : ouverture en écriture en mode ajout (Append). On écrit à la fin du fichier sans écraser l'ancien contenu du fichier. Si le fichier n'existe pas, il est créé.
    

In [None]:
f = open("toto.txt",'r') ### le fichier existe a l'avance, sinon error

## close

Lorsque l'on a fini de manipuler un fichier ouvert, il est normalement necessaire de le fermer, pour liberer les ressources liées à ce fichier

In [None]:
f.close()

## with

La "vraie" maniere de faire consiste a utiliser le mot-clé "with". Ceci evite d'avoir à fermer explicitement le fichier avec close

In [None]:

with open("toto.txt",'r') as f:
    print(f.closed) ## closed (et pas 'close') est un marqueur booleen indiquant si le fichier est ouvert ou fermé
print(f.closed) 


## read

In [None]:
### je veux voir le contenu de mon fichier
val = f.read() 
print(val)

tout le contenu du fichier est lu d'un coup

In [None]:
### la chaine de caratere est une en realité une liste de caratere
print(val[0])
print(val[1])
print(val[-1]) ### c'est le dernier e

In [None]:
### on peut tester la valeur de chaque caractere
for i,car in enumerate(val):
    if car == " " :
        break
    print(i, car)
print("fini!")

## readlines

In [None]:
### je veux voir le contenu de mon fichier ligne par ligne
print(f.readlines())

chaque ligne est stockée comme un element d'un liste python

In [None]:
### !Attention, une fois le readlines effectué, on est la fin du fichier! Pour revenir au debut on peut refaire un open
with open("toto.txt") as f:
    val = f.readlines()
    print(val[1]) ## affiche la deuxieme ligne STP 

In [None]:
### ou bien faire 
f.seek(0)



la segmentation du fichier par caractere n'est pas tres interessante pour un fichier texte 
(ca peut l'etre pour un fichier binaire)

En revanche la segmentation par mots (i.e. groupe de carateres separés par des espaces) est intéressante

In [None]:
with open("toto.txt") as f:
    for line in f.readlines():
        print (line.split(" "))

on a chaque mot segmente dans une liste de chaine de caractere

In [None]:
## pour eviter d'avoir le retour a la ligne '\n' on peut utiliser la commande strip() sur la ligne
with open("toto.txt") as f:
    for line in f.readlines():
        line = line.strip()
        print(line)
        if 'toto' in line.split(" "):
            break ### stop si on trouve 'toto' dans la ligne
            


In [None]:
### on peut aussi boucler sur la liste apres .split

list_mots_sans_te = []
with open("toto.txt") as f:
    for line in f.readlines():
        for word in line.strip().split(" "):
            
            if word.endswith("te"):                
                print ("found fic") ### stop si le mot commence par fic
                
            else:
                list_mots_sans_te.append(word)
print (list_mots_sans_te)

                

In [None]:
### Encore plus court (facultatif, si list comrehension a été vu...)
with open("toto.txt") as f :
    list_mots_sans_te = [word for line in f.readlines() for word in line.strip().split(" ") if not word.endswith("te")]
print(list_mots_sans_te)

### Exercice: write, write append

A) write  et "w"

    A1) Ouvrir un fichier en mode write, 

    A2) Ecrire dans ce fichier:
    
"Ceci est la premiere ligne ajoutee"

    A3) Fermer le fichier

    A4) Relire le contenu du fichier
    
B) with, write et "w"

    B1) Ouvrir le fichier en mode write avec with

    B2) Ecrire dans le fichier 
    
"Ceci est la deuxieme ligne ajoutee"

    B3) Relire le contenu du fichier

C) with, write et "a"

    C1) Ouvrir le fichier en mode append avec with
    
    C2) Ecrire dans le fichier
    
"Ceci est la deuxieme ligne ajoutee"

    C3) Relire le contenu du fichier
    

# Lecture de données

## "A l'ancienne"

In [None]:
with open('Coords.txt', 'r') as f:
    
    tab = []
    for line in f.readlines():
        
        val = line.strip().split('\t')
        
        val = list(map(int,val)) ### string to integer
        print (val)
        
        tab.append(val)
        
    data = np.array(tab)
    
    print (data.shape)
    

## csv

In [None]:
import csv

with open('Coords.txt', 'r') as f:
    reader = csv.reader(f)
    print (reader)
    for row in reader:
        print (row)



In [None]:
### par default, 
with open('Coords.txt', 'r') as f:
    reader = csv.reader(f,delimiter = '\t')
    print (reader)
    
    list_vals = []
    
    for row in reader:
        list_vals.append(list(map(int,row)))
    print(list_vals)
    
    data= np.array(list_vals)
    print(data)
    
    


### Exercice lecture string/bytes

Faire un exo sur ouvrir avec rb (Binary), difference avec r (encoding UTF8)






En 2.7, les chaînes sont par défaut des arrays d’octets, et il faut les décoder pour obtenir de l’unicode.
En 3, les chaînes sont par défaut de type ‘unicode’, et il faut les encoder pour obtenir de un array d’octets.



In [4]:
chaine = b"Ceci est une chaine de caractere"

print (chaine)

print(__version__)


b'Ceci est une chaine de caractere'


NameError: name '__version__' is not defined

## Sauvegarde et lecture avec numpy

### format texte


## loadtxt 

In [13]:
import numpy as np

data = np.loadtxt("Coords.txt") 
print (data)



[[ -12.   56.    4.]
 [   6.   50.   12.]
 [   8.   36.    2.]
 [  24.   24.  -18.]
 [ -12.   22.   28.]
 [ -12.   22.   26.]
 [ -32.   20.  -18.]
 [ -28.   16.   32.]
 [ -48.   14.    8.]
 [ -10.   10.   44.]
 [ -34.    8.   38.]
 [   4.    6.   50.]
 [   4.    6.   50.]
 [  10.    4.   74.]
 [  -2.    4.   44.]
 [  24.    4.  -10.]
 [  24.    4.  -16.]
 [  40.    2.   62.]
 [ -54.    2.   38.]
 [ -26.   -4.   70.]
 [  18.   -4.  -10.]
 [  58.   -4.  -14.]
 [  56.   -4.  -36.]
 [  58.   -6.  -24.]
 [ -14.  -10.   32.]
 [ -44.  -12.   60.]
 [  32.  -12.  -18.]
 [ -44.  -14.   34.]
 [  10.  -14.  -18.]
 [  44.  -16.  -28.]
 [  -6.  -24.  -14.]
 [  -6.  -24.  -16.]
 [ -44.  -26.   58.]
 [ -50.  -26.   58.]
 [  30.  -28.  -12.]
 [ -16.  -30.   30.]
 [ -60.  -30.   16.]
 [ -50.  -32.   56.]
 [ -36.  -34.   10.]
 [ -38.  -36.   52.]
 [  16.  -36.   30.]
 [  14.  -36.  -12.]
 [ -42.  -38.  -10.]
 [ -40.  -40.   42.]
 [ -40.  -40.   40.]
 [  52.  -40.   30.]
 [ -36.  -42.   50.]
 [  50.  -42.

### par default, delimiter = "any whitespace", c.a.d. un ou plusieurs espace et/ou tabulations

!!! on ne specifie pas le format avec loadmat. Il a y de fortes chances que l'on ait a le modifier avec:
np.array(data,dtype = 'int') par exemple

In [15]:
data_int = np.array( np.loadtxt("Coords.txt") ,dtype = 'int') ### attention quand meme au type 'int'; pour les grandes valeurs, il vaut mieux preferer int64
print(data_int)

[[ -12   56    4]
 [   6   50   12]
 [   8   36    2]
 [  24   24  -18]
 [ -12   22   28]
 [ -12   22   26]
 [ -32   20  -18]
 [ -28   16   32]
 [ -48   14    8]
 [ -10   10   44]
 [ -34    8   38]
 [   4    6   50]
 [   4    6   50]
 [  10    4   74]
 [  -2    4   44]
 [  24    4  -10]
 [  24    4  -16]
 [  40    2   62]
 [ -54    2   38]
 [ -26   -4   70]
 [  18   -4  -10]
 [  58   -4  -14]
 [  56   -4  -36]
 [  58   -6  -24]
 [ -14  -10   32]
 [ -44  -12   60]
 [  32  -12  -18]
 [ -44  -14   34]
 [  10  -14  -18]
 [  44  -16  -28]
 [  -6  -24  -14]
 [  -6  -24  -16]
 [ -44  -26   58]
 [ -50  -26   58]
 [  30  -28  -12]
 [ -16  -30   30]
 [ -60  -30   16]
 [ -50  -32   56]
 [ -36  -34   10]
 [ -38  -36   52]
 [  16  -36   30]
 [  14  -36  -12]
 [ -42  -38  -10]
 [ -40  -40   42]
 [ -40  -40   40]
 [  52  -40   30]
 [ -36  -42   50]
 [  50  -42   10]
 [  32  -44   44]
 [  52  -50   26]
 [ -56  -52   26]
 [ -52  -52    4]
 [ -30  -54   42]
 [ -14  -58   20]
 [ -14  -60   40]
 [ -16  -6

## savetxt

In [9]:
bigmat = np.zeros(shape = (1000,1000), dtype = "float64")

print(bigmat)

[[ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 ..., 
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]]



numpy.savetxt

!!!  Attention à l'ordre: fichier et ensuite ndarray

fmt est le format d'ecriture: %d pour un entier, %f pour un float (nombre a virgule), %s pour une chaine de carateres

In [11]:
bigmat_f = np.array(bigmat,dtype = 'float')

filename3 ="bigmat_f.txt"

np.savetxt(filename3,bigmat_f,fmt = "%f")

### bigmat_f.txt 9.0Mo

In [12]:

##on peut aussi sauver le tableau d'entier sous la forme de nombres a virgule
filename = "mat.txt"

np.savetxt(filename,bigmat_f, fmt = "%d")

## format .npy, load et save

numpy dispose directement d'un format compressé, non lisible dans un editeur de texte, mais permettant d'etre transmis et lu facilement sur un autre systeme.

L' extension de ces fichiers compressé est ".npy"


In [None]:
### save

filename3 ="bigmat_f.npy"

np.save(filename3,bigmat_f)

### bigmat_f.npy 8.0Mo

In [None]:
### relecture avec load
bigmat_f = np.load(filename3)

print(bigmat_f)

!!! là encore, on ne spécifie pas le type de données en lecture, donc il y a de fortes chances que l'on ait à forcer le dtype du tableau

In [None]:
bigmat = np.array(bigmat_f,dtype = 'int')

print(bigmat)

# Exercice 6.3
genere  10 fichiers avec du bruit + une yoyenne differente pour chaque fichier
par exe, file_0 -> moyenne = 0.0
    file_1 -> moyenne = 1.0
    etc.
    bruit comme vous voulez...
    

relire les data a partir des noms de fichiers puis moyenne sd (concat) -> n'importe quoi

relire les data a partir des noms de fichiers puis (blanchir) zscore = (- mean) / std


# Solution 6.3

In [8]:
import numpy as np

for i in range(10):
    
    ### genere le nom du fichier 
    #filename = "fichier"+str(i)+".npy"
    filename = "fichier{}.npy".format(i)
    
    ### genere les data offset a i + bruit
    data = np.random.rand(20) + i
    
    print(data)
    
    ## sauve les datas au format npy
    np.save(filename,data)
    

### load les datas
all_data = []
for i in range(10):

    data = np.load("fichier{}.npy".format(i))

    all_data.append(data.reshape(-1,1))
    
concat_data = np.concatenate(all_data,axis = 1)
print(concat_data.shape)

### 1ere etape, fait la moyenne sur les data directement
print(np.mean(concat_data,axis = 1))
print(np.mean(concat_data,axis = None))


### 2eme etape, fait la moyenne apres blanchiement (-mean / sd)

##moyenne
mean_data = np.mean(concat_data,axis = 0)
#print(mean_data)

##ecart-type
std_data = np.std(concat_data,axis = 0)
#print(std_data)

### z-score 
z_data = (concat_data - mean_data)/ std_data
print(np.mean(z_data,axis = 1))
print(np.mean(z_data,axis = None))


[ 0.83101354  0.44383791  0.88554193  0.76148955  0.05874098  0.94774817
  0.12140198  0.17139277  0.70260809  0.3841336   0.4379498   0.01722026
  0.50774074  0.21114554  0.1196867   0.2928624   0.50751007  0.22222773
  0.78851674  0.52463808]
[ 1.58124097  1.86898698  1.81545508  1.55605927  1.247258    1.89724169
  1.21264092  1.1432618   1.90384261  1.43511192  1.63218654  1.36876218
  1.81174769  1.59574796  1.49309999  1.97736225  1.1226936   1.59728102
  1.24405136  1.71356702]
[ 2.33130205  2.91325082  2.00244972  2.82532595  2.14297143  2.54345039
  2.48436023  2.91747313  2.48029914  2.36453085  2.01047764  2.53242669
  2.83761906  2.2530787   2.04833901  2.9758205   2.96438826  2.88592074
  2.53200339  2.7415967 ]
[ 3.33326315  3.42240146  3.35259139  3.15815495  3.18038471  3.82949729
  3.00629352  3.46415089  3.99982158  3.09727148  3.87341467  3.22671993
  3.30185432  3.33458287  3.6079847   3.07982949  3.45467523  3.77589172
  3.38441805  3.6169709 ]
[ 4.43034294  4.4507