# Manipulation des fichiers avec Python
 

1. fichiers de type texte

2. fichiers CSV : Comma Separated Values



# 1. Fichiers de type texte 

Lorsque l'on fait : `fh = open('un_fichier')` on crée une instance `fh` (file-handler) : qui n'est pas un fichier mais un objet permettant d'y acceder. On appelle `fh` un  fileObject. 

Parmi les méthodes qui s'appliquent à `fh` il y a `read, write, open, close` (... et d'autres)


In [None]:
fh = open('my_file','r')  

# Cela provoque une erreur. Savez-vous dire pour quelle raison ? 

- `r` for reading – The file pointer is placed at the beginning of the file. This is the default mode.
- `r+` Opens a file for both reading and writing. The file pointer will be at the beginning of the file.
- `w` Opens a file for writing only. Overwrites the file if the file exists. If the file does not exist, creates a new file for writing.
- `w+` Opens a file for both writing and reading. Overwrites the existing file if the file exists. If the file does not exist, it creates a new file for reading and writing.
- `rb` Opens a file for reading only in binary format. The file pointer is placed at the beginning of the file.
- `rb+` Opens a file for both reading and writing in binary format.
- `wb+` Opens a file for both writing and reading in binary format. Overwrites the existing file if the file exists. If the file does not exist, it creates a new file for reading and writing.
- `a` Opens a file for appending. The file pointer is at the end of the file if the file exists. That is, the file is in the append mode. If the file does not exist, it creates a new file for writing.
- `ab` Opens a file for appending in binary format. The file pointer is at the end of the file if the file exists. That is, the file is in the append mode. If the file does not exist, it creates a new file for writing.
- `a+` Opens a file for both appending and reading. The file pointer is at the end of the file if the file exists. The file opens in the append mode. If the file does not exist, it creates a new file for reading and writing.
- `ab+` Opens a file for both appending and reading in binary format. The file pointer is at the end of the file if the file exists. The file opens in the append mode. If the file does not exist, it creates a new file for reading and writing.
- `x` open for exclusive creation, failing if the file already exists (Python 3)


(source : Eyehunts)

In [None]:
fh = open('my_file','a') # ouvre en mode append (addition) 
                         # et crée le fichier s'il n'existait pas déjà. 

fh = open('my_file','w') # ouvre en mode écriture 
                         # et crée le fichier s'il n'existait pas déjà. 
                         # et repart du début, doonc efface le fichier s'il 
                         # existait déjà. 

In [None]:
# 'x' crée le fichier (et renvoie une erreur s'il existait déjà 
# c'est plus sûr dans certains cas de tester si un fichier existe avant de 
# voouloir le créer. 

try : 
    fh = open('my_file','r')
except: 
    print("R : Error file does not exist ! ")
    
# ou bien :   

try :  
    fh = open('my_file','x')
except: 
    print("X : Error file already exists ! ")
    
# Executez cette cellulee deux fois et expliquez les résultats

In [None]:
fh = open('my_file', 'w')

fh.write("Hello !\n")

In [None]:
fh.write("Hello World!")

In [None]:
text = fh.read()
# erreur, expliquez pourquoi 


On peut aussi utiliser Jupyter Notebooko pour voir cee qu'il y a dans le fichier,

on devrait le trouver vide... 

Pourquoi ? 

In [None]:
# ceci aura pour effet d'écrire lee fichier de manière persistante dans le répertoire
fh.close()

In [None]:
fh.read()  # produit encore une erreur, pourquoi ? 


In [None]:
fh = open('my_file')

In [None]:
fh.read()

In [None]:
fh = open('my_file')
for line in fh.read():
    print(line)

In [None]:
fh = open('my_file')
for line in fh.readlines():
    print(line)

In [None]:
fh = open("my_file", "r")
myline = fh.readline()
while myline:
    print(myline)
    myline = fh.readline()
fh.close()   

In [None]:
import os 
os.remove('my_file')

# 2. CSV

Les fichiers CSV sont très utilisées car elles permettent un niveau très simple pour l'échange des données (quasiment pas de syntaxe), et permettent par exemple d'interfacer avec les feuilles de calcul (aka fichiers Excel®).

En général leur type (extension) est .csv , et ils structurent les données en lignes, chaque élément de donnée est séparé par une virgule (comma) `,`, il peuvent contenir une ligne de "header" : 


`Name, Firstname, City, Age`

`Berger, Alice, Marseille, 34`

`Vernet, Bertrand, Angers, 32`

`Jordes, Charles, Lyon, 29`

`Duchamps, Eve, Bordeaux, 30`


Les feuilles de clacul peuvent poser des problèmes :  

https://www.youtube.com/watch?v=zUp8pkoeMss

https://www.youtube.com/watch?v=yb2zkxHDfUE

mieux vaut utiliser Python ! 

In [None]:
# exemple

fh = open("my_file.csv", "w")
fh.write('Name, Firstname, City, Age\n')
fh.write('Berger, Alice, Marseille, 34\n')
fh.write('Vernet, Bertrand, Angers, 32\n')
fh.write('Jordes, Charles, Lyon, 29\n')
fh.write('Duchamps, Eve, Bordeaux, 30\n')
fh.close()

In [None]:
# il y a une bibliothèque pour ça: 
import csv

## On veut obtenir l'âge moyen des personnes du fichier


In [None]:
# csv.reader lit lese lignes du fichier dans des listes 
fh = open("my_file.csv")
spamreader = csv.reader(fh, delimiter=',')
for row in spamreader:
    print(row)

Pour obtenir lese âges :

In [None]:
# on utilise le quatrième élément dee chaque liste 
fh = open("my_file.csv")
spamreader = csv.reader(fh, delimiter=',')
for row in spamreader:
    print(row[3])

On n'a pas besoin de l'entête (header) :

In [None]:
# On utilise "next" avant d'itérer
fh = open("my_file.csv")
spamreader = csv.reader(fh, delimiter=',')
next(spamreader)
for row in spamreader:
    print(row[3])

on peut maintenant calculer la moyenne

In [None]:
# try it
count = 0
somme = 0 
fh = open("my_file.csv")
spamreader = csv.reader(fh, delimiter=',')
next(spamreader)
for row in spamreader:
    count = count + 1 
    somme = somme + int(row[3])

    
print(somme/count)

## Challenge : 

Let us use opendata.gouv : 
- https://www.data.gouv.fr/fr/
- Données relatives à la santé et à la Covid 19 (https://www.data.gouv.fr/fr/pages/donnees-sante/)
- Inventaire des données relatives à la Covid (https://www.data.gouv.fr/fr/pages/donnees-coronavirus/)
- Sites de prélèvement pour les tests COVID (https://www.data.gouv.fr/fr/datasets/sites-de-prelevements-pour-les-tests-covid/) 

Download the file : sites-prelevements-grand-public.csv (1.2Mo) 

How many sites are around Lille (Lille center = 50° 38' 14" Nord , 3° 03' 48" East), we will consider 20 km wide square to say a site is around Lille ? 

- 1 latitude minute (N-S) is approx 2 km

- 1 longitude minute (W-E) is approx 1,2 km


In [None]:
# calculate the min and max longitute and latitude around Lille coordinates, definging a 20 km x 20 km square

lille_long = 3 + 3/60 + 48/3600
lille_lat  = 50 + 38/60 + 14/3600

lille_max_long = 3 + 11 / 60 + 48 / 3600
lille_min_long = 2 +  55 / 60 + 48 / 3600

lille_max_lat = 50 + 48 / 60 + 14 / 3600
lille_min_lat = 50 + 28 / 60 + 14 / 3600


print(lille_min_long)
print(lille_long)
print(lille_max_long)

print(lille_min_lat)
print(lille_lat)
print(lille_max_lat)

In [None]:
# make a first run browsing the .csv file to get the latitudes and longitudes (almost same code as above) 
fh = open("sites-prelevements-grand-public.csv")
spamreader = csv.reader(fh, delimiter=',')
next(spamreader)
count = 0 
for row in spamreader:
    try: 
        lat = float(row[9])
    except: 
        next(spamreader)
        
    try:
        lon = float(row[8])
    except: 
        next(spamreader)
        
    if lat < lille_max_lat and lat  > float(lille_min_lat) and lon > lille_min_long and lon < lille_max_long:
        print(row[4],'long=',row[8],'lat =', row[9])
        count = count + 1 

print('there are ', count ,'locations available')

In [None]:
# select and count only the ones with the desired coordinates, print their address and coordinates.
# csv reader provides strings, we need to convert to float
# there are defects in the file... !