# Introduction à Python - Christophe Bourgoin - EMLV 2017-18 


Ce quatrième notebook traitera des fichiers et notamment de comment lire et écrire dans un fichier.

Il est indispensable pour un data analyst/scientist de manipuler des fichiers de données et donc de savoir lire les données à partir d'un fichier.
Les principaux types de fichiers que vous aurez à manipuler sont:
    - les fichiers .txt
    - les fichiers .csv
    - les fichiers .json

# Répertoire de travail

Il est tout d'abord important de savoir dans quel répertoire de travail vous vous trouvez sur votre ordinateur.

Le module `os` est très précieux pour cela.

In [83]:
import os
os.getcwd() # CWD = « Current Working Directory » / Répertoire de travail courant 

'C:\\Users\\christophe\\Desktop\\EMLV\\Notebooks'

Si vous souhaitez modifier celui-ci, vous pouvez utiliser la fonction `chdir` du module `os` :

In [87]:
os.chdir("C:/Users/christophe/Desktop/EMLV/Notebooks")

Attention pour cette instruction fonctionne le répertoire doit déjà exister ! 

## Chemins relatifs et absolus



Pour décrire l'arborescence d'un système, on a deux possibilités :
    - les chemins absolus ;
    - les chemins relatifs.

### Le chemin absolu

Quand on décrit une cible (un fichier ou un répertoire) sous la forme d'un chemin absolu, on décrit la suite des répertoires menant au fichier. Sous Windows, on partira du nom de volume (C:\,D:\…). Sous les systèmes Unix, ce sera plus vraisemblablement depuis /.

Par exemple, sous Windows, si on a un fichier nommé `fic.txt`, contenu dans un dossier `test`, lui-même présent sur le disque `C:`, le chemin absolu menant à notre fichier sera `C:\test\fic.txt`. 

Un chemin absolu permet d'accéder à un endroit dans le disque quel que soit le répertoire de travail courant.

### Le chemin relatif

Quand on décrit la position d'un fichier grâce à un chemin relatif, cela veut dire que l'on tient compte du dossier dans lequel on se trouve actuellement. Ainsi, si on se trouve dans le dossier `C:\test` et que l'on souhaite accéder au fichier `fic.txt` contenu dans ce même dossier, le chemin relatif menant à ce fichier sera tout simplement `fic.txt`.

Maintenant, si on se trouve dans `C:`, notre chemin relatif sera `test\fic.txt`.

Le chemin relatif décrit la succession de répertoires à parcourir en prenant comme point d'origine non pas la racine, ou le périphérique sur lequel est stockée la cible, mais le répertoire dans lequel on se trouve

Personnellement j'ai tendance à préférer utiliser le chemin absolu. Toutefois, cela impose qu'on sache précisément ou se trouve les fichiers dont on a besoin.
Lorsqu'on travaille sur une machine dont on n'est pas administrateur cela peut être délicat de savoir ou les fichiers se trouvent précisément.

# Les Fichiers

Nous allons voir comment :
    - ouvrir et fermer un fichier
    - écrire dedans pour sauvegarder des données si besoin est.

Nous nous concentrons pour débuter sur les fichiers texte .txt

## Ouverture et Fermeture d'un Fichier .txt

La fonction prédéfinie `open` qui prend en argument le chemin vers votre fichier et le mode d'ouverture.

Le mode est donné sous la forme d'une chaîne de caractères. Voici les principaux modes :

    'r': ouverture en lecture (Read).

    'w': ouverture en écriture (Write). Le contenu du fichier est écrasé. Si le fichier n'existe pas, il est créé.

    'a': ouverture en écriture en mode ajout (Append). On écrit à la fin du fichier sans écraser l'ancien contenu du fichier. Si le fichier n'existe pas, il est créé. 


Lorsqu'on souhaite lire un fichier nous utilisons donc la fonciton `open` le mode `r` comme suit :

In [57]:
mon_fichier = open("fichier.txt", "r")
mon_fichier

<_io.TextIOWrapper name='fichier.txt' mode='r' encoding='cp1252'>

Une fois notre fichier ouvert, nous pouvons lire celui-ci au moyen de la méthode `read()` qui lira tout le contenu de votre fichier.

In [39]:
contenu = mon_fichier.read()
print(contenu)

Cet exemple est vraiment spectaculaire !
Encore plus si on rajoute une seconde ligne ...


La méthode `read()` renvoie tout le contenu du fichier sous le type d'une chaîne de caractères.

In [24]:
type(contenu)

str

En pratique, il est préférable de vérifier sa taille et/ou son nombre de lignes avant de l'ouvrir sous peine de venir saturer votre memoire vive si le fichier est trop gros.

Si votre fichier n'est pas trop gros vous pouvez ensuite le parcourir par ligne grâce à la méthode `splitlines()`.

In [32]:
contenu.splitlines()

['Cet exemple est vraiment spectaculaire !',
 'Encore plus si on rajoute une seconde ligne ...']

Si vous travaillez sur des mots plutot que des lignes, la méthode `split()` peut se réveler utile.

In [33]:
contenu.split()

['Cet',
 'exemple',
 'est',
 'vraiment',
 'spectaculaire',
 '!',
 'Encore',
 'plus',
 'si',
 'on',
 'rajoute',
 'une',
 'seconde',
 'ligne',
 '...']

Si votre fichier est plus gros, il peut être souhaitable de l'ouvrir ligne par ligne. La méthode `readlines()` permet de faire cela.

In [41]:
for line in mon_fichier.readlines():
    print(line)

Cet exemple est vraiment spectaculaire !

Encore plus si on rajoute une seconde ligne ...


Pour fermer le fichier, on utilise la méthode `close()`.

In [58]:
mon_fichier.close()

## Ecriture dans un fichier texte

Pour écrire dans un fichier, il faut tout d'abord ouvrir le fichier soit en mode `w` soit en mode `a`. 

Le premier écrase le contenu éventuel du fichier, alors que le second ajoute ce que l'on écrit à la fin du fichier. 

Dans tous les cas, ces deux modes créent le fichier s'il n'existe pas.

In [64]:
mon_fichier = open("fichier.txt", "a")  
mon_fichier.write("\n C'est beau la technologie non ?") # le '\n' vous permet d'ecrire a la ligne
mon_fichier.close()

In [63]:
mon_fichier = open("fichier.txt", "w") 
mon_fichier.write("Dommage vous venez d'écraser tout le contenu spectaculaire de votre fichier !!! ")
mon_fichier.close()

Pour éviter toute erreur qui pourrait subvenir sur notre fichier après avoir oublié de le fermer il est parfois conseillé de rédiger vos instructions d'ouverture / ecriture avec le mot clé `with` sous la syntaxe suivante : 

In [68]:
with open('fichier.txt', 'r') as mon_fichier:
    texte = mon_fichier.read()
    print(texte)

Cet exemple est vraiment spectaculaire !
Encore plus si on rajoute une seconde ligne ...
 C'est beau la technologie non ?


In [69]:
mon_fichier.closed #une fois sortie de l'instruction débutée par `with`, le fichier se ferme obligatoirement ! 

True

## Les fichiers .csv ou . json

Pour des fichiers plus complexes, comme les fichiers .csv ou .json, bien que la librairie `open` propose les outils nécessaire,  je vous conseille de les manipuler grâce à la librairie Pandas.

https://pandas.pydata.org/



Des tutoriaux sont notamment disponibles : http://pandas.pydata.org/pandas-docs/stable/tutorials.html

Une excellente autre source d'information autour de Pandas et de ses outils pour l'analyse de données, je vous conseille le livre suivant: **Python for Data Analysis**   
    http://shop.oreilly.com/product/0636920023784.do

In [71]:
import pandas as pd

In [88]:
os.listdir() # listdir() permet de lister les fichiers dans votre répertoire courant.

['Fichier.txt',
 'Introduction à Python  - Basics - EMLV - 17-18 - (171206).ipynb',
 'Introduction à Python - Boucles & Structures conditionnelles - EMLV - 17-18 - (171206).ipynb',
 'Introduction à Python - Data Structures - EMLV - 17-18 - (171206).ipynb',
 'titanic_train.csv',
 'uprofiles.json',
 'uprofiles_full.json']

### Fichiers csv
Pandas propose de nombreuses méthodes pour ouvrir une large variété de fichiers.
Pour les fichiers `csv` par exemple il existe la méthode `read_csv`.

In [77]:
data = pd.read_csv('titanic_train.csv') 
type(data)

pandas.core.frame.DataFrame

Un intérêt significatif de Pandas est qu'elle permet de créer des dataframes (une matrice de données à deux dimensions).

In [76]:
data.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [75]:
data.tail(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [80]:
data.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


Pour écrire dans un fichier `csv`, il est pratique de passer par un dataframe et de convertir celui-la dans un fichier `csv`.

In [102]:
data.to_csv('new_csvfile.csv')

In [103]:
os.listdir()

['Fichier.txt',
 'Introduction à Python  - Basics - EMLV - 17-18 - (171206).ipynb',
 'Introduction à Python - Boucles & Structures conditionnelles - EMLV - 17-18 - (171206).ipynb',
 'Introduction à Python - Data Structures - EMLV - 17-18 - (171206).ipynb',
 'new_csvfile.csv',
 'new_csvfiles.csv',
 'new_jsonfile.json',
 'titanic_train.csv',
 'twitter.json',
 'uprofiles.json',
 'uprofiles_full.json']

### Fichiers json

Ces fichiers sont très fréquents quand vous travaillez sur des données du web. Les API renvoient souvent des données au format json.

In [97]:
data2= pd.read_json('twitter.json')
data2.head(1)

Unnamed: 0,created_at,entities,id,id_str,source,text,truncated,user
0,2017-06-22 21:00:00,"{'hashtags': [{'text': 'Angular', 'indices': [...",877994604561387500,877994604561387520,"<a href=""http://bufferapp.com"" rel=""nofollow"">...","Creating a Grocery List Manager Using Angular,...",False,"{'id': 772682964, 'id_str': '772682964', 'name..."


De la même manière, il est possible de convertir un dataframe pandas en fichier `json` très aisément comme suite :

In [100]:
data2.to_json('new_jsonfile.json')

In [101]:
os.listdir()

['Fichier.txt',
 'Introduction à Python  - Basics - EMLV - 17-18 - (171206).ipynb',
 'Introduction à Python - Boucles & Structures conditionnelles - EMLV - 17-18 - (171206).ipynb',
 'Introduction à Python - Data Structures - EMLV - 17-18 - (171206).ipynb',
 'new_csvfiles.csv',
 'new_jsonfile.json',
 'titanic_train.csv',
 'twitter.json',
 'uprofiles.json',
 'uprofiles_full.json']