<div class="alert alert-info"><strong>NOTE :</strong> En général, nous nous contentons de lire directement les fichiers csv ou d'utiliser pandas-datareader pour extraire les données du web. Considérez cette session comme un aperçu rapide de ce qui est possible de faire avec Pandas (nous ne travaillerons pas avec des fichiers SQL ou Excel dans ce cours)</div>



# Data Input et Output

Ce notebook est le code de référence pour obtenir des entrées et des sorties de données, Pandas peut lire divers types de fichiers en utilisant ses méthodes pd.read_. 

Examinons les types de données les plus courants :

In [0]:
import numpy as np
import pandas as pd

## Consultez les références ici ! 

**C'est la meilleure ressource en ligne pour savoir comment lire/écrire à partir d'une variété de sources de données!**

https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html


---



---



<table border="1" class="colwidths-given docutils">
<colgroup>
<col width="12%" />
<col width="40%" />
<col width="24%" />
<col width="24%" />
</colgroup>
<thead valign="bottom">
<tr class="row-odd"><th class="head">Format Type</th>
<th class="head">Data Description</th>
<th class="head">Reader</th>
<th class="head">Writer</th>
</tr>
</thead>
<tbody valign="top">
<tr class="row-even"><td>text</td>
<td><a class="reference external" href="https://en.wikipedia.org/wiki/Comma-separated_values">CSV</a></td>
<td><a class="reference internal" href="#io-read-csv-table"><span class="std std-ref">read_csv</span></a></td>
<td><a class="reference internal" href="#io-store-in-csv"><span class="std std-ref">to_csv</span></a></td>
</tr>
<tr class="row-odd"><td>text</td>
<td><a class="reference external" href="https://www.json.org/">JSON</a></td>
<td><a class="reference internal" href="#io-json-reader"><span class="std std-ref">read_json</span></a></td>
<td><a class="reference internal" href="#io-json-writer"><span class="std std-ref">to_json</span></a></td>
</tr>
<tr class="row-even"><td>text</td>
<td><a class="reference external" href="https://en.wikipedia.org/wiki/HTML">HTML</a></td>
<td><a class="reference internal" href="#io-read-html"><span class="std std-ref">read_html</span></a></td>
<td><a class="reference internal" href="#io-html"><span class="std std-ref">to_html</span></a></td>
</tr>
<tr class="row-odd"><td>text</td>
<td>Local clipboard</td>
<td><a class="reference internal" href="#io-clipboard"><span class="std std-ref">read_clipboard</span></a></td>
<td><a class="reference internal" href="#io-clipboard"><span class="std std-ref">to_clipboard</span></a></td>
</tr>
<tr class="row-even"><td>binary</td>
<td><a class="reference external" href="https://en.wikipedia.org/wiki/Microsoft_Excel">MS Excel</a></td>
<td><a class="reference internal" href="#io-excel-reader"><span class="std std-ref">read_excel</span></a></td>
<td><a class="reference internal" href="#io-excel-writer"><span class="std std-ref">to_excel</span></a></td>
</tr>
<tr class="row-odd"><td>binary</td>
<td><a class="reference external" href="http://www.opendocumentformat.org">OpenDocument</a></td>
<td><a class="reference internal" href="#io-ods"><span class="std std-ref">read_excel</span></a></td>
<td>&#160;</td>
</tr>
<tr class="row-even"><td>binary</td>
<td><a class="reference external" href="https://support.hdfgroup.org/HDF5/whatishdf5.html">HDF5 Format</a></td>
<td><a class="reference internal" href="#io-hdf5"><span class="std std-ref">read_hdf</span></a></td>
<td><a class="reference internal" href="#io-hdf5"><span class="std std-ref">to_hdf</span></a></td>
</tr>
<tr class="row-odd"><td>binary</td>
<td><a class="reference external" href="https://github.com/wesm/feather">Feather Format</a></td>
<td><a class="reference internal" href="#io-feather"><span class="std std-ref">read_feather</span></a></td>
<td><a class="reference internal" href="#io-feather"><span class="std std-ref">to_feather</span></a></td>
</tr>
<tr class="row-even"><td>binary</td>
<td><a class="reference external" href="https://parquet.apache.org/">Parquet Format</a></td>
<td><a class="reference internal" href="#io-parquet"><span class="std std-ref">read_parquet</span></a></td>
<td><a class="reference internal" href="#io-parquet"><span class="std std-ref">to_parquet</span></a></td>
</tr>
<tr class="row-odd"><td>binary</td>
<td><a class="reference external" href="https://msgpack.org/index.html">Msgpack</a></td>
<td><a class="reference internal" href="#io-msgpack"><span class="std std-ref">read_msgpack</span></a></td>
<td><a class="reference internal" href="#io-msgpack"><span class="std std-ref">to_msgpack</span></a></td>
</tr>
<tr class="row-even"><td>binary</td>
<td><a class="reference external" href="https://en.wikipedia.org/wiki/Stata">Stata</a></td>
<td><a class="reference internal" href="#io-stata-reader"><span class="std std-ref">read_stata</span></a></td>
<td><a class="reference internal" href="#io-stata-writer"><span class="std std-ref">to_stata</span></a></td>
</tr>
<tr class="row-odd"><td>binary</td>
<td><a class="reference external" href="https://en.wikipedia.org/wiki/SAS_(software)">SAS</a></td>
<td><a class="reference internal" href="#io-sas-reader"><span class="std std-ref">read_sas</span></a></td>
<td>&#160;</td>
</tr>
<tr class="row-even"><td>binary</td>
<td><a class="reference external" href="https://docs.python.org/3/library/pickle.html">Python Pickle Format</a></td>
<td><a class="reference internal" href="#io-pickle"><span class="std std-ref">read_pickle</span></a></td>
<td><a class="reference internal" href="#io-pickle"><span class="std std-ref">to_pickle</span></a></td>
</tr>
<tr class="row-odd"><td>SQL</td>
<td><a class="reference external" href="https://en.wikipedia.org/wiki/SQL">SQL</a></td>
<td><a class="reference internal" href="#io-sql"><span class="std std-ref">read_sql</span></a></td>
<td><a class="reference internal" href="#io-sql"><span class="std std-ref">to_sql</span></a></td>
</tr>
<tr class="row-even"><td>SQL</td>
<td><a class="reference external" href="https://en.wikipedia.org/wiki/BigQuery">Google Big Query</a></td>
<td><a class="reference internal" href="#io-bigquery"><span class="std std-ref">read_gbq</span></a></td>
<td><a class="reference internal" href="#io-bigquery"><span class="std std-ref">to_gbq</span></a></td>
</tr>
</tbody>
</table>



---



---



## CSV

### Avec Google Colab

Importer un fichier directement depuis le menu de gauche (Fichiers). Puis, appeler directement le fichier avec :
    
        df = pd.read_csv('un_fichier.csv')
        
ou clic droit sur le nom du fichier uploadé / copier le chemin d'accès et coller le dans la méthode read_csv('ici')
    
        df = pd.read_csv('/content/example.csv')
        
**Attention : Il faudra toujours uploader le fichier de nouveau lorsque votre notebook sur Google Colab se recycle.**

ou Connecter (Google) Drive à Google Colab, cliquez sur 'Drive' puis sélectionner le fichier csv, clic droit / copier chemin d'accès et le coller.

    
        df = pd.read_csv('coller le chemin d'accès du fichier CSV depuis le Drive ici...')
        

### Avec Distribution Anaconda ou Autres

Les fichiers de valeurs séparées par des virgules sont des fichiers texte qui utilisent des virgules comme délimiteurs de champs.
Vous devrez peut-être installer <tt>xlrd</tt> et <tt>openpyxl</tt>.<br>
Dans votre terminal/commande :

    conda install xlrd
    conda install openpyxl
Ensuite, redémarrez Jupyter Notebook ou Spyder.
(ou utilisez pip install si vous n'utilisez pas la distribution Anaconda)

### Comprendre le chemin (path) des fichiers

Vous avez deux options lorsque vous lisez un dossier avec Pandas :

1. Si votre fichier .py ou votre notebook .ipynb se trouve dans le **même** dossier que le fichier .csv que vous voulez lire, il vous suffit d'indiquer le nom du fichier sous forme de chaîne de caractères (string), par exemple :
    
        df = pd.read_csv('un_fichier.csv')
        
2. Indiquez le chemin d'accès complet au fichier si vous vous trouvez dans un autre répertoire. Le chemin d'accès doit être correct à 100% pour que cela fonctionne. Par exemple sur Windows (sur Mac/Linux, ce seront des slashs simples '/') :

        df = pd.read_csv("C:\\Users\\nom_d'utilisateur\\files\\un_fichier.csv")

#### Afficher le chemin d'accès du répertoire du fichier actuel avec pwd

In [0]:
pwd

'/content'

#### Lister les fichiers de votre répertoire actuel avec ls

In [9]:
ls

example.csv  [0m[01;34msample_data[0m/


### Saisie fichier CSV en entrée (Input)

In [11]:
df = pd.read_csv('example.csv')
df

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


### Sortie CSV (Output)

In [0]:
df.to_csv('output.csv',index=False)

## HTML

Pandas peut lire les balises des tableaux à partir du HTML. Cela ne fonctionne que si votre pare-feu ne bloque pas l'accès de Pandas à internet !

À moins que vous n'utilisiez Google Colab, vous devrez peut-être installer <tt>lxml</tt>, <tt>htmllib5</tt>, et <tt>BeatifulSoup4</tt>.<br>
Dans votre terminal/commande :

    conda install lxml
    conda install html5lib
    conda install beautifulsoup4

Ensuite, redémarrez Jupyter Notebook ou Spyder.
(ou utilisez pip install si vous n'utilisez pas la distribution Anaconda)

### Données Entrée HTML

La fonction read_html de Pandas permet de lire des tableaux sur une page web et de retourner une liste d'objets DataFrame :

In [0]:
tables = pd.read_html('http://www.fdic.gov/bank/individual/failed/banklist.html')

In [0]:
tables[0].head()

Unnamed: 0,Bank Name,City,ST,CERT,Acquiring Institution,Closing Date
0,The First State Bank,Barboursville,WV,14361,"MVB Bank, Inc.","April 3, 2020"
1,Ericson State Bank,Ericson,NE,18265,Farmers and Merchants Bank,"February 14, 2020"
2,City National Bank of New Jersey,Newark,NJ,21111,Industrial Bank,"November 1, 2019"
3,Resolute Bank,Maumee,OH,58317,Buckeye State Bank,"October 25, 2019"
4,Louisa Community Bank,Louisa,KY,58112,Kentucky Farmers Bank Corporation,"October 25, 2019"
