# Récupérer des données

Pandas offre la possibilité d'importer des données de nombreuses origines :

* CSV
* Excel
* tables extraite de pages web
* base de donnée SQL
* format spécifique de fichier ou d'application (HDF, JSON, Parquet...)

Les deux derniers points ne sont pas présentés ici ainsi que d'autres qu'on retrouvera dans la [liste de E/S](https://pandas.pydata.org/pandas-docs/stable/api.html#input-output).

Il existe aussi des bibliothèques tierces qui permettent de récupérer des données au format de Pandas.

En pratique il est rare qu'il faille faire un travail important pour intégrer des données dans un tableau de Pandas.

## CSV

Il s'agit d'un format simple que l'humain peut lire. Il peut être généré par un logiciel de bureautique ou des programmes
spécialisés. Certains paramêtres pouvant varier d'un fichier à un autre, Pandas offre la possibilité de les préciser en 
argument.

Regardons un fichier CSV :

In [1]:
!cat data/data1.csv  # a unix command (starts with !)

product; price; amount; date_in
  'pen';   0.2;  10000; 2016-03-23
 'ball';   2.1;   2300; 2016-05-12
'board';  1.75;  10000; 2016-05-03


Pour intégrer ce fichier dans un tableau nous allons spécifier les paramètre nécessaires :

* ici le séparateur entre les champs est `;` alors que la valeur par défaut est `,` aussi on indique `sep=';'`
* certaines lignes commencent pas des espaces qu'il faut retirer, donc `skipinitialspace=True`
* les quotes autour des mots doivent être retirées, on lui indique qu'il s'agit de simples quotes 
* on précise qu'il y a un colonne de date afin que Pandas les convertisse en date plutôt que de les lire comme des
  chaînes de caractères, `parse_dates=[3]`

La documentation de [read_csv](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html) liste tous
les paramètres.

In [2]:
import pandas as pd

data = pd.read_csv("data/data1.csv", sep=';', skipinitialspace=True, quotechar="'",
                   parse_dates=[3])
data

Unnamed: 0,product,price,amount,date_in
0,pen,0.2,10000,2016-03-23
1,ball,2.1,2300,2016-05-12
2,board,1.75,10000,2016-05-03


In [3]:
type(data['date_in'].values[1])

numpy.datetime64

## Excel

Le format d'Excel, `xls` ou `xlsx`, est lu par Pandas. Voici la liste des musées francais stockée sur le site
des données ouvertes de l'État
[data.gouv.fr](https://www.data.gouv.fr).

In [4]:
url = "https://www.data.gouv.fr/s/resources/liste-et-localisation-des-musees-de-france/20160404-110647/Liste_musees_de_France.xls"
data = pd.read_excel(url)
data

Unnamed: 0,NOMREG,NOMDEP,DATEAPPELLATION,FERME,ANNREOUV,ANNEXE,NOM DU MUSEE,ADR,CP,VILLE,SITWEB,FERMETURE ANNUELLE,PERIODE OUVERTURE,JOURS NOCTURNES
0,ALSACE,BAS-RHIN,01/02/2003,NON,,,Musée de la Folie Marco,"30, Rue du Dr Sultzer",67140,BARR,www.barr.fr,Novembre à avril,Ouvert de mai à septembre du mercredi au lundi...,
1,ALSACE,BAS-RHIN,01/02/2003,NON,,,Musée de la Poterie,"2, rue de Kuhlendorf",67660,BETSCHDORF,www.betschdorf.fr/tourisme/visiter_betschdrof/...,Novembre à mi-avril,Ouvert du mardi au samedi de 10h à 12h et de 1...,
2,ALSACE,BAS-RHIN,01/02/2003,OUI,29 juin 2013,,Musée de Bouxwiller et du Pays de Hanau,"2, Place du Château\nHalle aux Blés",67330,BOUXWILLER,www.musee-pays-hanau.webmuseo.com,,Fermé. Ouvert uniquement sur réservation pour ...,
3,ALSACE,BAS-RHIN,01/02/2003,NON,,,Musée Alsacien,"1, place Joseph Thierry",67500,HAGUENAU,www.ville-haguenau.fr/pages/culture/musee.htm,"1er janvier, dimanche de Pâques, 1er mai, 1er ...",Ouvert du lundi au vendredi de 9h à 12h et de ...,
4,ALSACE,BAS-RHIN,01/02/2003,NON,,,Musée Historique,"9, Rue du Maréchal Foch\nB.P. 40261",67504,HAGUENAU Cedex,www.ville-haguenau.fr/pages/culture/musee.htm ...,"1er janvier, dimanche de Pâques, 1er mai, 1er ...","Ouvert lundi de 14h à 18h, mercredi au vendred...",
5,ALSACE,BAS-RHIN,01/02/2003,NON,,,Musée de la Chartreuse,"4, Cour des Chartreux",67120,MOLSHEIM,www.chartreuse-molsheim.info,,Ouvert du 2 mai au 15 juin de 14h à 17h et du ...,
6,ALSACE,BAS-RHIN,01/02/2003,NON,,,Maison de l'Archéologie des Vosges du Nord,"44, Avenue Foch",67110,NIEDERBRONN-LES-BAINS,www.musee-niederbronn.fr,,Ouvert du 1er mars au 31 octobre dimanche et l...,
7,ALSACE,BAS-RHIN,15/12/2002,NON,,,Musée de l'Image Populaire de Pfaffenhoffen,"24, rue du Docteur Albert Schweitzer",67350,PFAFFENHOFFEN,www.pfaffenhoffen.org ou http://www.musee-imag...,4 semaines de fermeture annuelle après le 8 ja...,Ouvert du mercredi au dimanche du 2 mai au 30 ...,
8,ALSACE,BAS-RHIN,01/02/2003,NON,,,Musée du Fer,"9, rue Jeanne d'Arc",67110,REICHSHOFFEN,musee-reischshoffen.webmuseo.com ou www.lacast...,,Ouvert du mercredi au dimanche de 14h à 18h de...,
9,ALSACE,BAS-RHIN,01/02/2003,NON,,,Musée du Château des Rohan,Château des Rohans\nPlace du Général de Gaulle,67700,SAVERNE,http://www.louise weiss.org,"1er janvier, vendredi saint, 1er mai, 1er nove...",Ouvert du 2 janvier au 15 juin et du 16 septem...,


## read_html

Avec de la chance (et parfois à l'aide bibliothèque [BeautifullSoup](https://www.crummy.com/software/BeautifulSoup/)),
Pandas peut lire un tableau dans une page web.
morceaux pour pouvoir le lire.

Voici un exemple à partir d'une page du [FDIC](https://www.fdic.gov/) (il faut descendre la page web pour voir le tableau).

In [5]:
import IPython
url = 'http://www.fdic.gov/bank/individual/failed/banklist.html'
iframe = '<iframe src=' + url + ' width=700 height=350></iframe>'
IPython.display.HTML(iframe)

In [6]:
dfs = pd.read_html(url)    # returns a list of dataframes, one for each table in the web page

In [7]:
display(dfs[0].head(), dfs[0].tail())

Unnamed: 0,Bank Name,City,ST,CERT,Acquiring Institution,Closing Date,Updated Date
0,Washington Federal Bank for Savings,Chicago,IL,30570,Royal Savings Bank,"December 15, 2017","February 21, 2018"
1,The Farmers and Merchants State Bank of Argonia,Argonia,KS,17719,Conway Bank,"October 13, 2017","February 21, 2018"
2,Fayette County Bank,Saint Elmo,IL,1802,"United Fidelity Bank, fsb","May 26, 2017","July 26, 2017"
3,"Guaranty Bank, (d/b/a BestBank in Georgia & Mi...",Milwaukee,WI,30003,First-Citizens Bank & Trust Company,"May 5, 2017","March 22, 2018"
4,First NBC Bank,New Orleans,LA,58302,Whitney Bank,"April 28, 2017","December 5, 2017"


Unnamed: 0,Bank Name,City,ST,CERT,Acquiring Institution,Closing Date,Updated Date
550,"Superior Bank, FSB",Hinsdale,IL,32646,"Superior Federal, FSB","July 27, 2001","August 19, 2014"
551,Malta National Bank,Malta,OH,6629,North Valley Bank,"May 3, 2001","November 18, 2002"
552,First Alliance Bank & Trust Co.,Manchester,NH,34264,Southern New Hampshire Bank & Trust,"February 2, 2001","February 18, 2003"
553,National State Bank of Metropolis,Metropolis,IL,3815,Banterra Bank of Marion,"December 14, 2000","March 17, 2005"
554,Bank of Honolulu,Honolulu,HI,21029,Bank of the Orient,"October 13, 2000","March 17, 2005"


On note que Pandas a lu les 555 lignes du tableau alors que la page web n'en montre que 25 ! Cela est du
au fait que l'affichage de la page ne montre qu'une partie du code source qui lui contient les 255 lignes.

## Pandas datareader

La bibliothèque [pandas-datereader](https://pandas-datareader.readthedocs.io/en/latest/remote_data.html) permet
de récupérer facilement des données sur le web. Malheureusement certains sites sources changent trop 
souvent leur format
ou ne sont pas toujours fiables ce qui pose des problèmes de maintenance à cette bibliothèque. Aussi Yahoo! Finance
et Google Finance ont été abandonnés.

Les bases accessibles via pandas datareader sont pour la version 0.6.0 :

* Morningstar
* IEX
* Robinhood
* Enigma
* Quandl
* St.Louis FED (FRED)
* Kenneth French's data library
* World Bank
* OECD
* Eurostat
* Thrift Savings Plan
* Nasdaq Trader symbol definitions
* Stooq
* MOEX

Attention certaines bases demandent d'avoir une autorisation d'accès laquelle s'obtient sur leur site web.

In [8]:
import pandas_datareader.data as web
import datetime as dt

start = dt.datetime(2018, 8, 1)
end = dt.datetime(2018, 8, 10)
df = web.DataReader('AAPL', 'iex', start, end)  # Apple stock prices thanks to IEX
df

Unnamed: 0_level_0,open,high,low,close,volume
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018-08-01,197.7441,200.3558,195.9368,200.0976,67935716
2018-08-02,199.184,206.9297,198.9556,205.9466,62404012
2018-08-03,205.5891,207.2872,204.0502,206.5424,33447396
2018-08-06,206.5524,207.7937,205.6288,207.6149,25425387
2018-08-07,207.8632,208.0419,205.321,205.6685,25587387
2018-08-08,204.6159,206.3637,203.0966,205.8076,22525487
2018-08-09,205.8374,208.32,205.7579,207.4262,23492626
2018-08-10,206.639,208.373,205.9514,206.8084,24611202


{{ PreviousNext("pd08 -- Tools.ipynb", "../lesson7 Graphics/10 -- Static graphics with Matplotlib.ipynb")}}