Pandas offre la possibilité d'importer des données de nombreuses origines :

* CSV
* Excel
* tables extraite de pages web
* base de donnée SQL
* format spécifique de fichier ou d'application (HDF, JSON, Parquet...)

Les deux derniers points ne sont pas présentés ici ainsi que d'autres qu'on retrouvera dans la [liste de E/S](https://pandas.pydata.org/pandas-docs/stable/api.html#input-output).

Il existe aussi des bibliothèques tierces qui permettent de récupérer des données au format de Pandas.

En pratique il est rare qu'il faille faire un travail important pour intégrer des données dans un tableau de Pandas.

## CSV

Il s'agit d'un format simple que l'humain peut lire. Il peut être généré par un logiciel de bureautique ou des programmes
spécialisés. Certains paramêtres pouvant varier d'un fichier à un autre, Pandas offre la possibilité de les préciser en 
argument.

Regardons un fichier CSV :

In [2]:
!cat data/data1.csv  # a unix command (starts with !)

product; price; amount; date_in
  'pen';   0.2;  10000; 2016-03-23
 'ball';   2.1;   2300; 2016-05-12
'board';  1.75;  10000; 2016-05-03


Pour intégrer ce fichier dans un tableau nous allons spécifier les paramètre nécessaires :

* ici le séparateur entre les champs est `;` alors que la valeur par défaut est `,` aussi on indique `sep=';'`
* certaines lignes commencent pas des espaces qu'il faut retirer, donc `skipinitialspace=True`
* les quotes autour des mots doivent être retirées, on lui indique qu'il s'agit de simples quotes 
* on précise qu'il y a un colonne de date afin que Pandas les convertisse en date plutôt que de les lire comme des
  chaînes de caractères, `parse_dates=[3]`

La documentation de [read_csv](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html) liste tous
les paramètres.

In [8]:
import pandas as pd

data = pd.read_csv("data/data1.csv", sep=';', skipinitialspace=True, quotechar="'",
                   parse_dates=[3])
data

Unnamed: 0,product,price,amount,date_in
0,pen,0.2,10000,2016-03-23
1,ball,2.1,2300,2016-05-12
2,board,1.75,10000,2016-05-03


In [9]:
data.dtypes

product            object
price             float64
amount              int64
date_in    datetime64[ns]
dtype: object

In [10]:
type(data['date_in'].values[1])

numpy.datetime64

## Excel

Le format d'Excel, `xls` ou `xlsx`, est lu par Pandas. Voici la liste des musées francais stockée sur le site
des données ouvertes de l'État
[data.gouv.fr](https://www.data.gouv.fr).

In [11]:
url = "https://www.data.gouv.fr/s/resources/liste-et-localisation-des-musees-de-france/20160404-110647/Liste_musees_de_France.xls"
data = pd.read_excel(url)
data

Unnamed: 0,NOMREG,NOMDEP,DATEAPPELLATION,FERME,ANNREOUV,ANNEXE,NOM DU MUSEE,ADR,CP,VILLE,SITWEB,FERMETURE ANNUELLE,PERIODE OUVERTURE,JOURS NOCTURNES
0,ALSACE,BAS-RHIN,01/02/2003,NON,,,Musée de la Folie Marco,"30, Rue du Dr Sultzer",67140,BARR,www.barr.fr,Novembre à avril,Ouvert de mai à septembre du mercredi au lundi...,
1,ALSACE,BAS-RHIN,01/02/2003,NON,,,Musée de la Poterie,"2, rue de Kuhlendorf",67660,BETSCHDORF,www.betschdorf.fr/tourisme/visiter_betschdrof/...,Novembre à mi-avril,Ouvert du mardi au samedi de 10h à 12h et de 1...,
2,ALSACE,BAS-RHIN,01/02/2003,OUI,29 juin 2013,,Musée de Bouxwiller et du Pays de Hanau,"2, Place du Château\nHalle aux Blés",67330,BOUXWILLER,www.musee-pays-hanau.webmuseo.com,,Fermé. Ouvert uniquement sur réservation pour ...,
3,ALSACE,BAS-RHIN,01/02/2003,NON,,,Musée Alsacien,"1, place Joseph Thierry",67500,HAGUENAU,www.ville-haguenau.fr/pages/culture/musee.htm,"1er janvier, dimanche de Pâques, 1er mai, 1er ...",Ouvert du lundi au vendredi de 9h à 12h et de ...,
4,ALSACE,BAS-RHIN,01/02/2003,NON,,,Musée Historique,"9, Rue du Maréchal Foch\nB.P. 40261",67504,HAGUENAU Cedex,www.ville-haguenau.fr/pages/culture/musee.htm ...,"1er janvier, dimanche de Pâques, 1er mai, 1er ...","Ouvert lundi de 14h à 18h, mercredi au vendred...",
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1239,RHÔNE-ALPES,SAVOIE,06/01/2002,NON,,,Musée des Charmettes,"890, Chemin des Charmettes",73000,CHAMBERY,Site de la mairie,Jours fériés,Ouvert du mercredi au lundi de 10h à 12h et de...,
1240,RHÔNE-ALPES,SAVOIE,06/01/2002,NON,,,Musée Savoisien,Square de Lannoy de Bissy,73000,CHAMBERY,Site du conseil général ou www.musee-savoisien.fr,Jours fériés,Ouvert du mercredi au lundi de 10h à 12h et de...,
1241,RHÔNE-ALPES,SAVOIE,01/02/2003,OUI,Pas d'infos,,Muséum d'histoire naturelle,"208, Avenue de Lyon\nB.P. 844",73007,CHAMBERY CEDEX,,Jours fériés,"Ouvert du mardi au vendredi, lematin sur rdv p...",Nuit des musées
1242,RHÔNE-ALPES,SAVOIE,01/02/2003,NON,,,Musée de l'Académie de La Val d'Isère,"23, Place Saint-Pierre",73600,MOÛTIERS,Site de l'Académie - http://academie.sup.fr,Fêtes,Ouvert du lundi au samedi de 9h à 12h et de 14...,


## read_html

Avec de la chance (et parfois à l'aide bibliothèque [BeautifullSoup](https://www.crummy.com/software/BeautifulSoup/)),
Pandas peut lire un tableau dans une page web.
morceaux pour pouvoir le lire.

Voici un exemple à partir d'une page du [FDIC](https://www.fdic.gov/) (il faut descendre la page web pour voir le tableau).

In [12]:
%%html
'<iframe src="https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list/banklist.html" width=700 height=350></iframe>'

Laissons Pandas trouver tout seul le tableau avec `read_html` :

In [15]:
url = "https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list/banklist.html"
#dfs = pd.read_html(url)    # returns a list of dataframes, one for each table in the web page

In [7]:
display(dfs[0].head(), dfs[0].tail())

Unnamed: 0,Bank Name,City,ST,CERT,Acquiring Institution,Closing Date
0,The First State Bank,Barboursville,WV,14361,"MVB Bank, Inc.","April 3, 2020"
1,Ericson State Bank,Ericson,NE,18265,Farmers and Merchants Bank,"February 14, 2020"
2,City National Bank of New Jersey,Newark,NJ,21111,Industrial Bank,"November 1, 2019"
3,Resolute Bank,Maumee,OH,58317,Buckeye State Bank,"October 25, 2019"
4,Louisa Community Bank,Louisa,KY,58112,Kentucky Farmers Bank Corporation,"October 25, 2019"


Unnamed: 0,Bank Name,City,ST,CERT,Acquiring Institution,Closing Date
556,"Superior Bank, FSB",Hinsdale,IL,32646,"Superior Federal, FSB","July 27, 2001"
557,Malta National Bank,Malta,OH,6629,North Valley Bank,"May 3, 2001"
558,First Alliance Bank & Trust Co.,Manchester,NH,34264,Southern New Hampshire Bank & Trust,"February 2, 2001"
559,National State Bank of Metropolis,Metropolis,IL,3815,Banterra Bank of Marion,"December 14, 2000"
560,Bank of Honolulu,Honolulu,HI,21029,Bank of the Orient,"October 13, 2000"


On note que Pandas a lu les 555 lignes du tableau alors que la page web n'en montre que 25 ! Cela est du
au fait que l'affichage de la page ne montre qu'une partie du code source qui lui contient toutes les lignes.

## Pandas datareader

La bibliothèque [pandas-datereader](https://pandas-datareader.readthedocs.io/en/latest/remote_data.html) permet
de récupérer facilement des données sur le web. Malheureusement certains sites sources changent trop 
souvent leur format
ou ne sont pas toujours fiables ce qui pose des problèmes de maintenance à cette bibliothèque. Aussi Yahoo! Finance
et Google Finance ont été abandonnés puis réintégrés. Il faut regarder la documentation ou tester avec l'autocomplétion pour savoir quelles bases sont accessibles.

Attention certaines bases demandent d'avoir une autorisation d'accès laquelle s'obtient sur leur site web.

In [18]:
# !pip install pandas_datareader
import pandas_datareader as pdr   
import datetime as dt

start = dt.datetime(2020, 8, 1)
end = dt.datetime(2020, 8, 10)
df = pdr.get_data_yahoo('AAPL', start, end)  # Apple stock price
df

Unnamed: 0_level_0,High,Low,Open,Close,Volume,Adj Close
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2020-08-03,111.637497,107.892502,108.199997,108.9375,308151200.0,108.208389
2020-08-04,110.790001,108.387497,109.1325,109.665001,173071600.0,108.931015
2020-08-05,110.392502,108.897499,109.377502,110.0625,121776800.0,109.325851
2020-08-06,114.412498,109.797501,110.404999,113.902496,202428800.0,113.140152
2020-08-07,113.675003,110.292503,113.205002,111.112503,198045600.0,110.567833
2020-08-10,113.775002,110.0,112.599998,112.727501,212403600.0,112.174911


{{ PreviousNext("pd08 -- Tools.ipynb", "../lesson7 Graphics/10 -- Static graphics with Matplotlib.ipynb")}}