L'accès aux données est une étape primordiale avant l'analyse de données. Les entrées/sorties "E/S" ou inputs/output "I/O" permettent de lire les fichiers textes, chargement des données depuis les bases de données et l'interaction avec les sources réseaux comme les web APIs.

# Fichiers textes

Pandas offre un ensemble de fonctions pour lire les données tabulaires en tant que DataFrame.

Fonction | Description
-- | --
read_csv | Charger des données délimitées depuis un fichier, URL. Le séparateur par défaut est la virgule ','
read_table | Charger des données délimitées depuis un fichier, URL. Le séparateur est la tabulation '\t'
read_fwf | Charger des données depuis un fichier où les colonnes ont une largeur fixe
read_clipboard | Charger les données depuis le presse-papiers où les séparateur est la tabulation
read_excel | Charger les données depuis un fichier XLS ou XLSX
read_hdf | Charger les fichiers HDF5
read_html | Charger toutes les tables contenues dans un fichier HTML
read_json | Charger les données depuis un fichier JSON
read_msgpack | Charger les données encodées en utilisant le format binaire MessagePack
read_pickle | Charger les objets contenues dans un fichier binaire pickle
read_sas | Charger les données depuis les fichiers SAS
read_sql | Lire les résultats d'une requête en tant que DataFrame
read_stata | Charger les données depuis un fichier Stata
read_feather | Lire les fichiers binaires Feather

Les arguments optionnels de ces fonctions sont:

* Indexation: Traitement d'une ou plusieurs colonnes et choix des noms de colonnes
* Inférence du type et conversion: conversion de valeurs et liste personnalisée des valeurs manquantes
* Parsing des date/heure: Reconnaître des colonnes comme des dates ou heures
* Itération: Itération des fichiers larges
* Nettoyage: échapper des lignes ou des entêtes

Certaines fonctions comme read_csv effectuent l'inférence du type.

In [1]:
import pandas as pd

In [6]:
df = pd.read_json('sample_data/anscombe.json')

In [7]:
df

Unnamed: 0,Series,X,Y
0,I,10,8.04
1,I,8,6.95
2,I,13,7.58
3,I,9,8.81
4,I,11,8.33
5,I,14,9.96
6,I,6,7.24
7,I,4,4.26
8,I,12,10.84
9,I,7,4.81


In [3]:
!wget https://github.com/wesm/pydata-book/blob/2nd-edition/datasets/movielens/users.dat
!wget https://github.com/wesm/pydata-book/blob/2nd-edition/datasets/movielens/movies.dat
!wget https://github.com/wesm/pydata-book/blob/2nd-edition/datasets/movielens/ratings.dat

--2020-11-17 22:03:12--  https://github.com/wesm/pydata-book/blob/2nd-edition/datasets/movielens/users.dat
Resolving github.com (github.com)... 192.30.255.113
Connecting to github.com (github.com)|192.30.255.113|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: ‘users.dat’

users.dat               [ <=>                ]   1.28M  --.-KB/s    in 0.05s   

2020-11-17 22:03:12 (25.6 MB/s) - ‘users.dat’ saved [1341438]

--2020-11-17 22:03:13--  https://github.com/wesm/pydata-book/blob/2nd-edition/datasets/movielens/movies.dat
Resolving github.com (github.com)... 192.30.255.113
Connecting to github.com (github.com)|192.30.255.113|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: ‘movies.dat’

movies.dat              [ <=>                ] 960.58K  --.-KB/s    in 0.04s   

2020-11-17 22:03:13 (21.4 MB/s) - ‘movies.dat’ saved [983639]

--2020-11-17 22:03:13--  https://github.co

Argument | Description
-- | --
path | Chemin, URL ou pointeur vers un fichier
sep ou delimiter | Séquence de caractères ou expression régulière utiliser pour spliter chaque enregistrement
header | Nombre d'enregistrements à utiliser comme noms de colonnes, par défaut 0, mettre Non si le fichier ne contient aucune entête
index_col | Indices ou noms de colonnes à utiliser comme Index, une liste pour le cas des Index hiérarchiques
names | Noms de colonnes si header=None
skiprows | Nombre de lignes au début du fichier à ignorer
na_values | Séquence de valeurs à remplacer avec NA
comment | Caractères pour ignorer les commentaires à la fin des lignes
parse_dates | Parser les datetime, elle peut combiner une liste de colonnes pour retrouver la date complète
keep_date_col | En cas de combinaison de plusieurs colonnes, garder les colonnes initiales
converters | Dictionnaire contenant les colonnes à convertir et les fonctions à appliquer {'foo': f}
dayfirst | traiter les date en utilisant le format international
date_parser | fonction à utiliser pour parser les dates
nrows | Nombre de lignes à lire depuis le début du fichier
iterator | Retourner TextParser pour lire le fichier par morçeaux "chunks"
chunksize | Pour l'itération, la taille des morçeaux "chunks"
skip_footer | Nombre de lignes à ignorer à la fin du fichier
verbose | Afficher les informations lors du parsing du fichier
encoding | Encodage à utiliser lors de la lecture du fichier, 'utf-8' par exemple
squeeze | Si le fichier contient une seule colonne, retourner un objet Series
thousands | Utiliser le séparateur des milliers, '.' ou ','

**Lecture des fichiers textes par morçeaux**

**Ecriture des données dans un fichier texte**

**Utilisation des fichiers séparés**

Argument | Description
-- | --
delimiter | Caractère séparateur, par défaut ','
lineterminator | Le séparateur des lignes, '\r\n' par défaut
quotechar | Caractère utilisé comme délimiteur du texte
quoting | Convention de quoting, csv.QUOTE_ALL, csv.QUOTE_MINIMAL, csv.QUOTE_NONNUMERIC ou csv.QUOTE_NONE
skipinitialspace | Ignorer les espaces après les séparateurs, par défaut False
doublequote | Comment utiliser un quote à l'intérieur d'un texte
escapechar | Chaîne à utilise pour échapper le délimiteur

**JSON**

**XML et HTML**

**Parsing du XML avec lxml.objectify**

# Format binaire

**Utilisation du format HDF5**

**Lecture des fichiers Excel**

**Intéraction avec les Web APIs**

Les web APIs, ou les REST APIs qui sont les plus utilisés aujourd'hui afin de mettre en place l'interopérabilité.

In [20]:
import requests

In [21]:
url = 'https://api.exchangeratesapi.io/latest'

In [22]:
resp = requests.get(url)

In [23]:
resp

<Response [200]>

In [24]:
data = resp.json()

In [25]:
data

{'base': 'EUR',
 'date': '2020-11-17',
 'rates': {'AUD': 1.6236,
  'BGN': 1.9558,
  'BRL': 6.4375,
  'CAD': 1.556,
  'CHF': 1.0816,
  'CNY': 7.7892,
  'CZK': 26.508,
  'DKK': 7.448,
  'GBP': 0.89585,
  'HKD': 9.2119,
  'HRK': 7.5668,
  'HUF': 361.5,
  'IDR': 16779.76,
  'ILS': 3.9945,
  'INR': 88.4825,
  'ISK': 161.5,
  'JPY': 123.78,
  'KRW': 1314.74,
  'MXN': 24.2129,
  'MYR': 4.877,
  'NOK': 10.7683,
  'NZD': 1.7234,
  'PHP': 57.389,
  'PLN': 4.4964,
  'RON': 4.872,
  'RUB': 90.734,
  'SEK': 10.2375,
  'SGD': 1.5962,
  'THB': 35.836,
  'TRY': 9.2071,
  'USD': 1.1882,
  'ZAR': 18.3062}}

In [28]:
TAUX_CHANGE = data['rates']['CAD']

In [29]:
TAUX_CHANGE

1.556

**Intéraction avec les bases de données**

In [31]:
import sqlite3

In [39]:
name = """
jkdlkk
dldml
"""

In [40]:
print(name)


jkdlkk
dldml



In [32]:
query = """
  CREATE TABLE test
  (a VARCHAR(20), b VARCHAR(20),
  c REAL, d INTEGER
  );"""

In [33]:
con = sqlite3.connect('states')

In [41]:
con.execute(query)

OperationalError: ignored

In [42]:
con.commit()

In [43]:
data = [('Atlanta', 'Georgia', 1.25, 6),
        ('Boston', 'Massachusetts', 2.6, 3),
        ('Las Vegas', 'Nevada', 1.7, 5)]

In [44]:
stmt = "INSERT INTO test VALUES(?, ?, ?, ?)"

In [47]:
con.executemany(stmt, data)

<sqlite3.Cursor at 0x7f164805e500>

In [48]:
con.commit()

In [49]:
cursor = con.execute('SELECT * FROM test')

In [50]:
rows = cursor.fetchall()

In [51]:
rows

[('Atlanta', 'Georgia', 1.25, 6),
 ('Boston', 'Massachusetts', 2.6, 3),
 ('Las Vegas', 'Nevada', 1.7, 5)]

In [52]:
x = cursor.description

In [53]:
import pandas as pd

In [54]:
pd.DataFrame(rows, columns=[x[0] for x in cursor.description])

Unnamed: 0,a,b,c,d
0,Atlanta,Georgia,1.25,6
1,Boston,Massachusetts,2.6,3
2,Las Vegas,Nevada,1.7,5


**Utilisation de SQLAlchemy**

In [29]:
import sqlalchemy as sqla

In [30]:
db = sqla.create_engine('sqlite:///mydata.sqlite')

In [31]:
pd.read_sql('SELECT * FROM test', db)

Unnamed: 0,a,b,c,d
0,Atlanta,Georgia,1.25,6
1,Boston,Massachusetts,2.6,3
2,Las Vegas,Nevada,1.7,5
