# Les formats de fichiers usuels

## Réfrences

  - [CSV](https://fr.wikipedia.org/wiki/Comma-separated_values),
    Wikipédia, le 12 juin 2019
  - [Documentation de
    Pandas](https://pandas.pydata.org/pandas-docs/stable/reference/frame.html),
    le 12 juin 2019

## archives

## formats de fichiers d’échange de données

### Les formats de données tabulées

Les tableurs proposent de stoker d’information sous forme de tableau.
Les données sont référencés par des numéros de lignes et de colonnes.
Ces formats sont normalisés (Office Open XML, OpenDocument) et supportés
par des logiciels libres (LibreOffice) et propriétaires (Excel, Number).

CSV (*Comma-Separated-Values*) est un format textuel non normalisé (mais
faisant l’objet d’une [RFC](https://tools.ietf.org/html/rfc4180)). Il
permet de stocker les données tabulées en identifiant nominativement les
colonnes.

``` csv
Civilité,Prénom,Année de naissance
M,Alphonse,1932
F,Béatrice,1964
F,Charlotte,1988
```


En python on manipule des données tabulées facilement avec des objets
`DataFrame` de bibliothèque `pandas`. La documentation sur les
[dataframes](https://pandas.pydata.org/pandas-docs/stable/reference/frame.html)
nos servira par la suite.

In [None]:
from pandas import DataFrame 

data = {"Civilité":("M","F", "F"),'Prénom':('Alphonse','Béatrice', 'Charlotte'), "année":(1932, 1964, 1988)}

df = DataFrame(data)
print(df.query('Civilité == "F"'))

print("année moyenne: {:.0f}".format(df['année'].mean()))

Lecture d’un tableur ODS dans un dataframe :

In [None]:
from pandas_ods_reader import read_ods
f = "resultats-2016.ods"

df = read_ods(f, 1)
df.head()

### Exercice 1

Télécharger [l’archive
“Données”](https://pigne.org/teaching/DIU_EIL/donnees.zip) Suivre
le [TP n°1 sur les tableurs de
Licence 1](https://pigne.org/teaching/DIU_EIL/seance01-PIX-tableur.pdf)
sans s’attarder sur la mise en forme.

### Exercice 2

  - Dans le tableur précédent:
      - renommer les colonnes “L” “ES” et “S” des élèves présents en
        “Présents L”, “Présents ES”, “Présents S” ;
      - renommer les colonnes “L” “ES” et “S” des taux de réussite en
        “Taux L”, “Taux ES”, “Taux S” ;
      - supprimer le première ligne ;
      - enregistrer.
  - Dans un nouveau notebook, répondre aux questions posées dans
    l’exercice 1 à l’aide de python et des `DataFrame` de `pandas`.

### Données structurées et typés

L’échange de données entre différentes entités est souvent assurés par
le format XML. Ce format constitué de balise permet de spécifier le rôle
et l’imbrication des balises pour un fichier donné. Les données sont
donc typées et structurées.

Dans les technologies web, le format JSON s’est imposé. Moins expressif
que XML il est plus léger et semble plus simle à manipuler. Il est aussi
très proche du langage JavaScript.

In [None]:
import json

with open('data.json') as f:
    d = json.load(f)
    print(d)

### Exercice 3

Télécharger le [fichier de données
JSON](https://pigne.org/teaching/DIU_EIL/data.json). Celui-ci contient
un tableau de 3 objets qui ont un champ “data” contenant a son tour un
champ “values”. Faire la moyenne des valeurs dans les champs “values”
respectivement et afficher de cette façon :

``` text
- Température Bureau : (TEMPERATURE = 23.11)
- Porte du Garage : (DOOR = 0)
- Ventilateur Ordinateur Bureau : (FAN_SPEED = 1774.50)
```


## Fichiers images

  - les [images
    matricielles](https://pigne.org/teaching/DIU_EIL/images-matricielles.pdf)
  - les images vectorielles

### Exercice 4

Télécharger [l’archive
“Images”](https://pigne.org/teaching/DIU_EIL/images.zip) Suivre le
[TP sur les images matricielles de
Licence 1](https://pigne.org/teaching/DIU_EIL/ExerciceImagesMatricielles.pdf).