## **Activités de TP/Projet**

---



### Activité 1 : Mise en place de l’environnement 🕐3h

> ☝ **Objectif :** Mettre en place l'environnement de travail pour qu’il respecte les indications du cahier des charges. Appréhender le format de données JSON.

Durant cette séance, nous allons mettre en place les outils de programmation et les ressources supports utiles pour le projet. A savoir :

1. l'arborescence des répertoires du projet sur votre Drive,
2. le téléchargement des scripts supports dans cette arborescence,
3. l'ouverture d'une session Colab,
4. la lecture de fichiers localisés sur le drive,
5. la compréhension du format JSON,
5. une test unitaire `tu_Activite1.ipynb` afin de valider l'installation et l'accès aux données locales.



> **Mise en place de l'environnement**

Cette mise en place consiste à récupérer le le dossier des ressources disponible sur Eprel dans la section `BUT1 R&T : SAE15 - Traiter des données`. Ce dossier doit être installé sur votre Drive dans le dossier `Colab Notebooks` que vous avez déjà créé pour les travaux pratiques de `R107-Programmation`.

> **JSON en Python**

Le format JSON désigne la structure servant à décrire des données/informations. Le format JSON a éclipsé le XML et s'est imposé comme format d'échange de données préféré pour les applications et les services Web.

JSON ou *JavaScript Object Notation* est une représentation sans schéma, en texte clair, de données structurées basées sur des paires nom/valeur et des listes ordonnées. Même si le format JSON est dérivé de JavaScript, il est supporté soit nativement, soit par l'intermédiaire de bibliothèques dans la plupart des principaux langages de programmation.

Il existe quelques packages qui prennent en charge JSON en Python, tels que `metamagic.json`, `jyson`, `simplejson`, `Yajl-Py`, `ultrajson` et `json` .

Ici, nous utiliserons `json` qui est pris en charge nativement par Python. La documentation pour ce package est [disponible ici](https://docs.python.org/3/library/json.html).

Vous trouverez ci-dessous un exemple de données JSON. Nous remarquons que la représentation des données est **très similaire aux dictionnaires Python**.

```
{
   "article": [

      {
         "id":"01",
         "language": "JSON",
         "edition": "first",
         "author": "Derrick Mwiti"
      },

      {
         "id":"02",
         "language": "Python",
         "edition": "second",
         "author": "Derrick Mwiti"
      }
   ],

   "blog":[
   {
       "name": "Datacamp",
       "URL":"datacamp.com"
   }
   ]
}
```

Nous pouvons analyser la chaîne JSON ci-dessus à l'aide de la méthode `json.loads()` disponible dans le module `json`. Le résultat retourné est une variable de type `dictionnaire` Python.

In [None]:
import json

# une structure de données au format JSON sous forme d'une chaine de caractères (str)
my_json_string = """{
   "article": [

      {
         "id":"01",
         "language": "JSON",
         "edition": "first",
         "author": "Derrick Mwiti"
      },

      {
         "id":"02",
         "language": "Python",
         "edition": "second",
         "author": "Derrick Mwiti"
      }
   ],

   "blog":[
   {
       "name": "Datacamp",
       "URL":"datacamp.com"
   }
   ]
}
"""

print(my_json_string)

# conversion du JSON en un dictionnaire
to_python = json.loads(my_json_string)
print(to_python)

# accès à l'un des champs (clés) du dictionnaire
print(to_python['blog'])

{
   "article": [

      {
         "id":"01",
         "language": "JSON",
         "edition": "first",
         "author": "Derrick Mwiti"
      },

      {
         "id":"02",
         "language": "Python",
         "edition": "second",
         "author": "Derrick Mwiti"
      }
   ],

   "blog":[
   {
       "name": "Datacamp",
       "URL":"datacamp.com"
   }
   ]
}

{'article': [{'id': '01', 'language': 'JSON', 'edition': 'first', 'author': 'Derrick Mwiti'}, {'id': '02', 'language': 'Python', 'edition': 'second', 'author': 'Derrick Mwiti'}], 'blog': [{'name': 'Datacamp', 'URL': 'datacamp.com'}]}
[{'name': 'Datacamp', 'URL': 'datacamp.com'}]


> **Lecture d'un JSON sur votre drive**

Les données au format JSON sont généralement obtenues via une requête Web ou depuis un fichier local sauvegardé sur un disque.

Afin de pouvoir lire (ou écrire) des fichiers sur votre drive depuis le Notebook Colab il est nécessaire d'autoriser le code python à accéder à votre espace de stockage.

L'exemple ci-dessous montre de quelle manière **monter votre Drive Google sur votre IDE Colab** à l'aide d'un code d'autorisation, et comment y écrire et lire des fichiers.


In [None]:
# bibliothèque et module python à utiliser
from google.colab import drive 

# montage du drive sur Colab (avec autorisation d'accès)

drive.mount('/content/drive', force_remount=True)
# cliquer sur le lien affiché dans la console afin d'accéder à votre clé d'accès
# et recopier cette clé dans la zone de saisie de texte. 

Mounted at /content/drive


Une fois le drive monté dans l'espace Colab, il est possible d'y accéder en lecture ou en écriture.

Par exemple, le code qui permet de créer un fichier texte sur votre Drive est le suivant :

In [None]:
# ouverture en écriture d'un fichier texte (hello.txt)
# dans le répertoire "Colab Notebooks/SAE15/tests/data/" de votre drive

with open('/content/drive/My Drive/Colab Notebooks/SAE15/tests/data/hello.txt', 'w') as f:
  f.write('Hello Google Drive!')
  print('Ecriture de fichier terminée')

# aller sur le drive et vérifier la présence d'un ficher au format txt nommé hello.txt
# dans le répertoire /Colab Notebooks/SAE15/tests/data/
# éditer le contenu de ce fichier

Ecriture de fichier terminée


De même, la lecture d'un fichier depuis le drive est obtenue à l'aide de ce code :

In [None]:
# ouverture en lecture d'un fichier au format JSON (test1.json)
# ce fichier se situe dans le répertoire "Colab Notebooks/SAE15/tests/data/" de votre drive

with open('/content/drive/My Drive/Colab Notebooks/SAE15/tests/data/test1.json', 'r') as f:
  json_data = json.load(f)
  print("Données lues depuis le fichier :",json_data)

# contenu du premier élément de la clé 'article'
print(json_data['article'][0])

# contenu du deuxième élément de la clé 'article'
print(json_data['article'][1])

Données lues depuis le fichier : {'article': [{'id': '01', 'language': 'JSON', 'edition': 'first', 'author': 'Derrick Mwiti'}, {'id': '02', 'language': 'Python', 'edition': 'second', 'author': 'Derrick Mwiti'}], 'blog': [{'name': 'Datacamp', 'URL': 'datacamp.com'}]}
{'id': '01', 'language': 'JSON', 'edition': 'first', 'author': 'Derrick Mwiti'}
{'id': '02', 'language': 'Python', 'edition': 'second', 'author': 'Derrick Mwiti'}


> **Utilisation du module Pandas**

🐼 `Pandas` est un package python qui permet de traiter des jeux de données de manière efficace et compréhensible. De la lecture des fichiers à une première approche statistique.

`Pandas` est le compagnon de jeu de n’importe quel datascientist ! Pandas intervient généralement dans la première phase d’un projet de datascience, afin de lire, comprendre et préparer la donnée à analyser.

In [None]:
import pandas as pd

articles = pd.DataFrame(json_data['article'])
#print(articles)   # moins joli
display(articles)  # plus joli

Unnamed: 0,id,language,edition,author
0,1,JSON,first,Derrick Mwiti
1,2,Python,second,Derrick Mwiti


On voit ici que `Pandas` offre la possibilité de récupérer tous les éléments de la section `article`.

De même, les valeurs des clés `language` ou `edition` sont accessibles à l'aide de la syntaxe donnée ci-dessous :



In [None]:
# récupération des valeurs de la clé 'language' dans la section 'article'
print(articles.language)

print('---------------')

# récupération des valeurs de la clé 'edition' dans la section 'article'
print(articles.edition)

0      JSON
1    Python
Name: language, dtype: object
---------------
0     first
1    second
Name: edition, dtype: object


> **Test unitaire**

Le teste unitaire, `tu_Activité1.ipynb`, consiste à mettre en place un programme qui permet de :
1. lire un fichier de données au format JSON présent sur le Drive,
2. afficher les données sous forme d'un tableau,
3. calculer et publier des mesures simples.

> 🎯 **Livrable :** en fin d'activité, vous devez déposer sur Eprel le script du test unitaire `**tu_Activité1**.ipynb` validant votre travail.

### Activité 2 : Sources de données en OpenData 🕑2h

> ☝ **Objectif :** Accéder à des jeux de données publiés sur un portail OpenData et mettre en forme ses données.

> **Données OpenData**

Les données analysées sont disponible sur l'[OpenData de Vélib' Métropole](https://www.velib-metropole.fr/donnees-open-data-gbfs-du-service-velib-metropole). Vous devez vous y rendre afin de prendre connaissance de la structure des données disponibles.

En particulier, les données auxquelles nous nous intéresseront ici sont celles intitulées `station_status.json` et `station_information.json`.

Observer et analyser les différents champs contenus dans ces deux structures.

> **Test unitaire**

Ces données accessibles en OpenData font l'objet de l'Activité 2 `tu_Activité2.ipynb`.


> 🎯 **Livrable :** en fin d'activité, vous devez déposer sur Eprel le script du test unitaire `tu_Activité2.ipynb` validant votre travail.

### Activité 3 : Analyse et publication Web 🕑2h

> ☝ **Objectif :** Publier sous forme textuelle, dans une page Web, les résultats de l'analyse des données.

> **Analyse des données**

L'analyse consiste à produire des mesures statistiques sur les données Vélib.

> **Publication Web**

Les mesures obtenues sont mises en forme afin d'être publiées au format HTML pour un affichage ultérieur dans une page Web.

> **Test unitaire**

L'analyse statistique et la mise en forme HTML sont traités dans l'Activité 3 `tu_Activité3.ipynb`.


> 🎯 **Livrable :** en fin d'activité, vous devez déposer sur Eprel le script du test unitaire `tu_Activité3.ipynb` validant votre travail.

### Activité 4 : Outils graphiques 🕑2h

> ☝ **Objectif :** Produire des représentations graphiques des résultats issus du traitement. Intégration de ces représentations dans la page Web.

> **Représentation par carte géographiques**

Les données Vélib sont des données géoréférencées. Il est donc souhaitable de pouvoir réprésenter certaines mesures opérées sur ces données sur une carte géographique afin de pouvoir visualiser leur topographie.

> **Publication des cartes**

Les cartes générées doivent pouvoir être également publiées sur le Web tout comme les mesures statistiques obtenues dans l'Activité 3.

> **Test unitaire**

L'Activité 4 `tu_Activité4.ipynb` est consacrée à la fabrication des cartes et à leur exportation à des fins de publication sur le Web.

> 🎯 **Livrable :** en fin d'activité, vous devez déposer sur Eprel le script du test unitaire `tu_Activité4.ipynb` validant votre travail.