# Projet 2 - Les fichiers CSV, JSON

### Objectifs:
Apprendre à manipuler des diff Formats de données 

Continuer la prise en main du langage Python


## Le format JSON

### 1. Historique 

Le format JSON est apparu pendant la première moitié des années 2000 et a été développé pour alléger la communication de données "simples" sur le web. Il est né dans le contexte du langage JavaScript mais est aujourd'hui utilisé dans l'ensemble des langages fortement utilisés (python, java, ruby, php, etc.)

Le JSON est aujourd'hui présent dans 99% des requêtes du web sans que vous vous en rendiez compte ! Il est en effet le format privilégié par les développeurs pour communiquer entre le client et le serveur une fois la page affichée. 

### 2. Structure

Vous reconnaissez ? JSON est en fait très proche de la manière de décrire des dictionnaires ou des listes en python. Et de fait, l'objet racine de JSON peut être une liste ou un dictionnaire et peut contenir :
- des listes,
- des dictionnaires,
- des booléens,
- des chaines de caractères
- des entiers et des décimaux
- des objets "vides" (`null`, l'équivalent de `None` en Python)

Voici un exemple simple en commençant par une liste comme élément source:

```json
[
    {"vers": 1, "texte": "Après l'insurrection du 17 juin,"},
    {"vers": 2, "texte": "Le secrétaire de l'Union des Écrivains"},
    {"vers": 3, "texte": "Fit distribuer des tracts dans la Stalinallée."},
    {"vers": 4, "texte": "Le peuple, y lisait-on, a par sa faute"},
    {"vers": 5, "texte": "Perdu la confiance du gouvernement"},
    {"vers": 6, "texte": "Et ce n'est qu'en redoublant d'efforts"},
    {"vers": 7, "texte": "Qu'il peut la regagner."},
    {"vers": 8, "texte": "Ne serait-il pas"},
    {"vers": 9, "texte": "Plus simple alors pour le gouvernement"},
    {"vers": 10, "texte": "De dissoudre le peuple"},
    {"vers": 11, "texte": "Et d'en élire un autre ?"}
]
```

et un exemple en commençant par un dictionnaire : 

```json
{
    "titre": {"fre": "La Solution", "ger": "Die Lösung"},
    "auteur": "Bertold Brecht",
    "annee": 1953,
    "source": "https://fr.wikipedia.org/wiki/Die_L%C3%B6sung",
    "vers": [
        {"n": 1, "texte": "Après l'insurrection du 17 juin,"},
        {"n": 2, "texte": "Le secrétaire de l'Union des Écrivains"},
        {"n": 3, "texte": "Fit distribuer des tracts dans la Stalinallée."},
        {"n": 4, "texte": "Le peuple, y lisait-on, a par sa faute"},
        {"n": 5, "texte": "Perdu la confiance du gouvernement"},
        {"n": 6, "texte": "Et ce n'est qu'en redoublant d'efforts"},
        {"n": 7, "texte": "Qu'il peut la regagner."},
        {"n": 8, "texte": "Ne serait-il pas"},
        {"n": 9, "texte": "Plus simple alors pour le gouvernement"},
        {"n": 10, "texte": "De dissoudre le peuple"},
        {"n": 11, "texte": "Et d'en élire un autre ?"}
    ]
}
```

### 3. JSON et Python

Tout comme pour `csv`, Python propose son propre module. Le module [`json`](https://docs.python.org/3.5/library/json.html). Et tout comme pour `csv`, il propose un outil pour lire et un pour écrire !

#### a. Lire

Python propose deux fonctions pour lire du JSON : `json.load()` et `json.loads()`. La différence entre les deux est très ténue : la première prend une instance de fichier en cours de lecture, l'autre une chaine de caractère (d'où le `s` à la fin pour `str`):

* Etudier / interpréter / Comprendre les diff syntaxes ci dessous :

In [2]:
import json

# A partir d'un wrapper de fichier
with open("brecht.json") as f:
    poeme=json.load(f)
    print(poeme)
    
print("***************************")
# A partir d'une chaîne
with open("brecht.json") as f:
    chaine = f.read()
    print(json.loads(chaine))
    
print("***************************")
    
print(poeme["titre"]["fre"])
print("-- " + poeme["auteur"])
for line in poeme["vers"]:
    print("({0}) {1}".format(line["n"], line["texte"]))

print("******************************************")
print("{nom} a écrit le poème '{titre}'. {nom} est {nationalite}.".format(
    nom="Brecht", titre="Solution", nationalite="allemand")
)

{'titre': {'fre': 'La Solution', 'ger': 'Die Lösung'}, 'auteur': 'Bertold Brecht', 'annee': 1953, 'source': 'https://fr.wikipedia.org/wiki/Die_L%C3%B6sung', 'vers': [{'n': 1, 'texte': "Après l'insurrection du 17 juin,"}, {'n': 2, 'texte': "Le secrétaire de l'Union des Écrivains"}, {'n': 3, 'texte': 'Fit distribuer des tracts dans la Stalinallée.'}, {'n': 4, 'texte': 'Le peuple, y lisait-on, a par sa faute'}, {'n': 5, 'texte': 'Perdu la confiance du gouvernement'}, {'n': 6, 'texte': "Et ce n'est qu'en redoublant d'efforts"}, {'n': 7, 'texte': "Qu'il peut la regagner."}, {'n': 8, 'texte': 'Ne serait-il pas'}, {'n': 9, 'texte': 'Plus simple alors pour le gouvernement'}, {'n': 10, 'texte': 'De dissoudre le peuple'}, {'n': 11, 'texte': "Et d'en élire un autre ?"}]}
***************************
{'titre': {'fre': 'La Solution', 'ger': 'Die Lösung'}, 'auteur': 'Bertold Brecht', 'annee': 1953, 'source': 'https://fr.wikipedia.org/wiki/Die_L%C3%B6sung', 'vers': [{'n': 1, 'texte': "Après l'insurrec

#### b. Écrire

Tout comme pour la lecture, le module JSON propose deux fonctions pour l'écriture qui correspondent à l'écriture dans une chaine de caractère (`json.dumps()`) ou dans un fichier (`dump`):

In [None]:
import json

mon_objet = [
    {
        "titre": "Hacking Websites with SQL Injection - Computerphile",
        "lien" : "https://www.youtube.com/watch?v=_jKylhJtPmI"
    },
    {
        "titre": "Cross Site Request Forgery - Computerphile",
        "lien": "https://www.youtube.com/watch?v=vRBihr41JTo"
    }
]

In [None]:
# Avec une chaîne de caractère comme objectif
chaine_json = json.dumps(mon_objet)
print(chaine_json)
print(type(chaine_json))

In [None]:
# Avec un fichier commme objectif
with open("data/json/youtube.exemple.json", "w") as f:
    json.dump(mon_objet, f)
    
# On vérifie que cela marche bien :
with open("data/json/youtube.exemple.json") as f:
    chaine = f.read()
    objet_recharge = json.loads(chaine)
    print(objet_recharge[0]["titre"])

#### d. Do it by yourself:
#### part1:

Le fichier [data/json/twitter.humanitesnumeriques.json](data/json/twitter.humanitesnumeriques.json) contient quelques tweets comprenant la mention "humanites numeriques". 

1. Lisez le fichier (*utilisez si nécessaire un formateur comme [JSON Formatter](https://jsonformatter.curiousconcept.com/)*)
2. Essayez de comprendre la structure
3. Afficher grâce à une boucle les tweets en suivant l'exemple suivant :
4. Rechercher des tweets 
5. supprimer des tweets particuliers
6. etre force de proposition sur d'autres fonctionnalités à proposer à votre utilisateur..
```
http://twitter.com/statuses/(939096874388262912) AnthonyMasure RT @entroispoints: Présentation du livre d’@AnthonyMasure Design et humanités numériques #DesignDH @letankparis avec @nicolasthely et @Edit…
```

In [None]:
# TBD

#### e.part2

À partir du code précédent, transformez l'exercice en chargeant le même fichier JSON et en écrivant un fichier CSV reprenant la structure en colonne `Lien | Auteur | Date | Tweet`

In [None]:
# TBD

----

#### Ce que l'on a appris:

voici un récapitulatif des concepts appris.

- La structure d'un fichier json
- `json.load`
- `json.loads`
- `json.dump`
- `json.dumps`
- `from ___ import ___`
- la notion de librairie/module/package
- `csv.reader()`
- `csv.writer()`
- `enumerate()`
- Lire une documentation et ses exemples

#### Ce que l'on recommande d'approfondir

Si les fonctions `csv.reader()` et `csv.writer()` sont sympathiques, les fonctions `DictReader` et `DictWriter` le sont beaucoup plus : elles stockent les noms de colonnes ! *cf.* [la documentation](https://docs.python.org/3.5/library/csv.html#csv.DictReader)