# Projet 2 - Les fichiers CSV, JSON

### Objectifs:
Apprendre à manipuler des diff Formats de données 

Continuer la prise en main du langage Python


## Le format JSON

### 1. Historique 

Le format JSON est apparu pendant la première moitié des années 2000 et a été développé pour alléger la communication de données "simples" sur le web. Il est né dans le contexte du langage JavaScript mais est aujourd'hui utilisé dans l'ensemble des langages fortement utilisés (python, java, ruby, php, etc.)

Le JSON est aujourd'hui présent dans 99% des requêtes du web sans que vous vous en rendiez compte ! Il est en effet le format privilégié par les développeurs pour communiquer entre le client et le serveur une fois la page affichée. 

### 2. Structure

Vous reconnaissez ? JSON est en fait très proche de la manière de décrire des dictionnaires ou des listes en python. Et de fait, l'objet racine de JSON peut être une liste ou un dictionnaire et peut contenir :
- des listes,
- des dictionnaires,
- des booléens,
- des chaines de caractères
- des entiers et des décimaux
- des objets "vides" (`null`, l'équivalent de `None` en Python)

Voici un exemple simple en commençant par une liste comme élément source:

```json
[
    {"vers": 1, "texte": "Après l'insurrection du 17 juin,"},
    {"vers": 2, "texte": "Le secrétaire de l'Union des Écrivains"},
    {"vers": 3, "texte": "Fit distribuer des tracts dans la Stalinallée."},
    {"vers": 4, "texte": "Le peuple, y lisait-on, a par sa faute"},
    {"vers": 5, "texte": "Perdu la confiance du gouvernement"},
    {"vers": 6, "texte": "Et ce n'est qu'en redoublant d'efforts"},
    {"vers": 7, "texte": "Qu'il peut la regagner."},
    {"vers": 8, "texte": "Ne serait-il pas"},
    {"vers": 9, "texte": "Plus simple alors pour le gouvernement"},
    {"vers": 10, "texte": "De dissoudre le peuple"},
    {"vers": 11, "texte": "Et d'en élire un autre ?"}
]
```

et un exemple en commençant par un dictionnaire : 

```json
{
    "titre": {"fr": "La Solution", "ger": "Die Lösung"},
    "auteur": "Bertold Brecht",
    "annee": 1953,
    "source": "https://fr.wikipedia.org/wiki/Die_L%C3%B6sung",
    "vers": [
        {"n": 1, "texte": "Après l'insurrection du 17 juin,"},
        {"n": 2, "texte": "Le secrétaire de l'Union des Écrivains"},
        {"n": 3, "texte": "Fit distribuer des tracts dans la Stalinallée."},
        {"n": 4, "texte": "Le peuple, y lisait-on, a par sa faute"},
        {"n": 5, "texte": "Perdu la confiance du gouvernement"},
        {"n": 6, "texte": "Et ce n'est qu'en redoublant d'efforts"},
        {"n": 7, "texte": "Qu'il peut la regagner."},
        {"n": 8, "texte": "Ne serait-il pas"},
        {"n": 9, "texte": "Plus simple alors pour le gouvernement"},
        {"n": 10, "texte": "De dissoudre le peuple"},
        {"n": 11, "texte": "Et d'en élire un autre ?"}
    ]
}
```

### 3. JSON et Python

Tout comme pour `csv`, Python propose son propre module. Le module [`json`](https://docs.python.org/3.5/library/json.html). Et tout comme pour `csv`, il propose un outil pour lire et un pour écrire !

#### a. Lire

Python propose deux fonctions pour lire du JSON : `json.load()` et `json.loads()`. La différence entre les deux est très ténue : la première prend une instance de fichier en cours de lecture, l'autre une chaine de caractère (d'où le `s` à la fin pour `str`):

* Etudier / interpréter / Comprendre les diff syntaxes ci dessous :

In [1]:
import json

# A partir d'un wrapper de fichier
with open("brecht.json") as f:
    poeme=json.load(f)
    print(poeme)
    
print("============================")
# A partir d'une chaîne
with open("brecht.json") as f:
    chaine = f.read()
    print(json.loads(chaine))
    
print("***************************")
    
print(poeme["titre"]["fre"])
print("-- " + poeme["auteur"])
for line in poeme["vers"]:
    print("({0}) {1}".format(line["n"], line["texte"]))
print("{nom} a écrit le poème '{titre}'. {nom} est {nationalite}.".format(
    nom="Brecht", titre="Solution", nationalite="allemand")
)

{'titre': {'fre': 'La Solution', 'ger': 'Die Lösung'}, 'auteur': 'Bertold Brecht', 'annee': 1953, 'source': 'https://fr.wikipedia.org/wiki/Die_L%C3%B6sung', 'vers': [{'n': 1, 'texte': "Après l'insurrection du 17 juin,"}, {'n': 2, 'texte': "Le secrétaire de l'Union des Écrivains"}, {'n': 3, 'texte': 'Fit distribuer des tracts dans la Stalinallée.'}, {'n': 4, 'texte': 'Le peuple, y lisait-on, a par sa faute'}, {'n': 5, 'texte': 'Perdu la confiance du gouvernement'}, {'n': 6, 'texte': "Et ce n'est qu'en redoublant d'efforts"}, {'n': 7, 'texte': "Qu'il peut la regagner."}, {'n': 8, 'texte': 'Ne serait-il pas'}, {'n': 9, 'texte': 'Plus simple alors pour le gouvernement'}, {'n': 10, 'texte': 'De dissoudre le peuple'}, {'n': 11, 'texte': "Et d'en élire un autre ?"}]}
{'titre': {'fre': 'La Solution', 'ger': 'Die Lösung'}, 'auteur': 'Bertold Brecht', 'annee': 1953, 'source': 'https://fr.wikipedia.org/wiki/Die_L%C3%B6sung', 'vers': [{'n': 1, 'texte': "Après l'insurrection du 17 juin,"}, {'n': 2,

#### b. Écrire

Tout comme pour la lecture, le module JSON propose deux fonctions pour l'écriture qui correspondent à l'écriture dans une chaine de caractère (`json.dumps()`) ou dans un fichier (`dump`):

In [2]:
import json

mon_objet = [
    {
        "titre": "Hacking Websites with SQL Injection - Computerphile",
        "lien" : "https://www.youtube.com/watch?v=_jKylhJtPmI"
    },
    {
        "titre": "Cross Site Request Forgery - Computerphile",
        "lien": "https://www.youtube.com/watch?v=vRBihr41JTo"
    }
]

In [3]:
# Avec une chaîne de caractère comme objectif
chaine_json = json.dumps(mon_objet)
print(chaine_json)
print(type(chaine_json))

[{"titre": "Hacking Websites with SQL Injection - Computerphile", "lien": "https://www.youtube.com/watch?v=_jKylhJtPmI"}, {"titre": "Cross Site Request Forgery - Computerphile", "lien": "https://www.youtube.com/watch?v=vRBihr41JTo"}]
<class 'str'>


In [4]:
# Avec un fichier commme objectif
with open("youtube.exemple.json", "w") as f:
    json.dump(mon_objet, f)
    
# On vérifie que cela marche bien :
with open("youtube.exemple.json") as f:
    chaine = f.read()
    objet_recharge = json.loads(chaine)
    print(objet_recharge[0]["titre"])

Hacking Websites with SQL Injection - Computerphile


#### d. Do it by yourself:
#### part1:

Le fichier [twitter.humanitesnumeriques.json](twitter.humanitesnumeriques.json) contient quelques tweets comprenant la mention "humanites numeriques". 

1. Lisez le fichier (*utilisez si nécessaire un formateur comme [JSON Formatter](https://jsonformatter.curiousconcept.com/)*)
2. Essayez de comprendre la structure
3. Afficher grâce à une boucle les tweets en suivant l'exemple suivant :
4. Rechercher des tweets 
5. supprimer des tweets particuliers
6. etre force de proposition sur d'autres fonctionnalités à proposer à votre utilisateur..
```
http://twitter.com/statuses/(939096874388262912) AnthonyMasure RT @entroispoints: Présentation du livre d’@AnthonyMasure Design et humanités numériques #DesignDH @letankparis avec @nicolasthely et @Edit…
```

In [5]:
import json

# A partir d'un wrapper de fichier
with open("twitter.humanitesnumeriques.json") as f:
    #string=f.read()
    tweets=json.load(f)

#tweets

In [6]:
import pandas as pd
from pprint import pprint
pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', -1)

In [7]:
from pandas.io.json import json_normalize
df = json_normalize(tweets['statuses'])
df.head()

Unnamed: 0,created_at,id,id_str,text,truncated,source,in_reply_to_status_id,in_reply_to_status_id_str,in_reply_to_user_id,in_reply_to_user_id_str,in_reply_to_screen_name,geo,coordinates,place,contributors,is_quote_status,retweet_count,favorite_count,favorited,retweeted,lang,entities.hashtags,entities.symbols,entities.user_mentions,entities.urls,metadata.iso_language_code,metadata.result_type,user.id,user.id_str,user.name,user.screen_name,user.location,user.description,user.url,user.entities.description.urls,user.protected,user.followers_count,user.friends_count,user.listed_count,user.created_at,user.favourites_count,user.utc_offset,user.time_zone,user.geo_enabled,user.verified,user.statuses_count,user.lang,user.contributors_enabled,user.is_translator,user.is_translation_enabled,user.profile_background_color,user.profile_background_image_url,user.profile_background_image_url_https,user.profile_background_tile,user.profile_image_url,user.profile_image_url_https,user.profile_banner_url,user.profile_link_color,user.profile_sidebar_border_color,user.profile_sidebar_fill_color,user.profile_text_color,user.profile_use_background_image,user.has_extended_profile,user.default_profile,user.default_profile_image,user.following,user.follow_request_sent,user.notifications,user.translator_type,retweeted_status.created_at,retweeted_status.id,retweeted_status.id_str,retweeted_status.text,retweeted_status.truncated,retweeted_status.entities.hashtags,retweeted_status.entities.symbols,retweeted_status.entities.user_mentions,retweeted_status.entities.urls,retweeted_status.metadata.iso_language_code,retweeted_status.metadata.result_type,retweeted_status.source,retweeted_status.in_reply_to_status_id,retweeted_status.in_reply_to_status_id_str,retweeted_status.in_reply_to_user_id,retweeted_status.in_reply_to_user_id_str,retweeted_status.in_reply_to_screen_name,retweeted_status.user.id,retweeted_status.user.id_str,retweeted_status.user.name,retweeted_status.user.screen_name,retweeted_status.user.location,retweeted_status.user.description,retweeted_status.user.url,retweeted_status.user.entities.url.urls,retweeted_status.user.entities.description.urls,retweeted_status.user.protected,retweeted_status.user.followers_count,retweeted_status.user.friends_count,retweeted_status.user.listed_count,retweeted_status.user.created_at,retweeted_status.user.favourites_count,retweeted_status.user.utc_offset,retweeted_status.user.time_zone,retweeted_status.user.geo_enabled,retweeted_status.user.verified,retweeted_status.user.statuses_count,retweeted_status.user.lang,retweeted_status.user.contributors_enabled,retweeted_status.user.is_translator,retweeted_status.user.is_translation_enabled,retweeted_status.user.profile_background_color,retweeted_status.user.profile_background_image_url,retweeted_status.user.profile_background_image_url_https,retweeted_status.user.profile_background_tile,retweeted_status.user.profile_image_url,retweeted_status.user.profile_image_url_https,retweeted_status.user.profile_banner_url,retweeted_status.user.profile_link_color,retweeted_status.user.profile_sidebar_border_color,retweeted_status.user.profile_sidebar_fill_color,retweeted_status.user.profile_text_color,retweeted_status.user.profile_use_background_image,retweeted_status.user.has_extended_profile,retweeted_status.user.default_profile,retweeted_status.user.default_profile_image,retweeted_status.user.following,retweeted_status.user.follow_request_sent,retweeted_status.user.notifications,retweeted_status.user.translator_type,retweeted_status.geo,retweeted_status.coordinates,retweeted_status.place,retweeted_status.contributors,retweeted_status.is_quote_status,retweeted_status.retweet_count,retweeted_status.favorite_count,retweeted_status.favorited,retweeted_status.retweeted,retweeted_status.possibly_sensitive,retweeted_status.lang,possibly_sensitive,user.entities.url.urls,quoted_status_id,quoted_status_id_str,retweeted_status.quoted_status_id,retweeted_status.quoted_status_id_str,retweeted_status.quoted_status.created_at,retweeted_status.quoted_status.id,retweeted_status.quoted_status.id_str,retweeted_status.quoted_status.text,retweeted_status.quoted_status.truncated,retweeted_status.quoted_status.entities.hashtags,retweeted_status.quoted_status.entities.symbols,retweeted_status.quoted_status.entities.user_mentions,retweeted_status.quoted_status.entities.urls,retweeted_status.quoted_status.metadata.iso_language_code,retweeted_status.quoted_status.metadata.result_type,retweeted_status.quoted_status.source,retweeted_status.quoted_status.in_reply_to_status_id,retweeted_status.quoted_status.in_reply_to_status_id_str,retweeted_status.quoted_status.in_reply_to_user_id,retweeted_status.quoted_status.in_reply_to_user_id_str,retweeted_status.quoted_status.in_reply_to_screen_name,retweeted_status.quoted_status.user.id,retweeted_status.quoted_status.user.id_str,retweeted_status.quoted_status.user.name,retweeted_status.quoted_status.user.screen_name,retweeted_status.quoted_status.user.location,retweeted_status.quoted_status.user.description,retweeted_status.quoted_status.user.url,retweeted_status.quoted_status.user.entities.url.urls,retweeted_status.quoted_status.user.entities.description.urls,retweeted_status.quoted_status.user.protected,retweeted_status.quoted_status.user.followers_count,retweeted_status.quoted_status.user.friends_count,retweeted_status.quoted_status.user.listed_count,retweeted_status.quoted_status.user.created_at,retweeted_status.quoted_status.user.favourites_count,retweeted_status.quoted_status.user.utc_offset,retweeted_status.quoted_status.user.time_zone,retweeted_status.quoted_status.user.geo_enabled,retweeted_status.quoted_status.user.verified,retweeted_status.quoted_status.user.statuses_count,retweeted_status.quoted_status.user.lang,retweeted_status.quoted_status.user.contributors_enabled,retweeted_status.quoted_status.user.is_translator,retweeted_status.quoted_status.user.is_translation_enabled,retweeted_status.quoted_status.user.profile_background_color,retweeted_status.quoted_status.user.profile_background_image_url,retweeted_status.quoted_status.user.profile_background_image_url_https,retweeted_status.quoted_status.user.profile_background_tile,retweeted_status.quoted_status.user.profile_image_url,retweeted_status.quoted_status.user.profile_image_url_https,retweeted_status.quoted_status.user.profile_banner_url,retweeted_status.quoted_status.user.profile_link_color,retweeted_status.quoted_status.user.profile_sidebar_border_color,retweeted_status.quoted_status.user.profile_sidebar_fill_color,retweeted_status.quoted_status.user.profile_text_color,retweeted_status.quoted_status.user.profile_use_background_image,retweeted_status.quoted_status.user.has_extended_profile,retweeted_status.quoted_status.user.default_profile,retweeted_status.quoted_status.user.default_profile_image,retweeted_status.quoted_status.user.following,retweeted_status.quoted_status.user.follow_request_sent,retweeted_status.quoted_status.user.notifications,retweeted_status.quoted_status.user.translator_type,retweeted_status.quoted_status.geo,retweeted_status.quoted_status.coordinates,retweeted_status.quoted_status.place,retweeted_status.quoted_status.contributors,retweeted_status.quoted_status.is_quote_status,retweeted_status.quoted_status.retweet_count,retweeted_status.quoted_status.favorite_count,retweeted_status.quoted_status.favorited,retweeted_status.quoted_status.retweeted,retweeted_status.quoted_status.possibly_sensitive,retweeted_status.quoted_status.lang
0,Sun Dec 10 17:28:18 +0000 2017,939909652824969216,939909652824969216,RT @agefen: L'ouverture de la nouvelle API de ...,False,"<a href=""http://twitter.com"" rel=""nofollow"">Tw...",,,,,,,,,,False,26,0,False,False,fr,[],[],"[{'screen_name': 'agefen', 'name': 'Alexandre ...",[],fr,recent,2468420658,2468420658,Jean-Michel Lapointe,lapointejm,Montréal,bibliothécaire | @UQAM | #édition | #littéraci...,,[],False,436,1832,31,Mon Apr 28 23:56:14 +0000 2014,513,-28800.0,Pacific Time (US & Canada),False,False,630,fr,False,False,False,C0DEED,http://abs.twimg.com/images/themes/theme1/bg.png,https://abs.twimg.com/images/themes/theme1/bg.png,False,http://pbs.twimg.com/profile_images/6515322700...,https://pbs.twimg.com/profile_images/651532270...,https://pbs.twimg.com/profile_banners/24684206...,3B94D9,C0DEED,DDEEF6,333333,True,False,False,False,False,False,False,none,Fri Nov 24 15:58:07 +0000 2017,9.340888e+17,9.340887502919967e+17,L'ouverture de la nouvelle API de Gallica est ...,True,[],[],[],"[{'url': 'https://t.co/n2iog7tPGF', 'expanded_...",fr,recent,"<a href=""https://about.twitter.com/products/tw...",,,,,,14891490.0,14891494.0,Alexandre Gefen,agefen,"48.83456,2.374123",#littérature contemporaine #théorie littéraire...,http://t.co/SJmqqco86S,"[{'url': 'http://t.co/SJmqqco86S', 'expanded_u...",[],False,1791.0,1341.0,79.0,Sat May 24 14:45:04 +0000 2008,764.0,3600.0,Paris,True,False,4048.0,fr,False,False,False,1A1B1F,http://abs.twimg.com/images/themes/theme9/bg.gif,https://abs.twimg.com/images/themes/theme9/bg.gif,False,http://pbs.twimg.com/profile_images/524545768/...,https://pbs.twimg.com/profile_images/524545768...,https://pbs.twimg.com/profile_banners/14891494...,2FC2EF,181A1E,252429,666666.0,True,False,False,False,False,False,False,none,,,,,False,26.0,36.0,False,False,False,fr,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
1,Sat Dec 09 14:41:21 +0000 2017,939505250674860035,939505250674860035,"Des contenus supplémentaires de mon essai ""Des...",True,"<a href=""https://about.twitter.com/products/tw...",,,,,,,,,,False,0,8,False,False,fr,[],[],"[{'screen_name': 'EditionsB42', 'name': 'B42',...","[{'url': 'https://t.co/hJ6x0lymlw', 'expanded_...",fr,recent,8301552,8301552,Anthony Masure,AnthonyMasure,Paris & Toulouse,Associate professor of Design @UTJeanJaures. O...,http://t.co/9XCsLASvoe,"[{'url': 'https://t.co/uUduEMEuwc', 'expanded_...",False,2195,539,184,Mon Aug 20 09:25:00 +0000 2007,10770,3600.0,Paris,False,False,25411,fr,False,False,False,28348B,http://abs.twimg.com/images/themes/theme1/bg.png,https://abs.twimg.com/images/themes/theme1/bg.png,False,http://pbs.twimg.com/profile_images/5163258360...,https://pbs.twimg.com/profile_images/516325836...,https://pbs.twimg.com/profile_banners/8301552/...,28348B,000000,000000,0,False,True,False,False,False,False,False,none,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,False,"[{'url': 'http://t.co/9XCsLASvoe', 'expanded_u...",,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
2,Fri Dec 08 21:02:13 +0000 2017,939238712348758017,939238712348758017,"RT @IHTP_CNRS: Guerre froide, sécurité nationa...",False,"<a href=""http://twitter.com/#!/download/ipad"" ...",,,,,,,,,,False,4,0,False,False,fr,[],[],"[{'screen_name': 'IHTP_CNRS', 'name': 'IHTP_CN...",[],fr,recent,2800184052,2800184052,Fabien Lostec,Combrit29,Rennes,"Enseignant, chargé d'enseignement Rennes 2 et ...",,[],False,264,293,30,Tue Sep 09 16:45:43 +0000 2014,281,,,True,False,11591,fr,False,False,False,C0DEED,http://abs.twimg.com/images/themes/theme1/bg.png,https://abs.twimg.com/images/themes/theme1/bg.png,False,http://pbs.twimg.com/profile_images/5162931184...,https://pbs.twimg.com/profile_images/516293118...,https://pbs.twimg.com/profile_banners/28001840...,1DA1F2,C0DEED,DDEEF6,333333,True,False,True,False,False,False,False,none,Thu Dec 07 19:23:20 +0000 2017,9.388514e+17,9.388514396397117e+17,"Guerre froide, sécurité nationale et Dirty War...",True,[],[],[],"[{'url': 'https://t.co/MaNhK8dRkl', 'expanded_...",fr,recent,"<a href=""https://about.twitter.com/products/tw...",,,,,,3268435000.0,3268435037.0,IHTP_CNRS,IHTP_CNRS,Paris,Institut d'histoire du temps présent - UMR 8244,http://t.co/VLrl5MUoMN,"[{'url': 'http://t.co/VLrl5MUoMN', 'expanded_u...",[],False,1268.0,627.0,44.0,Sun May 17 12:05:16 +0000 2015,256.0,-28800.0,Pacific Time (US & Canada),False,False,459.0,fr,False,False,False,000000,http://pbs.twimg.com/profile_background_images...,https://pbs.twimg.com/profile_background_image...,False,http://pbs.twimg.com/profile_images/7989542515...,https://pbs.twimg.com/profile_images/798954251...,https://pbs.twimg.com/profile_banners/32684350...,FA743E,000000,000000,0.0,True,False,False,False,False,False,False,none,,,,,False,4.0,0.0,False,False,False,fr,False,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
3,Fri Dec 08 12:41:09 +0000 2017,939112613547528193,939112613547528193,RT @entroispoints: Présentation du livre d’@An...,False,"<a href=""http://twitter.com"" rel=""nofollow"">Tw...",,,,,,,,,,False,2,0,False,False,fr,"[{'text': 'DesignDH', 'indices': [89, 98]}]",[],"[{'screen_name': 'entroispoints', 'name': 'Thi...",[],fr,recent,90048502,90048502,Sylvia Fredriksson,s_fredriksson,"Paris, France.",Designer @okfnFr @Ecoledesdonnees @SchoolOfDat...,https://t.co/MHtf3wWTJL,[],False,3109,2694,335,Sat Nov 14 23:43:04 +0000 2009,7141,3600.0,Paris,True,False,12190,en,False,False,False,FFFFFF,http://abs.twimg.com/images/themes/theme14/bg.gif,https://abs.twimg.com/images/themes/theme14/bg...,True,http://pbs.twimg.com/profile_images/5150717532...,https://pbs.twimg.com/profile_images/515071753...,https://pbs.twimg.com/profile_banners/90048502...,009999,EEEEEE,EFEFEF,333333,False,False,False,False,False,False,False,none,Fri Dec 08 11:23:12 +0000 2017,9.39093e+17,9.390929944053391e+17,Présentation du livre d’@AnthonyMasure Design ...,True,"[{'text': 'DesignDH', 'indices': [70, 79]}]",[],"[{'screen_name': 'AnthonyMasure', 'name': 'Ant...","[{'url': 'https://t.co/qe1gkwrFEO', 'expanded_...",fr,recent,"<a href=""http://twitter.com/download/iphone"" r...",,,,,,1700992000.0,1700992040.0,Thibéry,entroispoints,,Designer web et facilitateur graphique #livesk...,https://t.co/Idop94x8L4,"[{'url': 'https://t.co/Idop94x8L4', 'expanded_...",[],False,208.0,550.0,6.0,Mon Aug 26 05:09:10 +0000 2013,470.0,7200.0,Athens,False,False,450.0,fr,False,False,False,C0DEED,http://abs.twimg.com/images/themes/theme1/bg.png,https://abs.twimg.com/images/themes/theme1/bg.png,False,http://pbs.twimg.com/profile_images/6307419976...,https://pbs.twimg.com/profile_images/630741997...,https://pbs.twimg.com/profile_banners/17009920...,1DA1F2,C0DEED,DDEEF6,333333.0,True,False,True,False,False,False,False,none,,,,,False,2.0,7.0,False,False,False,fr,,"[{'url': 'https://t.co/MHtf3wWTJL', 'expanded_...",,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
4,Fri Dec 08 11:38:37 +0000 2017,939096874388262912,939096874388262912,RT @entroispoints: Présentation du livre d’@An...,False,"<a href=""http://tapbots.com/tweetbot"" rel=""nof...",,,,,,,,,,False,2,0,False,False,fr,"[{'text': 'DesignDH', 'indices': [89, 98]}]",[],"[{'screen_name': 'entroispoints', 'name': 'Thi...",[],fr,recent,8301552,8301552,Anthony Masure,AnthonyMasure,Paris & Toulouse,Associate professor of Design @UTJeanJaures. O...,http://t.co/9XCsLASvoe,"[{'url': 'https://t.co/uUduEMEuwc', 'expanded_...",False,2195,539,184,Mon Aug 20 09:25:00 +0000 2007,10770,3600.0,Paris,False,False,25411,fr,False,False,False,28348B,http://abs.twimg.com/images/themes/theme1/bg.png,https://abs.twimg.com/images/themes/theme1/bg.png,False,http://pbs.twimg.com/profile_images/5163258360...,https://pbs.twimg.com/profile_images/516325836...,https://pbs.twimg.com/profile_banners/8301552/...,28348B,000000,000000,0,False,True,False,False,False,False,False,none,Fri Dec 08 11:23:12 +0000 2017,9.39093e+17,9.390929944053391e+17,Présentation du livre d’@AnthonyMasure Design ...,True,"[{'text': 'DesignDH', 'indices': [70, 79]}]",[],"[{'screen_name': 'AnthonyMasure', 'name': 'Ant...","[{'url': 'https://t.co/qe1gkwrFEO', 'expanded_...",fr,recent,"<a href=""http://twitter.com/download/iphone"" r...",,,,,,1700992000.0,1700992040.0,Thibéry,entroispoints,,Designer web et facilitateur graphique #livesk...,https://t.co/Idop94x8L4,"[{'url': 'https://t.co/Idop94x8L4', 'expanded_...",[],False,208.0,550.0,6.0,Mon Aug 26 05:09:10 +0000 2013,470.0,7200.0,Athens,False,False,450.0,fr,False,False,False,C0DEED,http://abs.twimg.com/images/themes/theme1/bg.png,https://abs.twimg.com/images/themes/theme1/bg.png,False,http://pbs.twimg.com/profile_images/6307419976...,https://pbs.twimg.com/profile_images/630741997...,https://pbs.twimg.com/profile_banners/17009920...,1DA1F2,C0DEED,DDEEF6,333333.0,True,False,True,False,False,False,False,none,,,,,False,2.0,7.0,False,False,False,fr,,"[{'url': 'http://t.co/9XCsLASvoe', 'expanded_u...",,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,


In [8]:
liste=[df.columns]
for i in liste:
    print(i)

Index(['created_at',
       'id',
       'id_str',
       'text',
       'truncated',
       'source',
       'in_reply_to_status_id',
       'in_reply_to_status_id_str',
       'in_reply_to_user_id',
       'in_reply_to_user_id_str',
       ...
       'retweeted_status.quoted_status.coordinates',
       'retweeted_status.quoted_status.place',
       'retweeted_status.quoted_status.contributors',
       'retweeted_status.quoted_status.is_quote_status',
       'retweeted_status.quoted_status.retweet_count',
       'retweeted_status.quoted_status.favorite_count',
       'retweeted_status.quoted_status.favorited',
       'retweeted_status.quoted_status.retweeted',
       'retweeted_status.quoted_status.possibly_sensitive',
       'retweeted_status.quoted_status.lang'],
      dtype='object', length=217)


In [46]:
df_choix=df[['id','created_at','user.name','text']]
df_choix

Unnamed: 0,id,created_at,user.name,text
0,939909652824969216,Sun Dec 10 17:28:18 +0000 2017,Jean-Michel Lapointe,RT @agefen: L'ouverture de la nouvelle API de ...
1,939505250674860035,Sat Dec 09 14:41:21 +0000 2017,Anthony Masure,"Des contenus supplémentaires de mon essai ""Des..."
2,939238712348758017,Fri Dec 08 21:02:13 +0000 2017,Fabien Lostec,"RT @IHTP_CNRS: Guerre froide, sécurité nationa..."
3,939112613547528193,Fri Dec 08 12:41:09 +0000 2017,Sylvia Fredriksson,RT @entroispoints: Présentation du livre d’@An...
4,939096874388262912,Fri Dec 08 11:38:37 +0000 2017,Anthony Masure,RT @entroispoints: Présentation du livre d’@An...
5,939092994405339136,Fri Dec 08 11:23:12 +0000 2017,Thibéry,Présentation du livre d’@AnthonyMasure Design ...
6,939086210210951169,Fri Dec 08 10:56:14 +0000 2017,Sophie Bertrand,RT @Ecoledeschartes: [Vidéo] (re)voir la journ...
7,939075181208850432,Fri Dec 08 10:12:25 +0000 2017,MSHS TOULOUSE,RT @urfistoulouse: Mise en ligne des vidéos de...
8,939057071739293696,Fri Dec 08 09:00:27 +0000 2017,Romuald Verrier,RT @Ecoledeschartes: [Vidéo] (re)voir la journ...
9,938915132469665797,Thu Dec 07 23:36:26 +0000 2017,Laura Guien,"RT @IHTP_CNRS: Guerre froide, sécurité nationa..."


In [21]:
df['user.name']

0     Jean-Michel Lapointe
1           Anthony Masure
2            Fabien Lostec
3       Sylvia Fredriksson
4           Anthony Masure
5                  Thibéry
6          Sophie Bertrand
7            MSHS TOULOUSE
8          Romuald Verrier
9              Laura Guien
10       Valérie Hugonnard
11       Valérie Hugonnard
12       Valérie Hugonnard
13       Tempora - EA 7468
14    Goulet Anne-Madelein
Name: user.name, dtype: object

In [10]:
tmp=tweets['statuses']

#for i in range(len(tmp)):
    #print(f'{i},{tmp[i]}')
#print(tmp[0].keys())
url="http://twitter.com/statuses/"
for i in range(len(tmp)):
    print(url+str(tmp[i]['id']))
    print(tmp[i]['created_at'])
    print(tmp[i]['user']['name'])
    print(tmp[i]['text'])
    
#print(url+str(tmp[i]['id']),tmp[i]['created_at'],tmp[i]['user']['name'],tmp[i]['text'])

http://twitter.com/statuses/939909652824969216
Sun Dec 10 17:28:18 +0000 2017
Jean-Michel Lapointe
RT @agefen: L'ouverture de la nouvelle API de Gallica est un événement scientifique majeur pour le paysage des Humanités Numériques en Fran…
http://twitter.com/statuses/939505250674860035
Sat Dec 09 14:41:21 +0000 2017
Anthony Masure
Des contenus supplémentaires de mon essai "Design et humanités numériques" @EditionsB42 sont disponibles en libre a… https://t.co/hJ6x0lymlw
http://twitter.com/statuses/939238712348758017
Fri Dec 08 21:02:13 +0000 2017
Fabien Lostec
RT @IHTP_CNRS: Guerre froide, sécurité nationale et Dirty War. Le retour du passé latino-américain à travers les « documents déclassifiés »…
http://twitter.com/statuses/939112613547528193
Fri Dec 08 12:41:09 +0000 2017
Sylvia Fredriksson
RT @entroispoints: Présentation du livre d’@AnthonyMasure Design et humanités numériques #DesignDH @letankparis avec @nicolasthely et @Edit…
http://twitter.com/statuses/939096874388262912
Fri Dec 

#### e.part2

À partir du code précédent, transformez l'exercice en chargeant le même fichier JSON et en écrivant un fichier CSV reprenant la structure en colonne `Lien | Auteur | Date | Tweet`

In [50]:
#print(tmp[0]['id'])
#print(tmp[0]['created_at'])
#print(tmp[0]['user']['name'])
#print(tmp[0]['text'])
#liste_lien=[status['id'] for status in tmp]
#liste_auteur=[status['user']['name']for status in tmp]
#liste_date=[statusg['created_at']for status in tmp]
#liste_tweet=[status['text']for status in tmp]

liste_lien = []
liste_auteur = []
liste_date = []
liste_tweet = []

for i in tmp:
    liste_lien.append(i['id'])
    liste_auteur.append(i['user']['name'])
    liste_date.append(i['created_at'])
    liste_tweet.append(i['text'])

dlistes={'liste_lien':liste_lien,
         'liste_auteur':liste_auteur,
         'liste_date':liste_date,
         'liste_tweet':liste_tweet}

df_choix=pd.DataFrame.from_dict(dlistes)
#df
df_choix.to_csv("mes_tweets_choix.csv")

In [44]:
df_choix[df_choix.liste_tweet.str.contains('humanité', regex=True)]

Unnamed: 0,liste_lien,liste_auteur,liste_date,liste_tweet
1,939505250674860035,Anthony Masure,Sat Dec 09 14:41:21 +0000 2017,"Des contenus supplémentaires de mon essai ""Des..."
3,939112613547528193,Sylvia Fredriksson,Fri Dec 08 12:41:09 +0000 2017,RT @entroispoints: Présentation du livre d’@An...
4,939096874388262912,Anthony Masure,Fri Dec 08 11:38:37 +0000 2017,RT @entroispoints: Présentation du livre d’@An...
5,939092994405339136,Thibéry,Fri Dec 08 11:23:12 +0000 2017,Présentation du livre d’@AnthonyMasure Design ...
6,939086210210951169,Sophie Bertrand,Fri Dec 08 10:56:14 +0000 2017,RT @Ecoledeschartes: [Vidéo] (re)voir la journ...
7,939075181208850432,MSHS TOULOUSE,Fri Dec 08 10:12:25 +0000 2017,RT @urfistoulouse: Mise en ligne des vidéos de...
8,939057071739293696,Romuald Verrier,Fri Dec 08 09:00:27 +0000 2017,RT @Ecoledeschartes: [Vidéo] (re)voir la journ...
10,938878443684495360,Valérie Hugonnard,Thu Dec 07 21:10:39 +0000 2017,RT @ISORE_SHS: #isore17 @lully1804\nExperiment...
11,938877376469008385,Valérie Hugonnard,Thu Dec 07 21:06:24 +0000 2017,RT @ISORE_SHS: #isore17 @lully1804\nExperiment...
12,938877284123119616,Valérie Hugonnard,Thu Dec 07 21:06:02 +0000 2017,RT @ISORE_SHS: #isore17 \n@lully1804 \nExperim...


In [51]:
df_choix[df_choix.liste_lien.isin ([939096874388262912 ,938864145918824448])]

Unnamed: 0,liste_lien,liste_auteur,liste_date,liste_tweet
4,939096874388262912,Anthony Masure,Fri Dec 08 11:38:37 +0000 2017,RT @entroispoints: Présentation du livre d’@An...
14,938864145918824448,Goulet Anne-Madelein,Thu Dec 07 20:13:50 +0000 2017,RT @Ecoledeschartes: [Vidéo] (re)voir la journ...


In [14]:
df_choix[df_choix.liste_tweet.str.contains('Présentation', regex=False)]

Unnamed: 0,liste_lien,liste_auteur,liste_date,liste_tweet
3,939112613547528193,Sylvia Fredriksson,Fri Dec 08 12:41:09 +0000 2017,RT @entroispoints: Présentation du livre d’@An...
4,939096874388262912,Anthony Masure,Fri Dec 08 11:38:37 +0000 2017,RT @entroispoints: Présentation du livre d’@An...
5,939092994405339136,Thibéry,Fri Dec 08 11:23:12 +0000 2017,Présentation du livre d’@AnthonyMasure Design ...


In [114]:
data={'liste_lien':[939092994405339139],'liste_auteur':['name'],"liste_date":['Fri Dec 08 11:23:12 +0000 2020'],"liste_tweet":['la fin des greve']}
aa=pd.DataFrame.from_dict(data)
pd.concat([df_choix,aa]).reset_index()

Unnamed: 0,index,liste_lien,liste_auteur,liste_date,liste_tweet
0,0,939909652824969216,Jean-Michel Lapointe,Sun Dec 10 17:28:18 +0000 2017,RT @agefen: L'ouverture de la nouvelle API de ...
1,1,939505250674860035,Anthony Masure,Sat Dec 09 14:41:21 +0000 2017,"Des contenus supplémentaires de mon essai ""Des..."
2,2,939238712348758017,Fabien Lostec,Fri Dec 08 21:02:13 +0000 2017,"RT @IHTP_CNRS: Guerre froide, sécurité nationa..."
3,3,939112613547528193,Sylvia Fredriksson,Fri Dec 08 12:41:09 +0000 2017,RT @entroispoints: Présentation du livre d’@An...
4,4,939096874388262912,Anthony Masure,Fri Dec 08 11:38:37 +0000 2017,RT @entroispoints: Présentation du livre d’@An...
5,5,939092994405339136,Thibéry,Fri Dec 08 11:23:12 +0000 2017,Présentation du livre d’@AnthonyMasure Design ...
6,6,939086210210951169,Sophie Bertrand,Fri Dec 08 10:56:14 +0000 2017,RT @Ecoledeschartes: [Vidéo] (re)voir la journ...
7,7,939075181208850432,MSHS TOULOUSE,Fri Dec 08 10:12:25 +0000 2017,RT @urfistoulouse: Mise en ligne des vidéos de...
8,8,939057071739293696,Romuald Verrier,Fri Dec 08 09:00:27 +0000 2017,RT @Ecoledeschartes: [Vidéo] (re)voir la journ...
9,9,938915132469665797,Laura Guien,Thu Dec 07 23:36:26 +0000 2017,"RT @IHTP_CNRS: Guerre froide, sécurité nationa..."


In [16]:
df_choix.tail()

Unnamed: 0,liste_lien,liste_auteur,liste_date,liste_tweet
10,938878443684495360,Valérie Hugonnard,Thu Dec 07 21:10:39 +0000 2017,RT @ISORE_SHS: #isore17 @lully1804\nExperiment...
11,938877376469008385,Valérie Hugonnard,Thu Dec 07 21:06:24 +0000 2017,RT @ISORE_SHS: #isore17 @lully1804\nExperiment...
12,938877284123119616,Valérie Hugonnard,Thu Dec 07 21:06:02 +0000 2017,RT @ISORE_SHS: #isore17 \n@lully1804 \nExperim...
13,938869523939241984,Tempora - EA 7468,Thu Dec 07 20:35:12 +0000 2017,"RT @IHTP_CNRS: Guerre froide, sécurité nationa..."
14,939092994405339139,name,Fri Dec 08 11:23:12 +0000 2020,la fin des greve


In [17]:
df_choix.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 4 columns):
liste_lien      15 non-null int64
liste_auteur    15 non-null object
liste_date      15 non-null object
liste_tweet     15 non-null object
dtypes: int64(1), object(3)
memory usage: 608.0+ bytes


----

#### Ce que l'on a appris:

voici un récapitulatif des concepts appris.

- La structure d'un fichier json
- `json.load`
- `json.loads`
- `json.dump`
- `json.dumps`
- `from ___ import ___`
- la notion de librairie/module/package
- `csv.reader()`
- `csv.writer()`
- `enumerate()`
- Lire une documentation et ses exemples

#### Ce que l'on recommande d'approfondir

Si les fonctions `csv.reader()` et `csv.writer()` sont sympathiques, les fonctions `DictReader` et `DictWriter` le sont beaucoup plus : elles stockent les noms de colonnes ! *cf.* [la documentation](https://docs.python.org/3.5/library/csv.html#csv.DictReader)

In [18]:
import csv

with open('tttwit.csv', 'w') as f:
    
    fnames = ['liste_auteur','liste_date','liste_tweet','liste_lien']
    writer = csv.DictWriter(f, fieldnames=fnames)
    writer.writeheader()

    for i in range(len(liste_lien)):
        writer.writerow({'liste_lien':liste_lien[i],'liste_auteur':liste_auteur[i],"liste_date":liste_date[i],"liste_tweet":liste_tweet[i]})


In [3]:
import pandas as pd
dico={"A":1, "B":2}
pd.DataFrame.from_dict([dico])

Unnamed: 0,A,B
0,1,2
