# Analyser des données depuis des API Web

Python permet de s'interfacer avec de nombreux services web (API). 

Dans cette partie nous verrons : 

- Ce qu'est une API 
- Comment Python et Pandas permettent de transformer des données brutes en un DataFrame exploitable

## Introduction aux API Web

Une API (Application Programming Interface) permet de récupérer des des données mises à disposition par des services Web accessibles depuis une adresse particulière. 

La plupart des services Web (Google Analytics, Mixpanel, Twitter, Facebook, le New York Times etc..) dispose d'API ce qui en fait une source de données de choix. 

Python et Pandas sont d'excellents outils pour récupérer, transformer et analyser ces données web. 

### URLs 

Une URL (Unique Ressource Locator) permet d'identifier de manière unique une ressource sur Internet. Prenons l'URL suivante : 

Cette URL se décompose en blocs logiques : 

- ***http://*** = le schéma, détermine le protocole que nous utilisons pour communiquer avec le service Web. Nous utiliserons principalement le protocole **http**
- ***www.example.com*** = l'hôte qui détermine sur quel serveur de l'internet nous allons communiquer
- ***/foo/bar*** = spécifie le chemin où se trouve la ressource
- ***?arg1=baz&arg2=quux*** les paramètres de la requête

### HTML vs JSON

- HTML permet de renvoyer de la donnée pour un utilisateur. Lorsqu'une requête est faite sur un serveur, celui-ci renvoie des éléments (html, css,jss, etc..) permettant au navigateur d'afficher une page web **user-friendly**

<img src='files/images/html.png' width=500>

- JSON permet de renvoyer de la donnée structurée, exploitable par une machine. Lorsqu'un service doit communiquer avec un autre service, les données renvoyées sont **machine-friendly**. Plusieurs formats sont possibles (CSV, JSON, XML etc..)

<img src='files/images/json.png' width=500>

Le format JSON (Javascript Object Notation) est un des formats préférés des Web API. 

Il peut être composé de deux structures : 

- Dictionnaire clé / valeur
- Tableaux d'objets 

Voici un exemple de JSON : 

In [None]:
{
     "firstName": "John",
     "lastName": "Smith",
     "address": {
         "streetAddress": "21 2nd Street",
         "city": "New York",
         "state": "NY",
         "postalCode": 10021
     },
     "phoneNumbers": [
         "212 555-1234",
         "646 555-4567"
     ]
 }

### Exemples d'API populaires

La plupart des services Web disposent d'API. Elles sont également documentées voici quelques exemples : 

- Facebook - https://developers.facebook.com/tools/explorer/
- Twitter - https://dev.twitter.com/rest/tools/console
- Google Analytics - https://ga-dev-tools.appspot.com/explorer/
- The New York Times - http://developer.nytimes.com/docs

## Let's do it ! Analyse des tweets du compte officiel de l'Elysée

Avec près de 500 millions de tweets émis chaque jour, Twitter est une source de données inépuisable. 

Les données sont accessibles au format JSON par une API bien documentée. 

L'analyse des tweets offre plusieurs possibilités : 

- Analyse temporelle (date et heure d'émission)
- Analyse texte, de sentiment
- Analyse du nombre de retweets
- Analyse de graphe (réponse, mentions etc..)

Dans cet exercice, nous allons faire une analyse descriptive du compte Twitter officiel de l'Elysée (https://twitter.com/Elysee). 

Nous allons essayer de répondre à plusieurs questions : 

- Comment évolue le nombre de tweets sur le compte officiel ? 
- Y a t il des pics de retweets ? Si oui pourquoi ? 
- Quel sont les comptes que l'Elysée mentionne le plus ? 
- Quels sont les thèmes / hashtags les plus populaires ? 
- Comment ces thèmes évoluent ils dans le temps ? 

### Se connecter à l'API de Twitter

De nombreuses librairies Python ont été développées pour "dialoguer" avec l'API de Twitter. 

Une liste officielle des librairies Twitter par langage peut être trouvée à cette adresse - https://dev.twitter.com/overview/api/twitter-libraries
    
Pour les besoins de cet exercice, nous utiliserons la librairie **TwitterSearch** - https://github.com/ckoepp/TwitterSearch. Une documentation exhaustive des méthodes de cette librairie est disponible à l'adresse - https://twittersearch.readthedocs.org/en/latest/TwitterSearch.html

Installez TwitterSearch depuis votre terminal en exécutant : 

In [None]:
pip install TwitterSearch

L'accès à l'API est sécurisé. Pour obtenir des clés d'accès : 

- Créez un compte Twitter
- Créez une application sur https://apps.twitter.com/

On peut dès lors appeler la librarie TwitterSearch en spécifiant ses identifiants de connexion : 

In [1]:
from TwitterSearch import *

twitter_api = TwitterSearch(
    consumer_key = 'BfC6oRKkMCSgqts9OWP2pjiqE',
    consumer_secret = 'lebgfP9PjWPJwCzcq8zsU3VM6cLYpDFRh9r0E5iVy8xJvklH4f',
    access_token = '2445442868-75un1nZ24ZsmY1Ogc4QBfk1X7xCWlIDizsY3BK5',
    access_token_secret = 'YloFEjYmqv05NgGB39mO92ZK9d06pFjOrGkVllPym4ohO'
    )

Nous allons faire un premier test, en recherchant tous les tweets qui contiennent un mot en particulier. Nous utilisons pour cela la méthode **search_tweets** de l'objet **TwitterSearchOrder()**

In [2]:
tso = TwitterSearchOrder() # nous créons ici un objet TwitterSearchOrder()
tso.set_keywords(['Elysee']) # recherchons tous les tweets comportant le mot Elysee
        
search_results = twitter_api.search_tweets(tso) # La méthode search_tweets permet de rechercher tous les tweets 

La réponse de l'API est au format JSON. Nous pouvons explorer le contenu, en utilisant la méthode **keys()**

In [3]:
print search_results.keys()

print search_results['content'].keys()

['content', 'meta']
[u'search_metadata', u'statuses']


In [5]:
print search_results

{'content': {u'search_metadata': {u'count': 100, u'completed_in': 0.057, u'max_id_str': u'573059564100321282', u'since_id_str': u'0', u'next_results': u'?max_id=573051378844733440&q=Elysee&count=100&include_entities=1', u'refresh_url': u'?since_id=573059564100321282&q=Elysee&include_entities=1', u'since_id': 0, u'query': u'Elysee', u'max_id': 573059564100321282}, u'statuses': [{u'contributors': None, u'truncated': False, u'text': u"RT @LeParisienTV: EXCLUSIF. Nos lecteurs ont interview\xe9 @FHollande \xe0 l'Elys\xe9e\n\u25b6 http://t.co/B6EBiXMip2 http://t.co/JUxuWVDDXs", u'in_reply_to_status_id': None, u'id': 573059564100321282, u'favorite_count': 0, u'source': u'<a href="http://twitter.com/download/iphone" rel="nofollow">Twitter for iPhone</a>', u'retweeted': False, u'coordinates': None, u'entities': {u'symbols': [], u'user_mentions': [{u'id': 2303491309, u'indices': [3, 16], u'id_str': u'2303491309', u'screen_name': u'LeParisienTV', u'name': u'Le Parisien TV'}, {u'id': 18814998, u'i

In [None]:
print len(search_results['content']['statuses'])

L'objet'statuses' est une liste de 100 éléments.

Nous pouvons également afficher les clés de chacun des tweets renvoyés : 

In [11]:
print search_results['content']['statuses'][99]['text']

RT @bchameroy: Breaking news : Fin de l'alerte enlèvement, Philae est toujours à l'Elysée ! http://t.co/wvyHgTqY1f


### Charger et inspecter les données

In [10]:
import urllib
import json
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import re

In [12]:
%matplotlib inline
pd.set_option('display.mpl_style', 'default') # rendre les graphes un peu plus jolies :) 
plt.rc('figure', figsize=(20, 5))

from datetime import datetime

Si nous souhaitons analyser l'intégralité des tweets d'un compte en particulier, nous devons utiliser l'objet **TwitterUserOrder** :

In [None]:
tuo = TwitterUserOrder('Elysee')

elysee_results = twitter_api.search_tweets(tuo)

Nous pouvons afficher le premier tweet renvoyé par notre requête via : 

In [None]:
elysee_results['content'][0]

Il nous faut donc réaliser une **boucle**. Le temps pour récupérer les données pouvant être long, on pourra utiliser le fichier **elysee.txt** qui contient un export des tweets bruts. 

In [None]:
from TwitterSearch import *

data = []

try:
    tuo = TwitterUserOrder('Elysee') 

    twitter_api = TwitterSearch(
        consumer_key = 'XXX',
        consumer_secret = 'XXX',
        access_token = 'XXX',
        access_token_secret = 'XXX'
    )
    
    # perform search with iterables
    for tweet in twitter_api.search_tweets_iterable(tuo):
        data.append(tweet)

except TwitterSearchException as e: # catch errors
    print(e)

On peut importer le fichier **elysee.txt**, au format JSON qui contient l'ensemble des tweets de la timeline 'Elysee'

In [13]:
elysee = json.load(open('data/elysee.txt'))

Analysons rapidement la taille ainsi que la structure des objets : 

In [14]:
# Affichons la taille du fichier

print len(elysee)

# Affichons les clés du premier élément

print elysee[0].keys()

3239
[u'contributors', u'truncated', u'text', u'in_reply_to_status_id', u'id', u'favorite_count', u'source', u'retweeted', u'coordinates', u'entities', u'in_reply_to_screen_name', u'id_str', u'retweet_count', u'in_reply_to_user_id', u'favorited', u'user', u'geo', u'in_reply_to_user_id_str', u'possibly_sensitive', u'lang', u'created_at', u'in_reply_to_status_id_str', u'place']


### Analyser l'évolution des tweets dans le temps

Nous allons nous intéresser dans un premier temps aux colonnes **text, retweet_count, created_at**.

Au moment de créer notre DataFrame, nous pouvons donc spécifier les colonnes à utiliser. 

Faire également attention aux Index. Nous allons travailler avec un set de données temporel, il advient de bien spécifier l'index que nous allons utiliser : Voir ***03 - Focus série temporelles avec Python***

In [None]:
colonnes = ['text','retweet_count','created_at']

elysee_df = pd.DataFrame(elysee, 
                         columns=colonnes)

date = pd.to_datetime(elysee_df['created_at'])

elysee_df = elysee_df.set_index(date)

elysee_df['created_at'] = date

In [None]:
count_date = elysee_df['text'].resample('W',how='count')

count_date.plot().set_title('Nombre de tweets du compte @Elysee par semaine')

### A vous : 

- Afficher un graphe de l'évolution du nombre de retweets par jour. 
- Que s'est il passé en Juin 2014 et en Janvier 2015 ? 
- Afficher les tweets de la journée du 6 juin. Quel est celui qui a eu le plus de retweets?     
- Quels sont les heures les plus importantes en terme de retweets ? 

### Analyser les mentions et les hashtags les plus populaires 

Python permet également de manipuler facilement des chaines de texte grâce aux expressions régulières ***(voir Focus expression régulière dans ce dossier)*** 

Nous pouvons extraire plusieurs informations intéressantes comme : 

- Les mentions (précédés d'un '@')
- Les hastags (précédés d'un '#') 

Si nous souhaitons extraire les mentions de la colonne texte, nous pouvons écrire : 

In [None]:
pattern_mentions = "@[A-Z0-9._%+-]+"

elysee_df['mentions'] = elysee_df['text'].str.findall(pattern_mentions, re.IGNORECASE).str[0]

On peut dés lors compter le nombre de mentions en groupant par la colonne mentions :

In [None]:
elysee_df.groupby('mentions').size().order(ascending=False)[0:10]

### A vous :

   - Quelles sont les mentions les plus populaires ? 
   - Quels sont les hashtags les plus populaires ? 
   - Quels sont les hashtages les plus populaires, mentionnant @gouvernementFR ? 
   - Quelles sont les mentions les plus populaires, comportant le hashtag #DDay70 ?  