Documentation de l'API : https://github.com/GeneralMills/pytrends

### open issues
Limites de requêtes sur Google :
- générer un string aléatoire à passer en paramètre custom_useragent
https://github.com/GeneralMills/pytrends/issues/77
- si erreur, utiliser un autre compte gmail

Format JSON :
- quel format lu par chart.js, d3.js ?
http://stackoverflow.com/questions/24929931/drawing-line-chart-in-chart-js-with-json-response

Plus de 5 recherches à la fois :
- cf open issues sur pytrends
https://github.com/GeneralMills/pytrends/issues/77

Gérer les timestamps pour les extracts de données sans heure ni minute

### Les tendances sur les recherches
- 'Élection présidentielle française de 2017' : '/m/0n49cn3' (Élection)

#### Codes associés aux candidats :
- Manuel Valls : '/m/047drb0' (Ancien Premier ministre français)
- François Fillon : '/m/0fqmlm' (Ancien Ministre de l’Écologie, du Développement durable et de l’Énergie)
- Benoît Hamon : '/m/0551nw'
- Vincent Peillon : '/m/0551vp' (Homme politique)
- François Bayrou : '/m/02y2cb' (Homme politique)
- François Hollande : '/m/02qg4z' (Président de la République française)
- Jean-Luc Mélanchon : '/m/04zzm99' (Homme politique)
- Yannick Jadot : '/m/05zztc0' (Ecologiste)
- Nicolas Dupont-Aignan (Debout la France) : '/m/0f6b18'
- Michèle Alliot-Marie (Indépendante) : '/m/061czc' (Ancienne Ministre de l'Intérieur de France)
- Nathalie Artaud (LO) : pas dispo
- Philippe Poutou (NPA) : '/m/0gxyxxy'
- Emmanuel Macron : '/m/011ncr8c' (Ancien Ministre de l'Économie et des Finances)
- Jacques Cheminade : '/m/047fzn'
- Marine Le Pen : '/m/02rdgs'

#### Codes associés aux partis :
- LR : '/g/11b7n_r2jq'
- PS : '/m/01qdcv'
- FN : '/m/0hp7g'
- EELV : '/m/0h7nzzw'
- FI (France Insoumise) : 'France Insoumise' (pas de sujet dédié)
- PCF : '/m/01v8x4'
- Debout la France : '/m/02rwc3q'
- MoDem : '/m/02qt5xp' (Mouvement Démocrate)
- Lutte Ouvrière : '/m/01vvcv'
- Nouveau Parti Anticapitalise : '/m/04glk_t'
- En marche : 'En Marche' (pas de sujet dédié)

#### Codes sur des thèmes de campagne :
- Travail : /g/122h6md7
- Education : /m/02jfc
- Finance : /m/02_7t
- Ecologie : /m/02mgp
- Santé : /m/0kt51
- Religion : /m/06bvp
- Manifestation : /m/0gnwz4
- Union Européenne : /m/0_6t_z8


In [1]:
#!/usr/bin/python
# coding: utf-8

from __future__ import unicode_literals
from trendsAPI import * # API non officielle
import json
import pandas as pd
from datetime import datetime, timedelta
import re
import sys
from numpy.random import rand
from numpy import sign
import time


def convert_date_column(dataframe): # Conversion du format en un string court
    dates = []
    rdict = {',': '', ' PST': '', ' à': '', 'janv.': '01', 'févr.': '02', 'mars': '03', 'avr.': '04',
             'mai': '05', 'juin': '06', 'juil.': '07', 'août': '08', 'sept.': '09', 'oct.': '10',
             'nov.': '11', 'déc.': '12'}
    robj = re.compile('|'.join(rdict.keys()))
    
    rdict2 = {' 01 ': ' janv. ', ' 02 ': ' févr. ', ' 03 ': ' mars ', ' 04 ': ' avr. ', ' 05 ': ' mai ',
              ' 06 ': ' juin ', ' 07 ': ' juil. ', ' 08 ': ' août ', ' 09 ': ' sept. ', ' 10 ': ' oct. ',
              ' 11 ': ' nov. ', ' 12 ': ' déc. '}
    robj2 = re.compile('|'.join(rdict2.keys()))
    
    if 'PST' in dataframe['Date'][0]: # format de date anglais avec heure
        in_format = '%b %d %Y %H:%M' # type : Jan 18 2017 12:00
        
        for date in dataframe['Date']: # Conversion en timestamp sur le fuseau GMT+1
            t = datetime.strptime(robj.sub(lambda m: rdict[m.group(0)], date), in_format) + timedelta(hours=9)
            t = datetime.strftime(t, '%d %m %H:%M') # conversion de nouveau en string du type : 18 01 12:00
            dates.append(robj2.sub(lambda m: rdict2[m.group(0)], t)) # remplacement des mois en toutes lettres

    elif 'UTC' in dataframe['Date'][0]: # format de date français avec heure
        in_format = '%d %m %Y %H:%M' # type : 18 01 2017 12:00
        
        for date in dataframe['Date']: # Conversion en timestamp sur le fuseau GMT+1
            t = datetime.strptime(robj.sub(lambda m: rdict[m.group(0)], date[0:-6]), in_format) + timedelta(hours=9)
            t = datetime.strftime(t, '%d %m %H:%M') # conversion de nouveau en string du type : 18 01 12:00
            dates.append(robj2.sub(lambda m: rdict2[m.group(0)], t)) # remplacement des mois en toutes lettres
    
    else: # si les dates ne contiennent pas l'heure (ie. recherche sur plus d'un mois)
        rdict = {', ': ' ', 'janvier': 'janv.', 'février': 'févr.', 'avril': 'avr.', 'juillet': 'juil.',
                 'septembre': 'sept.', 'octobre': 'oct.', 'novembre': 'nov.', 'décembre': 'déc.'}
        robj = re.compile('|'.join(rdict.keys()))
        for date in dataframe['Date']:
            t = robj.sub(lambda m: rdict[m.group(0)], date)
            dates.append(' '.join(t.split(' ')[1:-1]))
    
    dataframe['Date'] = dates
    return


def trends_to_json(query='', periode=''):
    """
    Télécharge sous format json les données de Google Trends avec les paramètres indiqués.
    Ceux-ci doivent appartenir aux recherches préconfigurées dans les dictionnaires <queries>
    et <periodes>.
    
    Si aucun paramètre n'est spécifié, la fonction va balayer toutes les combinaisons de
    requêtes et de périodes préconfigurées.
    """

    # Les termes de recherche (5 au maximum separes par des virgules)
    # On associe a un type de recherche la liste des parametres correspondants
    queries = {'candidats_A': '/m/047drb0, /m/04zzm99, /m/02rdgs, /m/011ncr8c, /m/0fqmlm',
               'partis_A': '/g/11b7n_r2jq, /m/01qdcv, /m/0hp7g, /m/0h7nzzw',
              'divers_gauche': 'France Insoumise, /m/01vvcv, /m/04glk_t, /m/01v8x4'} 
    
    periodes = {'3d': 'now 3-d'}

    if query == '':
        query = set([q for q in queries])
    else:
        query = set([query])
    
    if periode == '':
        periode = set([p for p in periodes])
    else:
        periode = set([periode])
        
    if not (query.issubset(queries) and periode.issubset(periodes)):
        print('Erreur de parametre')
        return
    
    success = []
    users = ['pfrlepoint@gmail.com', 'pfrlepoint2@gmail.com']
    for user in users[::int(sign(rand(1) * 2 - 1))]: # une chance sur deux de partir de la fin de la liste
        try:
            # Connection à Google (utiliser une vraie adresse gmail permet plus de requêtes)
            pytrend = TrendReq(user, 'projet_fil_rouge', custom_useragent='PFR')
            
            for q in query:
                for p in periode:
                    if (q, p) in success:
                        continue
                    else:
                        payload = {'q': queries[q], 'geo': 'FR', 'date': periodes[p], 'hl': 'fr-FR'}
                        # Possibilite de periode personnalise : specifier deux dates (ex : 2015-01-01 2015-12-31)
                        # geographie : FR (toute France), FR-A ou B ou C... (region de France par ordre alphabetique)
                        # categorie politique : cat = 396

                        df = pytrend.trend(payload, return_type='dataframe')
                        convert_date_column(df) # converts date into a short string
                        df.set_index('Date', inplace=True)

                        # reduction du nombre de lignes du dataframe a une trentaine de points
                        # pour la lisibilité du graph
                        n = {'4h': 2, '1d': 4, '3d': 1, '7d': 6, '1m': 1, '3m': 2}
                        # n = 1 # pour désactiver cette fonction

                        # Sauvegarde en JSON
                        server_path = '/var/www/html/gtrends/data/' # path complet
                        # server_path = ''
                        df[(df.shape[0] - 1) % n[p]::n[p]].to_json(
                            server_path + q + '_' + p + '.json', orient='split', date_unit='ms')

                        print('Connexion réussie avec l\'adresse : ' + user)
                        print('Enregistrement sous : ' + server_path + q + '_' + p + '.json')
                        success.append((q, p)) # on garde en mémoire les couples q, p qui ont fonctionné

                        # espacement des requêtes pour ne pas dépasser la limite
                        time.sleep(6)
                    
            return

        except (RateLimitError, ResponseError):
            print('Limite de requêtes dépassée, tentative avec une autre adresse mail...')

    print('Erreur lors de la récupération des données.')
    return


#### Fonction qui sauvegarde les requetes via l'API en JSON

In [25]:
trends_to_json()

Connexion réussie avec l'adresse : pfrlepoint2@gmail.com
Enregistrement sous : partis_A_3d.json
Connexion réussie avec l'adresse : pfrlepoint2@gmail.com
Enregistrement sous : candidats_A_3d.json
Connexion réussie avec l'adresse : pfrlepoint2@gmail.com
Enregistrement sous : divers_gauche_3d.json


In [23]:
df_json = pd.read_json('partis_A_3d.json', orient='split')
df_json

Unnamed: 0,Europe Ecology – The Greens,National Front,Socialist Party,The Republicans
20 janv. 12:00,0,5,8,1
20 janv. 13:00,0,5,8,1
20 janv. 14:00,0,4,5,1
20 janv. 15:00,0,4,5,1
20 janv. 16:00,0,4,5,1
20 janv. 17:00,0,3,5,1
20 janv. 18:00,0,4,6,1
20 janv. 19:00,0,5,8,1
20 janv. 20:00,0,5,10,1
20 janv. 21:00,0,4,6,1


### Requête ad-hoc

In [6]:
payload = {'q': '/m/047drb0, /m/0551nw',
           'date': 'now 7-d', 'hl': 'fr-FR'}
pytrend = TrendReq('pfrlepoint@gmail.com', 'projet_fil_rouge', custom_useragent='pfr')
df = pytrend.trend(payload, return_type='dataframe')
convert_date_column(df)
df.set_index('Date', inplace=True)

### Conversion Excel téléchargé sur le site Google Trends

In [6]:
xls = pd.read_excel('themes_7j.xlsx')
xls.set_index('Date', inplace=True)
xls.to_json('themes_7j.json', orient='split')
xls

Unnamed: 0_level_0,Ecologie,Economie,Education,Finance,Manifestation,Religion,Santé,Travail,Union européenne
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
21 janv. 00:00,0,11,11,3,0,3,5,8,0
21 janv. 01:00,10,5,20,6,5,14,7,8,5
21 janv. 02:00,12,8,29,9,10,33,8,8,8
21 janv. 03:00,15,13,38,13,16,13,10,13,12
21 janv. 04:00,18,11,14,6,22,8,12,31,15
21 janv. 05:00,21,11,14,6,28,8,15,7,14
21 janv. 06:00,24,11,8,6,8,8,17,7,16
21 janv. 07:00,4,11,6,6,4,4,19,7,19
21 janv. 08:00,4,4,6,6,4,6,6,4,8
21 janv. 09:00,4,5,6,2,7,4,6,2,6


In [8]:
df.to_json('Hamon_Valls_7jours.json', orient='split')
df

Unnamed: 0_level_0,Benoît Hamon,Manuel Valls
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
20 janv. 19:00,1,3
20 janv. 20:00,2,4
20 janv. 21:00,1,3
20 janv. 22:00,1,3
20 janv. 23:00,1,3
21 janv. 00:00,0,2
21 janv. 01:00,0,1
21 janv. 02:00,0,1
21 janv. 03:00,0,1
21 janv. 04:00,0,0
