# Démo : Requêter Twitter avec l'API wrapper Python

Souvent, les entreprises qui mettent à disposition une API développent également un **package Python** pour **simplifier l'écriture des requêtes**. Les fonctions du package sont "au-dessus" de l'API, càd elles permettent de créer des requêtes avec une syntaxe plus concise et souvent plus parlante. Si aucun package n'existe, il arrive aussi que la communauté Python en développe un en open source. On appelle ces packages des **"API wrapper"**.

Pour Twitter, l'API wrapper s'appelle **`tweepy`**, et c'est ce package que nous utiliserons désormais plutôt que d'écrire des requêtes "à la main".

### Installation

In [None]:
!pip install tweepy

In [None]:
import tweepy

In [None]:
# Insérer vos propres clés
API_KEY = 'XbjfuYB3nDsKemMHmVTtE49fO'
API_SECRET_KEY = 'pbopldUhm106pRAvs1fvspGBMo0zIJcTSgVRu0Q3BzvuRDAEXI'
BEARER_TOKEN = 'AAAAAAAAAAAAAAAAAAAAAO%2FqOgEAAAAArkiiQQmmxHqWAbuMWQga4yAlyFU%3D34ARFGqY4UDZOiMNaOJJqXH52aeseNUFskcsqHv3py9Rrm9uNC'

In [None]:
# Authentification et connexion à l'API
auth = tweepy.AppAuthHandler(API_KEY, API_SECRET_KEY)
api = tweepy.API(auth, wait_on_rate_limit=True, wait_on_rate_limit_notify=True)

### Recherche de tweets

Pour cet exemple, recherchons les tweets les plus récents à props de Tesla. Nous allons utiliser la fonction `.Cursor` de tweepy pour obtenir un objet contenant les résultats de notre requête. En arguments, nous précisions notre recherche (mots-clés recherchés, langue, dates). Il est possible de restreindre le nombre de tweets reçus en terminant la commande par `.items(n)`.

Les mots-clés recherchés doivent respecter la syntaxe des queries Twitter, qui est particulière à cette API et détaillée dans la [documentation](https://developer.twitter.com/en/docs/labs/recent-search/guides/search-queries). Les règles principales sont : 

* Ecrire les mots ou hashtags que l'on recherche sans guillemets, les séparer par des espaces
* Les guillements permettent de rechercher des expressions exactes
* On peut utiliser `OR `et `AND`, et grouper les conditions avec des parenthèses
* L'opérateur `-` avant un mot, permet de le filtrer
* Plusieurs flags, comme `-filter:retweeets`, permettent de préciser encore la requête.

In [None]:
# Définition des termes de la recherche 
query = 'tesla OR musk -filter:retweets'

In [None]:
# Récupération des tweets
tweets = tweepy.Cursor(api.search,
                       q=query,
                       lang="en",
                       tweet_mode="extended",
                       since="2021-09-15", # remplacez les dates
                       until="2021-09-18", 
                      ).items(10)
tweets = list(tweets)

In [None]:
# Observation de la réponse JSON pour le premier tweet
tweets[0]._json

Chaque tweet reçu est sous forme de JSON (dictionnaire), avec de très nombreux attributs : le texte du tweet, son émetteur, sa date, la localisation du profil de l'utilisateur, etc. Nous verrons dans le use case quels atributs sont les plus pertinents pour réaliser des analyses statistiques !

### Extraction d'attributs

In [None]:
import tqdm

In [None]:
# Extraction d'informations pour tous les tweets reçus

tweets_infos = []
for tweet in tqdm.tqdm(tweets):
    tweet_info = [tweet.full_text, 
                  tweet.created_at,
                  tweet.user.location,
                  tweet.user.screen_name]
    tweets_infos.append(tweet_info)

In [None]:
tweets_infos