# **Analyse de sentiments sur les vaccins COVID administrés en France**
**Projet Python - 2A ENSAE**

KOAGNE FONGUIENG Florette, KONKOBO Idrissa

# Introduction

Ce notebook a été créé pour les requètes via les API. En effet, Les données utilisées dans le projet sont des tweets et l'API de Twitter à été utilisé. Pour pouvoir exécuter les cellules ci-dessous, un compte sur Twitter Developer Portal est nécéssaire. Les étapes à suivre sont donc 
+ Créer un compte sur Twitter Developer Portal
+ Demander le niveau d'API *ELEVATED*
+ Créer un projet et demander l'accès *V2 ACCESS*
+ Configurer l'environnement *Search Tweets: Full ArchiveSandbox* qui donne accès à l'archive complète des tweets
+ Créer un fichier d'extension yaml dont le contenu est identique à la cellule ci-dessus avec les informations bien fournies

# Importation

In [None]:
# !pip install searchtweets

In [None]:
# !pip install glob

In [None]:
import pandas as pd
import numpy as np
import searchtweets
from datetime import *
import glob, os

# Récupération des tweets via l'API de Twitter

Dans cette section, on définit les fonctions permettant la connexion au EndPoint de Twittter et la récupération des données selon les termes clés, les dates et d'autres caractéristiques.

## Définition des fonctions

In [None]:
premium_search_args = searchtweets.load_credentials("twitter_keys_idrissa.yaml",
                                                    yaml_key="search_tweets_api",
                                                    env_overwrite=False)

In [None]:
# cette fonction récupère en format json les tweets entre *date_debut* et *date_fin* contenant le mot *vaccin*
def tweets_entre_2dates(vaccin, date_debut, date_fin):
    rule = searchtweets.gen_rule_payload("("+vaccin+") lang:fr place_country:FR", 
                                         results_per_call=100, from_date=date_debut, to_date=date_fin) 

    rs = searchtweets.ResultStream(rule_payload=rule,
                      max_results=100,
                      **premium_search_args)

    return list(rs.stream())

In [None]:
# cette fonction crée un fichier csv des tweets requétés avec la précédente fonction
def csv_tweets_entre2dates(vaccin, date_debut, date_fin):
    tweets = tweets_entre_2dates(vaccin, date_debut, date_fin)
    clean_tweets = []
    fields = ['id', "date", 'screenName', "texte", "type", "nbre_like", "nbre_retweet", "type_vaccin"]
    for tweet in tweets:
        clean_tweet = [tweet.id, datetime.fromtimestamp(tweet.created_at_seconds), tweet.screen_name, tweet.all_text, tweet.tweet_type, tweet.favorite_count, tweet.retweet_count, vaccin]
        clean_tweets.append(clean_tweet)

    tweets_df = pd.DataFrame(clean_tweets)
    tweets_df.columns = fields
    tweets_df.to_csv('~/work/projetpy/csv_tweets/tweets_'+vaccin+'_'+date_debut+'_a_'+date_fin+'.csv', index = False, header=True)

Les vaccins administrés en France sont Pfizer, Janssen, Moderna et AstraZeneca. Tous n'ont pas la même popularité. Par exemple, le vaccin Pfizer est l'un les plus utilisés. Cela pourrait causer de nombreux tweets citant certains vaccins et très peu de tweets citant d'autres sur un intervalle de temps donné. Pour maximiser le nombre de tweets requêtés, chaque appel à l'API concernat le vaccin Pfizer couvrira un intervalle de 7 jours. Quant aux autres vaccins, on utilise un écart de 20 jours. Les fonctions définies ci-dessous ont pour objectif d'automatiser les appels.

In [None]:
# des fonctions définies pour faciliter l'automatisation des requètages : convertissent une date de format string en format datetime, 
# effectue l'opération d'ajout puis retorne une date en format string

def ajout_7_jrs(dte):
    date = datetime.strptime(dte, "%Y-%m-%d")
    modified_date = date + timedelta(days=7)
    return datetime.strftime(modified_date, "%Y-%m-%d")

def ajout_20_jrs(dte):
    date = datetime.strptime(dte, "%Y-%m-%d")
    modified_date = date + timedelta(days=20)
    return datetime.strftime(modified_date, "%Y-%m-%d")

In [None]:
def import_pfizer_tweets(date_debut, date_fin) : 
    date_suivante = ajout_7_jrs(date_debut)
    while datetime.strptime(date_suivante, "%Y-%m-%d") < datetime.strptime(date_fin, "%Y-%m-%d") :
        csv_tweets_entre2dates("pfizer", date_debut, date_suivante)
        date_debut = date_suivante
        date_suivante = ajout_7_jrs(date_suivante)

In [None]:
def import_tweets(vaccin, date_debut, date_fin) : 
    date_suivante = ajout_20_jrs(date_debut)
    while datetime.strptime(date_suivante, "%Y-%m-%d") < datetime.strptime(date_fin, "%Y-%m-%d") :
        csv_tweets_entre2dates(vaccin, date_debut, date_suivante)
        date_debut = date_suivante
        date_suivante = ajout_20_jrs(date_suivante)

In [None]:
def import_pfizer_tweets(date_debut, date_fin) : 
    date_suivante = ajout_7_jrs(date_debut)
    while datetime.strptime(date_suivante, "%Y-%m-%d") < datetime.strptime(date_fin, "%Y-%m-%d") :
        csv_tweets_entre2dates("pfizer", date_debut, date_suivante)
        date_debut = date_suivante
        date_suivante = ajout_7_jrs(date_suivante)

## Récupération des tweets

In [None]:
import_pfizer_tweets("2021-06-23", "2021-12-01")

In [None]:
csv_tweets_entre2dates("pfizer", "2021-11-24", "2021-12-1")

In [None]:
csv_tweets_entre2dates("moderna", "2021-09-13", "2021-09-30")

In [None]:
csv_tweets_entre2dates("moderna", "2021-11-13", "2021-12-01")

In [None]:
# import_pfizer_tweets("2021-03-1", "2021-06-1")

In [None]:
#import_tweets("moderna", "2021-3-1", "2021-12-1")
#import_tweets("janssen", "2021-3-1", "2021-6-1")
#import_tweets("astrazeneca", "2021-3-1", "2021-6-1")

In [None]:
csv_tweets_entre2dates("moderna", "2021-06-01", "2021-06-09")

In [None]:
# import_tweets("janssen", "2021-6-1", "2021-12-1")
import_tweets("astrazeneca", "2021-06-27", "2021-12-01")

In [None]:
csv_tweets_entre2dates("astrazeneca", "2021-11-14", "2021-12-01")

In [None]:
import_tweets("pfizer", "2021-03-01", "2021-06-01")

In [None]:
import_pfizer_tweets("2021-03-01", "2021-12-01")

In [None]:
csv_tweets_entre2dates("astrazeneca", "2021-11-14", "2021-12-01")

In [None]:
import_pfizer_tweets("2021-12-01", "2021-12-29")

In [None]:
csv_tweets_entre2dates("astrazeneca", "2021-12-01", "2021-12-15")

In [None]:
csv_tweets_entre2dates("astrazeneca", "2021-12-15", "2021-12-28")

In [None]:
csv_tweets_entre2dates("moderna", "2021-12-01", "2021-12-15")

## Unification des tweets en un dataFrame

In [None]:
# Récupère la liste des fichiers csv
csv_files = glob.glob('csv_tweets/*.csv')

# Prépare une liste pour ajouter le contenu du fichier csv
tweets_csv_list = []

# Scanne la liste des fichiers à lire
for file in csv_files:
    tweets_csv_list.append(pd.read_csv(file))

# Combine toutes les listes dans le sens des lignes
df = pd.concat(tweets_csv_list axis=0, sort=True).sort_values("date", ignore_index=True)

# Exporte le dataframe dans le csv  tweets_vaccins
df.to_csv("csv_tweets/tweets_vaccins.csv", index=False)

In [None]:
df