# INF8111 - Fouille de données


## TP2 Automne 2019 - Extraction et analyse d'une base de données de tweets

##### Membres de l'équipe:

    - Nom (Matricule) 1
    - Nom (Matricule) 2
    - Nom (Matricule) 3

## Présentation du problème

En 2017, Twitter compte 313 millions d’utilisateurs actifs par mois avec 500 millions de tweets envoyés par jour. Cette information est rendue disponible à destination de la recherche et du développement web grâce à une API publique qui permet de collecter les informations que l'on souhaite.

Néanmoins, la politique de développement de Twitter limite le partage de ces données. En effet, le partage du contenu des tweets dans une base de données n'est pas autorisé, seuls les identifiants des tweets le sont. 
Pour partager publiquement une base de données de tweets que l'on a créée, il faut que cette base de données ne soit consituée que des identifiants de tweets, et c'est ce que l'on retrouve dans la plupart des jeux de données publiques.

Il est donc nécessaire pour exploiter ces données "d'hydrater" les tweets en question, c'est-à-dire extraire l'ensemble des informations à partir de l'ID, ce qui demande d'utiliser l'API de Twitter.

Nous allons ici utiliser des bases de données publiques créées par GWU (George Washington University), qui ont l'avantage d'être très récentes : 
https://dataverse.harvard.edu/dataverse/gwu-libraries

Chaque base de données de GWU couvre un sujet précis (élection américaine de 2016, jeux olympiques, etc.), et les données ont été recueillis en appliquant des requêtes qui filtraient les résultats pour n'avoir que des tweets pertinents. Un fichier README est fourni avec chaque base de données pour donner les détails de création du *dataset*. 


**Les objectifs de ce TP sont donc les suivants :**

 1. Construire un *crawler* qui collecte les informations d'un tweet à partir de son ID, avec le jeu de données de son choix et les informations pertinentes pour le sujet choisi
 2. A partir de ces données de Twitter collectés, application de méthodes en Machine Learning (ML)/Natural Language Processing (NLP) pour fournir une analyse pertinente. 


Twitter autorisant le partage **local** des données (par exemple au sein d'un groupe de recherche), une base de données sera fournie si vous ne parvenez pas à créer la vôtre.

# I/ Hydratation de tweets à l'aide de l'API Twitter (4 Pts)

### 1. Obtenir l'authorisation de Twitter pour l'utilisation de l'API

Pour l'authentification, Twitter utilise OAuth : https://developer.twitter.com/en/docs/basics/authentication/overview/oauth
Vous aurez ici besoin en particulier de OAuth2, car vous n'allez pas interagir avec des utilisateurs sur Twitter (simplement collectés des données).

##### 1.1. Obtention d'un compte Twitter développeur

 La première étape nécessaire pour enregistrer votre application et de créer un compte Twitter développeur. Pour ce faire :

 - Créez-vous un compte Twitter classique
 
 - Sur le site, https://developer.twitter.com, cliquez sur *apply* pour obtenir un compte développeur. 
 
 - Remplissez tous les champs nécessaires. Twitter demande beaucoup de détails sur l'utilisation que vous allez faire de ce compte, il est donc important d'expliquer la démarche en détail : il faut souligner le fait que le projet est **académique** (aucune intention commerciale, aucune publication des données collectés, etc.), expliquer les objectifs et l'apprentissage de ce TP (prise en main de l'API Twitter, l'application concrète de méthodes de Data Mining, etc.), mais aussi expliquer en détail ce que vous allez faire des données, les méthodes que vous allez appliquer, le rendu fourni, etc.  Si jamais vous n'êtes pas assez précis, Twitter peut vous renvoyer un courriel pour vous demander des précisions. 

##### 1.2. Obtention d'un jeton d'accès

 - Lorsque Twitter aura validé votre demande de compte développeur, allez sur https://developer.twitter.com/en/apps pour créer une application (cliquer sur *create an app*)

- Ici encore, des informations sont à fournir ici. Certaines, comme le nom ou le site internet, ne sont pas très importante, vous pouvez mettre un site internet factice si vous le souhaitez.

- A la fin de ce processus, vous pouvez enfin obtenir les clés et les jetons pour utiliser l'API: allez sur la page de l'application pour créer les jetons. Vous devez récupérer une paire de clés et une paire de jetons pour passer à la suite.



In [1]:
CONSUMER_KEY = "FcXQoS4quLXk4IWlVHQYEBucR"
CONSUMER_SECRET = "zDyWsFuv1xkseWmwyNYiuMfGuQtcNyhH0W8XvaTx5MAsdQRdJe"

oauth_token = "1161714912730767366-f3M1WyAc5iJmYISnuP58wZ9lRFaFas"
oauth_secret = "LiRdoXPaS5jJAmYTcJLqUJy0BZjouDTpsHG1UWS0c0snB"

###  2. Premiers pas avec Twython

##### 2.1 Installation et import de la librairie


Plusieurs librairies Python existent pour manipuler l'API Twitter. Aussi appelé *wrappers*, ce sont un ensemble de fonctions python qui appelle des fonctions de l'API. Parmi elles, nous utiliserons Twython, librairie répendue et activement maintenue.

Documentation de Twython : https://twython.readthedocs.io/en/latest/api.html 

In [2]:
import csv
import time
import sys

try:
    from twython import Twython, TwythonError, TwythonRateLimitError
except ImportError:
    !pip install twython

##### 2.2 Création d'une application et premiers tests:

In [3]:
twitter = Twython(CONSUMER_KEY, CONSUMER_SECRET, oauth_token, oauth_secret)

Voici un test avec une recherche très simple pour vous assurer que la requête fonctionne.

La fonction search renvoie une recherche (non exhaustive) de tweets, et l'option "*popular*" permet de retourner les résultats les plus populaires de la réponse. (documentation ici: https://developer.twitter.com/en/docs/tweets/search/api-reference/get-search-tweets)

In [4]:
basic_search = twitter.search(q='python', result_type='popular')

La fonction `search` renvoie un dictionnaire contenant la liste de tweets de la requête, et les métadonnées.

Voici un exemple d'un résultat d'une recherche, observez ainsi toutes les données/métadonnées que contient un tweet et que vous pouvez extraire par la suite:

In [5]:
basic_search['statuses'][0]

{'created_at': 'Thu Aug 22 16:52:07 +0000 2019',
 'id': 1164581023360978945,
 'id_str': '1164581023360978945',
 'text': '...when someone laughs at themselves, do they hurt themselves ? Apparently not\n\nRT : So you disapprove of PC ?\n\nMe:… https://t.co/mzo0gvOWAL',
 'truncated': True,
 'entities': {'hashtags': [],
  'symbols': [],
  'user_mentions': [],
  'urls': [{'url': 'https://t.co/mzo0gvOWAL',
    'expanded_url': 'https://twitter.com/i/web/status/1164581023360978945',
    'display_url': 'twitter.com/i/web/status/1…',
    'indices': [117, 140]}]},
 'metadata': {'result_type': 'popular', 'iso_language_code': 'en'},
 'source': '<a href="https://mobile.twitter.com" rel="nofollow">Twitter Web App</a>',
 'in_reply_to_status_id': None,
 'in_reply_to_status_id_str': None,
 'in_reply_to_user_id': None,
 'in_reply_to_user_id_str': None,
 'in_reply_to_screen_name': None,
 'user': {'id': 10810102,
  'id_str': '10810102',
  'name': 'John Cleese',
  'screen_name': 'JohnCleese',
  'location': 

Il est également possible avec Twython de récupérer les informations d'un tweet à partir de son ID. 

#### Question 1. Afficher la date, le nom d'utilisateur et le contenu du tweet ayant l'ID : 1157345692517634049

*Indice : vous pourrez utiliser avec la fonction de twython `show_status`*

In [6]:
test_id = "1157345692517634049"

print("Date : " + twitter.show_status(id=test_id)['created_at'])
print("Name : " + twitter.show_status(id=test_id)['user']['name'])
print("Content : " + twitter.show_status(id=test_id)['text'])

Date : Fri Aug 02 17:41:30 +0000 2019
Name : Donald J. Trump
Content : A$AP Rocky released from prison and on his way home to the United States from Sweden. It was a Rocky Week, get home ASAP A$AP!


**Attention** : Twitter a une limitation de requête par fenêtre de 15 minutes, qui est donc à prendre en compte dans la base de données : https://developer.twitter.com/en/docs/basics/rate-limiting.html

### 3. Hydratation d'une base de donnée de tweets

Les choses sérieuses commencent ! 

On souhaite désormais construire une fonction `hydrate_database` qui, à partir d'un fichier texte contenant une liste d'ID de tweets, créer un fichier csv contenant les informations que l'on souhaite extraire. 

Due à la limitation de requête, la fonction `show_status` vue plus haut s'avère peu efficace pour cette tâche : à raison de 900 requêtes pour 15 minutes, il sera beaucoup trop long de construire une base de données un tant soit peu conséquente. La fonction `lookup_status` (voir documentation) sera donc plus adaptée. Elle permettra d'hydrater 100 tweets par requête, ce qui, a raison d'une limite de 900 requêtes pour 15 minutes, rends la construction de la base de données plus réaliste. Il faudra tout de même gérer l'erreur générer par la limitation, si l'on souhaite avoir plus de 90000 tweets ou si l'on appelle plusieurs fois la fonction en moins de 15 minutes.

#### Question 2. Implémenter la fonction `hydrate_database`

*Attention : Il faut également gérer le cas où la feature demandée n'est pas une clé du dictionnaire mais une sous-clé, comme c'est le cas pour le nom d'utilisateur par exemple.*

*Indice : La fonction `sleep` du module time permet de patienter le temps nécessaire*

In [32]:
TWEET_HYDRATATION_LIMIT = 100

def hydrate_database(filename, database_name, 
                     features, nb_requests, 
                     tweet_hydratation_limit=100):
    
    file = open(filename, "r")

    with open(database_name, 'w', newline='', encoding="utf-8") as csvfile:
        writer = csv.writer(csvfile, delimiter=',')
        i = 0 
        
        while i < nb_requests:

            print("\r{}/{}".format(i+1, nb_requests),end="")        

            concat = ""
            for _ in range(TWEET_HYDRATATION_LIMIT):
                line = file.readline().strip()
                concat += line + ","
            try:
                request = twitter.lookup_status(id=concat)
                for tweet in request:
                    csv_line = []
                    for f in features:
                        if len(f)==1:
                            tweet_elt = tweet[f[0]]
                        else:
                            tweet_elt = tweet[f[0]][f[1]]
                        if ',' in tweet_elt:
                            tweet_elt = tweet_elt.replace(',', ' ')
                        csv_line.append(tweet_elt)
                        
                    writer.writerow(csv_line)
                i += 1
                    
            except TwythonError as e:
                if isinstance(e, TwythonRateLimitError):
                    retry_after = int(e.retry_after)
                    now = int(time.time())
                    timeToWait = retry_after - now + 1
                    sys.stderr.write("Rate limit exceeded, sleeping for %ds.\n" % (timeToWait))
                    time.sleep(timeToWait)
                    print("Waking up after %ds" % (int(time.time()) - now))

    file.close()


Utilisez le fichier suivant en guise d'example : 
https://dataverse.harvard.edu/file.xhtml?persistentId=doi:10.7910/DVN/5QCCUU/QPYP8G&version=1.1

On suppose qu'on ne souhaite garder que le texte (*text*) l'ID de l'utilisateur (*user/screen_name*)

In [8]:
filename = "gwu/climate_id.txt"
database_name = "databases/climate.csv"
features = [['text'], ['user', 'screen_name']]
nb_requests = 100

hydrate_database(filename, database_name, features, nb_requests, tweet_hydratation_limit=100)

100/100

# II/ Analyse d'une base de données au choix (16 pts)

Maintenant que vous êtes en mesure d'hydrater une base de données de tweets efficacement et en prenant en compte les limitations de Twitter, vous pouvez l'appliquer sur le *dataset* qui vous intéresse le plus.

### 1. Instructions

Dans cette partie, vous allez mener **entièrement** un projet de *Data Science*, de la collecte des données jusqu'à l'interprétation des résultats. Vous devez choisir parmi les 4 sujets suivants:
 
 1. Analyse de sentiments pour la prédiction des résultats de l'élection américaine. 
    **Dataset**: "2016 United States Presidential Election Tweet Ids", https://doi.org/10.7910/DVN/PDI7IN  
 
 
 2. Détection de discours d'incitation à la haine.
    **Dataset**: "Immigration and Travel Ban Tweet Ids", https://doi.org/10.7910/DVN/5CFLLJ
 
 
 3. Méthode de clustering appliqué au tweet sur l'actualité, et analyse des résultats. 
    **Dataset**: "News Outlet Tweet Ids", https://doi.org/10.7910/DVN/2FIFLH

 
 4. Analyse de sentiment appliqué au changement climatique.
    **Dataset**: "Climate Change Tweets Ids", https://doi.org/10.7910/DVN/5QCCUU
    

Vous êtes entièrement libre sur l'ensemble du processus (choix des informations extraites, méthodes en ML, librairie, etc.). Ces sujets étant populaires au sein de la communauté scientifique, vous pouvez (**si vous le souhaitez**) vous inspirer d'articles de la littérature, à condition de le citer dans votre rapport et de faire votre propre implémentation. 

#### L'objectif cependant ici n'est pas d'obtenir l'état de l'art, mais d'appliquer une méthodologie claire et rigoureuse que vous aurez construite vous-même. 

Les datasets étant massifs, il est fortement déconseillé de faire une base de données contenant tous les tweets hydratés (par exemple, les auteurs de la BDD n°1 soulignent qu'avec les limitations de l'API cela vous prendrait environ 32 jours). C'est à vous de voir quelle est la taille du dataset dont vous avez besoin.

Si vous faites de l'apprentissage supervisé : vous allez avoir besoin d'entraîner un modèle avec un ensemble étiqueté, et donc deux solutions s'offrent à vous. Soit vous allez devoir récupérer des données étiquetées, soit vous êtes en mesure de labelliser vous-même vos données (par exemple, dans le cas du sujet n°1, la base de données est divisé en collections, et certaines dépendent du parti politique).

Pensez aussi à lire le fichier README correspondant à la base que vous avez choisi, afin de vous aider à mieux comprendre vos futurs résultats.

### 2. Rédaction d'un rapport

Pour ce TP, vous allez devoir fournir un rapport qui détail et justifie l'ensemble de votre méthode, et qui fournisse les résultats que vous avez obtenus. Les éléments suivants doivent y apparaitre (cela peut vous servir de plan, mais ce n'est pas rigide) :

- Titre du projet, et nom de l'ensemble des membres de l'équipe (avec mail et matricule)
    
- **Introduction** : résumé du problème, de la méthodologie et des résultats obtenus

- **Présentation du dataset** : description, justification de la taille, du choix des features, etc. 

- **Preprocessing** : s'il y en a, justification des étapes de preprocessing  

- **Methodologie** : description et justification de l'ensemble des choix (algorithmes, hyper-paramètres, régularisation, métriques, etc.)

- **Résultats** : analyse des résultats obtenus (utilisez des figures pour illustrer), mise en relation entre les choix de design et la performance obtenue.

- **Discussion** : discutez des avantages et des inconvénients de votre approche; quels sont les faiblesses, les failles ? Qu'est-ce qu'il peut être amélioré ? Vous pouvez également suggérer des futures idées d'exploration.

- **Références** : si vous vous êtes inspiré d'une étude déjà faite
    
Vous pouvez utiliser le template d'arXiv pour le rapport : https://fr.overleaf.com/latex/templates/style-and-template-for-preprints-arxiv-bio-arxiv/fxsnsrzpnvwc. **L'ensemble du rapport ne doit cependant pas excéder 5 pages, figures et références compris.** Les 5 pages ne sont pas obligatoires, si vous estimez que moins est suffisant et que votre rapport est effectivement complet, vous ne serez pas pénalisé.


### 3. Rendu attendu

A la fin du TP, vous enverrez un fichier *zip* par mail (theo.moins@polymtl.ca) contenant les éléments suivants:

- Le fichier *pdf* du rapport
- Ce notebook que vous aurez complété. Vous pouvez également implémenter votre méthode à la suite ici, ou alors utiliser un autre fichier si vous le souhaitez (le code doit être commenté et clair).
- Ne pas envoyer les fichiers de données, car trop conséquent. Avec le rapport et le code, tout sera détaillé et il sera possible de le refaire facilement.

### 4. Evalutation

75% de la note (soit 12 points) de cette partie sera basé sur la méthodologie, et 25% (soit 4 points) sur les résultats.

La notation sur la méthodologie inclus : 

- La pertinence de l'ensemble des étapes de l'approche

- La bonne description des algorithmes choisis

- La justification judicieuse des choix établis

- Une analyse pertinente des résultats

- La clarté et l'organisation du rapport (figures, tables) et du code.


Pour ce qui est des résultats, il est impossible de mettre un barème fixe car ils vont dépendre du sujet choisi. C'est un problème auquel vous allez être confrontés : chaque problème étant spécifique, il peut être compliqué d'évaluer qualitativement un modèle, d'autant que vous n'avez sans doute pas connaissance de l'état de l'art. C'est pourquoi il va être important de faire plusieurs essais, et de comparer différentes méthodes. Ainsi, les résultats doivent être cohérent avec la complexité de votre implémentation : un modèle simple et naïf vous fournira des premiers résultats, que vous devrez ensuite améliorer avec des modèles plus précis et complexes.

De ce fait, l'ensemble des points pour les résultats seront donnés si : 
 - Vous obtenez des premiers résultats avec une méthode naïve qui témoignent de la pertinence de vos choix 
 - Ces résultats sont ensuite significativement améliorés avec une méthode plus complexe
 - Le tout est bien justifié et remis dans le contexte du problème 

## Sujet n°1

In [34]:
filename = "gwu/democratic-party-timelines.txt"
database_name = "databases/democratic-party-timelines.csv"
features = [['text']]
nb_requests = 400

hydrate_database(filename, database_name, features, nb_requests)

filename = "gwu/republican-party-timelines.txt"
database_name = "databases/republican-party-timelines.csv"
features = [['text']]
nb_requests = 400

hydrate_database(filename, database_name, features, nb_requests, tweet_hydratation_limit=100)


400/400

In [35]:
import numpy as np
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression
from scipy.sparse import csr_matrix
import math
import string
from nltk.stem.snowball import SnowballStemmer
from nltk.tokenize import TweetTokenizer
import csv
from sklearn.model_selection import train_test_split


X = []
y = []

with open("databases/democratic-party-timelines.csv", 'r', newline='', encoding="latin-1") as csvfile:

    reader = csv.reader(csvfile, delimiter=',')

    # Taking the header of the file + the index of useful columns:
    header = next(reader)

    for row in reader:
        X.append(row[0])
        y.append(0)
        
    assert len(X) == len(y)

with open("databases/republican-party-timelines.csv", 'r', newline='', encoding="latin-1") as csvfile:

    reader = csv.reader(csvfile, delimiter=',')

    # Taking the header of the file + the index of useful columns:
    header = next(reader)

    for row in reader:
        X.append(row[0])
        y.append(1)
        
    assert len(X) == len(y)
    

train_valid_X, test_X, train_valid_Y, test_Y = train_test_split(X, y, test_size=0.15, random_state=12)

train_X, valid_X, train_Y, valid_Y = train_test_split(train_valid_X, train_valid_Y, test_size=0.18, random_state=12)

print("Length of training set : ", len(train_X))
print("Length of validation set : ", len(valid_X))
print("Length of test set : ", len(test_X))

Length of training set :  29848
Length of validation set :  6552
Length of test set :  6424


In [36]:
import warnings
warnings.filterwarnings("ignore")

class SpaceTokenizer(object):
    """
    It tokenizes the tokens that are separated by whitespace (space, tab, newline). 
    We consider that any tokenization was applied in the text when we use this tokenizer.

    For example: "hello\tworld of\nNLP" is split in ['hello', 'world', 'of', 'NLP']
    """

    def tokenize(self, text):
        # Write your code here

        # Have to return a list of tokens
        return text.split()


class NLTKTokenizer(object):
    """
    This tokenizer uses the default function of nltk package (https://www.nltk.org/api/nltk.html) to tokenize the text.
    """

    def tokenize(self, text):
        # Write your code here

        tknzr = TweetTokenizer()

        # Have to return a list of tokens
        return tknzr.tokenize(text)


class Stemmer(object):

    def __init__(self):
        self.stemmer = SnowballStemmer("english", ignore_stopwords=True)

    def stem(self, tokens):
        """
        tokens: a list of strings
        """
        # Have to return a list of stems
        return self.stemmer.stem(tokens)


class TwitterPreprocessing(object):

    def preprocess(self, tweet):
        """
        tweet: original tweet
        """
        new_tweet = []
        # Write your preprocessing steps here.
        for word in tweet:
            # remove punctuation
            if any(c in string.punctuation for c in word):
                continue
            # remove url and username
            if '@' in word or 'http' in word:
                continue
            # remove word if digit inside
            if any(letter.isdigit() for letter in word):
                continue
            # check if empty
            if not word.strip():
                continue
            new_tweet.append(word.replace('#', ''))

        # return the preprocessed twitter
        return new_tweet

class PreprocessingPipeline:

    def __init__(self, tokenization, twitterPreprocessing, stemming):
        """
        tokenization: enable or disable tokenization.
        twitterPreprocessing: enable or disable twitter preprocessing.
        stemming: enable or disable stemming.
        """

        self.tokenizer = NLTKTokenizer() if tokenization else SpaceTokenizer()
        self.twitterPreprocesser = TwitterPreprocessing(
        ) if twitterPreprocessing else None
        self.stemmer = Stemmer() if stemming else None

    def preprocess(self, tweet):
        """
        Transform the raw data

        tokenization: boolean value.
        twitterPreprocessing: boolean value. Apply the
        stemming: boolean value.
        """

        tokens = self.tokenizer.tokenize(tweet)

        if self.stemmer:
            tokens = list(map(self.stemmer.stem, tokens))

        if self.twitterPreprocesser:
            tokens = self.twitterPreprocesser.preprocess(tokens)

        return tokens


def bigram(tokens):
    """
    tokens: a list of strings
    """
    # Write your code here
    # This function returns the list of bigrams
    return [" ".join(tokens[i:i + 2]) for i in range(len(tokens) - 1)]


class TFIDFBoW(object):

    def __init__(self, pipeline, bigram=False, trigram=False):
        """
        pipelineObj: instance of PreprocesingPipeline
        bigram: enable or disable bigram
        trigram: enable or disable trigram
        """
        self.pipeline = pipeline
        self.bigram = bigram
        self.trigram = trigram
        self.words = None
        self.idf = None
    
    def computeTFIDF(self, X):
        """
        Calcule du TF-IDF, à partir d'un dictionnaire de mots et d'une 
        liste de tweets.
        On suppose que l'on a déjà collecté le dictionnaire ainsi que 
        calculé le vecteur contenant l'idf pour chaque document.
        
        Entrée : X, une liste de vecteurs contenant les tweets
        
        Return: une csr_matrix
        """
        
        if self.words is None:
            raise Exception(
                "fit_transform() should be called first (no dictionnary available)"
            )
        
        data, row, col = [], [], []
        for i, tweet in enumerate(X):
            for word in set(tweet):
                if word in self.words:
                    data.append(tweet.count(word) * self.idf[self.words.index(word)])
                    row.append(i)
                    col.append(self.words.index(word))

        return csr_matrix((data, (row, col)), shape=(len(X), len(self.words)))


    def fit_transform(self, X):
        """
        Cette méthode preprocess les données en utilisant la pipeline, ajoute les bigram et trigram 
        si besoin, et transforme les textes en vecteurs d'entiers grâce à la méthode TF-IDF.
        
        Entrée : X, une liste de vecteurs contenant les tweets
        
        Return: une csr_matrix
        """
        X = list(map(self.pipeline.preprocess, X))
        if self.bigram:
            for tweet in X:
                tweet += bigram(tweet)
        if self.trigram:
            for tweet in X:
                tweet += trigram(tweet)

        # list of all words
        self.words = list(set((word for tweet in X for word in tweet)))

        # compute idf
        self.idf = []
        for word in self.words:
            count = sum([word in tweet for tweet in X])
            self.idf.append(math.log(len(X) / count))

        return self.computeTFIDF(X)

    def transform(self, X):
        """
        Cette méthode preprocess les données en utilisant la pipeline, ajoute les bigram et trigram 
        si besoin, et transforme les textes en vecteurs d'entiers grâce à la méthode TF-IDF.
        Différence avec fit_transform : on suppose qu'on dispose déjà du dictionnaire et du calcul des idf ici.
            
        Entrée : X, une liste de vecteurs contenant les tweets
        
        Return: une csr_matrix
        """

        if self.words is None:
            raise Exception(
                "fit_transform() should be called first (no dictionnary available)"
            )

        X = list(map(self.pipeline.preprocess, X))
        if self.bigram:
            for tweet in X:
                tweet += bigram(tweet)
        if self.trigram:
            for tweet in X:
                tweet += trigram(tweet)

        return self.computeTFIDF(X)
    
def train_evaluate(training_X, training_Y, validation_X, validation_Y, bowObj):
    """
    training_X: tweets from the training dataset
    training_Y: tweet labels from the training dataset
    validation_X: tweets from the validation dataset
    validation_Y: tweet labels from the validation dataset
    bowObj: Bag-of-word object
    
    :return: the classifier and its accuracy in the training and validation dataset.
    """

    classifier = LogisticRegression(n_jobs=-1)

    training_rep = bowObj.fit_transform(training_X)

    classifier.fit(training_rep, training_Y)

    trainAcc = accuracy_score(training_Y, classifier.predict(training_rep))
    validationAcc = accuracy_score(
        validation_Y, classifier.predict(bowObj.transform(validation_X)))

    return classifier, trainAcc, validationAcc



In [37]:
# 3. TFIDFBoW + NLTKTokenizer + Stemming + unigram
bowObj = TFIDFBoW(
    PreprocessingPipeline(
        tokenization=True, twitterPreprocessing=False, stemming=True))

classifier, trainAcc, validAcc = train_evaluate(train_X, train_Y, valid_X,
                                  valid_Y, bowObj)

print("{:10}: {:^10.3%} {:^10.3%}".format(3, trainAcc, validAcc))


         3:  99.990%    96.627%  


## Sujet n°2

## Sujet n°3

## Sujet n°4