# TP5 : Sentiment Analysis
## AGUILAR CALVO Heber

In [1]:
import pandas as pd
import numpy as np
import os
import csv as csv
import nltk as nltk
import re
from nltk.corpus import wordnet as wn
from sentiwordnet import SentiWordNetCorpusReader, SentiSynset

### Prétraitements

Les tweets contiennent des caractères spéciaux susceptibles de nuire à la mise en place des méthodes
d’analyse d’opinions. Ecrire un programme permettant pour chaque tweet de :
* récupérer le texte associé
* segmenter en tokens
* supprimer les urls
* nettoyer les caractères inhérents à la structure d’un tweet
* corriger les abréviations et les spécificités langagières des tweets à l’aide du diction-
naire DicoSlang disponible ici : http://perso.telecom-paristech.fr/~clavel/DonneesTweets/SlangLookupTable.txt

In [2]:
def remove_url(string):
    '''
    Input : string
    --------------
    Output : string
    '''
    
    url = re.findall('https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+', string) # Identify urls
    string_without_url = string.replace(str(url), '') # Get rid of urls
    
    return string_without_url

def tokenize(twit):
    '''
    Input : twit (string)
    --------------
    Output : list of tokens 
    '''
    
    tokens = nltk.word_tokenize(str(twit))
    
    return tokens
    

def clean_twitter_inherent_chars(tokens_list):
    '''
    Input : list of tokens
    --------------
    Output : clean list of tokens
    '''
    
    clean_liste = [token for token in tokens_list if token!="@" and token!="#"] 
    
    return clean_liste


def slang_dictionnary():
    slang_dict = {}
    with open('Lexiques/SlangLookupTable.txt', encoding="ISO-8859-1") as slangtxt:
        for line in slangtxt:
            (key, val) = line.split('\t')
            slang_dict[key] = val
    return slang_dict


def get_rid_slang(clean_tokens, slangDict):
    '''
    Input: clean tokes (list)
    -------------------------
    Output: preprocessed twit (without slang) 
    '''
    preprocessed_twit = [slangDict[token] if token in slangDict.keys() else token for token in clean_tokens]
    
    return preprocessed_twit

def pretraitement(text, slangDict):
    '''
    Input: list (list de strings)
    ------------------
    Output: prepprocessed twit
    '''
    twit_txt = text[5]                                          # 1. Get twit from list of twits
    twit_no_url = remove_url(twit_txt)                          # 2. Remove url
    #twit_no_url = re.sub(r'[\W_]+', ' ', twit_no_url)           # Extra: remove puctuation symbols               
    tokens = tokenize(twit_no_url)                              # 3. Token segmentation
    clean_tokens = clean_twitter_inherent_chars(tokens)         # 4. Clean inherent twit characters
    preprocessed_twit = get_rid_slang(clean_tokens, slangDict)  # 5. Correct slang specifications

    return preprocessed_twit

### Etiquetage grammatical

In [3]:
def etiquetage_grammatical(preprocessed_twit):
    '''
    Input: preprocessed_twit (a string of words)
    ---------------------------
    Output: tagged twit 
    '''

    tagged_twit = nltk.pos_tag(preprocessed_twit)
    
    return tagged_twit

### Algorithme de détection v1 : appel au dictionnaire Sentiwordnet :

Pour cette étape, vous devez développer un programme permettant :
* de récupérer uniquement les mots correspondant à des adjectifs, noms, adverbes et verbes
* d’accéder aux scores (positifs et négatifs) des synsets dans la librairie NLTK. Ce script définira dans une classe Python l’objet SentiSynset sur le même modèle que le Synset développé dans NLTK pour WordNet, et permettra de lire le tableau de SentiWordNet comme suit.
* de calculer pour chaque mot les scores associés à leur premier synset,
* de calculer pour chaque tweet la somme des scores positifs et négatifs des SentiSynsets du tweet,
* de comparez la somme des scores positifs et des scores négatifs de chaque tweet pour décider de la classe à associer au tweet.


In [4]:
#raw_twits = {}
dataFile = open("testdata.manual.2009.06.14.csv", 'rt')
dataReader = csv.reader(dataFile,delimiter=',')
for text in dataReader:
    preprocessed_twit = pretraitement(text, slangDict=slang_dictionnary())
    taggedData = etiquetage_grammatical(preprocessed_twit)
    #print(taggedData)
#dataFile.close()

In [5]:
def is_adj_adv_verb_noun(tag):
    '''
    Tags :
        JJ : adjective or numeral; JJR : adjective, comparative; JJS: adjective, superlative
        NN: noun, singular; NNP: noun, proper, singular; NNPS: noun, proper, plural; NNS: noun, plural 
        RB: adverb; RBR: adverb, comparative; RBS: adverb, superlativeightest worst
        VB: verb, base form; VBD: verb, past tense; VBG: verb, present participle or gerund
        VBN: verb, past participle; VBP: verb, present tense, not 3rd person singular
        VBZ: verb, present tense, 3rd person singular bases 
    '''
    adjectif_tags = ['JJ','JJR','JJS']
    noun_tags = ['NN','NNP','NNPS','NNS']
    adverb_tags = ['RB','RBR','RBS']
    verb_tags = ['VB', 'VBD', 'VBG', 'VBN', 'VBP', 'VBZ']
    
    if tag in adjectif_tags or tag in noun_tags or tag in adverb_tags or tag in verb_tags:
        return True
    else:
        return False
    
def filter_adj_adv_verb_noun(twit):
    filtered_pos_words = list(filter(lambda word: is_adj_adv_verb_noun(word[1])==True, twit))
    return list(map(lambda word: word[0],filtered_pos_words)) 

    
def first_synset(word):
    list_synsets = wn.synsets(word)
    if len(list_synsets)>0:
        return list_synsets[0]
    else:
        return None
    
def get_first_synsets(filtered_twit):
    list_synsets = list(map(lambda word : first_synset(word),filtered_twit))
    return list(map(lambda word: word.name(),filter(lambda synset: synset is not None ,list_synsets)))

def get_pos_scores(list_synsets):
    swn_filename = 'Lexiques/SentiWordNet_3.0.0_20130122.txt'
    swn = SentiWordNetCorpusReader("",swn_filename)
    return list(map(lambda synset: swn.senti_synset(synset).pos_score(),list_synsets))    

def get_neg_scores(list_synsets):
    swn_filename = 'Lexiques/SentiWordNet_3.0.0_20130122.txt'
    swn = SentiWordNetCorpusReader("",swn_filename)
    return list(map(lambda synset: swn.senti_synset(synset).neg_score(),list_synsets))    


def sum_pos_neg_scores(list_pos_scores, list_neg_scores):
    '''
    Input:
        List of positive scores (in the first place) 
        List of negative scores
    '''
    sum_pos = sum(list_pos_scores)
    sum_neg = sum(list_neg_scores)
    return sum_pos, sum_neg

def get_sentiment(sum_pos_scores, sum_neg_scores):
    '''
    Input:
        Sum of positive scores (in first position) 
        Sum of negative scores
    '''
    if sum_pos_scores < sum_neg_scores:
        return 'Negative'
    elif sum_pos_scores == sum_neg_scores:
        return 'Neutral'
    else:
        return 'Positive'    
    
    
def get_scores_and_sentiment_from_twit(tagged_twit):
    '''
    Input:
        Tagged and preprocessed twit
    Output:
        Positive score, Negative score, Sentiment
    '''
    
    filtered_words = filter_adj_adv_verb_noun(tagged_twit)
    list_synsets = get_first_synsets(filtered_words)
    list_pos_scores = get_pos_scores(list_synsets)
    list_neg_scores = get_neg_scores(list_synsets)
    pos_score, neg_score = sum_pos_neg_scores(list_pos_scores, list_neg_scores)
    sentiment = get_sentiment(pos_score, neg_score)
    
    return pos_score, neg_score, sentiment

get_scores_and_sentiment_from_twit(taggedData)

(0.625, 1.375, 'Negative')

### Algorithme de détection v2 : gestion de la négation et des modifieurs
* multiplie par 2 le score négatif et le score positif associés au mot si le mot précédent est un modifieur ;
* utilise uniquement le score négatif du mot pour le score positif global du tweet et le score positif du mot pour le score négatif global du tweet si le mot précédent est une négation. 

In [16]:
def NegationReader():
    negatingWordList = []
    with open('Lexiques/NegatingWordList.txt', 'rt') as negationtxt:
        for line in negationtxt:
            negation, tab = line.split('\n') 
            negatingWordList.append(negation)
    return negatingWordList

def ModifierReader():
    modifierWordList = []
    with open('Lexiques/BoosterWordList.txt', 'rt') as modifiertxt:
        for line in modifiertxt:
            modifier, tab = line.split('\t') 
            #print(modifier)
            modifierWordList.append(modifier)
    return modifierWordList

mWL = ModifierReader()
nWL = NegationReader()

#---------------------------------

#def find_precedent_word(tagged_twit, word):
#    words_from_twit = map(lambda word: word[0], tagged_wit)


ValueError: ['Reading', 'VBG'] is not in list

### Algorithme de détection v3 : gestion des emoticons

### Ma version v4