# PROJET SKULIX SENTIMENT ANALYSIS

In [2]:
import numpy as np
import pandas as pd
import nltk
import matplotlib as plt
from textblob import TextBlob

In [3]:
data = pd.read_csv("french_tweets.csv")
data.head()

Unnamed: 0,label,text
0,0,"- Awww, c'est un bummer. Tu devrais avoir davi..."
1,0,Est contrarié qu'il ne puisse pas mettre à jou...
2,0,J'ai plongé plusieurs fois pour la balle. A ré...
3,0,Tout mon corps a des démangeaisons et comme si...
4,0,"Non, il ne se comporte pas du tout. je suis en..."


## NETTOYAGE

In [4]:
import re
import advertools as ad

def cleanTxt(elt):

    elt=elt.lower()
    elt=' '.join(elt.split())
    elt = re.sub(r"[A-Za-z\.]*[0-9]+[A-Za-z%°\.]*", "", elt)
    elt = re.sub(r"(\s\-\s|-$)", "", elt)
    elt = re.sub(r"[,\!\?\%\(\)\/\"]", "", elt)
    elt = re.sub(r"\&\S*\s", "", elt)
    elt = re.sub(r"\&", "", elt)
    elt = re.sub(r"\+", "", elt)
    elt = re.sub(r"#", "", elt)
    elt = re.sub(r"\$", "", elt)
    elt = re.sub(r"\£", "", elt)
    elt = re.sub(r"\%", "", elt)
    elt = re.sub(r"\-", "", elt)
    elt = re.sub(r"\:", "", elt)
    elt = re.sub(r"\/", "", elt)
    elt = re.sub(r";", " ", elt)
    elt = re.sub(r'https?:\/\/S+', "", elt)
    elt = re.sub(r'@[A-Za-z0-9]+', "", elt)
    elt = re.sub(r"\-", "", elt)

    return elt


def extract_emoti(text):    
    summ = ad.extract_emoji([text])
    return summ['emoji']


def supprimmer_emoti(text):
    regrex_pattern = re.compile(pattern = "["
    u"\U0001F600-\U0001F64F"  # emoticons
    u"\U0001F300-\U0001F5FF"  # symbols & pictographs
    u"\U0001F680-\U0001F6FF"  # transport & map symbols
    u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
    "]+", flags = re.UNICODE)
    return regrex_pattern.sub(r'',text)

def tokenisation(text):
    text = TextBlob(text).words
    return text

In [5]:
from stop_words import get_stop_words       #About 900 stopwords
stop_words1 = get_stop_words('french')

def stop_words(text):
    for elt in text: # iterate over word_list
        if elt in stop_words1:
            text.remove(elt)
            
    return text

In [6]:
data['text'] = data['text'].apply(cleanTxt)

In [7]:
data

Unnamed: 0,label,text
0,0,awww c'est un bummer. tu devrais avoir david ...
1,0,est contrarié qu'il ne puisse pas mettre à jou...
2,0,j'ai plongé plusieurs fois pour la balle. a ré...
3,0,tout mon corps a des démangeaisons et comme si...
4,0,non il ne se comporte pas du tout. je suis en ...
...,...,...
1526794,1,oui cela fonctionne mieux que de l'attendre à ...
1526795,1,je viens de me réveiller. ne pas avoir d'école...
1526796,1,thewdb.comtrès cool d'entendre les vieilles in...
1526797,1,êtesvous prêt pour votre mojo makeover demande...


In [8]:
data['emoji'] = data['text'].apply(extract_emoti)

In [11]:
data

Unnamed: 0,label,text,emoji
0,0,awww c'est un bummer. tu devrais avoir david ...,[[]]
1,0,est contrarié qu'il ne puisse pas mettre à jou...,[[]]
2,0,j'ai plongé plusieurs fois pour la balle. a ré...,[[]]
3,0,tout mon corps a des démangeaisons et comme si...,[[]]
4,0,non il ne se comporte pas du tout. je suis en ...,[[]]
...,...,...,...
1526794,1,oui cela fonctionne mieux que de l'attendre à ...,[[]]
1526795,1,je viens de me réveiller. ne pas avoir d'école...,[[]]
1526796,1,thewdb.comtrès cool d'entendre les vieilles in...,[[]]
1526797,1,êtesvous prêt pour votre mojo makeover demande...,[[]]


In [12]:
data['text'] = data['text'].apply(supprimmer_emoti)

In [None]:
data['text']=data['text'].apply(tokernisation)

In [None]:
data['text']=data['text'].apply(stop_words)

# POLARITE

In [1]:
from textblob import TextBlob
from textblob_fr import PatternTagger, PatternAnalyzer

In [None]:
from textblob import Blobber
from textblob_fr import PatternTagger, PatternAnalyzer
tb = Blobber(pos_tagger=PatternTagger(), analyzer=PatternAnalyzer())

def sentiment(text):
    text = tb(text)
    sen = text.sentiment.polarity
    if sen<=0:
        sent = 'neg'
    else:
        sent = 'pos'
    return sent

In [None]:
data['textblob_label']= data['text'].apply(sentiment)

In [2]:
data['label'].value_counts()

WordList(['python'])

In [None]:
data['textblob_label'].value_counts()

# FEATURES EXTRACTION

## BIGRAMS

In [33]:
def bigram(text)
    tokens = tokenizer.tokenize(text)
    return list(nltk.bigrams(tokens))
data['text'].apply(bigram)

(0.0, 0.0)

## TD-IDF


In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
cd = TfidfVectorizer()
cd.fit(data["text"])
res = cd.transform(data["text"])
res.todense()

# DECOUPAGE DU DATA SET

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test 
    = train_test_split(data['text'], data['label'], test_size=0.2, random_state=1)

# MODELES

## NAIVE BAYES

In [None]:
from sklearn.naives_bayes import MultinomialNB
from sklearn import metrics

MNB = MultinomialNB()
MNB.fit(X_train, y_train)

In [None]:
predicted = MNB.predict(X_test)
accuracy_score = metrics.accuracy_score(predicted, y_test)

## REGRESSION LOGISTIQUE

In [None]:
from sklearn.linear_model import LogisticRegression, SGDClassifier

SGDC = SGDClassifier()

SGDC.fit(X_train, y_train)
accuracy_score_sgdc_CV = metrics.accuracy_score(SGDC.predict(X_test), y_test)

## REGRESSION LINEAIRE