<a href="https://colab.research.google.com/github/doudi0101/Google_AI/blob/main/Comparaison_outils_analyse_sentiments_.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Sentiment Analysis Tools

Il existe de nombreuses biblioth√®ques qui font l'analyse des sentiments pour vous. Imaginez √ßa : il suffit de prendre une phrase, de la jeter dans une biblioth√®que et d'obtenir un score en retour ! Comme c'est pratique !

Cela peut aussi √™tre **totalement irresponsable** si vous ne savez pas comment l'analyseur de sentiments a √©t√© construit. Dans cette section, nous allons voir comment l'analyse de sentiments est faite avec quelques paquets diff√©rents.

### Installation

Nous allons utiliser deux paquets de traitement du langage, NLTK et Textblob, ainsi que deux biblioth√®ques d'analyse de donn√©es/visualisation, matplotlib et pandas. Vous pouvez d√©commenter et ex√©cuter la cellule ci-dessous si vous en avez besoin.

In [None]:
# !pip install matplotlib pandas nltk textblob 

## Outils

### NLTK: Natural Language Tooklit

[Natural Language Toolkit](https://www.nltk.org/) est la base de beaucoup d'analyses de texte r√©alis√©es en Python. Il est vieux, terrible et lent, mais il est utilis√© depuis si longtemps et fait tellement de choses qu'il est g√©n√©ralement utilis√© par d√©faut lorsque les gens se lancent dans l'analyse de texte. Le petit dernier est [spaCy](https://spacy.io/) (mais il ne fait pas d'analyse de sentiments tout de suite, donc nous le laissons de c√¥t√©).

Lorsque vous lancez NLTK pour la premi√®re fois, vous devez t√©l√©charger quelques jeux de donn√©es pour vous assurer qu'il sera capable de faire tout ce que vous voulez.

In [None]:
import nltk
nltk.download('vader_lexicon')
nltk.download('movie_reviews')
nltk.download('punkt')

[nltk_data] Downloading package vader_lexicon to /root/nltk_data...
[nltk_data]   Package vader_lexicon is already up-to-date!
[nltk_data] Downloading package movie_reviews to /root/nltk_data...
[nltk_data]   Package movie_reviews is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

Pour faire de l'analyse de sentiments avec NLTK, il suffit de quelques lignes de code. Pour d√©terminer le sentiment, il utilise un outil appel√© **VADER**.

In [None]:
from nltk.sentiment.vader import SentimentIntensityAnalyzer as SIA

sia = SIA()
sia.polarity_scores("This restaurant was great, but I'm not sure if I'll go there again.")

{'compound': 0.0276, 'neg': 0.153, 'neu': 0.688, 'pos': 0.159}

Demander √† `SentimentIntensityAnalyzer` le `polarity_score` nous a donn√© quatre valeurs dans un dictionnaire :

- **negative:** le sentiment n√©gatif dans une phrase
- **neutre:** le sentiment neutre dans une phrase
- **positif:** le sentiment positif dans une phrase
- **compound:** le sentiment agr√©g√©. 
    
Cela semble assez simple !

In [None]:
text = "I just got a call from my boss - does he realise it's Saturday?"
sia.polarity_scores(text)

{'compound': 0.0, 'neg': 0.0, 'neu': 1.0, 'pos': 0.0}

Tout comme dans la vie r√©elle, si vous utilisez une √©motic√¥ne, on peut penser que vous √™tes plus positif :

In [None]:
text = "I just got a call from my boss - does he realise it's Saturday? :)"
sia.polarity_scores(text)

{'compound': 0.4588, 'neg': 0.0, 'neu': 0.786, 'pos': 0.214}

Mais si on √©changeait l'√©motic√¥ne contre un emoji ?

In [None]:
text = "I just got a call from my boss - does he realise it's Saturday? üòä"
sia.polarity_scores(text)

{'compound': 0.0, 'neg': 0.0, 'neu': 1.0, 'pos': 0.0}

Retour au neutre ! Pourquoi n'a-t-il pas compris l'emoji de la m√™me fa√ßon que l'emoticon ? Eh bien, **les outils d'analyse de texte ne connaissent que les mots qu'on leur a appris,** et si VADER n'a jamais vu üòä auparavant, il ne saura pas quoi en penser.

### TextBlob

TextBlob est construit au-dessus de NLTK, mais est infiniment plus facile √† utiliser. C'est toujours lent, mais _c'est tellement tellement facile √† utiliser_. 

Vous pouvez simplement donner votre phrase √† TextBlob, puis demander un `.sentiment` !

In [None]:
from textblob import TextBlob
from textblob import Blobber
from textblob.sentiments import NaiveBayesAnalyzer

In [None]:
blob = TextBlob("This restaurant was great, but I'm not sure if I'll go there again.")
blob.sentiment

Sentiment(polarity=0.275, subjectivity=0.8194444444444444)

Cette fois, nous obtenons une `polarit√©` et une `subjectivit√©` au lieu de tous ces scores diff√©rents, mais c'est fondamentalement la m√™me id√©e.

Si vous aimez les options : il s'av√®re que TextBlob dispose en fait de plusieurs outils d'analyse de sentiments ! Quel plaisir ! Nous pouvons brancher un autre analyseur pour obtenir un autre r√©sultat.

In [None]:
blobber = Blobber(analyzer=NaiveBayesAnalyzer())

blob = blobber("This restaurant was great, but I'm not sure if I'll go there again.")
blob.sentiment

Sentiment(classification='pos', p_pos=0.5879425317005774, p_neg=0.41205746829942275)

Wow, c'est un r√©sultat tr√®s diff√©rent. Pour comprendre pourquoi c'est si diff√©rent, nous devons parler de l'origine de ces chiffres de sentiment.

## How were they made?

La chose la plus importante √† comprendre est que **le sentiment n'est jamais qu'une opinion**. Dans ce cas, c'est une opinion, oui, mais sp√©cifiquement **l'opinion d'une machine**.

### VADER

L'analyseur d'intensit√© de sentiment de NLTK fonctionne en utilisant un √©l√©ment appel√© **VADER**, qui est une liste de mots auxquels est associ√© un sentiment.

|Word|Sentiment rating|
|---|---|
|tragedy|-3.4|
|rejoiced|2.0|
|disaster|-3.1|
|great|3.1|

Si vous avez plus de positifs, la phrase est plus positive. Si vous avez plus de n√©gatifs, elle est plus n√©gative. Il peut √©galement prendre en compte des √©l√©ments tels que les majuscules. Vous pouvez en savoir plus sur le classificateur [ici] (http://t-redactyl.io/blog/2017/04/using-vader-to-handle-sentiment-analysis-with-social-media-text.html), ou sur l'article dont il est issu [ici] (http://comp.social.gatech.edu/papers/icwsm14.vader.hutto.pdf).

**Comment savent-ils ce qui est positif/n√©gatif ? Ils ont dress√© une tr√®s longue liste de mots, puis ont interrog√© des internautes et les ont pay√©s un centime pour chaque mot not√©.


### TextBlob's `.sentiment`

L'analyse des sentiments de TextBlob est bas√©e sur une biblioth√®que distincte appel√©e [pattern] (https://www.clips.uantwerpen.be/pattern).

> Le lexique d'analyse des sentiments fourni par Pattern se concentre sur les adjectifs. Il contient des adjectifs qui apparaissent fr√©quemment dans les commentaires des clients, √©tiquet√©s √† la main avec des valeurs de polarit√© et de subjectivit√©.

C'est le m√™me genre de chose que VADER de NLTK, mais il examine sp√©cifiquement les mots provenant des commentaires des clients.

**Comment savent-ils ce qui est positif/n√©gatif ? Ils regardent (principalement) les adjectifs qui apparaissent dans les commentaires des clients et les √©tiquettent manuellement.

### TextBlob's `.sentiment` + NaiveBayesAnalyzer

L'autre option de TextBlob utilise un `NaiveBayesAnalyzer`, qui est une technique d'apprentissage automatique. Lorsque vous utilisez cette option avec TextBlob, le sentiment provient d'un "classificateur NLTK form√© sur un corpus de critiques de films".

**Comment savent-ils ce qui est positif/n√©gatif?** En examinant les critiques et les notes de films √† l'aide de l'apprentissage automatique, l'ordinateur a _automatiquement appris_ quels mots sont associ√©s √† une note positive ou n√©gative.

## What's this mean for me?

Lorsque vous faites de l'analyse de sentiments avec des outils comme celui-ci, vous devez vous poser quelques questions importantes : 

* D'o√π provient la liste des mots connus ?
* Utilise-t-il tous les mots, ou une s√©lection de mots ?
* D'o√π proviennent les scores positifs/n√©gatifs ?

Comparons les outils que nous avons utilis√©s jusqu'√† pr√©sent.

|technique|word source|word selection|scores|
|---|---|---|---|
|NLTK (VADER)|everywhere|hand-picked|internet people, word-by-word|
|TextBlob|product reviews|hand-picked, mostly adjectives|internet people, word-by-word|
|TextBlob + NaiveBayesAnalyzer|movie reviews|all words|automatic based on score|

Une chose importante qui devrait vous sauter aux yeux est **la diff√©rence entre les sources.**

Alors que VADER se concentre sur le contenu trouv√© partout, les deux options de TextBlob sont sp√©cifiques √† certains domaines. Le [document original de VADER] (http://comp.social.gatech.edu/papers/icwsm14.vader.hutto.pdf) note de mani√®re passive-agressive que VADER est efficace pour une utilisation g√©n√©rale, mais qu'√™tre entra√Æn√© sur un domaine sp√©cifique peut avoir des avantages : 

> Bien que certains algorithmes aient obtenu des r√©sultats d√©cents sur des donn√©es de test provenant du domaine sp√©cifique pour lequel ils ont √©t√© express√©ment form√©s, ils ne d√©passent pas de mani√®re significative le mod√®le simple que nous utilisons.

En gros, ils disent : "si vous entra√Ænez un mod√®le sur des mots d'un certain domaine, il sera bon pour le sentiment dans ce domaine".

## Tableau comparatif

Parce qu'ils sont construits diff√©remment, les outils d'analyse des sentiments ne sont pas toujours d'accord. Prenons un ensemble de phrases et comparons la compr√©hension qu'en a chaque analyseur.

In [None]:
import pandas as pd
pd.set_option("display.max_colwidth", 200)

df = pd.DataFrame({'content': [
    "I love love love love this kitten",
    "I hate hate hate hate this keyboard",
    "I'm not sure how I feel about toast",
    "Did you see the baseball game yesterday?",
    "The package was delivered late and the contents were broken",
    "Trashy television shows are some of my favorites",
    "I'm seeing a Kubrick film tomorrow, I hear not so great things about it.",
    "I find chirping birds irritating, but I know I'm not the only one",
]})
df

Unnamed: 0,content
0,I love love love love this kitten
1,I hate hate hate hate this keyboard
2,I'm not sure how I feel about toast
3,Did you see the baseball game yesterday?
4,The package was delivered late and the contents were broken
5,Trashy television shows are some of my favorites
6,"I'm seeing a Kubrick film tomorrow, I hear not so great things about it."
7,"I find chirping birds irritating, but I know I'm not the only one"


In [None]:
def get_scores(content):
    blob = TextBlob(content)
    nb_blob = blobber(content)
    sia_scores = sia.polarity_scores(content)
    
    return pd.Series({
        'content': content,
        'textblob': blob.sentiment.polarity,
        'textblob_bayes': nb_blob.sentiment.p_pos - nb_blob.sentiment.p_neg,
        'nltk': sia_scores['compound'],
    })

scores = df.content.apply(get_scores)
scores.style.background_gradient(cmap='RdYlGn', axis=None, low=0.4, high=0.4)

Unnamed: 0,content,textblob,textblob_bayes,nltk
0,I love love love love this kitten,0.5,-0.087933,0.9571
1,I hate hate hate hate this keyboard,-0.8,-0.214151,-0.9413
2,I'm not sure how I feel about toast,-0.25,0.394659,-0.2411
3,Did you see the baseball game yesterday?,-0.4,0.61305,0.0
4,The package was delivered late and the contents were broken,-0.35,-0.57427,-0.4767
5,Trashy television shows are some of my favorites,0.0,0.040076,0.4215
6,"I'm seeing a Kubrick film tomorrow, I hear not so great things about it.",0.8,0.717875,-0.6296
7,"I find chirping birds irritating, but I know I'm not the only one",-0.2,0.257148,-0.25


Wow, ils ne sont vraiment pas d'accord les uns avec les autres ! Avec lequel √™tes-vous le plus d'accord ? Est-ce que tout √©tait "juste" ?

Alors qu'il semblait magique de pouvoir brancher une phrase dans un analyseur de sentiments et d'obtenir un r√©sultat en retour... peut-√™tre que les choses ne sont pas aussi magiques que nous le pensions.

## Review

**L'analyse des sentiments** consiste √† juger si un morceau de texte a une √©motion positive ou n√©gative. Nous avons abord√© plusieurs outils permettant de r√©aliser une analyse automatique des sentiments : **NLTK**, et deux techniques au sein de **TextBlob**.

Chaque outil utilise des donn√©es diff√©rentes pour d√©terminer ce qui est positif et n√©gatif, et tandis que certains utilisent des **humains** pour marquer les choses comme positives ou n√©gatives, d'autres utilisent un **apprentissage machine** automatique.

En raison de ces diff√©rences, chaque outil peut obtenir des notes de sentiment tr√®s **diff√©rentes** pour le m√™me morceau de texte.

## Sujets de discussion

Les premi√®res questions consistent √† savoir si un analyseur peut √™tre appliqu√© dans des situations autres que celles pour lesquelles il a √©t√© form√©. Entre autres choses, vous devrez vous demander si la langue sur laquelle il a √©t√© form√© est similaire √† la langue sur laquelle vous l'utilisez.

**Il est possible d'utiliser un analyseur de sentiments construit √† partir d'√©valuations de produits pour v√©rifier le sentiment de tweets **Et de v√©rifier le sentiment d'√©valuations de service h√¥telier  ?

**Il est possible d'utiliser un analyseur de sentiments form√© sur tout pour v√©rifier le sentiment des tweets?** Et pour v√©rifier le sentiment des critiques de service h√¥telier  ?

**Si j'essaie de savoir si les gens aiment ou n'aiment pas ce qui se passe au cours des d√©bats, puis-je utiliser ce genre d'outils sur les tweets ?

Nous utilisons volontairement le terme incroyablement vague de "bien", car il existe diff√©rents niveaux de confort en fonction de votre situation. Faites-vous cela pour une recherche pr√©liminaire ? Allez-vous publier les r√©sultats dans une revue, dans un journal, dans un rapport au travail, dans une recommandation de politique publique ? Et si je vous disais que l'id√©al du "je n'utiliserais qu'un outil d'analyse de sentiments form√© exactement pour mon domaine sp√©cifique" est √† la fois _rare et peu pratique ?_.

Comme nous l'avons vu dans la derni√®re section, **ces outils ne sont pas toujours en accord les uns avec les autres, ce qui peut √™tre probl√©matique.**

* Qu'est-ce qui peut les mettre en accord ou en d√©saccord ?
* Pensons-nous que l'un d'entre eux est le "meilleur" ?
* Pouvez-vous imaginer des moyens de tester lequel est le "meilleur" pour nos besoins ?