# Sentiment analysis 

## 1. Textblob-FR

Documentation: https://textblob.readthedocs.io/en/dev/

### Imports

In [39]:
import sys
from textblob import Blobber
from textblob_fr import PatternTagger, PatternAnalyzer

### Création d'une fonction `get_sentiment`

In [40]:
tb = Blobber(pos_tagger=PatternTagger(), analyzer=PatternAnalyzer())

def get_sentiment(input_text):
    blob = tb(input_text)
    polarity, subjectivity = blob.sentiment
    polarity_perc = f"{100*abs(polarity):.0f}"
    subjectivity_perc = f"{100*subjectivity:.0f}"
    if polarity > 0:
        polarity_str = f"{polarity_perc}% positive"
    elif polarity < 0:
        polarity_str = f"{polarity_perc}% negative"
    else:
        polarity_str = "neutral"
    if subjectivity > 0:
        subjectivity_str = f"{subjectivity}% subjective"
    else:
        subjectivity_str = "perfectly objective"
    return f"This text is {polarity_str} and {subjectivity_str}."

## 2. Utilisation de transformers

Documentation: https://github.com/TheophileBlard/french-sentiment-analysis-with-bert

**!!** Si le code ne tourne pas sur votre machine, vous pouvez le tester directement sur Google Colab en utilisant [ce lien](https://colab.research.google.com/github/TheophileBlard/french-sentiment-analysis-with-bert/blob/master/colab/french_sentiment_analysis_with_bert.ipynb) **!!**

Le modèle peut également être testé en ligne sur [HuggingFace](https://huggingface.co/tblard/tf-allocine)

### Installation des librairies et imports

In [41]:
!pip install tensorflow
!pip install sentencepiece
!pip install transformers

from transformers import AutoTokenizer, TFAutoModelForSequenceClassification
from transformers import pipeline

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)




huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)




huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)




### Chargement du modèle

In [42]:
tokenizer = AutoTokenizer.from_pretrained("tblard/tf-allocine", use_pt=True)
model = TFAutoModelForSequenceClassification.from_pretrained("tblard/tf-allocine")

sentiment_analyser = pipeline('sentiment-analysis', model=model, tokenizer=tokenizer)

All model checkpoint layers were used when initializing TFCamembertForSequenceClassification.

All the layers of TFCamembertForSequenceClassification were initialized from the model checkpoint at tblard/tf-allocine.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFCamembertForSequenceClassification for predictions without further training.


## Analyser le sentiment de 10 phrases du corpus CAMille

In [44]:
import pandas as pd

# Les phrases
phrases = [
    "C'est une véritable tempête d'acclamations qui salue les souverains à leur retour vers la gare.",
    "Jamais Charleroi n’a vu foule semblable.",
    "Des fenêtres, on jette au passage de la calèche royale une véritable pluie de fleurs et la voiture doit s'arrêter à plusieurs reprises.",
    "A la gare, le Roi et la Reine sont visiblement fatigués.",
    "Ils ont pendant plusieurs heures été exposés à un soleil de plomb, mais leurs figures sont réjouies.",
    "Avant de prendre place dans leur voiture salon, la Reine, puis le Roi remercient vivement le bourgmestre pour la manifestation grandiose de loyalisme qui leur a été donnée et le chargent de transmettre leurs remerciements à la population carolorégienne.",
    "A sept heures moins dix, le train royal quitte la gare, salué par de suprêmes acclamations.",
    "Le service d’ordre a été parfait.",
    "Remercions également M. Lacroix, percepteur principal des télégraphes, qui avait eu l’aimable initiative de mettre un bureau spécial à la disposition des journalistes.",
    "Un homme assassiné dans un sentier, il s’agirait du drame de la jalousie."
]

# Appliquer les fonctions aux phrases et stocker les résultats
results = []
for phrase in phrases:
    sentiment_pos_obj = get_sentiment(phrase)
    sentiment_trans = sentiment_analyser(phrase)
    results.append([phrase, sentiment_pos_obj, sentiment_trans])

# Créer un DataFrame à partir des résultats
df = pd.DataFrame(results, columns=["Phrase", "Sentiment (get_sentiment)", "Sentiment (sentiment_analyser)"])

# Afficher le DataFrame
df

df.to_csv('nom_de_votre_fichier.csv', index=False)
