# Sentiment analysis 

## 1. Textblob-FR

Documentation: https://textblob.readthedocs.io/en/dev/

### Imports

In [35]:
import sys
import os
from textblob import Blobber
from textblob_fr import PatternTagger, PatternAnalyzer
from textblob import TextBlob
import nltk

### Fonction d'analyse de sentiment.

In [21]:
tb = Blobber(pos_tagger=PatternTagger(), analyzer=PatternAnalyzer())

def get_sentiment(input_text):
    blob = tb(input_text)
    polarity, subjectivity = blob.sentiment
    polarity_perc = f"{100*abs(polarity):.0f}"
    subjectivity_perc = f"{100*subjectivity:.0f}"
    if polarity > 0:
        polarity_str = f"{polarity_perc}% positive"
    elif polarity < 0:
        polarity_str = f"{polarity_perc}% negative"
    else:
        polarity_str = "neutral"
    if subjectivity > 0:
        subjectivity_str = f"{subjectivity}% subjective"
    else:
        subjectivity_str = "perfectly objective"
    print(f"This text is {polarity_str} and {subjectivity_str}.")

### Évaluer le sentiment

In [23]:
# Choisir une année
year = 1910

In [24]:
# Lister les fichiers de cette année
data_path = '../data'
txt_path = '../data/txt'
txts = [f for f in os.listdir(txt_path) if os.path.isfile(os.path.join(txt_path, f)) and str(year) in f]
len(txts)

100

In [25]:
# Stocker le contenu de ces fichiers dans une liste
content_list = []
for txt in txts:
    with open(os.path.join(txt_path, txt), 'r', encoding='utf-8') as f:
        content_list.append(f.read())

In [26]:
# Compter le nombre d'éléments (=fichiers) dans la liste
len(content_list)

100

In [28]:
# Liste pour stocker les phrases
selected_phrases = []

# Compteur pour les documents et les phrases
document_count = 0
phrase_count = 0

# Longueur minimale requise pour une phrase
min_phrase_length = 30

# Parcour des 10 premiers fichiers de la liste
for document in content_list[:10]:
    # Division du fichier en trois parties égales
    part_length = len(document) // 3
    
    # Phrases au début
    start_phrases = []
    current_phrase = ""
    for char in document[:part_length]:
        current_phrase += char
        if char in ['.', '!', '?']:
            if len(current_phrase) >= min_phrase_length:
                start_phrases.append(current_phrase)
                current_phrase = ""
    
    # Phrases au milieu
    middle_phrases = []
    current_phrase = ""
    for char in document[part_length:2*part_length]:
        current_phrase += char
        if char in ['.', '!', '?']:
            if len(current_phrase) >= min_phrase_length:
                middle_phrases.append(current_phrase)
                current_phrase = ""
    
    # Phrases à la fin
    end_phrases = []
    current_phrase = ""
    for char in document[2*part_length:]:
        current_phrase += char
        if char in ['.', '!', '?']:
            if len(current_phrase) >= min_phrase_length:
                end_phrases.append(current_phrase)
                current_phrase = ""
    
    # Sélection de 3 phrases au début, 3 au milieu et 4 à la fin
    selected_phrases.extend(start_phrases[:3])
    selected_phrases.extend(middle_phrases[:3])
    selected_phrases.extend(end_phrases[:4])
    
    # Mise à jour des compteurs
    document_count += 1
    phrase_count += len(start_phrases[:3]) + len(middle_phrases[:3]) + len(end_phrases[:4])
    
    if phrase_count >= 10:
        break


In [None]:
 selected_phrases

In [32]:
text = "\n".join(selected_phrases[:10])

In [38]:
from textblob import TextBlob

# Liste des phrases à analyser
phrases = [
    "Le Crayon en douille de métal avec dorure véritable, dans diverses fragrances telles que violette, idéale, œillet, jacinthe, lilas, orchidée, muguet, rose, Chypre, eau de Cologne, etc.",
    "La pièce : 5 francs ; de qualité extra et en douille de métal avec dorure véritable, y compris l’étui : 8 francs.",
    "9853 EN VENTE DANS TOUTES LES BONNES MAISONS.",
    "Tout envoi se fera contre remboursement, ainsi que par timbres-poste, adressés au Dépôt général FIRST AMERICAN PERFUMERY OJA, Téléphone 7953.",
    "JE BRUXELLES, 13, rue de la Madeleine, vous offre la chance et le bonheur par des moyens infaillibles.",
    "Pas de charlatanisme ! J’envoie ces 9E-0RET8 MERVEILLEUX GRATIS donc, vous ne risquez rien.",
    "Écrivez au Pr N'HUTTER, 18, RUE D’ESPAGNE, 18, Bruxelles.",
    "1547 TABAC SEIGLE. Récolte 1900, 3,50 fr. le kilo ; Récolte 1907, 3,00 fr. le kilo ; Récolte 1908, 2,75 fr. le kilo.",
    "Par 5 kilos et contre remboursement. Gaspard K, fabricant, Saint-Léger, province de Luxembourg.",
    "2459 MASSAGE MANUCURE. Mme STROBEL, DIPLÔMÉE. 11, rue Antoine Dansaert, Bourse, 2e étage.",
    "2063 ÉPOQUES. Méthode radicale. Loyauté. Discrétion. Rue des Moissonneurs, 40, Etterbeek (la chasse).",
    "4765 ACCOUCHEUSE. Diplômée de l'Université, 25 ans de pratique. Consultations discrètes. Accouchements, 10 jours. 10, rue du Chemin de Fer, Nord.",
    "4878 MEUBLES. 38, RUE RUYSBROECK, 38. À vendre : plusieurs belles salles à manger, chambres à coucher, bureaux, bibliothèques, belles garnitures de salon, à très bon prix.",
    "3135. 12, rue des Capucins, 12, Chapeaux Dames. Grand choix ½ saison. Prix avantageux, fleurs, fournitures, transformations.",
    "629 MILANS. ACCOUCHEMENT. J’ACHÈTE comptant. Complets. Écrire Boîte 120, Bruxelles-Centre."
]

# Analyse des sentiments
analyses = []

for phrase in phrases:
    blob = TextBlob(phrase)
    polarite = blob.sentiment.polarity  # Score de polarité
    subjectivite = blob.sentiment.subjectivity  # Score de subjectivité
    analyses.append((polarite, subjectivite))

# Affichage des résultats
for i, (phrase, (polarite, subjectivite)) in enumerate(zip(phrases, analyses)):
    print(f"Phrase {i+1}:")
    print(f"  Texte : {phrase}")
    print(f"  Polarité : {polarite}")
    print(f"  Subjectivité : {subjectivite}\n")


Phrase 1:
  Texte : Le Crayon en douille de métal avec dorure véritable, dans diverses fragrances telles que violette, idéale, œillet, jacinthe, lilas, orchidée, muguet, rose, Chypre, eau de Cologne, etc.
  Polarité : 0.6
  Subjectivité : 0.95

Phrase 2:
  Texte : La pièce : 5 francs ; de qualité extra et en douille de métal avec dorure véritable, y compris l’étui : 8 francs.
  Polarité : 0.0
  Subjectivité : 0.1

Phrase 3:
  Texte : 9853 EN VENTE DANS TOUTES LES BONNES MAISONS.
  Polarité : 0.0
  Subjectivité : 0.0

Phrase 4:
  Texte : Tout envoi se fera contre remboursement, ainsi que par timbres-poste, adressés au Dépôt général FIRST AMERICAN PERFUMERY OJA, Téléphone 7953.
  Polarité : 0.125
  Subjectivité : 0.16666666666666666

Phrase 5:
  Texte : JE BRUXELLES, 13, rue de la Madeleine, vous offre la chance et le bonheur par des moyens infaillibles.
  Polarité : 0.0
  Subjectivité : 0.0

Phrase 6:
  Texte : Pas de charlatanisme ! J’envoie ces 9E-0RET8 MERVEILLEUX GRATIS donc, vous n

In [16]:
get_sentiment("Les journaux publient la dépêche suivante du camp de Frère, 31 : Les Boers ont établi un nouveau camp formé do 63 wagons.")

(0.0, 0.0)

In [11]:
get_sentiment(text)

This text is 5% positive and 0.25000000000000006% subjective.


## 2. Grâce au transformers

Documentation: https://github.com/TheophileBlard/french-sentiment-analysis-with-bert

**!!** Si le code ne tourne pas sur votre machine, vous pouvez le tester directement sur Google Colab en utilisant [ce lien](https://colab.research.google.com/github/TheophileBlard/french-sentiment-analysis-with-bert/blob/master/colab/french_sentiment_analysis_with_bert.ipynb) **!!**

Le modèle peut également être testé en ligne sur [HuggingFace](https://huggingface.co/tblard/tf-allocine)

### Installation des librairies et imports

In [12]:
!pip install tensorflow
!pip install sentencepiece
!pip install transformers
!pip install spacy-transformer

from transformers import AutoTokenizer, TFAutoModelForSequenceClassification
from transformers import pipeline

^C


### Chargement du modèle

In [None]:
tokenizer = AutoTokenizer.from_pretrained("tblard/tf-allocine", use_pt=True)
model = TFAutoModelForSequenceClassification.from_pretrained("tblard/tf-allocine")

sentiment_analyser = pipeline('sentiment-analysis', model=model, tokenizer=tokenizer)

### Analyser le sentiment d'une phrase

In [None]:
sentiment_analyser("Ce journal est vraiment super intéressant.")

In [None]:
sentiment_analyser("Cette phrase est négative et je ne suis pas content !")