# Sentiment analysis 

## 1. Textblob-FR

Documentation: https://textblob.readthedocs.io/en/dev/

### Imports

In [None]:
# =========================
# IMPORTS
# =========================
import os
import nltk
from nltk.tokenize import sent_tokenize
from textblob import Blobber
from textblob_fr import PatternTagger, PatternAnalyzer

# Télécharger le tokenizer si nécessaire
nltk.download("punkt")

# =========================
# ANALYSEUR DE SENTIMENT
# =========================
tb = Blobber(pos_tagger=PatternTagger(), analyzer=PatternAnalyzer())

def get_sentiment(input_text):
    blob = tb(input_text)
    polarity, subjectivity = blob.sentiment
    polarity_perc = f"{100*abs(polarity):.0f}"
    subjectivity_perc = f"{100*subjectivity:.0f}"

    if polarity > 0:
        polarity_str = f"{polarity_perc}% positive"
    elif polarity < 0:
        polarity_str = f"{polarity_perc}% negative"
    else:
        polarity_str = "neutral"

    if subjectivity > 0:
        subjectivity_str = f"{subjectivity_perc}% subjective"
    else:
        subjectivity_str = "perfectly objective"

    print(f"This text is {polarity_str} and {subjectivity_str}.")

# =========================
# DISTANCE DE LEVENSHTEIN
# =========================
def levenshtein(a, b):
    if a == b:
        return 0
    if len(a) == 0:
        return len(b)
    if len(b) == 0:
        return len(a)

    previous_row = range(len(b) + 1)
    for i, ca in enumerate(a):
        current_row = [i + 1]
        for j, cb in enumerate(b):
            insertions = previous_row[j + 1] + 1
            deletions = current_row[j] + 1
            substitutions = previous_row[j] + (ca != cb)
            current_row.append(min(insertions, deletions, substitutions))
        previous_row = current_row

    return previous_row[-1]

# =========================
# EXTRACTION DES PHRASES
# =========================
data_path = "../../data/txt/"
files = [f for f in os.listdir(data_path) if f.endswith(".txt")]

target_word = "austérité"
max_distance = 2

austerite_sentences = []

for this_file in files:
    file_path = os.path.join(data_path, this_file)

    with open(file_path, "r", encoding="utf-8") as f:
        text = f.read()

    sentences = sent_tokenize(text, language="french")

    for sent in sentences:
        words = [
            w.strip(".,;:!?()[]\"'").lower()
            for w in sent.split()
        ]

        for w in words:
            if levenshtein(w, target_word) <= max_distance:
                austerite_sentences.append(sent)
                break

# =========================
# ANALYSE + MOYENNES
# =========================
polarities = []
subjectivities = []

print(f"\nNombre total de phrases contenant 'austérité' (±2) : {len(austerite_sentences)}\n")

for sent in austerite_sentences:
    print("PHRASE :", sent)

    blob = tb(sent)
    polarity, subjectivity = blob.sentiment

    polarities.append(polarity)
    subjectivities.append(subjectivity)

    get_sentiment(sent)
    print("-" * 70)

# =========================
# RÉSULTATS GLOBAUX
# =========================
if polarities:
    avg_polarity = sum(polarities) / len(polarities)
    avg_subjectivity = sum(subjectivities) / len(subjectivities)

    print("\n===== MOYENNES SUR LES CONTEXTES D'AUSTÉRITÉ =====")
    print(f"Polarité moyenne : {avg_polarity:.3f}")
    print(f"Subjectivité moyenne : {avg_subjectivity:.3f}")
else:
    print("Aucune phrase contenant 'austérité' n'a été trouvée.")


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Admin\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!



Nombre total de phrases contenant 'austérité' (±2) : 1639

PHRASE : *s>'* **•»•* ■*-%•■■*■»•%•■» ABONNEZ-VOUS A RENOVATION POUR la femme LES « INUTILITES » TELLEMENT NECESSAIRES Nous avions pris l'habitude d'une certaine austérité.
This text is 21% positive and 12% subjective.
----------------------------------------------------------------------
PHRASE : D'ailleur, ta.nt de petites choses inoffensives en elles-mêmes et par surcroît charmantes, nous guettent et attendent l'occasion facile de nous séduire, que nous confiner dans l'austérité serait pour nous un supplice trop cruel.
This text is 18% positive and 34% subjective.
----------------------------------------------------------------------
PHRASE : Est-ce qu'un petit pays comme le nôtre possède des Cùpacités financières telles qu'il peut se permettre d'entretenir outreRhin presque autant de troupes que l'Angleterre éprise d' « austérité »?
This text is 10% positive and 10% subjective.
---------------------------------------------

In [3]:
# =========================
# IMPORTS
# =========================
import os
import nltk
from nltk.tokenize import sent_tokenize
from textblob import Blobber
from textblob_fr import PatternTagger, PatternAnalyzer

nltk.download("punkt")

# =========================
# ANALYSEUR DE SENTIMENT
# =========================
tb = Blobber(pos_tagger=PatternTagger(), analyzer=PatternAnalyzer())

def get_sentiment(input_text):
    blob = tb(input_text)
    polarity, subjectivity = blob.sentiment
    polarity_perc = f"{100*abs(polarity):.0f}"
    subjectivity_perc = f"{100*subjectivity:.0f}"

    if polarity > 0:
        polarity_str = f"{polarity_perc}% positive"
    elif polarity < 0:
        polarity_str = f"{polarity_perc}% negative"
    else:
        polarity_str = "neutral"

    if subjectivity > 0:
        subjectivity_str = f"{subjectivity_perc}% subjective"
    else:
        subjectivity_str = "perfectly objective"

    print(f"This text is {polarity_str} and {subjectivity_str}.")

# =========================
# DISTANCE DE LEVENSHTEIN
# =========================
def levenshtein(a, b):
    if a == b:
        return 0
    if len(a) == 0:
        return len(b)
    if len(b) == 0:
        return len(a)

    previous_row = range(len(b) + 1)
    for i, ca in enumerate(a):
        current_row = [i + 1]
        for j, cb in enumerate(b):
            insertions = previous_row[j + 1] + 1
            deletions = current_row[j] + 1
            substitutions = previous_row[j] + (ca != cb)
            current_row.append(min(insertions, deletions, substitutions))
        previous_row = current_row

    return previous_row[-1]

# =========================
# EXTRACTION DES PHRASES
# =========================
data_path = "../../data/txt/"
files = [f for f in os.listdir(data_path) if f.endswith(".txt")]

target_word = "austérité"
max_distance = 2

austerite_sentences = []

for this_file in files:
    file_path = os.path.join(data_path, this_file)

    with open(file_path, "r", encoding="utf-8") as f:
        text = f.read()

    sentences = sent_tokenize(text, language="french")

    for sent in sentences:
        words = [
            w.strip(".,;:!?()[]\"'").lower()
            for w in sent.split()
        ]

        for w in words:
            if levenshtein(w, target_word) <= max_distance:
                austerite_sentences.append(sent)
                break

# =========================
# ANALYSE + STOCKAGE
# =========================
results = []  # (phrase, polarité, subjectivité)

print(f"\nNombre total de phrases contenant 'austérité' (±2) : {len(austerite_sentences)}\n")

for sent in austerite_sentences:
    blob = tb(sent)
    polarity, subjectivity = blob.sentiment

    results.append((sent, polarity, subjectivity))

    print("PHRASE :", sent)
    get_sentiment(sent)
    print("-" * 70)

# =========================
# MOYENNES
# =========================
polarities = [p for _, p, _ in results]
subjectivities = [s for _, _, s in results]

avg_polarity = sum(polarities) / len(polarities)
avg_subjectivity = sum(subjectivities) / len(subjectivities)

print("\n===== MOYENNES =====")
print(f"Polarité moyenne : {avg_polarity:.3f}")
print(f"Subjectivité moyenne : {avg_subjectivity:.3f}")

# =========================
# 3 PHRASES LES PLUS PROCHES DE LA MOYENNE
# =========================
closest_phrases = sorted(
    results,
    key=lambda x: abs(x[1] - avg_polarity)
)[:3]

print("\n===== 3 PHRASES LES PLUS PROCHES DE LA MOYENNE =====\n")

for sent, polarity, subjectivity in closest_phrases:
    print(f"PHRASE : {sent}")
    print(f"Polarité : {polarity:.3f}")
    print(f"Écart à la moyenne : {abs(polarity - avg_polarity):.3f}")
    print("-" * 70)


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Admin\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!



Nombre total de phrases contenant 'austérité' (±2) : 1639

PHRASE : *s>'* **•»•* ■*-%•■■*■»•%•■» ABONNEZ-VOUS A RENOVATION POUR la femme LES « INUTILITES » TELLEMENT NECESSAIRES Nous avions pris l'habitude d'une certaine austérité.
This text is 21% positive and 12% subjective.
----------------------------------------------------------------------
PHRASE : D'ailleur, ta.nt de petites choses inoffensives en elles-mêmes et par surcroît charmantes, nous guettent et attendent l'occasion facile de nous séduire, que nous confiner dans l'austérité serait pour nous un supplice trop cruel.
This text is 18% positive and 34% subjective.
----------------------------------------------------------------------
PHRASE : Est-ce qu'un petit pays comme le nôtre possède des Cùpacités financières telles qu'il peut se permettre d'entretenir outreRhin presque autant de troupes que l'Angleterre éprise d' « austérité »?
This text is 10% positive and 10% subjective.
---------------------------------------------

#Avec les mots austérité et économie (dist lowenstein de 2)

In [7]:
# =========================
# IMPORTS
# =========================
import os
import nltk
from nltk.tokenize import sent_tokenize
from textblob import Blobber
from textblob_fr import PatternTagger, PatternAnalyzer

nltk.download("punkt")

# =========================
# ANALYSEUR DE SENTIMENT
# =========================
tb = Blobber(pos_tagger=PatternTagger(), analyzer=PatternAnalyzer())

def get_sentiment(input_text):
    blob = tb(input_text)
    polarity, subjectivity = blob.sentiment
    polarity_perc = f"{100*abs(polarity):.0f}"
    subjectivity_perc = f"{100*subjectivity:.0f}"

    if polarity > 0:
        polarity_str = f"{polarity_perc}% positive"
    elif polarity < 0:
        polarity_str = f"{polarity_perc}% negative"
    else:
        polarity_str = "neutral"

    if subjectivity > 0:
        subjectivity_str = f"{subjectivity_perc}% subjective"
    else:
        subjectivity_str = "perfectly objective"

    print(f"This text is {polarity_str} and {subjectivity_str}.")

# =========================
# DISTANCE DE LEVENSHTEIN
# =========================
def levenshtein(a, b):
    if a == b:
        return 0
    if len(a) == 0:
        return len(b)
    if len(b) == 0:
        return len(a)

    previous_row = range(len(b) + 1)
    for i, ca in enumerate(a):
        current_row = [i + 1]
        for j, cb in enumerate(b):
            insertions = previous_row[j + 1] + 1
            deletions = current_row[j] + 1
            substitutions = previous_row[j] + (ca != cb)
            current_row.append(min(insertions, deletions, substitutions))
        previous_row = current_row

    return previous_row[-1]

# =========================
# EXTRACTION DES PHRASES
# =========================
data_path = "../../data/txt/"
files = [f for f in os.listdir(data_path) if f.endswith(".txt")]

target_words = ["austérité", "économie"]
max_distance = 2

selected_sentences = []

for this_file in files:
    file_path = os.path.join(data_path, this_file)

    with open(file_path, "r", encoding="utf-8") as f:
        text = f.read()

    sentences = sent_tokenize(text, language="french")

    for sent in sentences:
        words = [w.strip(".,;:!?()[]\"'").lower() for w in sent.split()]

        # Vérifier que chaque mot cible apparaît avec distance <= 2
        if all(any(levenshtein(w, target) <= max_distance for w in words) for target in target_words):
            selected_sentences.append(sent)

# =========================
# ANALYSE + STOCKAGE
# =========================
results = []  # (phrase, polarité, subjectivité)

print(f"\nNombre total de phrases contenant {target_words} (±2) : {len(selected_sentences)}\n")

for sent in selected_sentences:
    blob = tb(sent)
    polarity, subjectivity = blob.sentiment

    results.append((sent, polarity, subjectivity))

    print("PHRASE :", sent)
    get_sentiment(sent)
    print("-" * 70)

# =========================
# MOYENNES
# =========================
polarities = [p for _, p, _ in results]
subjectivities = [s for _, _, s in results]

avg_polarity = sum(polarities) / len(polarities) if polarities else 0
avg_subjectivity = sum(subjectivities) / len(subjectivities) if subjectivities else 0

print("\n===== MOYENNES =====")
print(f"Polarité moyenne : {avg_polarity:.3f}")
print(f"Subjectivité moyenne : {avg_subjectivity:.3f}")

# =========================
# 3 PHRASES LES PLUS PROCHES DE LA MOYENNE
# =========================
closest_phrases = sorted(
    results,
    key=lambda x: abs(x[1] - avg_polarity)
)[:3]

print("\n===== 3 PHRASES LES PLUS PROCHES DE LA MOYENNE =====\n")

for sent, polarity, subjectivity in closest_phrases:
    print(f"PHRASE : {sent}")
    print(f"Polarité : {polarity:.3f}")
    print(f"Écart à la moyenne : {abs(polarity - avg_polarity):.3f}")
    print("-" * 70)


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Admin\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!



Nombre total de phrases contenant ['austérité', 'économie'] (±2) : 146

PHRASE : "our les travailleurs belges qu'on invite aujourd'hui à se résigner à une «politique d'austérité », il est du plus haut intérêt de savoir qu'une économie planifiée socialiste a pu procurer en trois ans de nouveaux logements à 25 millions de sinistrés, augmenter sa production de 27 pour cent au cours de l'année écoulée et abaisser tellement ses prix que le pouvoir d'achat des salaires a doublé en un an.
This text is 11% positive and 22% subjective.
----------------------------------------------------------------------
PHRASE : ;;nons que P« amélioration tuation économique » ne Jf reflète pas du tout dans la jiasse ouvrière anglaise, à qui vaillistes appliquent une politique d'austérité (ra- ment, hausse des prix, fcocage de3 salaires, etc.) .
This text is 10% positive and 2% subjective.
----------------------------------------------------------------------
PHRASE : Pendant que l'économie capita¬ liste dans

# Austérité+politique

In [8]:
# =========================
# IMPORTS
# =========================
import os
import nltk
from nltk.tokenize import sent_tokenize
from textblob import Blobber
from textblob_fr import PatternTagger, PatternAnalyzer

nltk.download("punkt")

# =========================
# ANALYSEUR DE SENTIMENT
# =========================
tb = Blobber(pos_tagger=PatternTagger(), analyzer=PatternAnalyzer())

def get_sentiment(input_text):
    blob = tb(input_text)
    polarity, subjectivity = blob.sentiment
    polarity_perc = f"{100*abs(polarity):.0f}"
    subjectivity_perc = f"{100*subjectivity:.0f}"

    if polarity > 0:
        polarity_str = f"{polarity_perc}% positive"
    elif polarity < 0:
        polarity_str = f"{polarity_perc}% negative"
    else:
        polarity_str = "neutral"

    if subjectivity > 0:
        subjectivity_str = f"{subjectivity_perc}% subjective"
    else:
        subjectivity_str = "perfectly objective"

    print(f"This text is {polarity_str} and {subjectivity_str}.")

# =========================
# DISTANCE DE LEVENSHTEIN
# =========================
def levenshtein(a, b):
    if a == b:
        return 0
    if len(a) == 0:
        return len(b)
    if len(b) == 0:
        return len(a)

    previous_row = range(len(b) + 1)
    for i, ca in enumerate(a):
        current_row = [i + 1]
        for j, cb in enumerate(b):
            insertions = previous_row[j + 1] + 1
            deletions = current_row[j] + 1
            substitutions = previous_row[j] + (ca != cb)
            current_row.append(min(insertions, deletions, substitutions))
        previous_row = current_row

    return previous_row[-1]

# =========================
# EXTRACTION DES PHRASES
# =========================
data_path = "../../data/txt/"
files = [f for f in os.listdir(data_path) if f.endswith(".txt")]

target_words = ["austérité", "politique"]
max_distance = 2

selected_sentences = []

for this_file in files:
    file_path = os.path.join(data_path, this_file)

    with open(file_path, "r", encoding="utf-8") as f:
        text = f.read()

    sentences = sent_tokenize(text, language="french")

    for sent in sentences:
        words = [w.strip(".,;:!?()[]\"'").lower() for w in sent.split()]

        # Vérifier que chaque mot cible apparaît avec distance <= 2
        if all(any(levenshtein(w, target) <= max_distance for w in words) for target in target_words):
            selected_sentences.append(sent)

# =========================
# ANALYSE + STOCKAGE
# =========================
results = []  # (phrase, polarité, subjectivité)

print(f"\nNombre total de phrases contenant {target_words} (±2) : {len(selected_sentences)}\n")

for sent in selected_sentences:
    blob = tb(sent)
    polarity, subjectivity = blob.sentiment

    results.append((sent, polarity, subjectivity))

    print("PHRASE :", sent)
    get_sentiment(sent)
    print("-" * 70)

# =========================
# MOYENNES
# =========================
polarities = [p for _, p, _ in results]
subjectivities = [s for _, _, s in results]

avg_polarity = sum(polarities) / len(polarities) if polarities else 0
avg_subjectivity = sum(subjectivities) / len(subjectivities) if subjectivities else 0

print("\n===== MOYENNES =====")
print(f"Polarité moyenne : {avg_polarity:.3f}")
print(f"Subjectivité moyenne : {avg_subjectivity:.3f}")

# =========================
# 3 PHRASES LES PLUS PROCHES DE LA MOYENNE
# =========================
closest_phrases = sorted(
    results,
    key=lambda x: abs(x[1] - avg_polarity)
)[:3]

print("\n===== 3 PHRASES LES PLUS PROCHES DE LA MOYENNE =====\n")

for sent, polarity, subjectivity in closest_phrases:
    print(f"PHRASE : {sent}")
    print(f"Polarité : {polarity:.3f}")
    print(f"Écart à la moyenne : {abs(polarity - avg_polarity):.3f}")
    print("-" * 70)


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Admin\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!



Nombre total de phrases contenant ['austérité', 'politique'] (±2) : 372

PHRASE : On dit : « Il faut une politique d'austérité ».
This text is neutral and perfectly objective.
----------------------------------------------------------------------
PHRASE : » Le programme élaboré ainsi devrait être soumis à l'examen des Etats-Unis, et le correspondant soviétique poursuit : « Il est « L'a politique d'austérité » L'ANGLETERRE DECIDE de réduire ses importations Le gouvernement britannique vient de prendre des mesures dites d'austérité, réduisant les importations.
This text is 12% negative and perfectly objective.
----------------------------------------------------------------------
PHRASE : prunes sèches et autres «.fruits Quand les brebis ont etc cn- Avcc le Commonwealth britan- entiers ou divisés conserves au levées, il songe à fermer les nique, « la politique d'austérité naturel ou à l'aide de sucre » portes de la bergerie... toute désignée et que le surplus pourrait au besoin se vendr

### Création d'une fonction `get_sentiment`

In [2]:
tb = Blobber(pos_tagger=PatternTagger(), analyzer=PatternAnalyzer())

def get_sentiment(input_text):
    blob = tb(input_text)
    polarity, subjectivity = blob.sentiment
    polarity_perc = f"{100*abs(polarity):.0f}"
    subjectivity_perc = f"{100*subjectivity:.0f}"
    if polarity > 0:
        polarity_str = f"{polarity_perc}% positive"
    elif polarity < 0:
        polarity_str = f"{polarity_perc}% negative"
    else:
        polarity_str = "neutral"
    if subjectivity > 0:
        subjectivity_str = f"{subjectivity_perc}% subjective"
    else:
        subjectivity_str = "perfectly objective"
    print(f"This text is {polarity_str} and {subjectivity_str}.")

### Analyser le sentiment d'une phrase

In [27]:
get_sentiment("La cérémonie de l'installation du nouveau procureur général s'est déroulée avec le cérémonial d'usage.")

This text is 17% positive and 12% subjective.


In [28]:
get_sentiment("Au moment des élections communales, écrit M. H. Bragord dans un rapport présenté à l'Assemblée Wallonne, nous avons vu revenir au pays un agent de l'Allemagne, originaire des cantons et rédacteur à un journal pangermaniste d'Essen, pour y faire une propagande électorale en faveur de l'Allemagne.")

This text is neutral and perfectly objective.


In [29]:
get_sentiment("Mais grâce à l'héroïsme de nos soldats sur l'Yser, fleuve a jamais glorieux, l'armée allemande fut arrêtée dans son élan et subit une sanglante défaite.") 

This text is 21% negative and 27% subjective.


In [30]:
get_sentiment("Le Pape a sacré ce matin en la basilique Vaticane les six évoques indigènes chinois qu'il avait nommés récemment et qu'il avait fait venir à Rome pour leur conférer lui-même, près du tombeau de Saint-Pierre, la consécration épiecopale.")

This text is 18% positive and 18% subjective.


In [31]:
get_sentiment("Le traité de Versailles nous a donné le droit d'améliorer nos voies navigables vers Anvers.")

This text is 14% positive and perfectly objective.


In [32]:
get_sentiment("Le traité de Versailles a imposé à ce pays un certain nombre de clauses qui entravent et limitent le développement de sa puissance militaire.")

This text is 8% positive and 12% subjective.


In [33]:
get_sentiment("Chaque mois, il allait rejoindre dans la Ruhr sa maitresse, une Allemande.")

This text is neutral and perfectly objective.


In [34]:
get_sentiment("La dépréciation de l'unité monétaire a réduit aujourd'hui cette somme à 25 millions de francs à la parité métallique ancienne.")

This text is 4% positive and 10% subjective.


In [35]:
get_sentiment("Cette valeur est tout à fait Insuffisante pour les besoins du pays")

This text is 22% positive and 10% subjective.


In [36]:
get_sentiment("En ce qui concerne les pouvoirs du chef de la Reichswehr, de nouvelles dispositions seront prises d'où il résultera clairement que la seule personnalité responsable devra dans tous les cas être le minisire.")

This text is 15% positive and 29% subjective.


## 2. Utilisation de transformers

Documentation: https://github.com/TheophileBlard/french-sentiment-analysis-with-bert

**!!** Si le code ne tourne pas sur votre machine, vous pouvez le tester directement sur Google Colab en utilisant [ce lien](https://colab.research.google.com/github/TheophileBlard/french-sentiment-analysis-with-bert/blob/master/colab/french_sentiment_analysis_with_bert.ipynb) **!!**

Le modèle peut également être testé en ligne sur [HuggingFace](https://huggingface.co/tblard/tf-allocine)

### Installation des librairies et imports

In [37]:
%pip install tensorflow
%pip install sentencepiece
%pip install transformers
%pip install tf_keras
%pip install torch

from transformers import AutoTokenizer, TFAutoModelForSequenceClassification
from transformers import pipeline

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.0 -> 25.3
[notice] To update, run: C:\Users\Admin\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.0 -> 25.3
[notice] To update, run: C:\Users\Admin\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.0 -> 25.3
[notice] To update, run: C:\Users\Admin\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.0 -> 25.3
[notice] To update, run: C:\Users\Admin\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.0 -> 25.3
[notice] To update, run: C:\Users\Admin\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


### Chargement du modèle

In [38]:
tokenizer = AutoTokenizer.from_pretrained("tblard/tf-allocine", use_pt=True)
model = TFAutoModelForSequenceClassification.from_pretrained("tblard/tf-allocine")

sentiment_analyser = pipeline('sentiment-analysis', model=model, tokenizer=tokenizer)

All model checkpoint layers were used when initializing TFCamembertForSequenceClassification.

All the layers of TFCamembertForSequenceClassification were initialized from the model checkpoint at tblard/tf-allocine.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFCamembertForSequenceClassification for predictions without further training.
Device set to use 0


### Analyser le sentiment d'une phrase

In [39]:
sentiment_analyser("La cérémonie de l'installation du nouveau procureur général s'est déroulée avec le cérémonial d'usage.")

[{'label': 'POSITIVE', 'score': 0.5745069980621338}]

In [40]:
sentiment_analyser("Au moment des élections communales, écrit M. H. Bragord dans un rapport présenté à l'Assemblée Wallonne, nous avons vu revenir au pays un agent de l'Allemagne, originaire des cantons et rédacteur à un journal pangermaniste d'Essen, pour y faire une propagande électorale en faveur de l'Allemagne.")

[{'label': 'NEGATIVE', 'score': 0.6002281904220581}]

In [41]:
sentiment_analyser("Mais grâce à l'héroïsme de nos soldats sur l'Yser, fleuve a jamais glorieux, l'armée allemande fut arrêtée dans son élan et subit une sanglante défaite.") 

[{'label': 'POSITIVE', 'score': 0.8095207810401917}]

In [42]:
sentiment_analyser("Le Pape a sacré ce matin en la basilique Vaticane les six évoques indigènes chinois qu'il avait nommés récemment et qu'il avait fait venir à Rome pour leur conférer lui-même, près du tombeau de Saint-Pierre, la consécration épiscopale.")

[{'label': 'POSITIVE', 'score': 0.8262625932693481}]

In [43]:
sentiment_analyser("Le traité de Versailles nous a donné le droit d'améliorer nos voies navigables vers Anvers.")

[{'label': 'POSITIVE', 'score': 0.7201288342475891}]

In [44]:
sentiment_analyser("Le traité de Versailles a imposé à ce pays un certain nombre de clauses qui entravent et limitent le développement de sa puissance militaire.")

[{'label': 'NEGATIVE', 'score': 0.650536060333252}]

In [45]:
sentiment_analyser("Chaque mois, il allait rejoindre dans la Ruhr sa maitresse, une Allemande.")

[{'label': 'NEGATIVE', 'score': 0.5076354742050171}]

In [46]:
sentiment_analyser("La dépréciation de l'unité monétaire a réduit aujourd'hui cette somme à 25 millions de francs à la parité métallique ancienne.")

[{'label': 'POSITIVE', 'score': 0.5947065949440002}]

In [47]:
sentiment_analyser("Cette valeur est tout à fait Insuffisante pour les besoins du pays")

[{'label': 'NEGATIVE', 'score': 0.9902162551879883}]

In [48]:
sentiment_analyser("En ce qui concerne les pouvoirs du chef de la Reichswehr, de nouvelles dispositions seront prises d'où il résultera clairement que la seule personnalité responsable devra dans tous les cas être le minisire.")

[{'label': 'POSITIVE', 'score': 0.6250229477882385}]

In [1]:
# =========================
# IMPORTS
# =========================
import os
import nltk
from nltk.tokenize import sent_tokenize
from textblob import Blobber
from textblob_fr import PatternTagger, PatternAnalyzer

# Télécharger le tokenizer si nécessaire
nltk.download("punkt")

# =========================
# ANALYSEUR DE SENTIMENT
# =========================
tb = Blobber(pos_tagger=PatternTagger(), analyzer=PatternAnalyzer())

# =========================
# DISTANCE DE LEVENSHTEIN
# =========================
def levenshtein(a, b):
    if a == b:
        return 0
    if len(a) == 0:
        return len(b)
    if len(b) == 0:
        return len(a)

    previous_row = range(len(b) + 1)
    for i, ca in enumerate(a):
        current_row = [i + 1]
        for j, cb in enumerate(b):
            insertions = previous_row[j + 1] + 1
            deletions = current_row[j] + 1
            substitutions = previous_row[j] + (ca != cb)
            current_row.append(min(insertions, deletions, substitutions))
        previous_row = current_row

    return previous_row[-1]

# =========================
# EXTRACTION DES PHRASES CONTENANT LE MOT CIBLE
# =========================
data_path = "../../data/txt/"  # chemin vers tes fichiers
target_word = "austérité"
max_distance = 2

austerite_sentences = []

files = [f for f in os.listdir(data_path) if f.endswith(".txt")]

for this_file in files:
    file_path = os.path.join(data_path, this_file)

    with open(file_path, "r", encoding="utf-8") as f:
        text = f.read()

    sentences = sent_tokenize(text, language="french")

    for sent in sentences:
        words = [w.strip(".,;:!?()[]\"'").lower() for w in sent.split()]
        if any(levenshtein(w, target_word) <= max_distance for w in words):
            austerite_sentences.append(sent)

# =========================
# CALCUL GLOBAL DE SENTIMENT
# =========================
polarities = []
subjectivities = []

for sent in austerite_sentences:
    blob = tb(sent)
    polarity, subjectivity = blob.sentiment
    polarities.append(polarity)
    subjectivities.append(subjectivity)

# =========================
# RÉSULTAT GLOBAL
# =========================
if polarities:
    avg_polarity = sum(polarities) / len(polarities)
    avg_subjectivity = sum(subjectivities) / len(subjectivities)

    print(f"Nombre de phrases contenant '{target_word}': {len(austerite_sentences)}")
    print(f"Polarité moyenne : {avg_polarity:.3f} "
          f"({'positive' if avg_polarity > 0 else 'négative' if avg_polarity < 0 else 'neutre'})")
    print(f"Subjectivité moyenne : {avg_subjectivity:.3f}")
else:
    print(f"Aucune phrase contenant '{target_word}' n'a été trouvée.")


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Admin\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Nombre de phrases contenant 'austérité': 1639
Polarité moyenne : 0.076 (positive)
Subjectivité moyenne : 0.225
