# Imports

In [1]:
import gradio as gr

from datasets import load_dataset
from transformers import pipeline
from sklearn.metrics import classification_report

# Data loading

In [2]:
dataset = load_dataset("allocine", split="test")
dataset

Found cached dataset allocine (/Users/sofiene.alouini/.cache/huggingface/datasets/allocine/allocine/1.0.0/ea86b1dc05eae3a45a07b6281f2d4033b5fe7927b1008d06aa457ca1eae660d0)


Dataset({
    features: ['review', 'label'],
    num_rows: 20000
})

In [3]:
set(dataset["label"])

{0, 1}

In [4]:
print("=== Label: 0 ===\n")

negative_example = dataset.filter(lambda row: row["label"] == 0)["review"][0]

print(negative_example)

Loading cached processed dataset at /Users/sofiene.alouini/.cache/huggingface/datasets/allocine/allocine/1.0.0/ea86b1dc05eae3a45a07b6281f2d4033b5fe7927b1008d06aa457ca1eae660d0/cache-0cd7e21802fe440c.arrow


=== Label: 0 ===

Je n'ai pas aimé mais pourtant je lui mets 2 étoiles car l'expérience est louable. Rien de conventionnel ici. Une visite E.T. mais jonchée d'idées /- originales. Le soucis, tout ceci avait-il vraiment sa place dans un film de S.F. tirant sur l'horreur ? Voici un film qui, à l'inverse de tant d'autres qui y ont droit, mériterait peut-être un remake.


In [5]:
print("=== Label: 1 ===\n")

positive_example = dataset.filter(lambda row: row["label"] == 1)["review"][0]

print(positive_example)

Loading cached processed dataset at /Users/sofiene.alouini/.cache/huggingface/datasets/allocine/allocine/1.0.0/ea86b1dc05eae3a45a07b6281f2d4033b5fe7927b1008d06aa457ca1eae660d0/cache-eb62a8bd41d6ee93.arrow


=== Label: 1 ===

Magnifique épopée, une belle histoire, touchante avec des acteurs qui interprètent très bien leur rôles (Mel Gibson, Heath Ledger, Jason Isaacs...), le genre de film qui se savoure en famille! :)


# Pretrained model loading

In [6]:
pipe = pipeline("sentiment-analysis", "moussaKam/barthez-sentiment-classification")

In [7]:
pipe(positive_example)

[{'label': 'Positive', 'score': 0.9999866485595703}]

In [8]:
pipe(negative_example)

[{'label': 'Negative', 'score': 0.9999935626983643}]

# Demo

In [9]:
sample_dataset = dataset[:500]

In [10]:
ground_truth = sample_dataset["label"]

print(ground_truth)

[1, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 1, 1, 1, 0, 0, 1, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 1, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 

In [11]:
sample_predictions = [
    1 if pred["label"] == "Positive" else 0
    for pred in pipe(sample_dataset["review"])
]

print(sample_predictions)

[1, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1, 1, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 1, 1, 1, 0, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 

In [12]:
print(classification_report(ground_truth, sample_predictions))

              precision    recall  f1-score   support

           0       0.94      0.96      0.95       266
           1       0.95      0.93      0.94       234

    accuracy                           0.95       500
   macro avg       0.95      0.95      0.95       500
weighted avg       0.95      0.95      0.95       500



In [13]:
for i in range(len(sample_dataset["review"])):
    if ground_truth[i] != sample_predictions[i]:
        print(sample_dataset["review"][i], "\n")
        print(f"> Ground truth:", ground_truth[i])
        print(f"> Prediction:", sample_predictions[i])
        print("\n========================\n")

Une belle reconstitution des derniers mois des Indes britanniques mêlant ingénieusement petite et grande histoire. Seul vrai défaut : c'est trop court ! Une mini-série serait bienvenue. Une critique plus détaillée et d'autres sur le-blog-d-elisabeth-g.blogspot.fr 

> Ground truth: 1
> Prediction: 0


Je vais très rarement voir des films français. Par contre, je suis de près la carrière du comédien Gaspard Ulliel depuis JACQUOU LE CROQUANT. Récemment, je n'avais pas pu aller voir UN BARRAGE CONTRE LE PACIFIQUE, après des critiques castastrophiques, il n'était pas sorti dans mon parc habituel de salles de cinéma à Lyon. Même si LE PREMIER CERCLE, gros polar d'action, est nettement plus attirant, sa sortie est plombée par celles de MARLEY ET MOI et WATCHMEN. La plupart des médias ne signalent pas sa sortie cette semaine (Ils ne l'ont donc pas vu ?) et pour le peu, les critiques sont detestables. Encore un film, malgré un casting éclatant, qui va vite disparaître des écrans. Après un début