# Modeling

## Vectorize the data

Now that we have a dataframe with 3 columns :  `tokenized` (title + synopsis), `genre` and `length`, we can vectorize the data. We will use the `Bag-of-Words` method.


In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import sklearn as sk
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.svm import SVC
from sklearn.linear_model import SGDClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB
import pickle

import sys
sys.path.append('../preprocessing')

from process import *

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\elmah\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [2]:
df_train = pd.read_csv('../data/allocine_genres_train.csv')


df_train = process_df(df_train)


In [None]:
df_train.head()

### TF-IDF

We will start by vectorizing the data using TF-IDF. TF-IDF stands for `Term Frequency - Inverse Document Frequency`. It is a numerical statistic that is intended to reflect how important a word is to a document in a collection or corpus. It is often used as a weighting factor in searches of information retrieval, text mining, and user modeling. The TF-IDF value increases proportionally to the number of times a word appears in the document and is offset by the number of documents in the corpus that contain the word, which helps to adjust for the fact that some words appear more frequently in general.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(df_train['synopsis_title'], df_train['genre'], test_size=0.2, random_state=42)

models = []
accuracy_scores = []


vectorizer = TfidfVectorizer(ngram_range = (1,1), max_df=0.85,min_df=0.01,lowercase=False)
tfid_X_train = vectorizer.fit_transform(X_train)

clf = DecisionTreeClassifier(random_state=42)
clf.fit(tfid_X_train, y_train)

tfid_X_test = vectorizer.transform(X_test)
y_pred = clf.predict(tfid_X_test)

print("DecisionTreeClassifier accuracy : ", accuracy_score(y_test, y_pred))
models.append("DecisionTreeClassifier")
accuracy_scores.append(accuracy_score(y_test, y_pred))


In [None]:


clf = MultinomialNB()
clf.fit(tfid_X_train, y_train)

y_pred = clf.predict(tfid_X_test)

print("MultinomialNB accuracy : ", accuracy_score(y_test, y_pred))
models.append("MultinomialNB")
accuracy_scores.append(accuracy_score(y_test, y_pred))

In [None]:


clf = LogisticRegression(random_state=42)
clf.fit(tfid_X_train, y_train)

y_pred = clf.predict(tfid_X_test)

print("LogisticRegression accuracy : ", accuracy_score(y_test, y_pred))
models.append("LogisticRegression")
accuracy_scores.append(accuracy_score(y_test, y_pred))

In [None]:


clf = RandomForestClassifier(random_state=42)
clf.fit(tfid_X_train, y_train)

y_pred = clf.predict(tfid_X_test)

print("RandomForestClassifier accuracy : ", accuracy_score(y_test, y_pred))
models.append("RandomForestClassifier")
accuracy_scores.append(accuracy_score(y_test, y_pred))

In [None]:


clf = AdaBoostClassifier(random_state=42)
clf.fit(tfid_X_train, y_train)

y_pred = clf.predict(tfid_X_test)

print("AdaBoostClassifier accuracy : ", accuracy_score(y_test, y_pred))
models.append("AdaBoostClassifier")
accuracy_scores.append(accuracy_score(y_test, y_pred))

In [None]:


clf = GradientBoostingClassifier(random_state=42)
clf.fit(tfid_X_train, y_train)

y_pred = clf.predict(tfid_X_test)

print("GradientBoostingClassifier accuracy : ", accuracy_score(y_test, y_pred))
models.append("GradientBoostingClassifier")
accuracy_scores.append(accuracy_score(y_test, y_pred))

In [None]:


clf = SGDClassifier(random_state=42)
clf.fit(tfid_X_train, y_train)

y_pred = clf.predict(tfid_X_test)

print("SGDClassifier accuracy : ", accuracy_score(y_test, y_pred))
models.append("SGDClassifier")
accuracy_scores.append(accuracy_score(y_test, y_pred))


In [None]:


clf = SVC(random_state=42)
clf.fit(tfid_X_train, y_train)

y_pred = clf.predict(tfid_X_test)

print("SVC accuracy : ", accuracy_score(y_test, y_pred))
models.append("SVC")
accuracy_scores.append(accuracy_score(y_test, y_pred))

In [None]:
# plot the accuracy of each model
plt.figure(figsize=(20,10))
plt.bar(models, accuracy_scores)
plt.title("Accuracy of each model")
plt.show()



We can see that Logistic Regression has the best score with TF-IDF. We will use this model to predict the genre of the movies.But first, we will try to improve the score by using a different vectorizer like Bag-of-Words.

### Bag-of-Words

In [None]:
# bag of words

models_bow = []
accuracy_scores_bow = []

vectorizer = CountVectorizer(ngram_range = (1,1), max_df=0.85,min_df=0.01,lowercase=False)
bow_X_train = vectorizer.fit_transform(X_train)

clf = DecisionTreeClassifier(random_state=42)
clf.fit(bow_X_train, y_train)

bow_X_test = vectorizer.transform(X_test)
y_pred = clf.predict(bow_X_test)

print("DecisionTreeClassifier accuracy : ", accuracy_score(y_test, y_pred))
models_bow.append("DecisionTreeClassifier")
accuracy_scores_bow.append(accuracy_score(y_test, y_pred))


In [None]:
clf = MultinomialNB()
clf.fit(bow_X_train, y_train)

y_pred = clf.predict(bow_X_test)

print("MultinomialNB accuracy : ", accuracy_score(y_test, y_pred))
models_bow.append("MultinomialNB")
accuracy_scores_bow.append(accuracy_score(y_test, y_pred))

In [None]:
clf = LogisticRegression(random_state=42)
clf.fit(bow_X_train, y_train)

y_pred = clf.predict(bow_X_test)

print("LogisticRegression accuracy : ", accuracy_score(y_test, y_pred))
models_bow.append("LogisticRegression")
accuracy_scores_bow.append(accuracy_score(y_test, y_pred))

In [None]:
clf = RandomForestClassifier(random_state=42)
clf.fit(bow_X_train, y_train)

y_pred = clf.predict(bow_X_test)

print("RandomForestClassifier accuracy : ", accuracy_score(y_test, y_pred))
models_bow.append("RandomForestClassifier")
accuracy_scores_bow.append(accuracy_score(y_test, y_pred))

In [None]:
clf = AdaBoostClassifier(random_state=42)
clf.fit(bow_X_train, y_train)

y_pred = clf.predict(bow_X_test)

print("AdaBoostClassifier accuracy : ", accuracy_score(y_test, y_pred))
models_bow.append("AdaBoostClassifier")
accuracy_scores_bow.append(accuracy_score(y_test, y_pred))

In [None]:
clf = GradientBoostingClassifier(random_state=42)
clf.fit(bow_X_train, y_train)

y_pred = clf.predict(bow_X_test)

print("GradientBoostingClassifier accuracy : ", accuracy_score(y_test, y_pred))
models_bow.append("GradientBoostingClassifier")
accuracy_scores_bow.append(accuracy_score(y_test, y_pred))


In [None]:
clf = SGDClassifier(random_state=42)
clf.fit(bow_X_train, y_train)

y_pred = clf.predict(bow_X_test)

print("SGDClassifier accuracy : ", accuracy_score(y_test, y_pred))
models_bow.append("SGDClassifier")
accuracy_scores_bow.append(accuracy_score(y_test, y_pred))


In [None]:
clf = SVC(random_state=42)
clf.fit(bow_X_train, y_train)

y_pred = clf.predict(bow_X_test)

print("SVC accuracy : ", accuracy_score(y_test, y_pred))
models_bow.append("SVC")
accuracy_scores_bow.append(accuracy_score(y_test, y_pred))

In [None]:
# plot the accuracy of each model and compare with tf-idf
plt.figure(figsize=(20,10))
plt.bar(models, accuracy_scores, label="tf-idf")
plt.bar(models_bow, accuracy_scores_bow, label="bag of words")
plt.title("Accuracy of each model")
plt.legend()
plt.show()


We can see that Multinomial Naive Bayes has the best score with Bag-of-Words. We will use this model to predict the genre of the movies.

## Test the model

We will now test our model on our test set using the Bag-of-Words vectorizer with Multinomial Naive Bayes.

In [None]:
# test the model with new data using our best model, bow with MultinomialNB
from sklearn.naive_bayes import MultinomialNB
# clf = MultinomialNB()
# clf.fit(bow_X_train, y_train)

# # save the model
# pickle.dump(clf, open("model.pkl", "wb"))
# pickle.dump(vectorizer, open("vectorizer.pkl", "wb"))


# load the model
model = pickle.load(open("trained_model/model.pkl", "rb"))
vectorizer = pickle.load(open("trained_model/vectorizer.pkl", "rb"))

# test with new data
df_test = pd.read_csv('../data/allocine_genres_test.csv')
df_test = process_df(df_test)

X_test = df_test["synopsis_title"]
y_test = df_test["genre"]

bow_X_test = vectorizer.transform(X_test)
y_pred = model.predict(bow_X_test)

print("MultinomialNB accuracy : ", accuracy_score(y_test, y_pred))

# lets try with a new synopsis
synopsis = "Dans la ville de New York, le détective John Smith est sur la piste d'un tueur en série qui terrorise la ville depuis plusieurs mois. Alors que l'enquête piétine, le meurtrier continue de sévir et les victimes s'accumulent. John, qui est hanté par ses propres démons, est déterminé à arrêter le tueur avant qu'il ne frappe à nouveau. Au fil de l'enquête, John rencontre plusieurs personnages suspects, dont une ex-petite amie du tueur et un membre influent de la mafia locale. Il doit naviguer dans un monde sombre et dangereux pour découvrir la vérité sur l'identité du tueur. Alors que les indices s'accumulent et que la pression monte, John doit faire face à ses propres démons intérieurs et aux doutes de ses collègues. Dans une course contre la montre, il doit résoudre le mystère avant qu'il ne soit trop tard et que le tueur ne frappe de nouveau. Le film est rempli de suspense, de tension et de rebondissements jusqu'à son dénouement final choquant."
titre = "Au coeur de la nuit"

synopsis_2 = "Nous suivons Marie Curie dès ses débuts en Pologne, alors qu'elle doit lutter contre les préjugés de genre pour poursuivre ses études scientifiques. Elle rencontre ensuite Pierre Curie, un physicien français, et ils tombent amoureux. Ensemble, ils commencent à travailler sur la radioactivité et découvrent le radium et le polonium, pour lesquels ils reçoivent le prix Nobel de physique en 1903. Mais leur travail n'a pas été facile et ils ont dû surmonter de nombreux obstacles, notamment les préjugés de genre et les réticences de la communauté scientifique. Ils ont également dû faire face à des tragédies personnelles, notamment la mort prématurée de Pierre. Après la mort de Pierre, Marie poursuit ses recherches et devient la première femme professeure à la Sorbonne. Elle reçoit également un deuxième prix Nobel, cette fois en chimie, pour son travail sur les éléments radioactifs. Le film montre comment Marie Curie a changé la face de la science et a ouvert la voie à d'autres femmes scientifiques. Mais il montre également les sacrifices qu'elle a dû faire pour y parvenir, notamment la lutte pour concilier son travail et sa vie de famille. Le film est une célébration de la vie extraordinaire de Marie Curie, une femme qui a brisé les barrières et ouvert la voie à de nouvelles découvertes scientifiques"
titre_2 = "La vie extraordinaire de Marie Curie"

synopsis_3 = "Sophie est une jeune femme ambitieuse qui travaille dans une grande entreprise. Elle est passionnée par son travail et sa vie sentimentale est au second plan. Un jour, elle rencontre Jake, un artiste bohème et charismatique. Malgré leurs différences, ils sont attirés l'un par l'autre et commencent une relation. Leur amour est intense et passionné, mais leur relation est mise à rude épreuve par les différences de leurs vies. Sophie doit naviguer dans le monde des arts de Jake, qui est très différent de son monde d'affaires. Et Jake doit faire face aux attentes de Sophie en matière de stabilité et de sécurité financière. Alors que leur relation devient de plus en plus sérieuse, ils doivent faire face à des défis imprévus qui mettent leur amour à l'épreuve. Ils doivent trouver un équilibre entre leurs vies et leurs rêves, tout en restant fidèles l'un à l'autre. Le film montre comment l'amour peut être imprévisible et inattendu, et comment il peut nous amener à repenser nos priorités et nos choix de vie. Les personnages principaux sont confrontés à des choix difficiles, mais ils sont prêts à tout pour leur amour. Le film est rempli de scènes romantiques, de moments d'humour et d'émotion, et offre une belle réflexion sur la vie et l'amour."
titre_3 = "Un Amour Inattendu"

synopsis_4 = "Un groupe d'amis décide de passer un week-end dans une vieille maison isolée dans les bois. Mais dès leur arrivée, ils commencent à ressentir une étrange présence et à entendre des bruits inexpliqués. Bientôt, ils se rendent compte que la maison est hantée par des esprits maléfiques qui cherchent à les effrayer et à les tuer.Les amis tentent de quitter la maison, mais ils se retrouvent pris au piège par des phénomènes paranormaux terrifiants. Ils découvrent des indices sur le passé sombre de la maison et sur les esprits qui la hantent. Mais plus ils enquêtent, plus les esprits deviennent violents. Les amis doivent alors faire face à leurs peurs les plus profondes et unir leurs forces pour survivre aux attaques des esprits maléfiques. Ils se rendent compte que pour échapper à la maison hantée, ils doivent résoudre le mystère de sa présence et vaincre les esprits maléfiques. Le film est rempli de scènes effrayantes et surnaturelles, de suspense et de tension. Les personnages sont confrontés à des situations de plus en plus terrifiantes et doivent faire face à leurs propres faiblesses pour espérer s'en sortir. Le suspense et l'horreur sont maintenus jusqu'à la fin du film, offrant un frissonnant voyage dans l'inconnu."
titre_4 = "La Maison Hantée"

# create a dataframe with the two new movie with two columns, synopsis and title
df_new = pd.DataFrame()
df_new["synopsis"] = [synopsis, synopsis_2, synopsis_3, synopsis_4]
df_new["titre"] = [titre, titre_2, titre_3, titre_4]

# process the dataframe
df_new = process_df(df_new, train = False)

# predict the genre
bow_X_new = vectorizer.transform(df_new["synopsis_title"])
y_pred_new = model.predict(bow_X_new)

print("Predicted genres : ", y_pred_new)




We can see that our model has a score of 0.49. For a first model, it is not bad. We will work with this model.

## Conclusion

We tested the model on some custom data and it seems to work well. It seems that the synopsis needs to be long enough to be able to predict the genre of the movie.

# Another Approach

We will now use `transformers` to vectorize the data.


In [3]:
genres = sorted(df_train["genre"].unique())
id_to_genre = {i:genre for i, genre in enumerate(genres)}
genre_to_id = {genre:i for i, genre in enumerate(genres)}

In [4]:
# parameters
batch_size = 8
scale = 0.2

In [5]:
from transformers import AutoTokenizer, DataCollatorWithPadding, AutoModelForSequenceClassification, TrainingArguments, Trainer
from datasets import Features, Value, ClassLabel, Dataset, DatasetDict
import evaluate
import pandas as pd
import numpy as np
from sklearn.metrics import accuracy_score, f1_score
import torch


data_to_use = pd.DataFrame()
data_to_use['text'] = df_train.synopsis_title
data_to_use['label'] = df_train.genre.map(genre_to_id)

print(data_to_use.head())


genre_features = Features({'text': Value('string'), 
                              'label': ClassLabel(names=genres)})

data = Dataset.from_pandas(data_to_use, features=genre_features)
data = data.train_test_split(test_size=0.2, shuffle=True, seed=42)

                                                text  label
0  visit a celebr detect belg embarqu orient expr...      6
1  jeun homm origin modest accus meurtr per risqu...      3
2  lorsqu mer quatr jeun enfant apprend brutal ca...      3
3  vagabond eprend bel jeun vendeux fleur aveugl ...      7
4  histoir vrai premi afro americain a avoir inte...      0


In [6]:
data['train'].features

{'text': Value(dtype='string', id=None),
 'label': ClassLabel(names=['biopic', 'comédie', 'documentaire', 'drame', 'historique', 'horreur', 'policier', 'romance', 'science fiction'], id=None)}

In [14]:
data['train'][0]

{'text': 'fil magistrat grand avocat revient petit vill enfanc per a revu depuis longtemp soupcon meurtr decid alor men enquet decouvr verit chemin fais renou famill laquel pris distanc jug',
 'label': 3}

In [15]:
from transformers import CamembertModel, CamembertTokenizer

model_name = "camembert-base"

# You can replace "camembert-base" with any other model from the table, e.g. "camembert/camembert-large".
tokenizer = CamembertTokenizer.from_pretrained(model_name)

In [16]:
def tokenize(batch):
    return tokenizer(batch['text'], padding=True, truncation=True)

In [10]:
tokenize(data['train'][:2])

{'input_ids': [[5, 970, 21839, 221, 6146, 2151, 226, 1674, 4303, 22, 362, 6037, 2536, 33, 15566, 176, 493, 22494, 3438, 286, 1349, 10229, 81, 8, 15830, 33, 5655, 14498, 22, 3452, 8, 6512, 10206, 3762, 312, 1111, 828, 4563, 308, 3385, 215, 4303, 13, 8664, 523, 18, 17742, 216, 76, 4419, 6], [5, 7469, 1724, 4152, 1378, 33, 217, 17168, 528, 1375, 610, 22, 310, 3239, 961, 330, 216, 4789, 2566, 18, 236, 128, 392, 219, 289, 13833, 66, 1867, 7469, 2346, 1375, 22196, 1719, 216, 128, 17937, 7215, 1113, 1016, 11923, 32, 13023, 4443, 111, 573, 215, 1724, 4152, 1378, 6, 1]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0]]}

In [11]:
tokenized_datasets = data.map(tokenize, batched=True, batch_size=None)

Map:   0%|          | 0/2300 [00:00<?, ? examples/s]

Map:   0%|          | 0/575 [00:00<?, ? examples/s]

In [12]:
# Affichage des tokens. XML-Roberta utilise l'algorithm BPE (Byte Pair Encoding) pour encoder les mots

tokens = tokenizer.convert_ids_to_tokens(tokenized_datasets['train'][0]['input_ids'])
print(tokens)
print(tokenized_datasets['train'][0]['text'])

['<s>', '▁fil', '▁magistrat', '▁grand', '▁avocat', '▁revient', '▁petit', '▁v', 'ill', '▁en', 'f', 'anc', '▁per', '▁a', '▁revu', '▁depuis', '▁long', 'temp', '▁sou', 'p', 'con', '▁meurt', 'r', '▁de', 'cid', '▁a', 'lor', '▁men', '▁en', 'quet', '▁de', 'cou', 'vr', '▁ver', 'it', '▁chemin', '▁fais', '▁ren', 'ou', '▁fa', 'm', 'ill', '▁la', 'quel', '▁pris', '▁d', 'istan', 'c', '▁j', 'ug', '</s>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad

In [13]:
tokenizer.vocab_size

32005

In [17]:
tokenizer.model_max_length

512

In [18]:
accuracy = evaluate.load("accuracy")

In [19]:
def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    predictions = np.argmax(predictions, axis=1)
    acc = accuracy.compute(predictions=predictions, references=labels)
    return acc



In [20]:
# empty the GPU cache
torch.cuda.empty_cache()
device = torch.device('cuda') if torch.cuda.is_available() else torch.device('cpu')
print(device)

model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=len(genres), id2label=id_to_genre, label2id=genre_to_id).to(device)


cuda


Downloading pytorch_model.bin:   0%|          | 0.00/445M [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Some weights of the model checkpoint at camembert-base were not used when initializing CamembertForSequenceClassification: ['lm_head.layer_norm.weight', 'lm_head.dense.weight', 'lm_head.bias', 'lm_head.layer_norm.bias', 'roberta.pooler.dense.bias', 'roberta.pooler.dense.weight', 'lm_head.dense.bias', 'lm_head.decoder.weight']
- This IS expected if you are initializing CamembertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing CamembertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (

In [21]:
training_args = TrainingArguments(
    output_dir='./results',
    learning_rate=2e-5,
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    num_train_epochs=6,
    weight_decay=0.01,
    evaluation_strategy="epoch",
    save_strategy="epoch",
    load_best_model_at_end=True,
    )


In [22]:
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_datasets['train'],
    eval_dataset=tokenized_datasets['test'],
    data_collator=data_collator,
    tokenizer=tokenizer,
    compute_metrics=compute_metrics
)

In [23]:

trainer.train()



  0%|          | 0/1728 [00:00<?, ?it/s]

  0%|          | 0/72 [00:00<?, ?it/s]

{'eval_loss': 1.8145346641540527, 'eval_accuracy': 0.3791304347826087, 'eval_runtime': 6.4506, 'eval_samples_per_second': 89.139, 'eval_steps_per_second': 11.162, 'epoch': 1.0}
{'loss': 1.9188, 'learning_rate': 1.4212962962962964e-05, 'epoch': 1.74}


  0%|          | 0/72 [00:00<?, ?it/s]

{'eval_loss': 1.6179980039596558, 'eval_accuracy': 0.46608695652173915, 'eval_runtime': 6.4766, 'eval_samples_per_second': 88.782, 'eval_steps_per_second': 11.117, 'epoch': 2.0}


  0%|          | 0/72 [00:00<?, ?it/s]

{'eval_loss': 1.5553112030029297, 'eval_accuracy': 0.4608695652173913, 'eval_runtime': 6.9503, 'eval_samples_per_second': 82.73, 'eval_steps_per_second': 10.359, 'epoch': 3.0}
{'loss': 1.477, 'learning_rate': 8.425925925925926e-06, 'epoch': 3.47}


  0%|          | 0/72 [00:00<?, ?it/s]

{'eval_loss': 1.4899864196777344, 'eval_accuracy': 0.4817391304347826, 'eval_runtime': 6.509, 'eval_samples_per_second': 88.339, 'eval_steps_per_second': 11.062, 'epoch': 4.0}


  0%|          | 0/72 [00:00<?, ?it/s]

{'eval_loss': 1.4527311325073242, 'eval_accuracy': 0.5113043478260869, 'eval_runtime': 6.5155, 'eval_samples_per_second': 88.251, 'eval_steps_per_second': 11.05, 'epoch': 5.0}
{'loss': 1.2158, 'learning_rate': 2.6388888888888893e-06, 'epoch': 5.21}


  0%|          | 0/72 [00:00<?, ?it/s]

{'eval_loss': 1.4468872547149658, 'eval_accuracy': 0.5252173913043479, 'eval_runtime': 6.5249, 'eval_samples_per_second': 88.124, 'eval_steps_per_second': 11.035, 'epoch': 6.0}
{'train_runtime': 664.2127, 'train_samples_per_second': 20.776, 'train_steps_per_second': 2.602, 'train_loss': 1.4784213348671242, 'epoch': 6.0}


TrainOutput(global_step=1728, training_loss=1.4784213348671242, metrics={'train_runtime': 664.2127, 'train_samples_per_second': 20.776, 'train_steps_per_second': 2.602, 'train_loss': 1.4784213348671242, 'epoch': 6.0})

In [27]:
preds_output = trainer.predict(tokenized_datasets['test'])

# compute the accuracy
preds = np.argmax(preds_output.predictions, axis=1)
labels = preds_output.label_ids
accuracy_score(labels, preds)

# create a pipeline
from transformers import pipeline

classifier = pipeline('text-classification', model=model, tokenizer=tokenizer, device=0)

# lets try with a new synopsis
synopsis = "Dans la ville de New York, le détective John Smith est sur la piste d'un tueur en série qui terrorise la ville depuis plusieurs mois. Alors que l'enquête piétine, le meurtrier continue de sévir et les victimes s'accumulent. John, qui est hanté par ses propres démons, est déterminé à arrêter le tueur avant qu'il ne frappe à nouveau. Au fil de l'enquête, John rencontre plusieurs personnages suspects, dont une ex-petite amie du tueur et un membre influent de la mafia locale. Il doit naviguer dans un monde sombre et dangereux pour découvrir la vérité sur l'identité du tueur. Alors que les indices s'accumulent et que la pression monte, John doit faire face à ses propres démons intérieurs et aux doutes de ses collègues. Dans une course contre la montre, il doit résoudre le mystère avant qu'il ne soit trop tard et que le tueur ne frappe de nouveau. Le film est rempli de suspense, de tension et de rebondissements jusqu'à son dénouement final choquant."
titre = "Au coeur de la nuit"

synopsis_2 = "Nous suivons Marie Curie dès ses débuts en Pologne, alors qu'elle doit lutter contre les préjugés de genre pour poursuivre ses études scientifiques. Elle rencontre ensuite Pierre Curie, un physicien français, et ils tombent amoureux. Ensemble, ils commencent à travailler sur la radioactivité et découvrent le radium et le polonium, pour lesquels ils reçoivent le prix Nobel de physique en 1903. Mais leur travail n'a pas été facile et ils ont dû surmonter de nombreux obstacles, notamment les préjugés de genre et les réticences de la communauté scientifique. Ils ont également dû faire face à des tragédies personnelles, notamment la mort prématurée de Pierre. Après la mort de Pierre, Marie poursuit ses recherches et devient la première femme professeure à la Sorbonne. Elle reçoit également un deuxième prix Nobel, cette fois en chimie, pour son travail sur les éléments radioactifs. Le film montre comment Marie Curie a changé la face de la science et a ouvert la voie à d'autres femmes scientifiques. Mais il montre également les sacrifices qu'elle a dû faire pour y parvenir, notamment la lutte pour concilier son travail et sa vie de famille. Le film est une célébration de la vie extraordinaire de Marie Curie, une femme qui a brisé les barrières et ouvert la voie à de nouvelles découvertes scientifiques"
titre_2 = "La vie extraordinaire de Marie Curie"

synopsis_3 = "Sophie est une jeune femme ambitieuse qui travaille dans une grande entreprise. Elle est passionnée par son travail et sa vie sentimentale est au second plan. Un jour, elle rencontre Jake, un artiste bohème et charismatique. Malgré leurs différences, ils sont attirés l'un par l'autre et commencent une relation. Leur amour est intense et passionné, mais leur relation est mise à rude épreuve par les différences de leurs vies. Sophie doit naviguer dans le monde des arts de Jake, qui est très différent de son monde d'affaires. Et Jake doit faire face aux attentes de Sophie en matière de stabilité et de sécurité financière. Alors que leur relation devient de plus en plus sérieuse, ils doivent faire face à des défis imprévus qui mettent leur amour à l'épreuve. Ils doivent trouver un équilibre entre leurs vies et leurs rêves, tout en restant fidèles l'un à l'autre. Le film montre comment l'amour peut être imprévisible et inattendu, et comment il peut nous amener à repenser nos priorités et nos choix de vie. Les personnages principaux sont confrontés à des choix difficiles, mais ils sont prêts à tout pour leur amour. Le film est rempli de scènes romantiques, de moments d'humour et d'émotion, et offre une belle réflexion sur la vie et l'amour."
titre_3 = "Un Amour Inattendu"

synopsis_4 = "Un groupe d'amis décide de passer un week-end dans une vieille maison isolée dans les bois. Mais dès leur arrivée, ils commencent à ressentir une étrange présence et à entendre des bruits inexpliqués. Bientôt, ils se rendent compte que la maison est hantée par des esprits maléfiques qui cherchent à les effrayer et à les tuer.Les amis tentent de quitter la maison, mais ils se retrouvent pris au piège par des phénomènes paranormaux terrifiants. Ils découvrent des indices sur le passé sombre de la maison et sur les esprits qui la hantent. Mais plus ils enquêtent, plus les esprits deviennent violents. Les amis doivent alors faire face à leurs peurs les plus profondes et unir leurs forces pour survivre aux attaques des esprits maléfiques. Ils se rendent compte que pour échapper à la maison hantée, ils doivent résoudre le mystère de sa présence et vaincre les esprits maléfiques. Le film est rempli de scènes effrayantes et surnaturelles, de suspense et de tension. Les personnages sont confrontés à des situations de plus en plus terrifiantes et doivent faire face à leurs propres faiblesses pour espérer s'en sortir. Le suspense et l'horreur sont maintenus jusqu'à la fin du film, offrant un frissonnant voyage dans l'inconnu."
titre_4 = "La Maison Hantée"

# create a dataframe with the two new movie with two columns, synopsis and title
df_new = pd.DataFrame()
df_new["synopsis"] = [synopsis, synopsis_2, synopsis_3, synopsis_4]
df_new["titre"] = [titre, titre_2, titre_3, titre_4]


# process the dataframe
df_new = process_df(df_new, train = False)


# predict the genre
classifier(df_new["synopsis_title"][0])





  0%|          | 0/72 [00:00<?, ?it/s]

[{'label': 'policier', 'score': 0.7271738648414612}]

In [65]:
# now test the classifier on the test set
df_test = pd.read_csv("../data/allocine_genres_test.csv")

# process the dataframe
df_test = process_df(df_test, train = True)

# predict the genre
df_test["predicted_genre"] = df_test["synopsis_title"].apply(classifier)







In [88]:

df_test.predicted_genre[0][0]

# extract genre from dict 
def extract_genre(genre_dict):
    # dict is under this form {'label': 'drame', 'score': 0.4321644604206085}
    return genre_dict[0]["label"]

# apply the function to the predicted genre
df_test["predicted_genre"] = df_test["predicted_genre"].apply(extract_genre)

In [91]:
df_test.head()

# check the accuracy
accuracy_score(df_test["genre"], df_test["predicted_genre"])

0.5257301808066759

## Conclusion

We seem to have a better score with this approach. We will use this model to predict the genre of the movies.