# TP : Classification de critiques de films avec AI

Dans ce travail pratique, nous allons construire un modèle de machine learning pour la classification de critiques de films. Notre modèle sera entrainé à prédire si une critique de film est positive ou négative en utilisant uniquement des couches Embedding et Linear sur le jeu de données allocine.

## Objectifs du TP

1. Comprendre les concepts de base de l'apprentissage automatique tels que l'entraînement, la validation et le test de modèles.
1. Apprendre à préparer les données pour le traitement par des algorithmes d'apprentissage automatique.
1. Comprendre et implémenter un modèle de classification de texte simple à l'aide des couches Embedding et Linear.
1. Évaluer les performances d'un modèle de machine learning.

## Guide

1. Préparation des données: Importez le jeu de données allocine et préparez-le pour le traitement. Le jeu de données devrait être divisé en ensemble d'entraînement, de validation et de test.
1. Implémentation du modèle: Implémentez votre propre version du modèle de classification de texte. Assurez-vous de n'utiliser que les couches Embedding et Linear.
1. Entrainement du modèle: Entrainez le modèle en utilisant l'ensemble d'entraînement et vérifiez sa performance à l'aide de l'ensemble de validation.
1. Evaluation du modèle: Évaluez le modèle final à l'aide de l'ensemble de test.
1. Interprétation des résultats: Analysez les résultats obtenus. Comment le modèle performe-t-il? Quels sont les aspects du modèle qui pourraient être améliorés?

# Code de base

In [None]:
from datasets import load_dataset

dataset = load_dataset("allocine")
dataset

In [None]:
train_dataset, valid_dataset, test_dataset = dataset["train"], dataset["validation"], dataset["test"]

In [None]:
train_dataset['review'][0], train_dataset['label'][0]

In [None]:
# Get the spacy model for the tokenizer
!python -m spacy download fr_core_news_sm

Let's see how to creat a simple tokenizer with vocabulary

In [None]:
from torchtext.data.utils import get_tokenizer
from torchtext.vocab import build_vocab_from_iterator

tokenizer = get_tokenizer('spacy', language="fr_core_news_sm")

def yield_tokens(data_iter):
    for text in data_iter:
        yield tokenizer(text.lower())

texts = ["Bonjour je vais très bien", "Le lisp et trop cool !"]

vocab = build_vocab_from_iterator(yield_tokens(texts), specials=["<unk>", "<pad>", "<s>", "</s>"])
vocab.set_default_index(vocab["<unk>"])

print(f"Vocabulary: {vocab.get_itos()}")

In [None]:
# To test hour vocabulary

sentence = "TOTO je vais très bien le lisp TOTO"

# Tokenize the sentence
tokens = tokenizer(sentence)

# Convert tokens to indices via the vocab
encoded_sentence = [vocab[token] for token in tokens]

print(f"Encoded sentence: {encoded_sentence}")

In [None]:
len(vocab)

In [None]:
import torch

# Creat Embedding layer in input is the len of out vocabulary
embedding = torch.nn.Embedding(len(vocab), 18)

# torch.Size([8, 18]) 8 is the len of our sentence 18 the number of features
embedding(torch.tensor(encoded_sentence)).shape