# Génération de musique par Intelligence Artificielle pour la pratique sportive 

## Partie 3 (suite): Evaluation du nouveau modèle (comparaison avec le modèle d'origine)

Nous allons à présent comparer les musiques générées par le modèle "affiné (*"fine-tuned"*) et le modèle d'origine.

Les 2 cellules ci-dessous chargent quelques modules utilitaires que nous ne détaillerons pas ici.

In [None]:
%run utilitaires.ipynb

In [None]:
%load_ext autoreload
%autoreload 2

Dans la cellule ci-dessous, nous chargeons le `processor` ainsi que les 2 modèles: `original_model` (le MusicGen d'origine) et `fine_tuned_model` (le modèle que nous avons affiné/ajusté).

In [None]:
# os.environ['HF_HOME'] = "./models/"
processor = AutoProcessor.from_pretrained(
    "facebook/musicgen-medium",
    cache_dir="./models"
)

original_model = AutoModelForTextToWaveform.from_pretrained(
    "facebook/musicgen-medium", 
    cache_dir="./models"
)
original_model.freeze_text_encoder()
original_model.freeze_audio_encoder()
original_model.to("cuda")

fine_tuned_model = AutoModelForTextToWaveform.from_pretrained(
    "./models/fine_tuned_musigen_all", 
    cache_dir="./models/"
)
fine_tuned_model.freeze_text_encoder()
fine_tuned_model.freeze_audio_encoder()
fine_tuned_model.to("cuda")

Dans la cellule suivante, nous générons les musiques avec le modèle d'origine.

In [None]:
torch.cuda.empty_cache()
text_to_music(
    processor,
    original_model,
    prompts=[
        prompt_engineering("cardio training", "latino"),
        prompt_engineering("yoga", "latino"),
        prompt_engineering("bike", "latino"),
    ],
    max_new_tokens=256,
    sampling_rate=32000,
    do_sample=False,
    guidance_scale=10,
)

Nous générons à présent les musiques avec le modèle affiné/ajusté (*"fine-uned"*). Qu'en pensez-vous ?

In [None]:
torch.cuda.empty_cache()
text_to_music(
    processor,
    fine_tuned_model,
    prompts=[
        prompt_engineering("cardio training", "latino"),
        prompt_engineering("yoga", "latino"),
        prompt_engineering("bike", "latino"),
    ],
    max_new_tokens=256,
    sampling_rate=32000,
    do_sample=False,
    guidance_scale=10,
)

Le résultat final dépend beaucoup des conditions d'entraînements/affinage: données, hyperparamètres (taux d'apprentissage ou *"learning rate"*, nombre d'itération ou *"epochs"* etc...), etc...

Le résultat final peut varier d'une exécution à l'autre (aléas).

Durant ces travaux pratiques, nous avons spécifier explicitement le style musical "latino" dans le prompt. En réalité la plupart des utilisateurs aiment différents styles musicaux. On pourrait imaginer mettre dans le prompre le nom de l'utilisateur (et non le style de musique) et laisser l'algorithme apprendre ce qu'aime cet utilisateur précis.

Beaucoup d'approches différentes sont envisageables, mais vous avez désormais un petit aperçu de ce qu'il est possible de faire.