<a href="https://colab.research.google.com/github/EmmanuelADAM/IntelligenceArtificiellePython/blob/master/introHuggingFace.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# HuggingFace : des modèles entraînés

[HuggingFace](https://huggingface.co/) est un site recueillant les modèles IA entraînés, les plus connus (GPT, Bart, Mistral...) comme des plus modestes.
Ce site met aussi à disposition des dataset (comme le site kaggle).

Un modèle comprend plusieurs éléments. Par exemple, pour le texte, il contiendra un vocabulaire, l'outil de "tokenisation", un réseau entraîné, et un outil de restitution du résultat.

 
Les modèles peuvent être téléchargés en local (attention à la taille de certains), ou utilisés en ligne.

---
## Transformers
Les transformers sont utilisés pour convertir une entrée (texte par exemple) en entrée assimilable par un ensemble d'outils contenant un réseau de neurones.

Il est nécessaire de les télécharger comme une librairie classique : 

In [None]:
#téléchargement, un peu long parfois, de la librairie transformers
!pip install transformers 

In [1]:
#importation en mémoire
import transformers

---

## pipeline
Un pipeline est une suite d'outils (tokenizer, analyseur, ...) visant un but précis.

Par exemple, le pipeline suivant analyse le "sentiment" d'un texte : 

In [2]:
from transformers import pipeline

In [None]:
#chargement du "detecteur de sentiments" par défaut
#la première utilisation prend un peu de temps de téléchargement
detecteur_de_sentiments = pipeline("sentiment-analysis")
#chargement du "detecteur de sentiments"  cardiffnlp
pipe = pipeline("text-classification", model="cardiffnlp/twitter-roberta-base-sentiment-latest")

In [4]:
phrases =     [
        "I like discover new thing in my courses at UPHF.",
        "But I hate writing my practical work reports !", 
        "I should better sleep at night rather than in the courses"
    ]

default_output = detecteur_de_sentiments(phrases)
cardiff_output =pipe(phrases)
print("classement par defaut = ")
for i in range(len(phrases)):
    print(phrases[i])
    print("\t classifier par defaut : ", default_output[i])
    print("\t classifier cardiff : ", cardiff_output[i])


classement par defaut = 
I like discover new thing in my courses at UPHF.
	 classifier par defaut :  {'label': 'POSITIVE', 'score': 0.9983413219451904}
	 classifier cardiff :  {'label': 'positive', 'score': 0.9546298980712891}
But I hate writing my practical work reports !
	 classifier par defaut :  {'label': 'NEGATIVE', 'score': 0.9973371624946594}
	 classifier cardiff :  {'label': 'negative', 'score': 0.9157376289367676}
I should better sleep at night rather than in the courses
	 classifier par defaut :  {'label': 'NEGATIVE', 'score': 0.9995858073234558}
	 classifier cardiff :  {'label': 'neutral', 'score': 0.5100991129875183}


---
## Choix du modèle
Sur huggingFace, il est assez simple de choisir son modèle : 
  - cliquez en haut au centre sur **Models**
  - choisissez dans **Natural Language Processing** le traitement désiré (par exemple TextClassification)
  - choisissez ensuite le modèle voulu, ou plus téléchargé, ou le plus "liké"
  - cliquez sur **</> use in transformers**
  - vous obtenez ainsi le code pour charger le pipeline (pour ce TP, on choisira "Use a pipeline as a high-level helper")




----
## Travail à faire

Peu de code dans ce TP. 

1. **Classement** : Reprenez le dataset sur le classement de livres et tester 3 modèles (dont au moins un basé sur le français) sur les 50 premières données du dataset. Comparez les résultats.

2. **Résumé automatique** : prenez le dataset [samsun](https://huggingface.co/datasets/samsum) et testez  3 modèles de résumé sur les 20 premières  lignes du dataset. Evaluez par vous même la qualité des résumés.

3. **Génération de texte**. Chargez trois modèles générateurs de texte et demandez la recette des panckakes et évaluez les réponses.  
Commencez la recette : ``sentences = generator("To make pancakes, I need flour", max_length=30, num_return_sequences=5,  return_full_text=True)``   
(ceci demande la suite du texte, 5 fois, avec des réponses de 30 mots max).

4. **Réponse à tout** : utilisez 3 modèles de question-answering et posez 3 questions sur le texte anglais de votre choix. Comparez.

**A rendre**, les codes, les questions et réponses. Ainsi votre réflexion sur la confiance envers les modèles existants. 


In [5]:
#exemple d'utilisation de "question-answering"
pipe = pipeline("question-answering", model="distilbert/distilbert-base-cased-distilled-squad")

In [6]:
context = "The academic discipline of artificial intelligence was established at a research workshop held at Dartmouth College in 1956 and has experienced several waves of advancement and optimism in the decades since.[20] Since its inception, researchers in the field have raised philosophical and ethical arguments about the nature of the human mind and the consequences of creating artificial beings with human-like intelligence; these issues have previously been explored by myth, fiction and philosophy since antiquity.[21] The concept of automated art dates back at least to the automata of ancient Greek civilization, where inventors such as Daedalus and Hero of Alexandria were described as having designed machines capable of writing text, generating sounds, and playing music.[22][23] The tradition of creative automatons has flourished throughout history, exemplified by Maillardet's automaton created in the early 1800s.[24]"

question = "from when comes artificial intelligence ?"
output = pipe({"context": context, "question": question })
print(question, " - ", output)
question = "what is the concept behind artificial intelligence ?"
output = pipe({"context": context, "question": question })
print(question, " - ", output)

from when comes artificial intelligence ?  -  {'score': 0.07508504390716553, 'start': 119, 'end': 123, 'answer': '1956'}
what is the concept behind artificial intelligence ?  -  {'score': 0.7541843056678772, 'start': 533, 'end': 546, 'answer': 'automated art'}
