# Test de modèles LLMs open-source avec Python

Dans ce notebook, nous allons :
- Configurer et charger des modèles open-source populaires.
- Générer du texte à partir de prompts simples.
- Comparer leurs performances rapidement.
Les modèles choisis : **LLaMA 2, Falcon, Dolly, Bloom**.
- Créer un chatbot avec le model le plus performant.


## Configuration requise :

- GPU recommandé.
- RAM : Minimum 16 Go
- Disque : Prévoir 50-80 Go

## Configuration de l'environnement

Nous allons utiliser les bibliothèques Hugging Face `transformers` pour accéder aux modèles open-source et `torch` pour l'inférence sur GPU.


In [12]:
!pip install -U bitsandbytes
# !pip install tensorflow # Préinstallé sur Colab
!pip install -U transformers accelerate


Collecting bitsandbytes
  Using cached bitsandbytes-0.45.0-py3-none-manylinux_2_24_x86_64.whl.metadata (2.9 kB)
Using cached bitsandbytes-0.45.0-py3-none-manylinux_2_24_x86_64.whl (69.1 MB)
Installing collected packages: bitsandbytes
Successfully installed bitsandbytes-0.45.0


In [13]:
# Importation des bibliothèques
import torch
# Vérification GPU
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Device utilisé : {device}")

Device utilisé : cuda


## Chargement des modèles

Nous allons utiliser le Transformers (de Hugging Face) qui permet un accès facile et standardisé à des modèles de langage pré-entraînés.

Cependant, certains modèles nécessitent un token d'accès ou une demande d'accès préalable pour être utilisés.






#### Configuration de Hugging Face avec un Token d'accès

Avant de charger certains modèles, vous devrez peut-être vous connecter à [Hugging Face](https://huggingface.co) avec une clé API. Si vous n'avez pas encore de clé, vous pouvez en obtenir une sur le site de Hugging Face. Une fois la clé obtenue, vous pouvez vous connecter avec la commande suivante

In [14]:
from huggingface_hub import login

# Authentification avec votre token
login(token="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")

# Vérifier que vous êtes connecté
print("Authentification réussie !")




Authentification réussie !


#### Demande d'accès pour des modèles spécifiques

Certains modèles, comme LLaMA 2 ou Falcon, nécessitent une demande d'accès spécifique avant de pouvoir être utilisés. Vous devrez faire une demande via la page du modèle sur [Hugging Face](https://huggingface.co/) et attendre la confirmation de l'accès.

Une fois l'accès confirmé, vous devrez lier le modèle à votre token en modifiant votre session avec votre token d'accès. Voici un exemple pour l'accès au modèle LLaMA 2 :

- Rendez-vous sur la page de LLaMA 2 sur Hugging Face.
- Faites une demande d'accès et attendez la confirmation.
- Une fois accepté, mettez à jour votre session avec votre token d'accès.

## Comparaison des modèles

Nous testons les modèles avec des prompts variés :
1. **Résumé** : Résumer un texte court.
2. **Question-réponse** : Répondre à une question simple.
3. **Création libre** : Générer un texte créatif.


## 1. Meta LlaMA

In [None]:
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig, pipeline

# Configurer la quantification
bnb_config = BitsAndBytesConfig(
    load_in_8bit=True,  # Utilisation de la quantification 8-bit
    llm_int8_threshold=6.0  # Optionnel : ajuster le seuil
)

# Charger le tokenizer
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b-chat-hf")

# Charger le modèle avec configuration de quantification
model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-2-7b-chat-hf",
    device_map="auto",  # Permet à Hugging Face d'utiliser automatiquement le GPU
    quantization_config=bnb_config
)

# Créer le pipeline pour la génération de texte
generator = pipeline("text-generation", model=model, tokenizer=tokenizer)



In [None]:
# Tester une génération
input_text = "Peux-tu expliquer la différence entre une démonstration mathématique et une conjecture ?"
output = generator(input_text,
    top_k=10,
    num_return_sequences=1,
    eos_token_id=tokenizer.eos_token_id,
    truncation = True,
    max_length=400)
print(output[0]['generated_text'])

## 2. Falcon

In [4]:
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig, pipeline

# Configurer la quantification
bnb_config = BitsAndBytesConfig(
    load_in_8bit=True,  # Utilisation de la quantification 8-bit
    llm_int8_threshold=6.0  # Optionnel : ajuster le seuil
)

# Charger le tokenizer
tokenizer = AutoTokenizer.from_pretrained("tiiuae/falcon-7b")

# Charger le modèle avec configuration de quantification
model = AutoModelForCausalLM.from_pretrained(
    "tiiuae/falcon-7b",
    device_map="auto",  # Permet à Hugging Face d'utiliser automatiquement le GPU
    quantization_config=bnb_config
)

# Créer le pipeline pour la génération de texte
generator_falcon = pipeline("text-generation", model=model, tokenizer=tokenizer)



The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/287 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.73M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/281 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/1.05k [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/17.7k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/2 [00:00<?, ?it/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/9.95G [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/4.48G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/117 [00:00<?, ?B/s]

Device set to use cuda:0


In [5]:
# Tester une génération
input_text = "Peux-tu expliquer la différence entre une démonstration mathématique et une conjecture ?"
output = generator_falcon(input_text,
    top_k=10,
    num_return_sequences=1,
    eos_token_id=tokenizer.eos_token_id,
    truncation = True,
    max_length=400)
print(output[0]['generated_text'])

Setting `pad_token_id` to `eos_token_id`:11 for open-end generation.


Peux-tu expliquer la différence entre une démonstration mathématique et une conjecture ?
Une démonstration mathématique est un raisonnement qui conduit à une conclusion.
Une conjecture est une hypothèse qui n’a pas encore été prouvée.
Exemple :
- « Tous les nombres premiers sont pairs » est une conjecture.
- « Tous les nombres premiers sont impairs » est une démonstration mathématique.
- « Tous les nombres premiers sont impairs » est une conjecture.
- « Tous les nombres premiers sont impairs » est une démonstration mathématique.
Exemple :
- « Tous les nombres premiers sont impairs » est une conjecture.
- « Tous les nombres premiers sont impairs » est une conjecture.
- « Tous les nombres premiers sont impairs » est une conjecture.
- « Tous les nombres premiers sont impairs » est une conjecture.
Exemple :
- « Tous les nombres premiers sont impairs » est une conjecture.
- « Tous les nombres premiers sont impairs » est une conjecture.
- « Tous les nombres premiers sont impairs » est une co

In [20]:
# Tester une génération
input_text = "Comment apprendre à programmer avec python?"
output = generator_falcon(input_text,
    top_k=10,
    num_return_sequences=1,
    eos_token_id=tokenizer.eos_token_id,
    truncation = True,
    max_length=400)
print(output[0]['generated_text'])

Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


Comment apprendre à programmer avec python?
Python est un langage de programmation populaire qui est utilisé dans de nombreux domaines, notamment la science des données, l’intelligence artificielle, la robotique, la finance et la science des données.
Python est un langage de programmation populaire qui est utilisé dans de nombreux domaines, notamment la science des données, l’intelligence artificielle, la robotique, la finance et la science des données.
Python est un langage de programmation populaire qui est utilisé dans de nombreux domaines, notamment la science des données, l’intelligence artificielle, la robotique, la finance et la science des données.
Python est un langage de programmation populaire qui est utilisé dans de nombreux domaines, notamment la science des données, l’intelligence artificielle, la robotique, la finance et la science des données.
Python est un langage de programmation populaire qui est utilisé dans de nombreux domaines, notamment la science des données, l’

## 3. Databricks Dolly

In [6]:
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig, pipeline

# Configurer la quantification
bnb_config = BitsAndBytesConfig(
    load_in_8bit=True,  # Utilisation de la quantification 8-bit
    llm_int8_threshold=6.0  # Optionnel : ajuster le seuil
)

# Charger le tokenizer
tokenizer = AutoTokenizer.from_pretrained("databricks/dolly-v2-2-8b")

# Charger le modèle avec configuration de quantification
model = AutoModelForCausalLM.from_pretrained(
    "databricks/dolly-v2-2-8b",
    device_map="auto",  # Permet à Hugging Face d'utiliser automatiquement le GPU
    quantization_config=bnb_config
)

# Créer le pipeline pour la génération de texte
generator_dolly = pipeline("text-generation", model=model, tokenizer=tokenizer)



tokenizer_config.json:   0%|          | 0.00/450 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.11M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/228 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/819 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/5.68G [00:00<?, ?B/s]

The `GPTNeoXSdpaAttention` class is deprecated in favor of simply modifying the `config._attn_implementation`attribute of the `GPTNeoXAttention` class! It will be removed in v4.48
Device set to use cuda:0


In [7]:
# Tester une génération
input_text = "Peux-tu expliquer la différence entre une démonstration mathématique et une conjecture ?"
output = generator_dolly(input_text,
    top_k=10,
    num_return_sequences=1,
    eos_token_id=tokenizer.eos_token_id,
    truncation = True,
    max_length=400)
print(output[0]['generated_text'])



Peux-tu expliquer la différence entre une démonstration mathématique et une conjecture ?

Une démonstration mathématique est une preuve mathématique de la validité d'un théorème. C'est une preuve mathématique de la validité d'un théorème, mais pas une preuve du théorème lui-même.

Une conjecture est une affirmation non prouvée, souhaitée ou supposée. C'est une conjecture, mais pas une affirmation.

Par exemple, la conjecture suivante est formulée dans un cours de mathématiques : « Toutes les courbes algébriques de genre deux sont homogènes. » Cette conjecture est formulée dans le but d'affirmer que la théorie des courbes algébriques est correcte, mais elle n'est pas prouvée.

Une démonstration mathématique de la validité d'une conjecture est une preuve mathématique de la validité d'une conjecture.

Par exemple, la démonstration suivante de la validité de la conjecture suivante est une preuve mathématique de la validité de la conjecture suivante :

1. Soit $C$ une courbe algébrique de g

In [17]:
# Tester une génération
input_text = "Comment apprendre à programmer avec python?"
output = generator_dolly(input_text,
    top_k=10,
    num_return_sequences=1,
    eos_token_id=tokenizer.eos_token_id,
    truncation = True,
    max_length=400)
print(output[0]['generated_text'])

Comment apprendre à programmer avec python?

Je suis nouveau sur le sujet, mais j'ai entendu parler de python dans une vidéo sur YouTube.
Je me demande si c'est une bonne chose de programmer avec python.
Pourquoi?
Parce que je crois que c'est un langage très performant, et que les outils qu'il offre sont très utiles pour certaines applications.
Mais il y a aussi beaucoup de choses que je ne sais pas vraiment faire avec python, et je crains que cela ne soit pas très utile.
Je voudrais donc savoir si c'est une bonne chose de programmer avec python, et si oui ou non, quelles sont les applications qui utilisent le plus Python.

A:

Python est un langage de programmation très performant, il est utilisé dans de nombreuses applications.
Il offre une grande variété de fonctionnalités, dont:

l'utilisation de classes permet de créer des modules simples et faciles à utiliser, et donc de développer rapidement des applications.
Les expressions sont un langage simple et clair, qui permet de bien pr

## 4. BigScience BLOOM

In [8]:
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig, pipeline

# Configurer la quantification
bnb_config = BitsAndBytesConfig(
    load_in_8bit=True,  # Utilisation de la quantification 8-bit
    llm_int8_threshold=6.0  # Optionnel : ajuster le seuil
)

# Charger le tokenizer
tokenizer = AutoTokenizer.from_pretrained("bigscience/bloom-1b7")

# Charger le modèle avec configuration de quantification
model = AutoModelForCausalLM.from_pretrained(
    "bigscience/bloom-1b7",
    device_map="auto",  # Permet à Hugging Face d'utiliser automatiquement le GPU
    quantization_config=bnb_config
)

# Créer le pipeline pour la génération de texte
generator_bloom = pipeline("text-generation", model=model, tokenizer=tokenizer)



tokenizer_config.json:   0%|          | 0.00/222 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/14.5M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/85.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/715 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/3.44G [00:00<?, ?B/s]

Device set to use cuda:0


In [15]:
# Tester une génération
input_text = "Peux-tu expliquer la différence entre une démonstration mathématique et une conjecture ?"
output = generator_bloom(input_text,
    top_k=10,
    num_return_sequences=1,
    eos_token_id=tokenizer.eos_token_id,
    truncation = True,
    max_length=400)
print(output[0]['generated_text'])

Peux-tu expliquer la différence entre une démonstration mathématique et une conjecture ?


In [18]:
# Tester une génération
input_text = "Comment apprendre à programmer avec python"
output = generator_bloom(input_text,
    top_k=10,
    num_return_sequences=1,
    eos_token_id=tokenizer.eos_token_id,
    truncation = True,
    max_length=400)
print(output[0]['generated_text'])

Comment apprendre à programmer avec python? - Cours et exercices corrigés
Le langage Python est un langage de programmation orienté objet. Il est très utilisé dans le monde de l’informatique. Il est très utilisé dans le monde de l’informatique. Il est très utilisé dans le monde de l’informatique. Il est très utilisé dans le monde de l’informatique. Il est très utilisé dans le monde de l’informatique. Il est très utilisé dans le monde de l’informatique. Il est très utilisé dans le monde de l’informatique. Il est très utilisé dans le monde de l’informatique. Il est très utilisé dans le monde de l’informatique. Il est très utilisé dans le monde de l’informatique. Il est très utilisé dans le monde de l’informatique. Il est très utilisé dans le monde de l’informatique. Il est très utilisé dans le monde de l’informatique. Il est très utilisé dans le monde de l’informatique. Il est très utilisé dans le monde de l’informatique. Il est très utilisé dans le monde de l’informatique. Il est très u

In [None]:
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig, pipeline
import time

# Liste des modèles à comparer
model_list = [
    "meta-llama/Llama-2-7b-chat-hf",
    "tiiuae/falcon-7b",
    "databricks/dolly-v2-2-8b",
    "bigscience/bloom-1b7"
]

# Configuration de quantification 8-bit
bnb_config = BitsAndBytesConfig(
    load_in_8bit=True,        # Quantification 8-bit
    llm_int8_threshold=6.0    # Optionnel : ajuster le seuil
)

# Dictionnaire pour stocker les pipelines
pipelines = {}

# Chargement des modèles et des tokenizers avec pipeline
print("Chargement des modèles avec quantification 8-bit...\n")
for model_name in model_list:
    print(f"Chargement du modèle : {model_name}")
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        device_map="auto",            # Utilisation automatique du GPU
        quantization_config=bnb_config
    )
    pipelines[model_name] = pipeline("text-generation", model=model, tokenizer=tokenizer)
print("\nTous les modèles sont chargés avec succès !\n")

# Fonction pour générer et comparer les réponses
def generate_text(message,top_k=10, num_return_sequences=1, eos_token_id=tokenizer.eos_token_id, truncation = True, max_length=400):
    print(f"Message : {message}\n")
    for model_name, text_pipeline in pipelines.items():
        start_time = time.time()
        output = text_pipeline(message, max_length=max_length, pad_token_id=50256)  # pad_token_id pour éviter les avertissements
        end_time = time.time()

        print(f"Modèle : {model_name}")
        print(f"Réponse : {output[0]['generated_text']}")
        print(f"Temps d'inférence : {end_time - start_time:.2f} secondes")
        print("-" * 50)

# Tester des messages
generate_text("Peux-tu expliquer la différence entre une démonstration mathématique et une conjecture ?")



### Création d'un Chatbot Interactif

In [None]:
# Fonction chatbot
def chatbot():
    print("Chatbot prêt ! Tapez 'exit' pour quitter.")
    while True:
        user_input = input("Vous : ")
        if user_input.lower() == "exit":
            print("Chatbot : Au revoir !")
            break

        # Générer une réponse
        response = generator(
            user_input,
            top_k=10,
            num_return_sequences=1,
            eos_token_id=tokenizer.eos_token_id,
            truncation = True,
            max_length=400
        )[0]['generated_text']

        # Afficher la réponse
        print("Chatbot :", response)

# Lancer le chatbot
chatbot()


Chatbot prêt ! Tapez 'exit' pour quitter.
Vous : Comment l'IA affecte-t-elle les emplois dans le secteur technologique ?
Chatbot : Comment l'IA affecte-t-elle les emplois dans le secteur technologique ?

L'intelligence artificielle (IA) est progressivement devenue une technologie essentielle dans de nombreux secteurs, notamment dans le secteur technologique. Les applications de l'IA varient des systèmes de recomposition de données à l'optimisation de processus industriels, en passant par la génération de contenu personnalisé. Bien que l'IA puisse offrir de nombreux avantages, elle peut également avoir des impacts significatifs sur les emplois dans le secteur technologique.

Voici quelques-uns des effets potentiels de l'IA sur les emplois dans le secteur technologique :

1. Réduction des emplois de base : Les applications de l'IA peuvent remplacer certaines tâches routinières et répétitives, telles que la gestion de données, la gestion de processus et la gestion de projet. Cela peut ent

### Interface Chatbot avec Gradio

In [None]:
!pip install gradio

Collecting gradio
  Downloading gradio-5.9.1-py3-none-any.whl.metadata (16 kB)
Collecting aiofiles<24.0,>=22.0 (from gradio)
  Downloading aiofiles-23.2.1-py3-none-any.whl.metadata (9.7 kB)
Collecting fastapi<1.0,>=0.115.2 (from gradio)
  Downloading fastapi-0.115.6-py3-none-any.whl.metadata (27 kB)
Collecting ffmpy (from gradio)
  Downloading ffmpy-0.5.0-py3-none-any.whl.metadata (3.0 kB)
Collecting gradio-client==1.5.2 (from gradio)
  Downloading gradio_client-1.5.2-py3-none-any.whl.metadata (7.1 kB)
Collecting markupsafe~=2.0 (from gradio)
  Downloading MarkupSafe-2.1.5-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (3.0 kB)
Collecting pydub (from gradio)
  Downloading pydub-0.25.1-py2.py3-none-any.whl.metadata (1.4 kB)
Collecting python-multipart>=0.0.18 (from gradio)
  Downloading python_multipart-0.0.20-py3-none-any.whl.metadata (1.8 kB)
Collecting ruff>=0.2.2 (from gradio)
  Downloading ruff-0.8.4-py3-none-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metad

In [None]:
import gradio as gr
# Fonction de réponse du chatbot
def chatbot_response(user_input):
    output = generator(
        user_input,
       top_k=10,
            num_return_sequences=1,
            eos_token_id=tokenizer.eos_token_id,
            truncation = True,
            max_length=400
    )
    return output[0]['generated_text']

# Interface Gradio
with gr.Blocks() as chatbot_interface:
    gr.Markdown("### Chatbot alimenté par llama 2 (Quantification 8-bit)")
    chatbot = gr.Chatbot(label="Chatbot")
    msg = gr.Textbox(label="Votre message", placeholder="Tapez votre question ici...")
    clear = gr.Button("Effacer la conversation")

    def respond(message, chat_history):
        response = chatbot_response(message)
        chat_history.append((message, response))
        return chat_history, ""

    msg.submit(respond, [msg, chatbot], [chatbot, msg])
    clear.click(lambda: None, None, chatbot, queue=False)

# Lancer l'interface
chatbot_interface.launch()



Running Gradio in a Colab notebook requires sharing enabled. Automatically setting `share=True` (you can turn this off by setting `share=False` in `launch()` explicitly).

Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://9889dea64d8cabf611.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)




Les modèles comme LLaMA 2, Falcon, Dolly, et Bloom font partie des modèles open source les plus performants actuellement. Cependant, il est important de noter les versions ici utilisées ont évolué, avec de nouvelles versions qui offrent de meilleures performances. Cela dit, ces versions récentes nécessitent également des ressources informatiques plus importantes pour fonctionner de manière optimale. Ces modèles peuvent être utilisés dans de nombreux domaines, notamment les chatbots, la génération de contenu, la traduction automatique, et bien plus encore.