## Documentation

https://github.com/turboderp/exllamav2

https://github.com/theroyallab/tabbyAPI

https://github.com/turboderp/exui

Vidéo and example:

https://www.youtube.com/watch?v=N5lDUZRI8sc

https://colab.research.google.com/github/githubpradeep/notebooks/blob/main/exllamaV2.ipynb

## Quantized models repositories

https://huggingface.co/turboderp

https://huggingface.co/LoneStriker

https://huggingface.co/bartowski

## Installation

In [None]:
pip install --upgrade exllamav2

In [4]:
import importlib.metadata
importlib.metadata.version("torch")

'2.3.0.dev20231217+cu121'

In [5]:
importlib.metadata.version("exllamav2")

'0.0.17'

Open a terminal:

```bash
source ../test-pytorch/.venv/bin/activate
git clone https://github.com/turboderp/exllamav2
cd exllamav2
pip install -r requirements.txt
```

## Download a model and test inference

Open a terminal:

1. Download an exl2 model:    
    
```bash
mkdir /models/huggingface/exllama2
cd /models/huggingface/exllama2
git clone --branch 4.0bpw --single-branch --depth 1 https://huggingface.co/turboderp/command-r-v01-35B-exl2
rm -rf command-r-v01-35B-exl2/.git
```

2. Test inference:

```bash
cd /workspace/wordslab-llms/exllamav2/
python test_inference.py -m "/models/huggingface/exllama2/command-r-v01-35B-exl2" -p "Les avantages du Crédit Mutuel sont "
```

## Usage in a notebook

In [None]:
import sys, os
sys.path.append('/content/exllamav2')

from exllamav2 import(
    ExLlamaV2,
    ExLlamaV2Config,
    ExLlamaV2Cache,
    ExLlamaV2Tokenizer,
)

from exllamav2.generator import (
    ExLlamaV2BaseGenerator,
    ExLlamaV2Sampler
)

import time

# Input prompts

batch_size = 5

prompts = \
[
    "How do I open a can of beans?",
    "How do I open a can of soup?",
    "How do I open a can of strawberry jam?",
    "How do I open a can of raspberry jam?",
    "What's the tallest building in Paris?",
    "What's the most populous nation on Earth?",
    "What's the most populous nation on Mars?",
    "What do the Mole People actually want and how can we best appease them?",
    "Why is the sky blue?",
    "Where is Waldo?",
    "Who is Waldo?",
    "Why is Waldo?",
    "Is it legal to base jump off the Eiffel Tower?",
    "Is it legal to base jump into a volcano?",
    "Why are cats better than dogs?",
    "Why is the Hulk so angry all the time?",
    "How do I build a time machine?",
    "Is it legal to grow your own catnip?"
]

# Sort by length to minimize padding

s_prompts = sorted(prompts, key = len)

# Apply prompt format

def format_prompt(sp, p):
    return f"[INST] <<SYS>>\n{sp}\n<</SYS>>\n\n{p} [/INST]"

system_prompt = "Answer the question to the best of your ability."
f_prompts = [format_prompt(system_prompt, p) for p in s_prompts]

# Split into batches

batches = [f_prompts[i:i + batch_size] for i in range(0, len(prompts), batch_size)]

# Initialize model and cache

model_directory =  "Mistral-7B-instruct-exl2"

config = ExLlamaV2Config()
config.model_dir = model_directory
config.prepare()

config.max_batch_size = batch_size  # Model instance needs to allocate temp buffers to fit the max batch size

model = ExLlamaV2(config)
print("Loading model: " + model_directory)

cache = ExLlamaV2Cache(model, lazy = True, batch_size = batch_size)  # Cache needs to accommodate the batch size
model.load_autosplit(cache)

tokenizer = ExLlamaV2Tokenizer(config)

# Initialize generator

generator = ExLlamaV2BaseGenerator(model, cache, tokenizer)

# Sampling settings

settings = ExLlamaV2Sampler.Settings()
settings.temperature = 0.85
settings.top_k = 50
settings.top_p = 0.8
settings.token_repetition_penalty = 1.05

max_new_tokens = 512

# generator.warmup()  # Only needed to fully initialize CUDA, for correct benchmarking

# Generate for each batch

collected_outputs = []
for b, batch in enumerate(batches):

    print(f"Batch {b + 1} of {len(batches)}...")

    outputs = generator.generate_simple(batch, settings, max_new_tokens, seed = 1234)

    trimmed_outputs = [o[len(p):] for p, o in zip(batch, outputs)]
    collected_outputs += trimmed_outputs

# Print the results

for q, a in zip(s_prompts, collected_outputs):
    print("---------------------------------------")
    print("Q: " + q)
    print("A: " + a)

# print(f"Response generated in {time_total:.2f} seconds, {max_new_tokens} tokens, {max_new_tokens / time_total:.2f} tokens/second")

In [None]:
from exllamav2 import (
    ExLlamaV2,
    ExLlamaV2Config,
    ExLlamaV2Cache,
    ExLlamaV2Tokenizer,
)

from exllamav2.generator import (
    ExLlamaV2StreamingGenerator,
    ExLlamaV2Sampler
)

import time


tokenizer = ExLlamaV2Tokenizer(config)

# Initialize generator

generator = ExLlamaV2StreamingGenerator(model, cache, tokenizer)

# Settings

settings = ExLlamaV2Sampler.Settings()
settings.temperature = 0.85
settings.top_k = 50
settings.top_p = 0.8
settings.top_a = 0.0
settings.token_repetition_penalty = 1.05
settings.disallow_tokens(tokenizer, [tokenizer.eos_token_id])

max_new_tokens = 512

# Prompt

prompt = "Our story begins in the Scottish town of Auchtermuchty, where once"

input_ids = tokenizer.encode(prompt)
prompt_tokens = input_ids.shape[-1]

# Make sure CUDA is initialized so we can measure performance

generator.warmup()

# Send prompt to generator to begin stream

time_begin_prompt = time.time()

print (prompt, end = "")
sys.stdout.flush()

generator.set_stop_conditions([])
generator.begin_stream(input_ids, settings)

# Streaming loop. Note that repeated calls to sys.stdout.flush() adds some latency, but some
# consoles won't update partial lines without it.

time_begin_stream = time.time()
generated_tokens = 0

while True:
    chunk, eos, _ = generator.stream()
    generated_tokens += 1
    print (chunk, end = "")
    sys.stdout.flush()
    if eos or generated_tokens == max_new_tokens: break

time_end = time.time()

time_prompt = time_begin_stream - time_begin_prompt
time_tokens = time_end - time_begin_stream

print()
print()
print(f"Prompt processed in {time_prompt:.2f} seconds, {prompt_tokens} tokens, {prompt_tokens / time_prompt:.2f} tokens/second")
print(f"Response generated in {time_tokens:.2f} seconds, {generated_tokens} tokens, {generated_tokens / time_tokens:.2f} tokens/second")

- git clone --branch 3.75bpw --single-branch --depth 1 https://huggingface.co/turboderp/command-r-v01-35B-exl2
- python ./test_inference.py -m "/models/huggingface/exllama2/command-r-v01-35B-exl2" -p "Les avantages du Crédit Mutuel sont " --tokens 1024

 -- Response generated in 171.37 seconds, 1024 tokens, 5.98 tokens/second (includes prompt eval.)

```
Les avantages du Crédit Mutuel sont nombreux et attrayants. En effet, le Crédit Mutuel est une banque coopérative qui offre à ses clients des services adaptés en fonction de leurs besoins. Il propose également des tarifs très intéressants et des opérations financières variées. Le Crédit Mutuel est aussi une banque de proximité qui permet de rester proche de ses clients et de leur offrir des conseils personnalisés.
Le Crédit Mutuel est une banque coopérative. C'est-à-dire que les clients sont considérés comme des sociétaires, ils ont ainsi voix au chapitre lors des assemblées générales et peuvent voter pour élire leurs représentants. Les sociétaires sont aussi les propriétaires de la banque puisqu'ils sont actionnaires. Le Crédit Mutuel est donc une banque dont les bénéfices sont réinvestis dans la banque elle-même au lieu d'être distribués aux actionnaires. Le Crédit Mutuel est aussi une banque mutualiste, c'est-à-dire qu'elle est régie par des valeurs d'entraide et de solidarité.

Le Crédit Mutuel : une banque de proximité

Le Crédit Mutuel est une banque régionale qui a été créée dans le but de promouvoir l'épargne et le crédit auprès des populations locales. Ainsi, chaque région possède son propre Crédit Mutuel et les clients peuvent bénéficier de conseils personnalisés. Le Crédit Mutuel est aussi connu pour sa proximité avec ses clients et pour le dialogue qu'il entretient avec eux. Il est possible de trouver un Crédit Mutuel dans toutes les régions de France et de bénéficier des conseils d'un conseiller bancaire compétent, présent au quotidien.
Le Crédit Mutuel propose également des offres adaptées aux besoins de ses clients. La banque dispose de plusieurs formules de comptes courants et de comptes sur livret. Elle offre aussi la possibilité d'ouvrir un compte épargne logement et de souscrire à des produits d'assurance et de prêt divers et variés. Les clients peuvent aussi profiter d'un large éventail de produits de défiscalisation ou encore de crédits immobiliers ou à la consommation.

Une banque au service de ses clients

Le Crédit Mutuel met un point d'honneur à être une banque au service de ses clients. Ainsi, la banque propose des tarifs très intéressants et des offres très attractives. Ces dernières sont d'ailleurs régulièrement mises à jour afin de toujours proposer des produits innovants et adaptés aux besoins des clients. Le Crédit Mutuel est aussi une banque très souple qui permet à ses clients de gérer leurs comptes en ligne, mais aussi par téléphone ou en agence. Les clients du Crédit Mutuel peuvent aussi bénéficier du service de paiement sans contact grâce à la carte Blue Cash et de la carte Blue Visa Premier.
Les avantages du Crédit Mutuel sont nombreux et la banque offre à ses clients des produits innovants et adaptés à leurs besoins. Le Crédit Mutuel est aussi une banque qui se préoccupe du bien-être de ses clients et les accompagne tout au long de leur vie.

Par Jean Louis le 12/09/2016 à 15:40 bonjour;
j'ai un compte chez crédit mutuel et ma carte bleue n'a pas été renouvelée, je viens de recevoir un courrier m'indiquant que ma carte blue cash n'est plus disponible et que la nouvelle carte blue visa est payante; je trouve cela abusif et honteux, je suis client depuis plus de 18 ans , il me semble normal que le renouvellement de ma carte soit gratuit.
Que puis-je faire, j'ai l'impression que les banques nous prennent pour des pigeons.
Merci de votre réponse et bonne journée. Répondre Répondre au commentaire de Jean Louis Annonces GooglePar Jean-Louis le 17/09/2016 à 13:40
En effet, il est parfois difficile de comprendre pourquoi une banque décide de changer la gratuité en option payante pour certains services.
Le Credit Mutuel est une banque régionale et les conditions peuvent varier d'une région à l'autre.
Vous pouvez toujours tenter de négocier la gratuité de la carte et peut-être qu'ils accepteront.
Vous pouvez aussi regarder du côté des banques en ligne qui proposent parfois des offres très intéressantes.Par Marie le 21/09/2016 à 12:19
J'ai appris récemment que la carte blue cash était supprimée et remplacée par une carte visa premier. J'ai contacté mon agence et on m'a proposé de prendre la carte blue visa premier avec une offre de bienvenue sur les frais de tenue de compte pendant 1 an. Ce qui est très bien. Mais par contre, la carte est payante. C'est un peu abusif quand même. Surtout que les clients ne sont pas vraiment informés.
Est-ce que
```

exllama2/Qwen1.5-32B-Chat-4.0bpw-h6-exl2

18.84 tokens/second

exllama2/Qwen1.5-14B-Chat-4.0bpw-h6-exl2

15.64 tokens/second