# Mixtral

Aqui tendras una prueba para usar [Mixtral8x7B-Instruct](https://huggingface.co/mistralai/Mixtral-8x7B-v0.1) con una generacion relativamente decente a una velocidad aceptable en una mini maquina. Esto se logra gracias a la quantizacion del modelo original con una leve reduccion de precision implementando una estrategia MoE de offloading


Te dejo el paper por aqui si quieres profundizar [tech report](https://arxiv.org/abs/2312.17238) o puedes chequearte el siguiente [repo](https://github.com/dvmazur/mixtral-offloading) en GitHub.

Necesitaras aproximadamente 16 GB de VRAM y 11 GB de RAM para que no te colapse el compu!


<details>

<summary>Como puedes balancear el uso de RAM y GPU VRAM </summary>

Esto se puede hacer cambiando la variable <code>offload_per_layer</code> en la seccion <a href="#scrollTo=_mIpePTMFyRY&line=10&uniqifier=1">Initialize model</a> . Incrementando el <code>offload_per_layer</code> reducira el uso de la GPU VRAM, incrementar el uso de RAM y reducir la velocidad de generacion. Disminuir <code>offload_per_layer</code> tendra el efecto contrario

Esto deberia correr en un ambiente de Google Colab con <code>offload_per_layer = 4</code>, pero si cambias este valor probablemente colapsara la sesion.
</details>

# Librerias

In [1]:
# fix numpy in colab
import numpy
from IPython.display import clear_output

# fix triton in colab
!export LC_ALL="en_US.UTF-8"
!export LD_LIBRARY_PATH="/usr/lib64-nvidia"
!export LIBRARY_PATH="/usr/local/cuda/lib64/stubs"
!ldconfig /usr/lib64-nvidia

!git clone https://github.com/dvmazur/mixtral-offloading.git --quiet
!cd mixtral-offloading && pip install -q -r requirements.txt
!huggingface-cli download lavawolfiee/Mixtral-8x7B-Instruct-v0.1-offloading-demo --quiet --local-dir Mixtral-8x7B-Instruct-v0.1-offloading-demo

clear_output()

In [2]:
import sys

sys.path.append("mixtral-offloading")
import torch
from torch.nn import functional as F
from hqq.core.quantize import BaseQuantizeConfig
from huggingface_hub import snapshot_download
from IPython.display import clear_output
from tqdm.auto import trange
from transformers import AutoConfig, AutoTokenizer
from transformers.utils import logging as hf_logging

from src.build_model import OffloadConfig, QuantConfig, build_model

hqq_aten package not installed. HQQBackend.ATEN backend will not work unless you install the hqq_aten lib in hqq/kernels.


  _torch_pytree._register_pytree_node(
The cache for model files in Transformers v4.22.0 has been updated. Migrating your old cache. This is a one-time only operation. You can interrupt this and resume the migration later on by calling `transformers.utils.move_cache()`.


0it [00:00, ?it/s]

  _torch_pytree._register_pytree_node(
  _torch_pytree._register_pytree_node(


# Inicializar el modelo

In [3]:
model_name = "mistralai/Mixtral-8x7B-Instruct-v0.1"
quantized_model_name = "lavawolfiee/Mixtral-8x7B-Instruct-v0.1-offloading-demo"
state_path = "Mixtral-8x7B-Instruct-v0.1-offloading-demo"

config = AutoConfig.from_pretrained(quantized_model_name)

device = torch.device("cuda:0")

##### Cambialo a 5 solo si tienes 12 GB de GPU VRAM #####
offload_per_layer = 4
# offload_per_layer = 5
###############################################################

num_experts = config.num_local_experts

offload_config = OffloadConfig(
    main_size=config.num_hidden_layers * (num_experts - offload_per_layer),
    offload_size=config.num_hidden_layers * offload_per_layer,
    buffer_size=4,
    offload_per_layer=offload_per_layer,
)


attn_config = BaseQuantizeConfig(
    nbits=4,
    group_size=64,
    quant_zero=True,
    quant_scale=True,
)
attn_config["scale_quant_params"]["group_size"] = 256


ffn_config = BaseQuantizeConfig(
    nbits=2,
    group_size=16,
    quant_zero=True,
    quant_scale=True,
)
quant_config = QuantConfig(ffn_config=ffn_config, attn_config=attn_config)


model = build_model(
    device=device,
    quant_config=quant_config,
    offload_config=offload_config,
    state_path=state_path,
)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/720 [00:00<?, ?B/s]



Loading experts:   0%|          | 0/32 [00:00<?, ?it/s]

# Correr el modelito

In [4]:
from transformers import TextStreamer


tokenizer = AutoTokenizer.from_pretrained(model_name)
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
past_key_values = None
sequence = None

seq_len = 0
while True:
  print("User: ", end="")
  user_input = input()
  print("\n")

  user_entry = dict(role="user", content=user_input)
  input_ids = tokenizer.apply_chat_template([user_entry], return_tensors="pt").to(device)

  if past_key_values is None:
    attention_mask = torch.ones_like(input_ids)
  else:
    seq_len = input_ids.size(1) + past_key_values[0][0][0].size(1)
    attention_mask = torch.ones([1, seq_len - 1], dtype=torch.int, device=device)

  print("Mixtral: ", end="")
  result = model.generate(
    input_ids=input_ids,
    attention_mask=attention_mask,
    past_key_values=past_key_values,
    streamer=streamer,
    do_sample=True,
    temperature=0.9,
    top_p=0.9,
    #max_new_tokens=512,
    max_new_tokens=128,
    pad_token_id=tokenizer.eos_token_id,
    return_dict_in_generate=True,
    output_hidden_states=True,
  )
  print("\n")

  sequence = result["sequences"]
  past_key_values = result["past_key_values"]

tokenizer_config.json:   0%|          | 0.00/1.46k [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/493k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.80M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/72.0 [00:00<?, ?B/s]

User: Hola buen dia


Mixtral: Hola! Muy bien, ¿en qué puedo ayudarte? Si tienes alguna pregunta o necesitas ayuda con algo, estoy aquí para intentar guiarte en la dirección correcta. ¡Buen día también! ¿Tienes alguna pregunta relacionada con la traducción o la interpretación del idioma español?


User: Cuantos parametros tienes


Mixtral: Lo siento, ¿podrías please clarificar tu pregunta? No estoy seguro a qué te refieres cuando dices "parámetros". Si te refieres a mi capacidad para comprender diferentes aspectos del lenguaje, puedo decir que soy capaz de entender:
- Entrada de hasta 2048 caracteres de texto.
- 130 tipos de entradas, que incluyen palabras comunes, frases, direcciones, preguntas, etc.
- Entradas


User: Eres un Mixtral of Experts


Mixtral: No, soy un modelo de lenguaje, entrenado en una amplia gama de datos de diálogos de conversación, libros, artículos y muchos otros textos para ser capaz de proporcionar respuestas coherentes y relacionadas con una amplia gama de tem

KeyboardInterrupt: Interrupted by user