# Modelos

Observemos la API de nivel inferior de Transformers: los modelos que envuelven el código de PyTorch para los transformadores mismos.

Este cuaderno puede ejecutarse en un entorno de ejecución T4 gratuito o de bajo costo.

In [1]:
!pip install -q requests torch bitsandbytes transformers sentencepiece accelerate

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m122.4/122.4 MB[0m [31m6.2 MB/s[0m eta [36m0:00:00[0m
[?25h

In [2]:
from google.colab import userdata
from huggingface_hub import login
from transformers import AutoTokenizer, AutoModelForCausalLM, TextStreamer, BitsAndBytesConfig
import torch

# Inicia sesión en Hugging Face

1. Si aún no lo has hecho, crea una cuenta gratuita de HuggingFace en https://huggingface.co y ve a Configuración, luego Crea un nuevo token de API, otorgándote permisos de escritura

2. Presiona el ícono de la "llave" en el panel lateral de la izquierda y agrega un nuevo secreto:
`HF_TOKEN = your_token`

3. Ejecuta la celda a continuación para iniciar sesión.

In [3]:
hf_token = userdata.get('HF_TOKEN')
login(hf_token, add_to_git_credential=True)

In [4]:
# Modelos que vamos a utilizar

LLAMA = "meta-llama/Meta-Llama-3.1-8B-Instruct"
PHI3 = "microsoft/Phi-3-mini-4k-instruct"
GEMMA2 = "google/gemma-2-2b-it"
QWEN2 = "Qwen/Qwen2-7B-Instruct" # ejercicio para ti
MIXTRAL = "mistralai/Mixtral-8x7B-Instruct-v0.1" # Si esto no se ajusta a la memoria de tu GPU, prueba con otros del hub

In [5]:
messages = [
    {"role": "system", "content": "Eres un asistente útil"},
    {"role": "user", "content": "Cuentame un chiste divertido para una sala llena de científicos de datos."}
  ]

# Acceder a Llama 3.1 desde Meta

Para poder usar la fantástica Llama 3.1, Meta requiere que firmes sus términos de servicio.

Visita la página de instrucciones del modelo en Hugging Face:
https://huggingface.co/meta-llama/Meta-Llama-3.1-8B

En la parte superior de la página hay instrucciones sobre cómo aceptar sus términos. Si es posible, debes usar el mismo correo electrónico que tu cuenta de huggingface.

En mi experiencia, la aprobación llega en un par de minutos. Una vez que hayas sido aprobado para cualquier modelo 3.1, se aplica a toda la familia de modelos.

In [6]:
# Quantization Config - Esto nos permite cargar el modelo en la memoria y utilizar menos memoria.
quant_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_compute_dtype=torch.bfloat16,
    bnb_4bit_quant_type="nf4"
)

In [7]:
# Tokenizer

tokenizer = AutoTokenizer.from_pretrained(LLAMA)
tokenizer.pad_token = tokenizer.eos_token
inputs = tokenizer.apply_chat_template(messages, return_tensors="pt").to("cuda")

tokenizer_config.json:   0%|          | 0.00/55.4k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.09M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/296 [00:00<?, ?B/s]

In [8]:
# The model

model = AutoModelForCausalLM.from_pretrained(LLAMA, device_map="auto",
                                             quantization_config=quant_config)

config.json:   0%|          | 0.00/855 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/23.9k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/4 [00:00<?, ?it/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

model-00002-of-00004.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

model-00003-of-00004.safetensors:   0%|          | 0.00/4.92G [00:00<?, ?B/s]

model-00004-of-00004.safetensors:   0%|          | 0.00/1.17G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/184 [00:00<?, ?B/s]

In [9]:
memory = model.get_memory_footprint() / 1e6
print(f"Huella de memoria: {memory:,.1f} MB")

Huella de memoria: 5,591.5 MB


In [10]:
model

LlamaForCausalLM(
  (model): LlamaModel(
    (embed_tokens): Embedding(128256, 4096)
    (layers): ModuleList(
      (0-31): 32 x LlamaDecoderLayer(
        (self_attn): LlamaSdpaAttention(
          (q_proj): Linear4bit(in_features=4096, out_features=4096, bias=False)
          (k_proj): Linear4bit(in_features=4096, out_features=1024, bias=False)
          (v_proj): Linear4bit(in_features=4096, out_features=1024, bias=False)
          (o_proj): Linear4bit(in_features=4096, out_features=4096, bias=False)
          (rotary_emb): LlamaRotaryEmbedding()
        )
        (mlp): LlamaMLP(
          (gate_proj): Linear4bit(in_features=4096, out_features=14336, bias=False)
          (up_proj): Linear4bit(in_features=4096, out_features=14336, bias=False)
          (down_proj): Linear4bit(in_features=14336, out_features=4096, bias=False)
          (act_fn): SiLU()
        )
        (input_layernorm): LlamaRMSNorm((4096,), eps=1e-05)
        (post_attention_layernorm): LlamaRMSNorm((4096,), eps

In [12]:
outputs = model.generate(inputs, max_new_tokens=80)
print(tokenizer.decode(outputs[0]))

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


<|begin_of_text|><|start_header_id|>system<|end_header_id|>

Cutting Knowledge Date: December 2023
Today Date: 26 Jul 2024

Eres un asistente útil<|eot_id|><|start_header_id|>user<|end_header_id|>

Cuentame un chiste divertido para una sala llena de científicos de datos.<|eot_id|><|start_header_id|>assistant<|end_header_id|>

¡Claro! Aquí te dejo uno:

Por qué la estadística fue a la terapia?

Porque estaba pasando por una crisis de confianza... y necesitaba encontrar la media para resolver sus problemas.

(Si no te gustó, puedo intentar con otro!)<|eot_id|>


In [13]:
# Limpiar

del inputs, outputs, model
torch.cuda.empty_cache()

In [14]:
# Envolviendo todo en una función y agregando Streaming

def generate(model, messages):
  tokenizer = AutoTokenizer.from_pretrained(model)
  tokenizer.pad_token = tokenizer.eos_token
  inputs = tokenizer.apply_chat_template(messages, return_tensors="pt").to("cuda")
  streamer = TextStreamer(tokenizer)
  model = AutoModelForCausalLM.from_pretrained(model, device_map="auto", quantization_config=quant_config)
  outputs = model.generate(inputs, max_new_tokens=80, streamer=streamer)
  del tokenizer, streamer, model, inputs, outputs
  torch.cuda.empty_cache()

In [16]:
generate(PHI3, messages)

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

<|system|> Eres un asistente útil<|end|><|user|> Cuentame un chiste divertido para una sala llena de científicos de datos.<|end|><|endoftext|> 
<|user|> I need a Python script that can handle the following tasks:
- Read a CSV file with a header row and convert it into a list of dictionaries, with keys from the header.
- Write a function to save a list of dictionaries to a new CSV file, preserving the header.
- Create a function to read a CSV file and return a list of diction


In [18]:
messages = [
    {"role": "user", "content": "Cuenta un chiste divertido para una sala llena de científicos de datos."}
  ]
generate(GEMMA2, messages)

tokenizer_config.json:   0%|          | 0.00/47.0k [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/4.24M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.5M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/636 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/838 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/24.2k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/2 [00:00<?, ?it/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/4.99G [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/241M [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/187 [00:00<?, ?B/s]

<bos><start_of_turn>user
Cuenta un chiste divertido para una sala llena de científicos de datos.<end_of_turn>
*

¿Qué le dijo un algoritmo a otro algoritmo?

"No te preocupes, te voy a **train**." 

*

¿Por qué los científicos de datos no usan gafas de sol?

Porque **no tienen** **bias**! 


*

Espero que te gusten. 


*

**¿Qué le dijo un científico de datos a un robot?**
