In [16]:
# Instalación de las bibliotecas necesarias
!pip install -qU transformers peft accelerate bitsandbytes einops langchain xformers bitsandbytes faiss-gpu sentence_transformers

In [17]:
# Importaciones de las librerías necesarias para el modelo y reentrenamiento con LoRA
import torch
import transformers
import peft
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from peft import LoraConfig, get_peft_model
from torch import cuda
from google.colab import userdata

In [18]:
# Verificacio si CUDA (GPU) está disponible, si no se utiliza la CPU
device = f'cuda:{cuda.current_device()}' if cuda.is_available() else 'cpu'

In [19]:
# Optimizo el uso de memoria
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type='nf4',
    bnb_4bit_use_double_quant=True,
    bnb_4bit_compute_dtype=torch.bfloat16
)

In [20]:
# Identifico del modelo a utilizar
model_id = "google/gemma-2-9b-it"

In [21]:
# Autenticación para acceder al modelo
aut_hf = "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"
model_config = transformers.AutoConfig.from_pretrained(
    model_id,
    use_auth_token=aut_hf
)




In [22]:
# Cargo el tokenizador asociado al modelo para convertir texto en tokens
model = transformers.AutoModelForCausalLM.from_pretrained(
    model_id,
    trust_remote_code=True,
    config=model_config,
    quantization_config=bnb_config,
    device_map='auto',
    use_auth_token=aut_hf
)



Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

In [23]:
# Convierto texto en tokens para que el modelo los use como entrada

tokenizer = transformers.AutoTokenizer.from_pretrained(
    model_id,
    use_auth_token=aut_hf
)



In [24]:
model.eval()


Gemma2ForCausalLM(
  (model): Gemma2Model(
    (embed_tokens): Embedding(256000, 3584, padding_idx=0)
    (layers): ModuleList(
      (0-41): 42 x Gemma2DecoderLayer(
        (self_attn): Gemma2SdpaAttention(
          (q_proj): Linear4bit(in_features=3584, out_features=4096, bias=False)
          (k_proj): Linear4bit(in_features=3584, out_features=2048, bias=False)
          (v_proj): Linear4bit(in_features=3584, out_features=2048, bias=False)
          (o_proj): Linear4bit(in_features=4096, out_features=3584, bias=False)
          (rotary_emb): Gemma2RotaryEmbedding()
        )
        (mlp): Gemma2MLP(
          (gate_proj): Linear4bit(in_features=3584, out_features=14336, bias=False)
          (up_proj): Linear4bit(in_features=3584, out_features=14336, bias=False)
          (down_proj): Linear4bit(in_features=14336, out_features=3584, bias=False)
          (act_fn): PytorchGELUTanh()
        )
        (input_layernorm): Gemma2RMSNorm((3584,), eps=1e-06)
        (post_attention_laye

In [25]:
# Pregunta antes del reentrenamiento
question = "¿Cuales son las caracteristicas de Francia?"
inputs = tokenizer(question, return_tensors="pt").to('cuda')

In [26]:
generate_text = transformers.pipeline(
    model= model,
    tokenizer=tokenizer,
    return_full_text=True,
    task='text-generation',
    do_sample=True,
    temperature=0.1,
    max_new_tokens=512,
    repetition_penalty=1.1
)


In [27]:
res = generate_text(question)
print("Respuesta antes del reentrenamiento: ",res[0]["generated_text"])

Respuesta antes del reentrenamiento:  ¿Cuales son las caracteristicas de Francia?

Francia es un país europeo con una rica historia, cultura y diversidad. Aquí te presento algunas de sus características más destacadas:

**Geografía:**

* **Ubicación:** Situada en el centro-norte de Europa Occidental, limita con Bélgica, Luxemburgo, Alemania, Suiza, Italia, Mónaco y España (en la región de los Pirineos).
* **Topografía:** Variada, con llanuras fértiles en el norte, montañas al sur (Alpes) y masivas forestales en el centro. 
* **Clima:** Temperado, con inviernos fríos y húmedos y veranos cálidos y soleados.

**Cultura:**

* **Idioma:** Francés, considerado uno de los idiomas oficiales de la ONU.
* **Arte y literatura:** Francia ha sido cuna de grandes artistas como Monet, Renoir, Picasso, escritores como Victor Hugo, Alexandre Dumas, Jean-Paul Sartre, entre muchos otros.
* **Gastronomía:** Reconocida mundialmente por su exquisitez, con platos emblemáticos como el croissant, el queso brie

In [28]:
# Aplico LoRA para reentrenar el modelo con ejemplos
from peft import LoraConfig, get_peft_model

# Configuración de LoRA (Low-Rank Adaptation)
lora_config = LoraConfig(
    r=64,
    lora_alpha=32,
    target_modules=['q_proj', 'v_proj', 'k_proj', 'o_proj'],
    lora_dropout=0.1,
    bias="none",
    task_type="CAUSAL_LM"
)

In [29]:
lora_model = get_peft_model(model, lora_config)

# Ejemplos
examples = [
    {"question": "¿Cuales son las caracteristicas de Francia?", "answer": "Es uno de los veintisiete Estados soberanos que integran la Unión Europea. Se constituye en república semipresidencialista unitaria con capital en París, la mayor ciudad del país y principal centro cultural y comercial"},
    {"question": "¿Cuales son las caracteristicas de España?", "answer": "Su territorio, con capital en Madrid,30​ está organizado en diecisiete comunidades autónomas, formadas a su vez por cincuenta provincias, y dos ciudades autónomas. España se sitúa principalmente en el suroeste de Europa, si bien también tiene presencia en el norte de África."},
    {"question": "¿Cuales son las caracteristicas de Alemania?", "answer": "Alemania es un país de Europa occidental con un paisaje de bosques, ríos, cadenas montañosas y playas en el mar del Norte. Tiene más de 2 milenios de historia. Berlín, su capital, cuenta con sitios de arte y vida nocturna, la Puerta de Brandeburgo y muchos sitios relacionados con la Segunda Guerra Mundial."}
]

# Entrenamiento con los ejemplos anteriores, LoRA adapta el modelo en base a estos ejemplos para mejorar su capacidad de respuesta

for example in examples:
    prompt_text = f"Pregunta: {example['question']}\nRespuesta: {example['answer']}\n"
    inputs = tokenizer(prompt_text, return_tensors="pt").to('cuda')
    lora_model.generate(**inputs, max_new_tokens=150)

In [30]:
# Pregunta después del reentrenamiento
inputs = tokenizer(question, return_tensors="pt").to('cuda')
outputs = lora_model.generate(**inputs, max_new_tokens=150)
response_after = tokenizer.decode(outputs[0], skip_special_tokens=True)

# Muestro la respuesta después del reentrenamiento
print("Respuesta después del reentrenamiento: ", response_after)

Respuesta después del reentrenamiento:  ¿Cuales son las caracteristicas de Francia?

Francia es un país europeo con una rica historia, cultura y diversidad. Aquí te presento algunas de sus características más destacadas:

**Geografía:**

* **Ubicación:** Situada en el centro-norte de Europa, limita con Bélgica, Luxemburgo, Alemania, Suiza, Italia, Mónaco y España.
* **Topografía:** Francia posee una variedad de paisajes, desde las llanuras del norte hasta las montañas del sur, incluyendo los Alpes, los Pirineos y los Masivos Centrales.
* **Clima:** El clima es templado y oceánico en la mayor parte del país, con inviernos suaves y veranos húmedos. En el sur, el clima es más mediterráneo, con veranos cá
