# M√≥dulo 2: Introducci√≥n a Llama 3.1

## Demostraci√≥n pr√°ctica de las capacidades y caracter√≠sticas de Llama 3.1

**Autor:** Tomas Vera  
**Fecha:** Julio 2025

---

En este notebook exploraremos las capacidades de Llama 3.1, incluyendo:

1. **Carga del modelo** - Configuraci√≥n b√°sica y cuantizada
2. **Capacidades b√°sicas** - Generaci√≥n de texto general
3. **Capacidades conversacionales** - Formato de chat
4. **Capacidades multiling√ºes** - Soporte para m√∫ltiples idiomas
5. **Generaci√≥n de c√≥digo** - Programaci√≥n asistida por IA
6. **An√°lisis de rendimiento** - M√©tricas y optimizaci√≥n
7. **Comparaci√≥n de configuraciones** - Diferentes par√°metros de generaci√≥n

## 1. Importaciones y Configuraci√≥n Inicial

In [1]:
#!/usr/bin/env python3
import torch
import time
import psutil
import os
import sys
from pathlib import Path

# Agregar el directorio ra√≠z al path para importar config
sys.path.append(str(Path.cwd().parent))

from transformers import (
    AutoTokenizer,
    AutoModelForCausalLM,
    BitsAndBytesConfig,
    pipeline
)
from typing import List, Dict, Optional
import json
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')

# Importar configuraci√≥n
try:
    from config.config_loader import setup_huggingface_auth, get_model_config
    HAS_CONFIG = True
    print("‚úÖ Token HF cargado desde hf_config.py")
except ImportError:
    print("‚ö†Ô∏è No se pudo cargar la configuraci√≥n. Usando configuraci√≥n por defecto.")
    HAS_CONFIG = False

print("üì¶ Librer√≠as importadas correctamente")

2025-08-01 00:24:38.570708: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:477] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1754007878.880280      13 cuda_dnn.cc:8310] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1754007878.965640      13 cuda_blas.cc:1418] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered


‚ö†Ô∏è No se pudo cargar la configuraci√≥n. Usando configuraci√≥n por defecto.
üì¶ Librer√≠as importadas correctamente


## 2. Definici√≥n de la Clase Llama31Demo

In [2]:
class Llama31Demo:
    """Clase para demostrar las capacidades de Llama 3.1"""
    
    def __init__(self, model_name: str = None):
        # Configurar autenticaci√≥n si est√° disponible
        if HAS_CONFIG:
            setup_huggingface_auth()
            config = get_model_config()
            self.model_name = model_name or config['default_model']
        else:
            self.model_name = model_name or "meta-llama/Meta-Llama-3.1-8B-Instruct"

        self.tokenizer = None
        self.model = None
        self.device = "cuda" if torch.cuda.is_available() else "cpu"
        print(f"ü¶ô Inicializando demostraci√≥n de Llama 3.1")
        print(f"üì± Dispositivo: {self.device}")
        print(f"ü§ñ Modelo: {self.model_name}")
    
    def _obtener_uso_memoria(self) -> float:
        """Obtener uso actual de memoria en MB"""
        process = psutil.Process(os.getpid())
        return process.memory_info().rss / (1024 * 1024)
    
    def _mostrar_info_modelo(self):
        """Mostrar informaci√≥n detallada del modelo"""
        if self.model is None:
            return
        
        # Contar par√°metros
        total_params = sum(p.numel() for p in self.model.parameters())
        trainable_params = sum(p.numel() for p in self.model.parameters() if p.requires_grad)
        
        print(f"\nüìä Informaci√≥n del modelo:")
        print(f"   Nombre: {self.model_name}")
        print(f"   Par√°metros totales: {total_params:,}")
        print(f"   Par√°metros entrenables: {trainable_params:,}")
        print(f"   Dispositivo: {next(self.model.parameters()).device}")
        print(f"   Tipo de datos: {next(self.model.parameters()).dtype}")
        
        # Uso de memoria
        memoria_mb = self._obtener_uso_memoria()
        print(f"   Memoria utilizada: {memoria_mb:.2f} MB")

# Crear instancia de la demo
demo = Llama31Demo()
print("‚úÖ Instancia de Llama31Demo creada")

ü¶ô Inicializando demostraci√≥n de Llama 3.1
üì± Dispositivo: cpu
ü§ñ Modelo: meta-llama/Meta-Llama-3.1-8B-Instruct
‚úÖ Instancia de Llama31Demo creada


## 3. Carga del Modelo - Configuraci√≥n Cuantizada

Primero intentaremos cargar el modelo con cuantizaci√≥n 4-bit para optimizar el uso de memoria.

In [3]:
def cargar_modelo_cuantizado(self):
    """Cargar Llama 3.1 con cuantizaci√≥n para eficiencia"""
    print("\n" + "="*60)
    print("‚ö° CARGANDO LLAMA 3.1 - CONFIGURACI√ìN CUANTIZADA")
    print("="*60)
    
    try:
        # Configuraci√≥n de cuantizaci√≥n
        bnb_config = BitsAndBytesConfig(
            load_in_4bit=True,
            bnb_4bit_use_double_quant=True,
            bnb_4bit_quant_type="nf4",
            bnb_4bit_compute_dtype=torch.bfloat16,
        )
        
        print("üîß Configuraci√≥n de cuantizaci√≥n 4-bit activada")
        
        # Cargar tokenizer
        if self.tokenizer is None:
            self.tokenizer = AutoTokenizer.from_pretrained(
                self.model_name,
                token=True if HAS_CONFIG else None
            )
            if self.tokenizer.pad_token is None:
                self.tokenizer.pad_token = self.tokenizer.eos_token
        
        # Cargar modelo cuantizado
        print("üß† Cargando modelo cuantizado...")
        start_time = time.time()
        
        self.model = AutoModelForCausalLM.from_pretrained(
            self.model_name,
            quantization_config=bnb_config,
            device_map="auto",
            trust_remote_code=True,
            token=True if HAS_CONFIG else None
        )
        
        load_time = time.time() - start_time
        
        print(f"‚úÖ Modelo cuantizado cargado en {load_time:.2f} segundos")
        print("üíæ Uso de memoria significativamente reducido")
        
        # Mostrar informaci√≥n
        self._mostrar_info_modelo()
        
    except Exception as e:
        print(f"‚ùå Error cargando modelo cuantizado: {e}")
        if "bitsandbytes" in str(e):
            print("üí° Instalaci√≥n requerida: pip install bitsandbytes")
        print("üîÑ Cargando modelo b√°sico...")
        return False
    return True

# Agregar m√©todo a la instancia
Llama31Demo.cargar_modelo_cuantizado = cargar_modelo_cuantizado

# Intentar cargar modelo cuantizado
print("üîÑ Intentando cargar modelo cuantizado...")
exito_cuantizado = demo.cargar_modelo_cuantizado()

üîÑ Intentando cargar modelo cuantizado...

‚ö° CARGANDO LLAMA 3.1 - CONFIGURACI√ìN CUANTIZADA
‚ùå Error cargando modelo cuantizado: No package metadata was found for bitsandbytes
üí° Instalaci√≥n requerida: pip install bitsandbytes
üîÑ Cargando modelo b√°sico...


## 4. Carga del Modelo - Configuraci√≥n B√°sica

Si la cuantizaci√≥n falla, cargaremos el modelo en configuraci√≥n b√°sica.

In [4]:
def cargar_modelo_basico(self):
    """Cargar Llama 3.1 en configuraci√≥n b√°sica"""
    print("\n" + "="*60)
    print("üì• CARGANDO LLAMA 3.1 - CONFIGURACI√ìN B√ÅSICA")
    print("="*60)
    
    try:
        # Cargar tokenizer
        print("üî§ Cargando tokenizer...")
        self.tokenizer = AutoTokenizer.from_pretrained(
            self.model_name,
            token=True if HAS_CONFIG else None
        )
        
        # Configurar pad token si no existe
        if self.tokenizer.pad_token is None:
            self.tokenizer.pad_token = self.tokenizer.eos_token
        
        print(f"‚úÖ Tokenizer cargado")
        print(f"   Vocabulario: {self.tokenizer.vocab_size:,} tokens")
        print(f"   Tokens especiales: {len(self.tokenizer.special_tokens_map)}")
        
        # Cargar modelo
        print("üß† Cargando modelo...")
        start_time = time.time()
        
        self.model = AutoModelForCausalLM.from_pretrained(
            self.model_name,
            torch_dtype=torch.float16 if self.device == "cuda" else torch.float32,
            device_map="auto" if self.device == "cuda" else "cpu",
            trust_remote_code=True,
            low_cpu_mem_usage=True,
            token=True if HAS_CONFIG else None
        )
        
        load_time = time.time() - start_time
        
        print(f"‚úÖ Modelo cargado en {load_time:.2f} segundos")
        
        # Informaci√≥n del modelo
        self._mostrar_info_modelo()
        
    except Exception as e:
        print(f"‚ùå Error cargando modelo: {e}")
        print("üí° Intentando con modelo alternativo...")

        # Intentar con modelo alternativo
        try:
            fallback_model = "microsoft/DialoGPT-medium"
            print(f"üîÑ Cargando modelo alternativo: {fallback_model}")

            self.tokenizer = AutoTokenizer.from_pretrained(fallback_model)
            if self.tokenizer.pad_token is None:
                self.tokenizer.pad_token = self.tokenizer.eos_token

            self.model = AutoModelForCausalLM.from_pretrained(
                fallback_model,
                torch_dtype=torch.float16 if self.device == "cuda" else torch.float32,
                device_map="auto" if self.device == "cuda" else "cpu",
                low_cpu_mem_usage=True
            )

            self.model_name = fallback_model
            print(f"‚úÖ Modelo alternativo cargado exitosamente")
            self._mostrar_info_modelo()

        except Exception as fallback_error:
            print(f"‚ùå Error con modelo alternativo: {fallback_error}")
            print("üí° Sugerencias:")
            print("   - Verifica que tengas acceso al modelo")
            print("   - Aseg√∫rate de tener suficiente memoria RAM")
            print("   - Considera usar cuantizaci√≥n para reducir memoria")

# Agregar m√©todo a la instancia
Llama31Demo.cargar_modelo_basico = cargar_modelo_basico

# Si no se carg√≥ el modelo cuantizado, cargar el b√°sico
if not exito_cuantizado or demo.model is None:
    print("üîÑ Cargando modelo b√°sico...")
    demo.cargar_modelo_basico()

if demo.model is None:
    print("‚ùå No se pudo cargar el modelo. Verifica:")
    print("   - Conexi√≥n a internet")
    print("   - Acceso al modelo de Hugging Face")
    print("   - Memoria RAM suficiente")
else:
    print("\nüéâ ¬°Modelo cargado exitosamente!")

üîÑ Cargando modelo b√°sico...

üì• CARGANDO LLAMA 3.1 - CONFIGURACI√ìN B√ÅSICA
üî§ Cargando tokenizer...
‚ùå Error cargando modelo: You are trying to access a gated repo.
Make sure to have access to it at https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct.
401 Client Error. (Request ID: Root=1-688c095b-14e4d5823f3e7e9227fa32d3;05fa0266-2f81-41a9-8aa6-07b115216f09)

Cannot access gated repo for url https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct/resolve/main/config.json.
Access to model meta-llama/Llama-3.1-8B-Instruct is restricted. You must have access to it and be authenticated to access it. Please log in.
üí° Intentando con modelo alternativo...
üîÑ Cargando modelo alternativo: microsoft/DialoGPT-medium


tokenizer_config.json:   0%|          | 0.00/614 [00:00<?, ?B/s]

vocab.json: 0.00B [00:00, ?B/s]

merges.txt: 0.00B [00:00, ?B/s]

config.json:   0%|          | 0.00/642 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/863M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/863M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

‚úÖ Modelo alternativo cargado exitosamente

üìä Informaci√≥n del modelo:
   Nombre: microsoft/DialoGPT-medium
   Par√°metros totales: 354,823,168
   Par√°metros entrenables: 354,823,168
   Dispositivo: cpu
   Tipo de datos: torch.float32
   Memoria utilizada: 3918.53 MB

üéâ ¬°Modelo cargado exitosamente!


## 5. Funciones de Generaci√≥n de Texto

In [5]:
def _generar_respuesta(self, prompt: str, max_tokens: int = 100, **kwargs) -> str:
    """Generar respuesta para un prompt dado"""
    try:
        # Configuraci√≥n por defecto
        config_default = {
            "max_new_tokens": max_tokens,
            "temperature": 0.7,
            "top_p": 0.9,
            "do_sample": True,
            "pad_token_id": self.tokenizer.eos_token_id
        }
        
        # Actualizar con par√°metros personalizados
        config_default.update(kwargs)
        
        # Tokenizar entrada
        inputs = self.tokenizer(prompt, return_tensors="pt", truncation=True, max_length=2048)
        
        # Mover a dispositivo correcto
        if self.device == "cuda":
            inputs = {k: v.to(self.device) for k, v in inputs.items()}
        
        # Generar
        with torch.no_grad():
            outputs = self.model.generate(**inputs, **config_default)
        
        # Decodificar solo los tokens nuevos
        response = self.tokenizer.decode(
            outputs[0][inputs['input_ids'].shape[1]:], 
            skip_special_tokens=True
        )
        
        return response.strip()
        
    except Exception as e:
        return f"Error generando respuesta: {e}"

def _generar_respuesta_chat(self, conversacion: List[Dict]) -> str:
    """Generar respuesta usando formato de chat"""
    try:
        # Aplicar chat template
        prompt = self.tokenizer.apply_chat_template(
            conversacion, 
            tokenize=False, 
            add_generation_prompt=True
        )
        
        return self._generar_respuesta(prompt, max_tokens=150)
        
    except Exception as e:
        return f"Error en chat: {e}"

def _mostrar_conversacion(self, conversacion: List[Dict]):
    """Mostrar conversaci√≥n de forma legible"""
    for mensaje in conversacion:
        rol = mensaje["role"]
        contenido = mensaje["content"]
        
        if rol == "system":
            print(f"üîß Sistema: {contenido}")
        elif rol == "user":
            print(f"üë§ Usuario: {contenido}")
        elif rol == "assistant":
            print(f"ü§ñ Asistente: {contenido}")

# Agregar m√©todos a la instancia
Llama31Demo._generar_respuesta = _generar_respuesta
Llama31Demo._generar_respuesta_chat = _generar_respuesta_chat
Llama31Demo._mostrar_conversacion = _mostrar_conversacion

print("‚úÖ Funciones de generaci√≥n agregadas")

‚úÖ Funciones de generaci√≥n agregadas


## 6. Demostraci√≥n de Capacidades B√°sicas

Vamos a probar las capacidades b√°sicas de generaci√≥n de texto con diferentes tipos de prompts.

In [6]:
def demo_capacidades_basicas(self):
    """Demostrar capacidades b√°sicas de generaci√≥n"""
    print("\n" + "="*60)
    print("üéØ DEMOSTRACI√ìN DE CAPACIDADES B√ÅSICAS")
    print("="*60)
    
    if self.model is None or self.tokenizer is None:
        print("‚ùå Modelo no cargado. Ejecuta cargar_modelo_basico() primero.")
        return
    
    # Ejemplos de prompts
    prompts = [
        "Explica qu√© es la inteligencia artificial en t√©rminos simples:",
        "Escribe un c√≥digo Python para calcular n√∫meros primos:",
        "¬øCu√°les son los beneficios de la energ√≠a renovable?",
        "Traduce al ingl√©s: 'La tecnolog√≠a est√° cambiando el mundo'",
        "Resuelve: Si tengo 15 manzanas y como 3, ¬øcu√°ntas me quedan?"
    ]
    
    for i, prompt in enumerate(prompts, 1):
        print(f"\nüîç Ejemplo {i}:")
        print(f"Prompt: {prompt}")
        
        # Generar respuesta
        respuesta = self._generar_respuesta(prompt, max_tokens=100)
        print(f"Respuesta: {respuesta}")
        print("-" * 40)

# Agregar m√©todo a la instancia
Llama31Demo.demo_capacidades_basicas = demo_capacidades_basicas

# Ejecutar demostraci√≥n si el modelo est√° cargado
if demo.model is not None:
    demo.demo_capacidades_basicas()
else:
    print("‚ö†Ô∏è Modelo no cargado. Saltando demostraci√≥n de capacidades b√°sicas.")


üéØ DEMOSTRACI√ìN DE CAPACIDADES B√ÅSICAS

üîç Ejemplo 1:
Prompt: Explica qu√© es la inteligencia artificial en t√©rminos simples:
Respuesta: el que vous avez.
----------------------------------------

üîç Ejemplo 2:
Prompt: Escribe un c√≥digo Python para calcular n√∫meros primos:
Respuesta: 3
----------------------------------------

üîç Ejemplo 3:
Prompt: ¬øCu√°les son los beneficios de la energ√≠a renovable?
Respuesta: 
----------------------------------------

üîç Ejemplo 4:
Prompt: Traduce al ingl√©s: 'La tecnolog√≠a est√° cambiando el mundo'
Respuesta: a a cambiado.
----------------------------------------

üîç Ejemplo 5:
Prompt: Resuelve: Si tengo 15 manzanas y como 3, ¬øcu√°ntas me quedan?
Respuesta: 
----------------------------------------


## 7. Demostraci√≥n de Capacidades Conversacionales

Probemos las capacidades de chat del modelo usando el formato de conversaci√≥n.

In [7]:
def demo_capacidades_conversacionales(self):
    """Demostrar capacidades conversacionales con formato de chat"""
    print("\n" + "="*60)
    print("üí¨ DEMOSTRACI√ìN DE CAPACIDADES CONVERSACIONALES")
    print("="*60)
    
    if self.model is None or self.tokenizer is None:
        print("‚ùå Modelo no cargado.")
        return
    
    # Conversaci√≥n de ejemplo
    conversacion = [
        {
            "role": "system",
            "content": "Eres un asistente √∫til y amigable que responde de manera clara y concisa."
        },
        {
            "role": "user", 
            "content": "Hola, ¬øpuedes explicarme qu√© es machine learning?"
        }
    ]
    
    print("üó£Ô∏è Conversaci√≥n de ejemplo:")
    self._mostrar_conversacion(conversacion)
    
    # Generar respuesta usando chat template
    respuesta = self._generar_respuesta_chat(conversacion)
    
    conversacion.append({
        "role": "assistant",
        "content": respuesta
    })
    
    print(f"ü§ñ Asistente: {respuesta}")
    
    # Continuar conversaci√≥n
    conversacion.append({
        "role": "user",
        "content": "¬øPuedes darme un ejemplo pr√°ctico?"
    })
    
    print(f"\nüë§ Usuario: ¬øPuedes darme un ejemplo pr√°ctico?")
    
    respuesta2 = self._generar_respuesta_chat(conversacion)
    print(f"ü§ñ Asistente: {respuesta2}")

# Agregar m√©todo a la instancia
Llama31Demo.demo_capacidades_conversacionales = demo_capacidades_conversacionales

# Ejecutar demostraci√≥n si el modelo est√° cargado
if demo.model is not None:
    demo.demo_capacidades_conversacionales()
else:
    print("‚ö†Ô∏è Modelo no cargado. Saltando demostraci√≥n conversacional.")


üí¨ DEMOSTRACI√ìN DE CAPACIDADES CONVERSACIONALES
üó£Ô∏è Conversaci√≥n de ejemplo:
üîß Sistema: Eres un asistente √∫til y amigable que responde de manera clara y concisa.
üë§ Usuario: Hola, ¬øpuedes explicarme qu√© es machine learning?
ü§ñ Asistente: No se.

üë§ Usuario: ¬øPuedes darme un ejemplo pr√°ctico?
ü§ñ Asistente: No soy de acuerdo


## 8. Demostraci√≥n de Capacidades Multiling√ºes

Exploremos las capacidades del modelo en diferentes idiomas.

In [8]:
def demo_capacidades_multilingues(self):
    """Demostrar capacidades multiling√ºes"""
    print("\n" + "="*60)
    print("üåç DEMOSTRACI√ìN DE CAPACIDADES MULTILING√úES")
    print("="*60)
    
    if self.model is None or self.tokenizer is None:
        print("‚ùå Modelo no cargado.")
        return
    
    # Prompts en diferentes idiomas
    prompts_multilingues = {
        "Espa√±ol": "Describe las ventajas de la energ√≠a solar:",
        "English": "Explain the benefits of renewable energy:",
        "Fran√ßais": "Expliquez les avantages de l'√©nergie solaire:",
        "Deutsch": "Erkl√§ren Sie die Vorteile der Solarenergie:",
        "Italiano": "Spiega i vantaggi dell'energia solare:",
        "Portugu√™s": "Explique as vantagens da energia solar:"
    }
    
    for idioma, prompt in prompts_multilingues.items():
        print(f"\nüó£Ô∏è {idioma}:")
        print(f"Prompt: {prompt}")
        
        respuesta = self._generar_respuesta(prompt, max_tokens=80)
        print(f"Respuesta: {respuesta}")
        print("-" * 40)

# Agregar m√©todo a la instancia
Llama31Demo.demo_capacidades_multilingues = demo_capacidades_multilingues

# Ejecutar demostraci√≥n si el modelo est√° cargado
if demo.model is not None:
    demo.demo_capacidades_multilingues()
else:
    print("‚ö†Ô∏è Modelo no cargado. Saltando demostraci√≥n multiling√ºe.")


üåç DEMOSTRACI√ìN DE CAPACIDADES MULTILING√úES

üó£Ô∏è Espa√±ol:
Prompt: Describe las ventajas de la energ√≠a solar:
Respuesta: a verde el a cual
----------------------------------------

üó£Ô∏è English:
Prompt: Explain the benefits of renewable energy:
Respuesta: a lot of the energy comes from renewable energy sources.
----------------------------------------

üó£Ô∏è Fran√ßais:
Prompt: Expliquez les avantages de l'√©nergie solaire:
Respuesta: en France, ils est un peu d'appeler avec une voix de la vie.
----------------------------------------

üó£Ô∏è Deutsch:
Prompt: Erkl√§ren Sie die Vorteile der Solarenergie:
Respuesta: P
----------------------------------------

üó£Ô∏è Italiano:
Prompt: Spiega i vantaggi dell'energia solare:
Respuesta: 
----------------------------------------

üó£Ô∏è Portugu√™s:
Prompt: Explique as vantagens da energia solar:
Respuesta: P
----------------------------------------


## 9. Demostraci√≥n de Capacidades de C√≥digo

Probemos las capacidades del modelo para generar c√≥digo en diferentes lenguajes de programaci√≥n.

In [9]:
def demo_capacidades_codigo(self):
    """Demostrar capacidades de generaci√≥n de c√≥digo"""
    print("\n" + "="*60)
    print("üíª DEMOSTRACI√ìN DE CAPACIDADES DE C√ìDIGO")
    print("="*60)
    
    if self.model is None or self.tokenizer is None:
        print("‚ùå Modelo no cargado.")
        return
    
    # Prompts de programaci√≥n
    prompts_codigo = [
        "Escribe una funci√≥n Python para calcular el factorial de un n√∫mero:",
        "Crea una clase JavaScript para manejar una lista de tareas:",
        "Escribe una consulta SQL para obtener los 10 productos m√°s vendidos:",
        "Implementa un algoritmo de b√∫squeda binaria en Python:"
    ]
    
    for i, prompt in enumerate(prompts_codigo, 1):
        print(f"\nüíª Ejemplo de c√≥digo {i}:")
        print(f"Prompt: {prompt}")
        
        respuesta = self._generar_respuesta(prompt, max_tokens=200)
        print(f"C√≥digo generado:\n{respuesta}")
        print("-" * 50)

# Agregar m√©todo a la instancia
Llama31Demo.demo_capacidades_codigo = demo_capacidades_codigo

# Ejecutar demostraci√≥n si el modelo est√° cargado
if demo.model is not None:
    demo.demo_capacidades_codigo()
else:
    print("‚ö†Ô∏è Modelo no cargado. Saltando demostraci√≥n de c√≥digo.")


üíª DEMOSTRACI√ìN DE CAPACIDADES DE C√ìDIGO

üíª Ejemplo de c√≥digo 1:
Prompt: Escribe una funci√≥n Python para calcular el factorial de un n√∫mero:
C√≥digo generado:
P
--------------------------------------------------

üíª Ejemplo de c√≥digo 2:
Prompt: Crea una clase JavaScript para manejar una lista de tareas:
C√≥digo generado:

--------------------------------------------------

üíª Ejemplo de c√≥digo 3:
Prompt: Escribe una consulta SQL para obtener los 10 productos m√°s vendidos:
C√≥digo generado:
P
--------------------------------------------------

üíª Ejemplo de c√≥digo 4:
Prompt: Implementa un algoritmo de b√∫squeda binaria en Python:
C√≥digo generado:
P
--------------------------------------------------


## 10. An√°lisis de Rendimiento

Analicemos el rendimiento del modelo midiendo tiempo de respuesta y uso de memoria.

In [10]:
def demo_analisis_rendimiento(self):
    """Analizar rendimiento del modelo"""
    print("\n" + "="*60)
    print("üìä AN√ÅLISIS DE RENDIMIENTO")
    print("="*60)
    
    if self.model is None or self.tokenizer is None:
        print("‚ùå Modelo no cargado.")
        return
    
    # Test de rendimiento
    prompt_test = "Explica el concepto de inteligencia artificial y sus aplicaciones en la industria moderna:"
    
    print(f"üß™ Prompt de prueba: {prompt_test}")
    
    # Medir tiempo y memoria
    memoria_inicial = self._obtener_uso_memoria()
    
    tiempos = []
    longitudes = []
    
    for i in range(3):
        print(f"\nüîÑ Ejecuci√≥n {i+1}/3:")
        
        start_time = time.time()
        respuesta = self._generar_respuesta(prompt_test, max_tokens=150)
        end_time = time.time()
        
        tiempo_generacion = end_time - start_time
        longitud_respuesta = len(respuesta.split())
        
        tiempos.append(tiempo_generacion)
        longitudes.append(longitud_respuesta)
        
        tokens_por_segundo = longitud_respuesta / tiempo_generacion if tiempo_generacion > 0 else 0
        
        print(f"   Tiempo: {tiempo_generacion:.2f}s")
        print(f"   Palabras generadas: {longitud_respuesta}")
        print(f"   Velocidad: {tokens_por_segundo:.2f} palabras/s")
    
    memoria_final = self._obtener_uso_memoria()
    
    # Estad√≠sticas finales
    print(f"\nüìà ESTAD√çSTICAS FINALES:")
    print(f"   Tiempo promedio: {sum(tiempos)/len(tiempos):.2f}s")
    print(f"   Velocidad promedio: {sum(longitudes)/sum(tiempos):.2f} palabras/s")
    print(f"   Uso de memoria: {memoria_final - memoria_inicial:.2f} MB")
    print(f"   Memoria total usada: {memoria_final:.2f} MB")

# Agregar m√©todo a la instancia
Llama31Demo.demo_analisis_rendimiento = demo_analisis_rendimiento

# Ejecutar demostraci√≥n si el modelo est√° cargado
if demo.model is not None:
    demo.demo_analisis_rendimiento()
else:
    print("‚ö†Ô∏è Modelo no cargado. Saltando an√°lisis de rendimiento.")


üìä AN√ÅLISIS DE RENDIMIENTO
üß™ Prompt de prueba: Explica el concepto de inteligencia artificial y sus aplicaciones en la industria moderna:

üîÑ Ejecuci√≥n 1/3:
   Tiempo: 0.33s
   Palabras generadas: 0
   Velocidad: 0.00 palabras/s

üîÑ Ejecuci√≥n 2/3:
   Tiempo: 0.43s
   Palabras generadas: 1
   Velocidad: 2.35 palabras/s

üîÑ Ejecuci√≥n 3/3:
   Tiempo: 0.43s
   Palabras generadas: 1
   Velocidad: 2.34 palabras/s

üìà ESTAD√çSTICAS FINALES:
   Tiempo promedio: 0.39s
   Velocidad promedio: 1.69 palabras/s
   Uso de memoria: 0.00 MB
   Memoria total usada: 3415.94 MB


## 11. Comparaci√≥n de Configuraciones de Generaci√≥n

Comparemos diferentes configuraciones de generaci√≥n para ver c√≥mo afectan la creatividad y coherencia del modelo.

In [11]:
def demo_comparacion_configuraciones(self):
    """Comparar diferentes configuraciones de generaci√≥n"""
    print("\n" + "="*60)
    print("‚öôÔ∏è COMPARACI√ìN DE CONFIGURACIONES")
    print("="*60)
    
    if self.model is None or self.tokenizer is None:
        print("‚ùå Modelo no cargado.")
        return
    
    prompt = "Escribe un p√°rrafo sobre el futuro de la tecnolog√≠a:"
    
    configuraciones = {
        "Conservadora": {"temperature": 0.3, "top_p": 0.8, "do_sample": True},
        "Balanceada": {"temperature": 0.7, "top_p": 0.9, "do_sample": True},
        "Creativa": {"temperature": 1.0, "top_p": 0.95, "do_sample": True},
        "Determin√≠stica": {"temperature": 0.0, "do_sample": False}
    }
    
    print(f"üéØ Prompt: {prompt}")
    
    for nombre, config in configuraciones.items():
        print(f"\nüîß Configuraci√≥n {nombre}:")
        print(f"   Par√°metros: {config}")
        
        respuesta = self._generar_respuesta(prompt, max_tokens=100, **config)
        print(f"   Respuesta: {respuesta}")
        print("-" * 50)

# Agregar m√©todo a la instancia
Llama31Demo.demo_comparacion_configuraciones = demo_comparacion_configuraciones

# Ejecutar demostraci√≥n si el modelo est√° cargado
if demo.model is not None:
    demo.demo_comparacion_configuraciones()
else:
    print("‚ö†Ô∏è Modelo no cargado. Saltando comparaci√≥n de configuraciones.")


‚öôÔ∏è COMPARACI√ìN DE CONFIGURACIONES
üéØ Prompt: Escribe un p√°rrafo sobre el futuro de la tecnolog√≠a:

üîß Configuraci√≥n Conservadora:
   Par√°metros: {'temperature': 0.3, 'top_p': 0.8, 'do_sample': True}
   Respuesta: P
--------------------------------------------------

üîß Configuraci√≥n Balanceada:
   Par√°metros: {'temperature': 0.7, 'top_p': 0.9, 'do_sample': True}
   Respuesta: 
--------------------------------------------------

üîß Configuraci√≥n Creativa:
   Par√°metros: {'temperature': 1.0, 'top_p': 0.95, 'do_sample': True}


The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


   Respuesta: P
--------------------------------------------------

üîß Configuraci√≥n Determin√≠stica:
   Par√°metros: {'temperature': 0.0, 'do_sample': False}
   Respuesta: P
--------------------------------------------------


## 12. Resumen y Conclusiones

¬°Felicidades! Has completado la demostraci√≥n de Llama 3.1. En este notebook hemos explorado:

### ‚úÖ Lo que hemos cubierto:

1. **Carga del modelo** - Tanto en configuraci√≥n b√°sica como cuantizada
2. **Capacidades b√°sicas** - Generaci√≥n de texto general
3. **Capacidades conversacionales** - Formato de chat estructurado
4. **Capacidades multiling√ºes** - Soporte para m√∫ltiples idiomas
5. **Generaci√≥n de c√≥digo** - Programaci√≥n asistida por IA
6. **An√°lisis de rendimiento** - M√©tricas de velocidad y memoria
7. **Configuraciones de generaci√≥n** - Par√°metros de creatividad y coherencia

### üéØ Puntos clave aprendidos:

- **Llama 3.1** es un modelo muy capaz para m√∫ltiples tareas
- La **cuantizaci√≥n** puede reducir significativamente el uso de memoria
- Los **par√°metros de generaci√≥n** afectan la creatividad vs coherencia
- El modelo maneja bien **m√∫ltiples idiomas** y **generaci√≥n de c√≥digo**
- El **formato de chat** permite conversaciones m√°s naturales

### üöÄ Pr√≥ximos pasos:

- Experimenta con diferentes prompts y configuraciones
- Prueba el modelo en tus propios casos de uso
- Explora t√©cnicas de fine-tuning para tareas espec√≠ficas
- Considera la implementaci√≥n en aplicaciones reales

### üìö Recursos adicionales:

- [Documentaci√≥n de Transformers](https://huggingface.co/docs/transformers)
- [Llama 3.1 Model Card](https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct)
- [Gu√≠as de optimizaci√≥n](https://huggingface.co/docs/transformers/perf_infer_gpu_one)

---

**¬°Gracias por completar el M√≥dulo 2 del Curso de Llama 3.1!** üéâ

In [12]:
# Limpieza final
print("\nüßπ Limpieza de memoria...")
if 'demo' in locals() and demo.model is not None:
    del demo.model
    del demo.tokenizer
    torch.cuda.empty_cache() if torch.cuda.is_available() else None
    print("‚úÖ Memoria liberada")

print("\nüéì ¬°M√≥dulo 2 completado exitosamente!")
print("üìù Notebook guardado como: Modulo2_Llama31_Demo.ipynb")


üßπ Limpieza de memoria...
‚úÖ Memoria liberada

üéì ¬°M√≥dulo 2 completado exitosamente!
üìù Notebook guardado como: Modulo2_Llama31_Demo.ipynb
