# M√≥dulo 2: Introducci√≥n a Llama 3.1

## Demostraci√≥n pr√°ctica de las capacidades y caracter√≠sticas de Llama 3.1

**Autor:** Pablo √Ålvarez 
**Fecha:** Julio 2025

---

### üöÄ **Compatible con Kaggle**

Este notebook est√° optimizado para ejecutarse en:
- **Kaggle Notebooks** (recomendado para GPU gratuita)
- **Google Colab**
- **Entorno local**

### üîë **Configuraci√≥n de Token HF (Variables de Ambiente):**

Este notebook lee el token de Hugging Face directamente desde las **variables de ambiente del sistema operativo**:

**Para Kaggle:**
1. Ve a **Settings > Secrets** en tu notebook
2. Agrega `HF_TOKEN` con tu token de Hugging Face
3. El notebook lo detectar√° autom√°ticamente

**Para Google Colab:**
1. Ejecuta: `import os`
2. Ejecuta: `os.environ['HF_TOKEN'] = 'tu_token_aqui'`

**Para entorno local:**
1. `export HF_TOKEN=tu_token_aqui`
2. O agrega al archivo `.bashrc`/`.zshrc`

**Obtener token:** https://huggingface.co/settings/tokens

### üöÄ **Activar GPU (Kaggle):**
- Ve a **Settings > Accelerator**
- Selecciona **GPU T4 x2** (gratuito)

---

En este notebook exploraremos las capacidades de Llama 3.1, incluyendo:

1. **Carga del modelo** - Configuraci√≥n b√°sica y cuantizada
2. **Capacidades b√°sicas** - Generaci√≥n de texto general
3. **Capacidades conversacionales** - Formato de chat
4. **Capacidades multiling√ºes** - Soporte para m√∫ltiples idiomas
5. **Generaci√≥n de c√≥digo** - Programaci√≥n asistida por IA
6. **An√°lisis de rendimiento** - M√©tricas y optimizaci√≥n
7. **Comparaci√≥n de configuraciones** - Diferentes par√°metros de generaci√≥n

## 1. Verificaci√≥n del Entorno y Configuraci√≥n

In [2]:
!pip install -U bitsandbytes

Collecting bitsandbytes
  Downloading bitsandbytes-0.46.1-py3-none-manylinux_2_24_x86_64.whl.metadata (10 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch<3,>=2.2->bitsandbytes)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch<3,>=2.2->bitsandbytes)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch<3,>=2.2->bitsandbytes)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch<3,>=2.2->bitsandbytes)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.4.5.8 (from torch<3,>=2.2->bitsandbytes)
  Downloading nvidia_cublas_cu12-12.4.5.8-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-c

In [3]:
# Verificar entorno y configuraci√≥n
import os
import sys

# Detectar entorno
def detectar_entorno():
    if os.path.exists('/kaggle/input') or 'KAGGLE_KERNEL_RUN_TYPE' in os.environ:
        return 'Kaggle'
    elif 'COLAB_GPU' in os.environ:
        return 'Google Colab'
    else:
        return 'Local'

entorno = detectar_entorno()
print(f"üîç Entorno detectado: {entorno}")

from kaggle_secrets import UserSecretsClient

# Accede el secreto "HF_TOKEN"
user_secrets = UserSecretsClient()
hf_token = user_secrets.get_secret("HF_TOKEN")

# (Opcional) lo setea como variable de entorno para que Transformers lo tome autom√°ticamente
os.environ["HF_TOKEN"] = hf_token
os.environ["HUGGINGFACE_HUB_TOKEN"] = hf_token  # A veces esta variable tambi√©n es requerida

print("Token HF seteado correctamente:", hf_token[:10], "...")

# Verificar GPU
import torch
if torch.cuda.is_available():
    gpu_name = torch.cuda.get_device_name(0)
    gpu_memory = torch.cuda.get_device_properties(0).total_memory / 1024**3
    print(f"üöÄ GPU disponible: {gpu_name}")
    print(f"üíæ Memoria GPU: {gpu_memory:.1f} GB")
else:
    print("‚ö†Ô∏è GPU no disponible - usando CPU")

print(f"üêç Python: {sys.version}")
print(f"üî• PyTorch: {torch.__version__}")

üîç Entorno detectado: Kaggle
Token HF seteado correctamente: hf_FLjugcm ...
üöÄ GPU disponible: Tesla T4
üíæ Memoria GPU: 14.7 GB
üêç Python: 3.11.13 (main, Jun  4 2025, 08:57:29) [GCC 11.4.0]
üî• PyTorch: 2.6.0+cu124


## 2. Configuraci√≥n Manual del Token (Opcional)

Si necesitas configurar el token manualmente en el notebook, ejecuta la siguiente celda:

In [4]:
# OPCIONAL: Configurar token manualmente si no est√° en variables de ambiente
# Descomenta y ejecuta solo si es necesario

# import os
# 
# # Reemplaza 'tu_token_aqui' con tu token real de Hugging Face
# # os.environ['HF_TOKEN'] = 'tu_token_aqui'
# 
# # Verificar que se configur√≥ correctamente
# if os.getenv('HF_TOKEN'):
#     print(f"‚úÖ Token configurado: {os.getenv('HF_TOKEN')[:10]}...")
# else:
#     print("‚ö†Ô∏è Token no configurado")

print("üí° Esta celda es opcional. Solo √∫sala si el token no se detecta autom√°ticamente.")

üí° Esta celda es opcional. Solo √∫sala si el token no se detecta autom√°ticamente.


## 3. Importaciones y Configuraci√≥n Inicial

In [5]:
#!/usr/bin/env python3
import torch
import time
import os
import sys
from pathlib import Path
from typing import List, Dict, Optional
import json
import warnings
warnings.filterwarnings('ignore')

# Detectar entorno
def is_kaggle():
    return os.path.exists('/kaggle/input') or 'KAGGLE_KERNEL_RUN_TYPE' in os.environ

def is_colab():
    return 'COLAB_GPU' in os.environ

# Configurar paths seg√∫n el entorno
if is_kaggle():
    print("üîç Ejecutando en Kaggle")
    # En Kaggle, el c√≥digo puede estar en /kaggle/input/
    config_paths = ['/kaggle/input/cursollama311/config', './config', '../config']
elif is_colab():
    print("üîç Ejecutando en Google Colab")
    config_paths = ['./config', '../config']
else:
    print("üîç Ejecutando en entorno local")
    config_paths = ['./config', '../config', str(Path.cwd().parent / 'config')]

# Agregar paths de configuraci√≥n
for path in config_paths:
    if os.path.exists(path):
        sys.path.insert(0, path)
        break

# Instalar dependencias si es necesario (para Kaggle/Colab)
if is_kaggle() or is_colab():
    try:
        import transformers
        print(f"‚úÖ Transformers {transformers.__version__} ya instalado")
    except ImportError:
        print("üì¶ Instalando transformers...")
        %pip install -q transformers accelerate bitsandbytes

# Importar librer√≠as principales
from transformers import (
    AutoTokenizer,
    AutoModelForCausalLM,
    BitsAndBytesConfig,
    pipeline
)

# Importar psutil con fallback
try:
    import psutil
    HAS_PSUTIL = True
except ImportError:
    print("‚ö†Ô∏è psutil no disponible - m√©tricas de memoria limitadas")
    HAS_PSUTIL = False

# Importar matplotlib con fallback
try:
    import matplotlib.pyplot as plt
    HAS_MATPLOTLIB = True
except ImportError:
    print("‚ö†Ô∏è matplotlib no disponible - sin gr√°ficos")
    HAS_MATPLOTLIB = False

# Configuraci√≥n simplificada usando variables de ambiente del sistema
def setup_huggingface_auth():
    """Configurar autenticaci√≥n usando variables de ambiente del sistema operativo"""
    # Buscar token en m√∫ltiples variables de ambiente
    token = os.getenv('HF_TOKEN') or os.getenv('HUGGINGFACE_TOKEN') or os.getenv('HUGGING_FACE_HUB_TOKEN')
    
    if token:
        # Configurar todas las variables que transformers puede usar
        os.environ['HUGGING_FACE_HUB_TOKEN'] = token
        os.environ['HF_TOKEN'] = token
        print("üîê Autenticaci√≥n HF configurada desde variables de ambiente del sistema")
        return True
    else:
        print("‚ö†Ô∏è No se encontr√≥ token HF en variables de ambiente del sistema")
        return False

def get_model_config():
    """Obtener configuraci√≥n de modelo desde variables de ambiente"""
    return {
        'default_model': os.getenv('DEFAULT_MODEL', 'meta-llama/Meta-Llama-3.1-8B-Instruct'),
        'fallback_model': os.getenv('FALLBACK_MODEL', 'microsoft/DialoGPT-medium'),
        'cache_dir': os.getenv('HF_CACHE_DIR', '/tmp/huggingface_cache' if is_kaggle() else './models_cache'),
        'device': os.getenv('DEVICE', 'auto'),
        'use_quantization': os.getenv('USE_QUANTIZATION', 'true').lower() == 'true'
    }

# Configurar autenticaci√≥n autom√°ticamente al importar
auth_success = setup_huggingface_auth()
model_config = get_model_config()

print(f"üîß Configuraci√≥n desde variables de ambiente:")
print(f"   Autenticaci√≥n: {'‚úÖ Configurada' if auth_success else '‚ùå No configurada'}")
print(f"   Modelo: {model_config['default_model']}")
print(f"   Cache: {model_config['cache_dir']}")
print(f"   Cuantizaci√≥n: {model_config['use_quantization']}")

print("üì¶ Librer√≠as importadas correctamente")
print(f"üî• PyTorch: {torch.__version__}")
print(f"ü§ó Transformers: {transformers.__version__}")

üîç Ejecutando en Kaggle
‚úÖ Transformers 4.52.4 ya instalado


2025-08-01 02:12:34.755450: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:477] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1754014354.969193      36 cuda_dnn.cc:8310] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1754014355.031275      36 cuda_blas.cc:1418] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered


üîê Autenticaci√≥n HF configurada desde variables de ambiente del sistema
üîß Configuraci√≥n desde variables de ambiente:
   Autenticaci√≥n: ‚úÖ Configurada
   Modelo: meta-llama/Meta-Llama-3.1-8B-Instruct
   Cache: /tmp/huggingface_cache
   Cuantizaci√≥n: True
üì¶ Librer√≠as importadas correctamente
üî• PyTorch: 2.6.0+cu124
ü§ó Transformers: 4.52.4


## 2. Definici√≥n de la Clase Llama31Demo

In [9]:
class Llama31Demo:
    """Clase para demostrar las capacidades de Llama 3.1"""
    
    def __init__(self, model_name: str = None):
        # Usar configuraci√≥n desde variables de ambiente del sistema
        config = get_model_config()
        self.model_name = model_name or config['default_model']
        self.cache_dir = config['cache_dir']
        self.use_quantization = config['use_quantization']
        
        self.tokenizer = None
        self.model = None
        self.device = "cuda" if torch.cuda.is_available() else "cpu"
        
        print(f"ü¶ô Inicializando demostraci√≥n de Llama 3.1")
        print(f"üì± Dispositivo: {self.device}")
        print(f"ü§ñ Modelo: {self.model_name}")
        print(f"üìÅ Cache: {self.cache_dir}")
        print(f"‚ö° Cuantizaci√≥n: {self.use_quantization}")
    
    def _obtener_uso_memoria(self) -> float:
        """Obtener uso actual de memoria en MB"""
        process = psutil.Process(os.getpid())
        return process.memory_info().rss / (1024 * 1024)
    
    def _mostrar_info_modelo(self):
        """Mostrar informaci√≥n detallada del modelo"""
        if self.model is None:
            return
        
        # Contar par√°metros
        total_params = sum(p.numel() for p in self.model.parameters())
        trainable_params = sum(p.numel() for p in self.model.parameters() if p.requires_grad)
        
        print(f"\nüìä Informaci√≥n del modelo:")
        print(f"   Nombre: {self.model_name}")
        print(f"   Par√°metros totales: {total_params:,}")
        print(f"   Par√°metros entrenables: {trainable_params:,}")
        print(f"   Dispositivo: {next(self.model.parameters()).device}")
        print(f"   Tipo de datos: {next(self.model.parameters()).dtype}")
        
        # Uso de memoria
        memoria_mb = self._obtener_uso_memoria()
        print(f"   Memoria utilizada: {memoria_mb:.2f} MB")

# Crear instancia de la demo
demo = Llama31Demo()
print("‚úÖ Instancia de Llama31Demo creada")

ü¶ô Inicializando demostraci√≥n de Llama 3.1
üì± Dispositivo: cuda
ü§ñ Modelo: meta-llama/Meta-Llama-3.1-8B-Instruct
üìÅ Cache: /tmp/huggingface_cache
‚ö° Cuantizaci√≥n: True
‚úÖ Instancia de Llama31Demo creada


## 3. Carga del Modelo - Configuraci√≥n Cuantizada

Primero intentaremos cargar el modelo con cuantizaci√≥n 4-bit para optimizar el uso de memoria.

In [10]:
def cargar_modelo_cuantizado(self):
    """Cargar Llama 3.1 con cuantizaci√≥n para eficiencia"""
    print("\n" + "="*60)
    print("‚ö° CARGANDO LLAMA 3.1 - CONFIGURACI√ìN CUANTIZADA")
    print("="*60)
    
    try:
        # Configuraci√≥n de cuantizaci√≥n
        bnb_config = BitsAndBytesConfig(
            load_in_4bit=True,
            bnb_4bit_use_double_quant=True,
            bnb_4bit_quant_type="nf4",
            bnb_4bit_compute_dtype=torch.bfloat16,
        )
        
        print("üîß Configuraci√≥n de cuantizaci√≥n 4-bit activada")
        
        # Cargar tokenizer usando token desde variables de ambiente
        if self.tokenizer is None:
            hf_token = os.getenv('HF_TOKEN') or os.getenv('HUGGING_FACE_HUB_TOKEN')
            self.tokenizer = AutoTokenizer.from_pretrained(
                self.model_name,
                token=hf_token,
                cache_dir=self.cache_dir
            )
            if self.tokenizer.pad_token is None:
                self.tokenizer.pad_token = self.tokenizer.eos_token
        
        # Cargar modelo cuantizado
        print("üß† Cargando modelo cuantizado...")
        start_time = time.time()
        
        hf_token = os.getenv('HF_TOKEN') or os.getenv('HUGGING_FACE_HUB_TOKEN')
        self.model = AutoModelForCausalLM.from_pretrained(
            self.model_name,
            quantization_config=bnb_config,
            device_map="auto",
            trust_remote_code=True,
            token=hf_token,
            cache_dir=self.cache_dir
        )
        
        load_time = time.time() - start_time
        
        print(f"‚úÖ Modelo cuantizado cargado en {load_time:.2f} segundos")
        print("üíæ Uso de memoria significativamente reducido")
        
        # Mostrar informaci√≥n
        self._mostrar_info_modelo()
        
    except Exception as e:
        print(f"‚ùå Error cargando modelo cuantizado: {e}")
        if "bitsandbytes" in str(e):
            print("üí° Instalaci√≥n requerida: pip install bitsandbytes")
        print("üîÑ Cargando modelo b√°sico...")
        return False
    return True

# Agregar m√©todo a la instancia
Llama31Demo.cargar_modelo_cuantizado = cargar_modelo_cuantizado

# Intentar cargar modelo cuantizado
print("üîÑ Intentando cargar modelo cuantizado...")
exito_cuantizado = demo.cargar_modelo_cuantizado()

üîÑ Intentando cargar modelo cuantizado...

‚ö° CARGANDO LLAMA 3.1 - CONFIGURACI√ìN CUANTIZADA
üîß Configuraci√≥n de cuantizaci√≥n 4-bit activada


tokenizer_config.json:   0%|          | 0.00/55.4k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.09M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/296 [00:00<?, ?B/s]

üß† Cargando modelo cuantizado...


config.json:   0%|          | 0.00/855 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/23.9k [00:00<?, ?B/s]

Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

model-00003-of-00004.safetensors:   0%|          | 0.00/4.92G [00:00<?, ?B/s]

model-00004-of-00004.safetensors:   0%|          | 0.00/1.17G [00:00<?, ?B/s]

model-00002-of-00004.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/184 [00:00<?, ?B/s]

‚úÖ Modelo cuantizado cargado en 178.42 segundos
üíæ Uso de memoria significativamente reducido

üìä Informaci√≥n del modelo:
   Nombre: meta-llama/Meta-Llama-3.1-8B-Instruct
   Par√°metros totales: 4,540,600,320
   Par√°metros entrenables: 1,050,939,392
   Dispositivo: cuda:0
   Tipo de datos: torch.float16
   Memoria utilizada: 3277.27 MB


## 4. Carga del Modelo - Configuraci√≥n B√°sica

Si la cuantizaci√≥n falla, cargaremos el modelo en configuraci√≥n b√°sica.

In [11]:
def cargar_modelo_basico(self):
    """Cargar Llama 3.1 en configuraci√≥n b√°sica"""
    print("\n" + "="*60)
    print("üì• CARGANDO LLAMA 3.1 - CONFIGURACI√ìN B√ÅSICA")
    print("="*60)
    
    try:
        # Cargar tokenizer usando token desde variables de ambiente
        print("üî§ Cargando tokenizer...")
        hf_token = os.getenv('HF_TOKEN') or os.getenv('HUGGING_FACE_HUB_TOKEN')
        self.tokenizer = AutoTokenizer.from_pretrained(
            self.model_name,
            token=hf_token,
            cache_dir=self.cache_dir
        )
        
        # Configurar pad token si no existe
        if self.tokenizer.pad_token is None:
            self.tokenizer.pad_token = self.tokenizer.eos_token
        
        print(f"‚úÖ Tokenizer cargado")
        print(f"   Vocabulario: {self.tokenizer.vocab_size:,} tokens")
        print(f"   Tokens especiales: {len(self.tokenizer.special_tokens_map)}")
        
        # Cargar modelo
        print("üß† Cargando modelo...")
        start_time = time.time()
        
        hf_token = os.getenv('HF_TOKEN') or os.getenv('HUGGING_FACE_HUB_TOKEN')
        self.model = AutoModelForCausalLM.from_pretrained(
            self.model_name,
            torch_dtype=torch.float16 if self.device == "cuda" else torch.float32,
            device_map="auto" if self.device == "cuda" else "cpu",
            trust_remote_code=True,
            low_cpu_mem_usage=True,
            token=hf_token,
            cache_dir=self.cache_dir
        )
        
        load_time = time.time() - start_time
        
        print(f"‚úÖ Modelo cargado en {load_time:.2f} segundos")
        
        # Informaci√≥n del modelo
        self._mostrar_info_modelo()
        
    except Exception as e:
        print(f"‚ùå Error cargando modelo: {e}")
        print("üí° Intentando con modelo alternativo...")

        # Intentar con modelo alternativo
        try:
            fallback_model = "microsoft/DialoGPT-medium"
            print(f"üîÑ Cargando modelo alternativo: {fallback_model}")

            self.tokenizer = AutoTokenizer.from_pretrained(fallback_model)
            if self.tokenizer.pad_token is None:
                self.tokenizer.pad_token = self.tokenizer.eos_token

            self.model = AutoModelForCausalLM.from_pretrained(
                fallback_model,
                torch_dtype=torch.float16 if self.device == "cuda" else torch.float32,
                device_map="auto" if self.device == "cuda" else "cpu",
                low_cpu_mem_usage=True
            )

            self.model_name = fallback_model
            print(f"‚úÖ Modelo alternativo cargado exitosamente")
            self._mostrar_info_modelo()

        except Exception as fallback_error:
            print(f"‚ùå Error con modelo alternativo: {fallback_error}")
            print("üí° Sugerencias:")
            print("   - Verifica que tengas acceso al modelo")
            print("   - Aseg√∫rate de tener suficiente memoria RAM")
            print("   - Considera usar cuantizaci√≥n para reducir memoria")

# Agregar m√©todo a la instancia
Llama31Demo.cargar_modelo_basico = cargar_modelo_basico

# Si no se carg√≥ el modelo cuantizado, cargar el b√°sico
if not exito_cuantizado or demo.model is None:
    print("üîÑ Cargando modelo b√°sico...")
    demo.cargar_modelo_basico()

if demo.model is None:
    print("‚ùå No se pudo cargar el modelo. Verifica:")
    print("   - Conexi√≥n a internet")
    print("   - Acceso al modelo de Hugging Face")
    print("   - Memoria RAM suficiente")
else:
    print("\nüéâ ¬°Modelo cargado exitosamente!")


üéâ ¬°Modelo cargado exitosamente!


## 5. Funciones de Generaci√≥n de Texto

In [12]:
def _generar_respuesta(self, prompt: str, max_tokens: int = 100, **kwargs) -> str:
    """Generar respuesta para un prompt dado"""
    try:
        # Configuraci√≥n por defecto
        config_default = {
            "max_new_tokens": max_tokens,
            "temperature": 0.7,
            "top_p": 0.9,
            "do_sample": True,
            "pad_token_id": self.tokenizer.eos_token_id
        }
        
        # Actualizar con par√°metros personalizados
        config_default.update(kwargs)
        
        # Tokenizar entrada
        inputs = self.tokenizer(prompt, return_tensors="pt", truncation=True, max_length=2048)
        
        # Mover a dispositivo correcto
        if self.device == "cuda":
            inputs = {k: v.to(self.device) for k, v in inputs.items()}
        
        # Generar
        with torch.no_grad():
            outputs = self.model.generate(**inputs, **config_default)
        
        # Decodificar solo los tokens nuevos
        response = self.tokenizer.decode(
            outputs[0][inputs['input_ids'].shape[1]:], 
            skip_special_tokens=True
        )
        
        return response.strip()
        
    except Exception as e:
        return f"Error generando respuesta: {e}"

def _generar_respuesta_chat(self, conversacion: List[Dict]) -> str:
    """Generar respuesta usando formato de chat"""
    try:
        # Aplicar chat template
        prompt = self.tokenizer.apply_chat_template(
            conversacion, 
            tokenize=False, 
            add_generation_prompt=True
        )
        
        return self._generar_respuesta(prompt, max_tokens=150)
        
    except Exception as e:
        return f"Error en chat: {e}"

def _mostrar_conversacion(self, conversacion: List[Dict]):
    """Mostrar conversaci√≥n de forma legible"""
    for mensaje in conversacion:
        rol = mensaje["role"]
        contenido = mensaje["content"]
        
        if rol == "system":
            print(f"üîß Sistema: {contenido}")
        elif rol == "user":
            print(f"üë§ Usuario: {contenido}")
        elif rol == "assistant":
            print(f"ü§ñ Asistente: {contenido}")

# Agregar m√©todos a la instancia
Llama31Demo._generar_respuesta = _generar_respuesta
Llama31Demo._generar_respuesta_chat = _generar_respuesta_chat
Llama31Demo._mostrar_conversacion = _mostrar_conversacion

print("‚úÖ Funciones de generaci√≥n agregadas")

‚úÖ Funciones de generaci√≥n agregadas


## 6. Demostraci√≥n de Capacidades B√°sicas

Vamos a probar las capacidades b√°sicas de generaci√≥n de texto con diferentes tipos de prompts.

In [13]:
def demo_capacidades_basicas(self):
    """Demostrar capacidades b√°sicas de generaci√≥n"""
    print("\n" + "="*60)
    print("üéØ DEMOSTRACI√ìN DE CAPACIDADES B√ÅSICAS")
    print("="*60)
    
    if self.model is None or self.tokenizer is None:
        print("‚ùå Modelo no cargado. Ejecuta cargar_modelo_basico() primero.")
        return
    
    # Ejemplos de prompts
    prompts = [
        "Explica qu√© es la inteligencia artificial en t√©rminos simples:",
        "Escribe un c√≥digo Python para calcular n√∫meros primos:",
        "¬øCu√°les son los beneficios de la energ√≠a renovable?",
        "Traduce al ingl√©s: 'La tecnolog√≠a est√° cambiando el mundo'",
        "Resuelve: Si tengo 15 manzanas y como 3, ¬øcu√°ntas me quedan?"
    ]
    
    for i, prompt in enumerate(prompts, 1):
        print(f"\nüîç Ejemplo {i}:")
        print(f"Prompt: {prompt}")
        
        # Generar respuesta
        respuesta = self._generar_respuesta(prompt, max_tokens=100)
        print(f"Respuesta: {respuesta}")
        print("-" * 40)

# Agregar m√©todo a la instancia
Llama31Demo.demo_capacidades_basicas = demo_capacidades_basicas

# Ejecutar demostraci√≥n si el modelo est√° cargado
if demo.model is not None:
    demo.demo_capacidades_basicas()
else:
    print("‚ö†Ô∏è Modelo no cargado. Saltando demostraci√≥n de capacidades b√°sicas.")


üéØ DEMOSTRACI√ìN DE CAPACIDADES B√ÅSICAS

üîç Ejemplo 1:
Prompt: Explica qu√© es la inteligencia artificial en t√©rminos simples:
Respuesta: una herramienta que puede procesar y analizar grandes cantidades de datos para tomar decisiones informadas. Describe su potencial en diferentes √°reas como la medicina, la educaci√≥n y la seguridad, y analiza sus posibles desaf√≠os y limitaciones. Tambi√©n se discute c√≥mo la IA est√° mejorando la vida de las personas y c√≥mo puede ser utilizada para resolver problemas complejos.
La inteligencia artificial (IA) es una herramienta que puede procesar y analizar
----------------------------------------

üîç Ejemplo 2:
Prompt: Escribe un c√≥digo Python para calcular n√∫meros primos:
Respuesta: 1. Dado un n√∫mero entero positivo, encuentre el n√∫mero primo m√°s cercano a √©l.
2. Dado un n√∫mero entero positivo, encuentre el n√∫mero primo m√°s grande que sea menor que √©l.
3. Dado un n√∫mero entero positivo, encuentre el n√∫mero primo m√°s peque√±o

## 7. Demostraci√≥n de Capacidades Conversacionales

Probemos las capacidades de chat del modelo usando el formato de conversaci√≥n.

In [14]:
def demo_capacidades_conversacionales(self):
    """Demostrar capacidades conversacionales con formato de chat"""
    print("\n" + "="*60)
    print("üí¨ DEMOSTRACI√ìN DE CAPACIDADES CONVERSACIONALES")
    print("="*60)
    
    if self.model is None or self.tokenizer is None:
        print("‚ùå Modelo no cargado.")
        return
    
    # Conversaci√≥n de ejemplo
    conversacion = [
        {
            "role": "system",
            "content": "Eres un asistente √∫til y amigable que responde de manera clara y concisa."
        },
        {
            "role": "user", 
            "content": "Hola, ¬øpuedes explicarme qu√© es machine learning?"
        }
    ]
    
    print("üó£Ô∏è Conversaci√≥n de ejemplo:")
    self._mostrar_conversacion(conversacion)
    
    # Generar respuesta usando chat template
    respuesta = self._generar_respuesta_chat(conversacion)
    
    conversacion.append({
        "role": "assistant",
        "content": respuesta
    })
    
    print(f"ü§ñ Asistente: {respuesta}")
    
    # Continuar conversaci√≥n
    conversacion.append({
        "role": "user",
        "content": "¬øPuedes darme un ejemplo pr√°ctico?"
    })
    
    print(f"\nüë§ Usuario: ¬øPuedes darme un ejemplo pr√°ctico?")
    
    respuesta2 = self._generar_respuesta_chat(conversacion)
    print(f"ü§ñ Asistente: {respuesta2}")

# Agregar m√©todo a la instancia
Llama31Demo.demo_capacidades_conversacionales = demo_capacidades_conversacionales

# Ejecutar demostraci√≥n si el modelo est√° cargado
if demo.model is not None:
    demo.demo_capacidades_conversacionales()
else:
    print("‚ö†Ô∏è Modelo no cargado. Saltando demostraci√≥n conversacional.")


üí¨ DEMOSTRACI√ìN DE CAPACIDADES CONVERSACIONALES
üó£Ô∏è Conversaci√≥n de ejemplo:
üîß Sistema: Eres un asistente √∫til y amigable que responde de manera clara y concisa.
üë§ Usuario: Hola, ¬øpuedes explicarme qu√© es machine learning?
ü§ñ Asistente: ¬°Hola! Claro que s√≠, me alegra explicarte sobre machine learning.

Machine learning (aprendizaje autom√°tico en espa√±ol) es un subconjunto de la inteligencia artificial (IA) que se enfoca en el desarrollo de algoritmos y modelos computacionales capaces de aprender de datos y mejorar su rendimiento en tareas espec√≠ficas sin ser expl√≠citamente programados.

En otras palabras, el machine learning permite a los sistemas inform√°ticos tomar decisiones y predecir resultados bas√°ndose en patrones y relaciones en los datos, en lugar de seguir una regla o programa fijo. Esto se logra mediante la creaci√≥n de modelos matem√°ticos que pueden ser entrenados con datos para

üë§ Usuario: ¬øPuedes darme un ejemplo pr√°ctico?
ü§ñ Asistente: 

## 8. Demostraci√≥n de Capacidades Multiling√ºes

Exploremos las capacidades del modelo en diferentes idiomas.

In [15]:
def demo_capacidades_multilingues(self):
    """Demostrar capacidades multiling√ºes"""
    print("\n" + "="*60)
    print("üåç DEMOSTRACI√ìN DE CAPACIDADES MULTILING√úES")
    print("="*60)
    
    if self.model is None or self.tokenizer is None:
        print("‚ùå Modelo no cargado.")
        return
    
    # Prompts en diferentes idiomas
    prompts_multilingues = {
        "Espa√±ol": "Describe las ventajas de la energ√≠a solar:",
        "English": "Explain the benefits of renewable energy:",
        "Fran√ßais": "Expliquez les avantages de l'√©nergie solaire:",
        "Deutsch": "Erkl√§ren Sie die Vorteile der Solarenergie:",
        "Italiano": "Spiega i vantaggi dell'energia solare:",
        "Portugu√™s": "Explique as vantagens da energia solar:"
    }
    
    for idioma, prompt in prompts_multilingues.items():
        print(f"\nüó£Ô∏è {idioma}:")
        print(f"Prompt: {prompt}")
        
        respuesta = self._generar_respuesta(prompt, max_tokens=80)
        print(f"Respuesta: {respuesta}")
        print("-" * 40)

# Agregar m√©todo a la instancia
Llama31Demo.demo_capacidades_multilingues = demo_capacidades_multilingues

# Ejecutar demostraci√≥n si el modelo est√° cargado
if demo.model is not None:
    demo.demo_capacidades_multilingues()
else:
    print("‚ö†Ô∏è Modelo no cargado. Saltando demostraci√≥n multiling√ºe.")


üåç DEMOSTRACI√ìN DE CAPACIDADES MULTILING√úES

üó£Ô∏è Espa√±ol:
Prompt: Describe las ventajas de la energ√≠a solar:
Respuesta: Las ventajas de la energ√≠a solar son varias y se pueden resumir en las siguientes:
1. **Renovable y sostenible**: La energ√≠a solar es una fuente de energ√≠a renovable y sostenible, ya que no se agota con el uso y no emite gases de efecto invernadero.
2. **Costo reducido**: El costo de
----------------------------------------

üó£Ô∏è English:
Prompt: Explain the benefits of renewable energy:
Respuesta: Renewable energy is a vital component in the transition to a low-carbon economy. The benefits of renewable energy include:
Reduced greenhouse gas emissions: Renewable energy sources emit little to no greenhouse gases, contributing to the reduction of climate change.
Energy independence: Renewable energy can reduce reliance on imported fossil fuels, enhancing energy security and reducing trade deficits.
Job creation and economic growth: The renewable energy 

## 9. Demostraci√≥n de Capacidades de C√≥digo

Probemos las capacidades del modelo para generar c√≥digo en diferentes lenguajes de programaci√≥n.

In [16]:
def demo_capacidades_codigo(self):
    """Demostrar capacidades de generaci√≥n de c√≥digo"""
    print("\n" + "="*60)
    print("üíª DEMOSTRACI√ìN DE CAPACIDADES DE C√ìDIGO")
    print("="*60)
    
    if self.model is None or self.tokenizer is None:
        print("‚ùå Modelo no cargado.")
        return
    
    # Prompts de programaci√≥n
    prompts_codigo = [
        "Escribe una funci√≥n Python para calcular el factorial de un n√∫mero:",
        "Crea una clase JavaScript para manejar una lista de tareas:",
        "Escribe una consulta SQL para obtener los 10 productos m√°s vendidos:",
        "Implementa un algoritmo de b√∫squeda binaria en Python:"
    ]
    
    for i, prompt in enumerate(prompts_codigo, 1):
        print(f"\nüíª Ejemplo de c√≥digo {i}:")
        print(f"Prompt: {prompt}")
        
        respuesta = self._generar_respuesta(prompt, max_tokens=200)
        print(f"C√≥digo generado:\n{respuesta}")
        print("-" * 50)

# Agregar m√©todo a la instancia
Llama31Demo.demo_capacidades_codigo = demo_capacidades_codigo

# Ejecutar demostraci√≥n si el modelo est√° cargado
if demo.model is not None:
    demo.demo_capacidades_codigo()
else:
    print("‚ö†Ô∏è Modelo no cargado. Saltando demostraci√≥n de c√≥digo.")


üíª DEMOSTRACI√ìN DE CAPACIDADES DE C√ìDIGO

üíª Ejemplo de c√≥digo 1:
Prompt: Escribe una funci√≥n Python para calcular el factorial de un n√∫mero:
C√≥digo generado:
```python
def factorial(n):
    """
    Calcula el factorial de un n√∫mero entero n.
    
    Args:
    n (int): El n√∫mero entero para el que se calcular√° el factorial.
    
    Returns:
    int: El factorial de n.
    
    Raises:
    ValueError: Si n es negativo.
    TypeError: Si n no es un n√∫mero entero.
    """
    if not isinstance(n, int):
        raise TypeError("n debe ser un n√∫mero entero.")
    if n < 0:
        raise ValueError("n debe ser no negativo.")
    elif n == 0 or n == 1:
        return 1
    else:
        return n * factorial(n-1)
```
Aqu√≠ hay un ejemplo de c√≥mo se utiliza la funci√≥n:
```python
print(factorial(5))  # Salida: 120
print(factorial(0))  # Salida: 1
print(factorial(1
--------------------------------------------------

üíª Ejemplo de c√≥digo 2:
Prompt: Crea una clase JavaScript 

## 10. An√°lisis de Rendimiento

Analicemos el rendimiento del modelo midiendo tiempo de respuesta y uso de memoria.

In [17]:
def demo_analisis_rendimiento(self):
    """Analizar rendimiento del modelo"""
    print("\n" + "="*60)
    print("üìä AN√ÅLISIS DE RENDIMIENTO")
    print("="*60)
    
    if self.model is None or self.tokenizer is None:
        print("‚ùå Modelo no cargado.")
        return
    
    # Test de rendimiento
    prompt_test = "Explica el concepto de inteligencia artificial y sus aplicaciones en la industria moderna:"
    
    print(f"üß™ Prompt de prueba: {prompt_test}")
    
    # Medir tiempo y memoria
    memoria_inicial = self._obtener_uso_memoria()
    
    tiempos = []
    longitudes = []
    
    for i in range(3):
        print(f"\nüîÑ Ejecuci√≥n {i+1}/3:")
        
        start_time = time.time()
        respuesta = self._generar_respuesta(prompt_test, max_tokens=150)
        end_time = time.time()
        
        tiempo_generacion = end_time - start_time
        longitud_respuesta = len(respuesta.split())
        
        tiempos.append(tiempo_generacion)
        longitudes.append(longitud_respuesta)
        
        tokens_por_segundo = longitud_respuesta / tiempo_generacion if tiempo_generacion > 0 else 0
        
        print(f"   Tiempo: {tiempo_generacion:.2f}s")
        print(f"   Palabras generadas: {longitud_respuesta}")
        print(f"   Velocidad: {tokens_por_segundo:.2f} palabras/s")
    
    memoria_final = self._obtener_uso_memoria()
    
    # Estad√≠sticas finales
    print(f"\nüìà ESTAD√çSTICAS FINALES:")
    print(f"   Tiempo promedio: {sum(tiempos)/len(tiempos):.2f}s")
    print(f"   Velocidad promedio: {sum(longitudes)/sum(tiempos):.2f} palabras/s")
    print(f"   Uso de memoria: {memoria_final - memoria_inicial:.2f} MB")
    print(f"   Memoria total usada: {memoria_final:.2f} MB")

# Agregar m√©todo a la instancia
Llama31Demo.demo_analisis_rendimiento = demo_analisis_rendimiento

# Ejecutar demostraci√≥n si el modelo est√° cargado
if demo.model is not None:
    demo.demo_analisis_rendimiento()
else:
    print("‚ö†Ô∏è Modelo no cargado. Saltando an√°lisis de rendimiento.")


üìä AN√ÅLISIS DE RENDIMIENTO
üß™ Prompt de prueba: Explica el concepto de inteligencia artificial y sus aplicaciones en la industria moderna:

üîÑ Ejecuci√≥n 1/3:
   Tiempo: 15.31s
   Palabras generadas: 95
   Velocidad: 6.20 palabras/s

üîÑ Ejecuci√≥n 2/3:
   Tiempo: 15.13s
   Palabras generadas: 96
   Velocidad: 6.35 palabras/s

üîÑ Ejecuci√≥n 3/3:
   Tiempo: 15.08s
   Palabras generadas: 92
   Velocidad: 6.10 palabras/s

üìà ESTAD√çSTICAS FINALES:
   Tiempo promedio: 15.17s
   Velocidad promedio: 6.22 palabras/s
   Uso de memoria: 0.00 MB
   Memoria total usada: 3552.39 MB


## 11. Comparaci√≥n de Configuraciones de Generaci√≥n

Comparemos diferentes configuraciones de generaci√≥n para ver c√≥mo afectan la creatividad y coherencia del modelo.

In [18]:
def demo_comparacion_configuraciones(self):
    """Comparar diferentes configuraciones de generaci√≥n"""
    print("\n" + "="*60)
    print("‚öôÔ∏è COMPARACI√ìN DE CONFIGURACIONES")
    print("="*60)
    
    if self.model is None or self.tokenizer is None:
        print("‚ùå Modelo no cargado.")
        return
    
    prompt = "Escribe un p√°rrafo sobre el futuro de la tecnolog√≠a:"
    
    configuraciones = {
        "Conservadora": {"temperature": 0.3, "top_p": 0.8, "do_sample": True},
        "Balanceada": {"temperature": 0.7, "top_p": 0.9, "do_sample": True},
        "Creativa": {"temperature": 1.0, "top_p": 0.95, "do_sample": True},
        "Determin√≠stica": {"temperature": 0.0, "do_sample": False}
    }
    
    print(f"üéØ Prompt: {prompt}")
    
    for nombre, config in configuraciones.items():
        print(f"\nüîß Configuraci√≥n {nombre}:")
        print(f"   Par√°metros: {config}")
        
        respuesta = self._generar_respuesta(prompt, max_tokens=100, **config)
        print(f"   Respuesta: {respuesta}")
        print("-" * 50)

# Agregar m√©todo a la instancia
Llama31Demo.demo_comparacion_configuraciones = demo_comparacion_configuraciones

# Ejecutar demostraci√≥n si el modelo est√° cargado
if demo.model is not None:
    demo.demo_comparacion_configuraciones()
else:
    print("‚ö†Ô∏è Modelo no cargado. Saltando comparaci√≥n de configuraciones.")


‚öôÔ∏è COMPARACI√ìN DE CONFIGURACIONES
üéØ Prompt: Escribe un p√°rrafo sobre el futuro de la tecnolog√≠a:

üîß Configuraci√≥n Conservadora:
   Par√°metros: {'temperature': 0.3, 'top_p': 0.8, 'do_sample': True}
   Respuesta: ¬øqu√© cambios se esperan en el futuro?
La tecnolog√≠a est√° en constante evoluci√≥n y se espera que siga avanzando a un ritmo acelerado en el futuro. Algunos de los cambios que se esperan incluyen la adopci√≥n generalizada de la inteligencia artificial (IA) en diversas √°reas de la vida, como la medicina, la educaci√≥n y la industria. Adem√°s, se espera que la realidad virtual (RV) y la realidad aumentada
--------------------------------------------------

üîß Configuraci√≥n Balanceada:
   Par√°metros: {'temperature': 0.7, 'top_p': 0.9, 'do_sample': True}
   Respuesta: ¬øqu√© cambios se esperan y c√≥mo podr√≠an afectar a la sociedad?
La tecnolog√≠a seguir√° evolucionando a un ritmo acelerado en los pr√≥ximos a√±os, impulsada por la innovaci√≥n y la investigaci√

The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


   Respuesta: En el futuro cercano, es probable que avancemos en la tecnolog√≠a de la informaci√≥n y comunicaci√≥n (TIC) a velocidades cada vez m√°s r√°pidas, llev√°ndonos a una era de realidad virtual y augmented, donde la vida se voltea y la vida cotidiana se integra con los datos y aplicaciones. Las redes de 5G permitir√°n que los datos se transmitan a velocidades m√°s altas, lo que facilitar√° la interacci√≥n
--------------------------------------------------

üîß Configuraci√≥n Determin√≠stica:
   Par√°metros: {'temperature': 0.0, 'do_sample': False}
   Respuesta: ¬øqu√© cambios podemos esperar en los pr√≥ximos a√±os?
La tecnolog√≠a est√° en constante evoluci√≥n y es probable que en los pr√≥ximos a√±os experimentemos cambios significativos en diversas √°reas. Una de las tendencias m√°s destacadas es la adopci√≥n de la inteligencia artificial (IA) en la vida diaria, lo que podr√≠a llevar a la creaci√≥n de sistemas de asistencia personalizados y la automatizaci√≥n de tareas rutinar

## 12. Resumen y Conclusiones

¬°Felicidades! Has completado la demostraci√≥n de Llama 3.1. En este notebook hemos explorado:

### ‚úÖ Lo que hemos cubierto:

1. **Carga del modelo** - Tanto en configuraci√≥n b√°sica como cuantizada
2. **Capacidades b√°sicas** - Generaci√≥n de texto general
3. **Capacidades conversacionales** - Formato de chat estructurado
4. **Capacidades multiling√ºes** - Soporte para m√∫ltiples idiomas
5. **Generaci√≥n de c√≥digo** - Programaci√≥n asistida por IA
6. **An√°lisis de rendimiento** - M√©tricas de velocidad y memoria
7. **Configuraciones de generaci√≥n** - Par√°metros de creatividad y coherencia

### üéØ Puntos clave aprendidos:

- **Llama 3.1** es un modelo muy capaz para m√∫ltiples tareas
- La **cuantizaci√≥n** puede reducir significativamente el uso de memoria
- Los **par√°metros de generaci√≥n** afectan la creatividad vs coherencia
- El modelo maneja bien **m√∫ltiples idiomas** y **generaci√≥n de c√≥digo**
- El **formato de chat** permite conversaciones m√°s naturales
- **Variables de ambiente** proporcionan configuraci√≥n segura y portable
- La configuraci√≥n autom√°tica funciona en **Kaggle, Colab y entorno local**

### üöÄ Pr√≥ximos pasos:

- Experimenta con diferentes prompts y configuraciones
- Prueba el modelo en tus propios casos de uso
- Explora t√©cnicas de fine-tuning para tareas espec√≠ficas
- Considera la implementaci√≥n en aplicaciones reales

### üìö Recursos adicionales:

- [Documentaci√≥n de Transformers](https://huggingface.co/docs/transformers)
- [Llama 3.1 Model Card](https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct)
- [Gu√≠as de optimizaci√≥n](https://huggingface.co/docs/transformers/perf_infer_gpu_one)

---

**¬°Gracias por completar el M√≥dulo 2 del Curso de Llama 3.1!** üéâ

In [19]:
# Limpieza final
print("\nüßπ Limpieza de memoria...")
if 'demo' in locals() and demo.model is not None:
    del demo.model
    del demo.tokenizer
    torch.cuda.empty_cache() if torch.cuda.is_available() else None
    print("‚úÖ Memoria liberada")

print("\nüéì ¬°M√≥dulo 2 completado exitosamente!")
print("üìù Notebook guardado como: Modulo2_Llama31_Demo.ipynb")


üßπ Limpieza de memoria...
‚úÖ Memoria liberada

üéì ¬°M√≥dulo 2 completado exitosamente!
üìù Notebook guardado como: Modulo2_Llama31_Demo.ipynb
