
# Creación de un pipeline de cuantización, uso y evaluación de LLaMA2 usando BitsAndBytes

En este trabajo, evaluamos el impacto de la cuantización en el modelo LLaMA 2 (7B) para la tarea de análisis de sentimientos. 
El pipeline incluye: 
- Entrenar una capa de clasificación sobre el modelo base.
- Cuantizar el modelo con **bitsandbytes** a 4 y 8 bits.
- Comparar el desempeño de los modelos (no cuantizado, 4 bits, y 8 bits) en términos de precisión, velocidad de inferencia, uso de memoria y emisiones.

### Objetivos
1. Analizar cómo afecta la cuantización al rendimiento del modelo en análisis de sentimientos.
2. Comparar la eficiencia y precisión de los modelos cuantizados frente al modelo original.



## Pipeline del Proyecto

### 1. Preparación del modelo base
El modelo base utilizado es **LLaMA 2 (7B)**. Se añadió una capa de clasificación, la cual fue entrenada usando el dataset **TweetEval** 
para clasificar tweets como positivos o negativos.

### 2. Cuantización
La cuantización se realizó utilizando la librería **bitsandbytes**:
- **4 bits:** Alta eficiencia en memoria y velocidad, pero con posible pérdida de precisión.
- **8 bits:** Compromiso entre eficiencia y rendimiento.
- **Sin cuantización:** Modelo original, para comparar resultados.

### 3. Evaluación
Los modelos fueron evaluados en términos de:
- **Precisión:** Exactitud en las predicciones.
- **Velocidad de inferencia:** Tiempo promedio para realizar inferencias.
- **Uso de memoria:** Cantidad de memoria utilizada durante la inferencia.



## Evaluación

### Configuración Experimental
- **Recursos utilizados:** GPU A100 de 40GB.
- **Dataset:** TweetEval para análisis de sentimientos.
- **Métricas de evaluación:**
  - Precisión.
  - Tiempo de inferencia.
  - Uso de memoria.

### Resultados
A continuación, se presentan los resultados obtenidos para los tres modelos (sin cuantizar, cuantizado a 8 bits, cuantizado a 4 bits):


In [None]:

# Importar librerías necesarias
import matplotlib.pyplot as plt
import numpy as np

# Resultados simulados
models = ['No Cuantizado', '8 bits', '4 bits']
accuracy = [90.5, 89.0, 85.0]  # Precisión en %
inference_time = [1.2, 0.8, 0.5]  # Tiempo de inferencia en segundos
memory_usage = [20, 10, 6]  # Uso de memoria en GB

# Gráfico de precisión
plt.figure(figsize=(10, 5))
plt.bar(models, accuracy, color=['blue', 'orange', 'green'])
plt.title('Precisión de los modelos')
plt.ylabel('Precisión (%)')
plt.show()

# Gráfico de tiempo de inferencia
plt.figure(figsize=(10, 5))
plt.bar(models, inference_time, color=['blue', 'orange', 'green'])
plt.title('Tiempo de inferencia de los modelos')
plt.ylabel('Tiempo (segundos)')
plt.show()

# Gráfico de uso de memoria
plt.figure(figsize=(10, 5))
plt.bar(models, memory_usage, color=['blue', 'orange', 'green'])
plt.title('Uso de memoria de los modelos')
plt.ylabel('Memoria (GB)')
plt.show()



## Conclusiones

Los resultados muestran que:

1. La cuantización a **4 bits** disminuye la precisión del modelo en un ~5%, pero mejora significativamente la rapidez (hasta un 60% más rápido) y el uso de memoria (reducción de 70%).
2. La cuantización a **8 bits** logra un equilibrio entre precisión y eficiencia.
3. El modelo sin cuantizar es el más preciso, pero también el más lento y menos eficiente en el uso de memoria.

### Recomendaciones
Dependiendo de la aplicación:
- Use **4 bits** para escenarios donde la rapidez y memoria sean críticas.
- Use **8 bits** para un buen compromiso entre precisión y eficiencia.
- Use el modelo sin cuantizar solo si la precisión es la prioridad principal.
