# Sistema de Transformaci√≥n de Oraciones en Guaran√≠ con RAG

## Proyecto Final - PLN e IA

**Objetivo:** Implementar un sistema capaz de transformar oraciones en guaran√≠ seg√∫n reglas gramaticales espec√≠ficas, comparando el rendimiento de:
- 2 modelos de LLM (GPT-3.5 Turbo vs Claude 3.5 Sonnet)
- 2 estrategias: **Sin RAG** (conocimiento del modelo) vs **Con RAG** (recuperaci√≥n de documentaci√≥n gramatical)

## Dataset: AmericasNLP 2025
- **Task:** Transformaci√≥n de oraciones en guaran√≠
- **Input:** `Source` (oraci√≥n base) + `Change` (tipo de transformaci√≥n)
- **Output:** `Target` (oraci√≥n transformada)

**Ejemplo:**
```
Source: "Ore ndorombyai kuri"
Change: "TYPE:AFF" (convertir a afirmativo)
Target: "Ore rombyai kuri"
```

## Metodolog√≠a
1. Cargar dataset AmericasNLP (train/dev/test)
2. Construir base de conocimiento (RAG) con gram√°tica guaran√≠
3. Implementar sistema de transformaci√≥n con y sin RAG
4. Evaluar con m√©tricas objetivas (BLEU, accuracy, etc.)
5. Comparar resultados

## 1. Instalaci√≥n de Dependencias

In [None]:
import warnings
warnings.filterwarnings("ignore")

# Instalaci√≥n de librer√≠as
!pip install -q -U \
  langchain langchain-core langchain-community langchain-text-splitters \
  sentence-transformers faiss-cpu \
  requests python-dotenv pymupdf pandas \
  sacrebleu nltk

print("‚úì Dependencias instaladas correctamente")

## 2. Importaciones y Configuraci√≥n

In [None]:
import os
import json
import pandas as pd
import requests
import fitz  # PyMuPDF
from typing import List, Dict, Any, Tuple
import time

# LangChain
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import FAISS
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_core.documents import Document

# M√©tricas
from sacrebleu.metrics import BLEU
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction

print("‚úì Importaciones completadas")

## 3. Configuraci√≥n de API Keys

In [None]:
# Configurar OpenRouter API Key
# Opci√≥n 1: Usar Colab Secrets (recomendado)
# Opci√≥n 2: Ingresar manualmente

if 'OPENROUTER_API_KEY' in globals():
    os.environ["OPENROUTER_API_KEY"] = OPENROUTER_API_KEY
    print("‚úì API Key cargada desde variable del kernel")
else:
    from getpass import getpass
    api_key = getpass("Ingresa tu OPENROUTER_API_KEY: ")
    os.environ["OPENROUTER_API_KEY"] = api_key
    print("‚úì API Key configurada")

## 4. Descarga del Dataset AmericasNLP

Dataset oficial: https://github.com/AmericasNLP/americasnlp2025/tree/main/ST2_EducationalMaterials/data

In [None]:
# URLs del dataset
BASE_URL = "https://raw.githubusercontent.com/AmericasNLP/americasnlp2025/main/ST2_EducationalMaterials/data/"

datasets_urls = {
    "train": f"{BASE_URL}guarani-train.tsv",
    "dev": f"{BASE_URL}guarani-dev.tsv",
    "test": f"{BASE_URL}guarani-test.tsv"
}

def load_dataset(url: str) -> pd.DataFrame:
    """Carga el dataset desde URL"""
    response = requests.get(url)
    response.raise_for_status()
    
    # Guardar temporalmente
    filename = url.split("/")[-1]
    with open(filename, "w", encoding="utf-8") as f:
        f.write(response.text)
    
    # Leer con pandas
    df = pd.read_csv(filename, sep="\t")
    return df

# Cargar datasets
print("Descargando datasets...\n")
datasets = {}

for split, url in datasets_urls.items():
    try:
        df = load_dataset(url)
        datasets[split] = df
        print(f"‚úì {split.upper()}: {len(df)} ejemplos")
        print(f"  Columnas: {list(df.columns)}")
    except Exception as e:
        print(f"‚ùå Error cargando {split}: {e}")

# Vista previa
print("\n" + "="*60)
print("EJEMPLO DEL DATASET (primeras 3 filas de DEV):")
print("="*60)
print(datasets["dev"].head(3))

## 5. Carga de Gram√°tica Guaran√≠ (Base de Conocimiento para RAG)

**Nota:** Sube el archivo `Gram√°tica guaran√≠.pdf` a Colab o usa Google Drive.

In [None]:
# Opci√≥n 1: Subir archivo manualmente
from google.colab import files
print("Por favor, sube el archivo 'Gram√°tica guaran√≠.pdf'")
uploaded = files.upload()
PDF_PATH = list(uploaded.keys())[0]

# Opci√≥n 2: Desde Google Drive (descomentar si prefieres esta opci√≥n)
# from google.colab import drive
# drive.mount('/content/drive')
# PDF_PATH = '/content/drive/MyDrive/Gram√°tica guaran√≠.pdf'

In [None]:
def extract_text_from_pdf(pdf_path: str) -> str:
    """Extrae texto del PDF de gram√°tica"""
    doc = fitz.open(pdf_path)
    text = ""
    
    print(f"üìò Extrayendo texto de: {pdf_path}")
    print(f"   Total de p√°ginas: {len(doc)}")
    
    for page_num, page in enumerate(doc, start=1):
        page_text = page.get_text()
        text += f"\n--- P√°gina {page_num} ---\n{page_text}"
        
        if page_num % 10 == 0:
            print(f"   ‚Ä¢ Procesadas: {page_num} p√°ginas")
    
    doc.close()
    print(f"‚úì Extracci√≥n completada: {len(text)} caracteres")
    return text.strip()

# Extraer texto
pdf_text = extract_text_from_pdf(PDF_PATH)

# Vista previa
print("\n" + "="*60)
print("MUESTRA DEL TEXTO (primeros 500 caracteres):")
print("="*60)
print(pdf_text[:500] + "...")

## 6. Construcci√≥n del Vector Store (RAG)

In [None]:
# Dividir texto en chunks
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,
    chunk_overlap=200,
    length_function=len,
    separators=["\n\n", "\n", ". ", " ", ""]
)

print("üìö Dividiendo texto en chunks...")
text_chunks = text_splitter.split_text(pdf_text)

# Crear documentos
documents = [
    Document(
        page_content=chunk,
        metadata={"source": "Gram√°tica guaran√≠", "chunk_id": idx}
    )
    for idx, chunk in enumerate(text_chunks)
]

print(f"‚úì Creados {len(documents)} chunks")
print(f"  Tama√±o promedio: {sum(len(c) for c in text_chunks) / len(text_chunks):.0f} caracteres")

In [None]:
# Cargar modelo de embeddings
print("üîÑ Cargando modelo de embeddings...")
embeddings = HuggingFaceEmbeddings(
    model_name="sentence-transformers/paraphrase-multilingual-mpnet-base-v2"
)
print("‚úì Modelo de embeddings listo")

In [None]:
# Crear vector store con FAISS
print("üíæ Creando vector store...")
vectorstore = FAISS.from_documents(documents, embeddings)

# Configurar retriever
retriever = vectorstore.as_retriever(
    search_type="similarity",
    search_kwargs={"k": 3}  # Top 3 documentos m√°s relevantes
)

print("‚úì Vector store creado")
print("‚úì Retriever configurado (k=3)")

## 7. Wrapper para OpenRouter (GPT-3.5 y Claude 3.5)

In [None]:
class OpenRouterLLM:
    """Wrapper para usar modelos via OpenRouter"""
    
    def __init__(self, model_name: str, api_key: str):
        self.model_name = model_name
        self.api_key = api_key
        self.api_url = "https://openrouter.ai/api/v1/chat/completions"
    
    def generate(self, prompt: str, max_tokens: int = 200, temperature: float = 0.3) -> str:
        """Genera respuesta del modelo"""
        headers = {
            "Authorization": f"Bearer {self.api_key}",
            "Content-Type": "application/json",
            "HTTP-Referer": "https://colab.research.google.com/",
            "X-Title": "guarani-transformation"
        }
        
        data = {
            "model": self.model_name,
            "messages": [{"role": "user", "content": prompt}],
            "max_tokens": max_tokens,
            "temperature": temperature
        }
        
        try:
            response = requests.post(self.api_url, headers=headers, json=data, timeout=60)
            if response.status_code == 200:
                return response.json()["choices"][0]["message"]["content"].strip()
            else:
                return f"Error {response.status_code}: {response.text}"
        except Exception as e:
            return f"Error: {str(e)}"

# Configurar modelos
api_key = os.environ.get("OPENROUTER_API_KEY")

model_gpt35 = OpenRouterLLM("openai/gpt-3.5-turbo", api_key)
model_claude = OpenRouterLLM("anthropic/claude-3.5-sonnet", api_key)

print("‚úì Modelos configurados:")
print("  - GPT-3.5 Turbo (OpenAI)")
print("  - Claude 3.5 Sonnet (Anthropic)")

## 8. Sistema de Transformaci√≥n de Oraciones

In [None]:
class GuaraniTransformationSystem:
    """Sistema de transformaci√≥n de oraciones en guaran√≠"""
    
    def __init__(self, llm, retriever=None):
        self.llm = llm
        self.retriever = retriever
    
    def transform_without_rag(self, source: str, change: str) -> str:
        """Transformaci√≥n SIN RAG (solo conocimiento del modelo)"""
        prompt = f"""Eres un experto en el idioma guaran√≠.

Transforma la siguiente oraci√≥n en guaran√≠ seg√∫n la regla indicada.

Oraci√≥n original: "{source}"
Regla de transformaci√≥n: {change}

Responde √öNICAMENTE con la oraci√≥n transformada en guaran√≠, sin explicaciones adicionales.

Oraci√≥n transformada:"""
        
        return self.llm.generate(prompt)
    
    def transform_with_rag(self, source: str, change: str) -> str:
        """Transformaci√≥n CON RAG (con contexto gramatical)"""
        # Recuperar contexto relevante
        query = f"transformaci√≥n {change} en guaran√≠ negaci√≥n afirmaci√≥n"
        docs = self.retriever.invoke(query)
        context = "\n\n".join([d.page_content[:600] for d in docs[:3]])
        
        prompt = f"""Eres un experto en el idioma guaran√≠.

Usa la siguiente informaci√≥n gramatical para transformar la oraci√≥n:

CONTEXTO GRAMATICAL:
{context}

TAREA:
Oraci√≥n original: "{source}"
Regla de transformaci√≥n: {change}

INSTRUCCIONES:
- Basa tu transformaci√≥n en las reglas gramaticales del contexto
- Responde √öNICAMENTE con la oraci√≥n transformada en guaran√≠
- NO agregues explicaciones

Oraci√≥n transformada:"""
        
        return self.llm.generate(prompt)
    
    def evaluate_dataset(self, df: pd.DataFrame, use_rag: bool = False) -> List[Dict]:
        """Eval√∫a el sistema en un dataset completo"""
        results = []
        
        for idx, row in df.iterrows():
            source = row["Source"]
            change = row["Change"]
            target = row["Target"]
            
            # Generar predicci√≥n
            if use_rag:
                prediction = self.transform_with_rag(source, change)
            else:
                prediction = self.transform_without_rag(source, change)
            
            results.append({
                "id": row["ID"],
                "source": source,
                "change": change,
                "target": target,
                "prediction": prediction,
                "correct": prediction.strip().lower() == target.strip().lower()
            })
            
            # Peque√±a pausa para no saturar la API
            time.sleep(0.5)
        
        return results

print("‚úì Sistema de transformaci√≥n implementado")

## 9. Evaluaci√≥n de Modelos

Se evaluar√°n ambos modelos (GPT-3.5 y Claude 3.5) con y sin RAG.

In [None]:
# Evaluaci√≥n en DEV set (usamos DEV primero para ajustar, luego TEST para resultados finales)
dev_data = datasets["dev"].head(10)  # Primero probamos con 10 ejemplos

print("="*70)
print("EVALUANDO MODELO: GPT-3.5 TURBO SIN RAG")
print("="*70)

system_gpt_no_rag = GuaraniTransformationSystem(model_gpt35, retriever=None)
results_gpt_no_rag = system_gpt_no_rag.evaluate_dataset(dev_data, use_rag=False)

print("\n" + "="*70)
print("EVALUANDO MODELO: GPT-3.5 TURBO CON RAG")
print("="*70)

system_gpt_rag = GuaraniTransformationSystem(model_gpt35, retriever=retriever)
results_gpt_rag = system_gpt_rag.evaluate_dataset(dev_data, use_rag=True)

print("\n" + "="*70)
print("EVALUANDO MODELO: CLAUDE 3.5 SONNET SIN RAG")
print("="*70)

system_claude_no_rag = GuaraniTransformationSystem(model_claude, retriever=None)
results_claude_no_rag = system_claude_no_rag.evaluate_dataset(dev_data, use_rag=False)

print("\n" + "="*70)
print("EVALUANDO MODELO: CLAUDE 3.5 SONNET CON RAG")
print("="*70)

system_claude_rag = GuaraniTransformationSystem(model_claude, retriever=retriever)
results_claude_rag = system_claude_rag.evaluate_dataset(dev_data, use_rag=True)

print("\n‚úì Evaluaci√≥n completada")

## 10. C√°lculo de M√©tricas

In [None]:
def calculate_metrics(results: List[Dict]) -> Dict:
    """Calcula m√©tricas de evaluaci√≥n"""
    total = len(results)
    correct = sum(1 for r in results if r["correct"])
    accuracy = (correct / total) * 100 if total > 0 else 0
    
    # BLEU score
    bleu = BLEU()
    references = [[r["target"]] for r in results]
    predictions = [r["prediction"] for r in results]
    bleu_score = bleu.corpus_score(predictions, references).score
    
    return {
        "total": total,
        "correct": correct,
        "accuracy": accuracy,
        "bleu": bleu_score
    }

# Calcular m√©tricas para cada configuraci√≥n
metrics = {
    "GPT-3.5 Sin RAG": calculate_metrics(results_gpt_no_rag),
    "GPT-3.5 Con RAG": calculate_metrics(results_gpt_rag),
    "Claude 3.5 Sin RAG": calculate_metrics(results_claude_no_rag),
    "Claude 3.5 Con RAG": calculate_metrics(results_claude_rag)
}

# Mostrar resultados
print("\n" + "="*70)
print("RESULTADOS DE EVALUACI√ìN")
print("="*70)

for config, metrics_data in metrics.items():
    print(f"\n{config}:")
    print(f"  Accuracy: {metrics_data['accuracy']:.2f}%")
    print(f"  BLEU Score: {metrics_data['bleu']:.2f}")
    print(f"  Correctas: {metrics_data['correct']}/{metrics_data['total']}")

## 11. Tabla Comparativa

In [None]:
# Crear DataFrame comparativo
comparison_df = pd.DataFrame({
    "Modelo": ["GPT-3.5 Turbo", "GPT-3.5 Turbo", "Claude 3.5 Sonnet", "Claude 3.5 Sonnet"],
    "Estrategia": ["Sin RAG", "Con RAG", "Sin RAG", "Con RAG"],
    "Accuracy (%)": [
        metrics["GPT-3.5 Sin RAG"]["accuracy"],
        metrics["GPT-3.5 Con RAG"]["accuracy"],
        metrics["Claude 3.5 Sin RAG"]["accuracy"],
        metrics["Claude 3.5 Con RAG"]["accuracy"]
    ],
    "BLEU Score": [
        metrics["GPT-3.5 Sin RAG"]["bleu"],
        metrics["GPT-3.5 Con RAG"]["bleu"],
        metrics["Claude 3.5 Sin RAG"]["bleu"],
        metrics["Claude 3.5 Con RAG"]["bleu"]
    ]
})

print("\n" + "="*70)
print("TABLA COMPARATIVA")
print("="*70)
print(comparison_df.to_string(index=False))

# Encontrar mejor configuraci√≥n
best_idx = comparison_df["Accuracy (%)"].idxmax()
best_config = comparison_df.iloc[best_idx]

print("\n" + "="*70)
print("MEJOR CONFIGURACI√ìN")
print("="*70)
print(f"Modelo: {best_config['Modelo']}")
print(f"Estrategia: {best_config['Estrategia']}")
print(f"Accuracy: {best_config['Accuracy (%)']:.2f}%")
print(f"BLEU: {best_config['BLEU Score']:.2f}")

## 12. Ejemplos de Transformaciones

In [None]:
# Mostrar algunos ejemplos de transformaciones
print("\n" + "="*70)
print("EJEMPLOS DE TRANSFORMACIONES (GPT-3.5 CON RAG)")
print("="*70)

for i, result in enumerate(results_gpt_rag[:5], 1):
    print(f"\nEjemplo {i}:")
    print(f"  ID: {result['id']}")
    print(f"  Oraci√≥n original: {result['source']}")
    print(f"  Transformaci√≥n: {result['change']}")
    print(f"  Esperado: {result['target']}")
    print(f"  Generado: {result['prediction']}")
    print(f"  ‚úì Correcto" if result['correct'] else "  ‚úó Incorrecto")

## 13. Exportar Resultados

In [None]:
# Guardar resultados completos
all_results = {
    "gpt35_no_rag": results_gpt_no_rag,
    "gpt35_rag": results_gpt_rag,
    "claude_no_rag": results_claude_no_rag,
    "claude_rag": results_claude_rag,
    "metrics": metrics,
    "metadata": {
        "dataset": "AmericasNLP 2025 - Guaran√≠",
        "models": ["openai/gpt-3.5-turbo", "anthropic/claude-3.5-sonnet"],
        "strategies": ["Sin RAG", "Con RAG"],
        "embedding_model": "sentence-transformers/paraphrase-multilingual-mpnet-base-v2",
        "vector_store": "FAISS",
        "grammar_source": "Gram√°tica guaran√≠.pdf"
    }
}

# Guardar en JSON
with open("guarani_transformation_results.json", "w", encoding="utf-8") as f:
    json.dump(all_results, f, ensure_ascii=False, indent=2)

print("‚úì Resultados guardados en: guarani_transformation_results.json")

# Guardar tabla comparativa en CSV
comparison_df.to_csv("comparison_table.csv", index=False)
print("‚úì Tabla comparativa guardada en: comparison_table.csv")

# Descargar archivos (solo en Colab)
try:
    from google.colab import files
    files.download("guarani_transformation_results.json")
    files.download("comparison_table.csv")
    print("\n‚úì Archivos descargados")
except:
    print("\n‚ö†Ô∏è No est√°s en Colab. Archivos guardados localmente.")

## 14. Conclusiones

### Preguntas Clave a Responder:

1. **¬øQu√© modelo es mejor?**
   - Analizar accuracy y BLEU score
   - Considerar velocidad y costo

2. **¬øRAG mejora el rendimiento?**
   - Comparar m√©tricas con/sin RAG
   - Analizar ejemplos donde RAG ayuda

3. **¬øPor qu√© estos resultados?**
   - Guaran√≠ es idioma de bajo recursos
   - RAG aporta conocimiento gramatical espec√≠fico
   - Modelos grandes (Claude) vs r√°pidos (GPT-3.5)

### Pr√≥ximos Pasos:
- Evaluar en TEST set completo
- Ajustar prompts seg√∫n resultados
- Considerar fine-tuning si hay datos suficientes
- Agregar m√°s documentaci√≥n gramatical al vector store