# üß† Generador IA de bancos Moodle XML + Equilibrado y PDF

Este cuaderno:
1) **Sube un documento** base (PDF/DOCX/TXT).
2) La IA **genera preguntas MCQ** (autocontenidas, 1 correcta + 2 distractores plausibles).
3) **Equilibra** longitudes de opciones (¬±4 palabras) y **baraja** opciones.
4) Exporta **Moodle XML** listo para importar y un **PDF** de revisi√≥n (‚úÖ en la correcta).

**Uso:** ejecuta las celdas en orden. Cuando pida *subir archivo*, selecciona tu documento fuente.


In [37]:
!pip install openai==1.* beautifulsoup4 lxml reportlab pypdf python-docx tqdm --quiet

In [31]:
# üîë Establece tu API key de OpenAI de forma segura (no queda guardada en el cuaderno)
import os
from getpass import getpass

if not os.getenv("OPENAI_API_KEY"):
    os.environ["OPENAI_API_KEY"] = getpass("Pega tu OPENAI_API_KEY y pulsa Enter: ")
print("‚úÖ API key configurada en el entorno de ejecuci√≥n.")

‚úÖ API key configurada en el entorno de ejecuci√≥n.


In [38]:
# =========================
#  N√∫cleo: carga de documento, helpers IA, equilibrado, exportadores
# =========================
import os, json, random, re, time, traceback
from tqdm import tqdm
from pypdf import PdfReader
from docx import Document
from google.colab import files
from bs4 import BeautifulSoup
from reportlab.platypus import SimpleDocTemplate, Paragraph, Spacer
from reportlab.lib.pagesizes import A4
from reportlab.lib.styles import getSampleStyleSheet
from lxml import etree

# SDK OpenAI 1.x
from openai import OpenAI, RateLimitError

# ===== Par√°metros generales =====
THRESH_DIFF = 4            # diferencia m√°x. de palabras entre correcta e incorrectas
RANDOM_SEED = 42           # usa None para aleatoriedad no determinista
CHUNK_MAX_CHARS = 6000     # tama√±o aprox. de cada bloque del documento
OPENAI_MODEL = "gpt-4o-mini"
DEBUG_JSON = False

# Reintentos/backoff para llamadas a la IA
MAX_RETRIES = 4
BACKOFF_BASE = 2.0

if RANDOM_SEED is not None:
    random.seed(RANDOM_SEED)

# ===== Carga de documento base =====
print("üìÅ Sube tu documento base (PDF/DOCX/TXT)")
up = files.upload()
SRC = list(up.keys())[0]
print(f"‚úÖ Cargado: {SRC}")

def load_text(path):
    p = path.lower()
    if p.endswith(".pdf"):
        reader = PdfReader(path)
        return "\n".join([(page.extract_text() or "") for page in reader.pages])
    if p.endswith(".docx"):
        doc = Document(path)
        return "\n".join([para.text for para in doc.paragraphs])
    with open(path, "r", encoding="utf-8", errors="ignore") as f:
        return f.read()

raw_text = load_text(SRC)
assert raw_text.strip(), "El documento parece vac√≠o o no se pudo extraer texto."

def chunk_text(text, max_chars=10000):
    paras = [p.strip() for p in text.split("\n") if p.strip()]
    chunks, cur = [], ""
    for p in paras:
        if len(cur) + len(p) + 1 <= max_chars:
            cur += ("\n" + p) if cur else p
        else:
            chunks.append(cur); cur = p
    if cur: chunks.append(cur)
    return chunks

chunks = chunk_text(raw_text, max_chars=CHUNK_MAX_CHARS)
print(f"üß© Bloques de texto creados: {len(chunks)} (‚âà{CHUNK_MAX_CHARS} chars c/u)")

# ===== Cliente OpenAI =====
api_key = os.getenv("OPENAI_API_KEY")
if not api_key:
    from getpass import getpass
    api_key = getpass("Pega tu OPENAI_API_KEY y pulsa Enter: ")
    os.environ["OPENAI_API_KEY"] = api_key
client = OpenAI(api_key=api_key)

SYSTEM_PROMPT = "Eres un generador de √≠tems universitarios, preciso, en espa√±ol, y devuelves JSON v√°lido."

# IMPORTANTE: llaves JSON escapadas con {{ }} para no romper str.format
USER_PROMPT_TMPL = """
Eres un generador de preguntas universitarias en psicolog√≠a del lenguaje/lectura.
Crea {n} preguntas tipo test (MCQ) AUTOCONTENIDAS a partir del CONTENIDO. Nivel: universitario.
- 1 correcta + 2 distractores plausibles (sin 'todas las anteriores' / 'ninguna').
- Redacci√≥n clara, sin ambig√ºedad; NO dependas de "seg√∫n el texto".
- Incluye justificaci√≥n breve (1‚Äì2 frases) para la correcta.
- RESPONDE √öNICAMENTE con JSON. NO incluyas explicaciones; NO uses ```json ni fences.

Estructura EXACTA:
{{
  "items": [
    {{
      "id": "BLOQUE1-Q1",
      "stem": "ENUNCIADO AUTOCONTENIDO...",
      "options": ["A...", "B...", "C..."],
      "correct_index": 1,
      "justification": "Por qu√© es correcta...",
      "difficulty": "media",
      "tags": ["efectos de priming","l√©xico"]
    }}
  ]
}}

CONTENIDO:
{content}
"""

def wc(s):
    s = re.sub(r"\s+", " ", s or "").strip()
    return len([w for w in s.split(" ") if w])

# --- Limpieza de JSON devuelto por el modelo ---
def _strip_code_fences(s: str) -> str:
    s = s.strip()
    m = re.match(r"^```(?:json)?\s*([\s\S]*?)\s*```$", s, flags=re.I)
    return m.group(1).strip() if m else s

def _extract_json_object(s: str) -> str:
    start = s.find("{")
    if start == -1: return s
    depth = 0
    for i, ch in enumerate(s[start:], start=start):
        if ch == "{": depth += 1
        elif ch == "}":
            depth -= 1
            if depth == 0: return s[start:i+1]
    return s

def _request_openai(prompt: str, retries=MAX_RETRIES):
    """Llamada con reintentos/backoff; aborta limpio si falta cr√©dito."""
    attempt = 0
    while True:
        try:
            # Intento 1: con response_format=json_object
            return client.chat.completions.create(
                model=OPENAI_MODEL,
                messages=[{"role":"system","content":SYSTEM_PROMPT},
                          {"role":"user","content":prompt}],
                temperature=0.4,
                response_format={"type":"json_object"}
            )
        except RateLimitError as e:
            msg = str(e)
            if "insufficient_quota" in msg:
                raise RuntimeError("‚ùå Sin cr√©dito en la API (insufficient_quota). Revisa plan y billing.") from e
            if attempt >= retries:
                raise
            sleep_s = BACKOFF_BASE ** attempt
            print(f"‚è≥ Rate limit. Reintentando en {sleep_s:.1f}s (intento {attempt+1}/{retries})‚Ä¶")
            time.sleep(sleep_s); attempt += 1
        except Exception as e:
            # Intento 2: sin response_format
            try:
                return client.chat.completions.create(
                    model=OPENAI_MODEL,
                    messages=[{"role":"system","content":SYSTEM_PROMPT},
                              {"role":"user","content":prompt}],
                    temperature=0.4
                )
            except Exception as e2:
                msg = str(e2)
                if "insufficient_quota" in msg:
                    raise RuntimeError("‚ùå Sin cr√©dito en la API (insufficient_quota). Revisa plan y billing.") from e2
                if attempt >= retries:
                    raise
                sleep_s = BACKOFF_BASE ** attempt
                print(f"‚è≥ Reintentando en {sleep_s:.1f}s (intento {attempt+1}/{retries})‚Ä¶")
                time.sleep(sleep_s); attempt += 1

def llm_items_from_text(content, block_id="B1", n=6, debug=DEBUG_JSON):
    prompt = USER_PROMPT_TMPL.format(content=content, n=n)
    resp = _request_openai(prompt)
    raw = resp.choices[0].message.content

    # Parseo tolerante
    try:
        data = json.loads(raw)
    except Exception:
        cleaned = _strip_code_fences(raw)
        cleaned = _extract_json_object(cleaned)
        if debug:
            print("DEBUG raw[:400]:", raw[:400])
            print("DEBUG cleaned[:400]:", cleaned[:400])
        data = json.loads(cleaned)

    # Tolerancia a claves con saltos/espacios raros
    if "items" not in data:
        for k in list(data.keys()):
            if "items" in k.replace("\n","").replace(" ",""):
                data["items"] = data.pop(k)
                break

    items = data.get("items", [])
    norm = []
    for i, it in enumerate(items, start=1):
        opts = it.get("options", [])
        if len(opts) != 3:
            continue
        ci = int(it.get("correct_index", 0))
        norm.append({
            "id": it.get("id") or f"{block_id}-Q{i}",
            "stem": str(it.get("stem","")).strip(),
            "options": [str(o).strip() for o in opts],
            "correct_index": ci if 0 <= ci < 3 else 0,
            "justification": str(it.get("justification","")).strip(),
            "difficulty": it.get("difficulty","media"),
            "tags": it.get("tags",[])
        })
    return norm

def balance_and_shuffle(item, diff_threshold=THRESH_DIFF, seed=RANDOM_SEED):
    rnd = random.Random(seed)
    opts = item["options"]; ci = item["correct_index"]
    Lc = wc(opts[ci]); new_opts = opts[:]
    for i, opt in enumerate(new_opts):
        if i == ci:
            continue
        if (Lc - wc(opt)) > diff_threshold:
            extra = rnd.choice([
                " Este patr√≥n se ha descrito en estudios de priming y decisi√≥n l√©xica.",
                " La literatura lo vincula con activaci√≥n competitiva y control inhibitorio.",
                " Se replica en lectores con distintos niveles de proficiencia."
            ])
            new_opts[i] = (opt.strip() + extra)
    pairs = [(o, i==ci) for i,o in enumerate(new_opts)]
    rnd.shuffle(pairs)
    item["options"] = [p[0] for p in pairs]
    item["correct_index"] = next(i for i,p in enumerate(pairs) if p[1])
    return item

def validate_item(it):
    ok = True
    if len(it.get("options",[])) != 3: ok=False
    if not (0 <= it.get("correct_index", -1) < 3): ok=False
    if ok:
        s = set([o.strip().lower() for o in it["options"]])
        if len(s) < 3: ok=False
    if wc(it.get("stem","")) < 6: ok=False
    return ok

def to_moodle_xml(items, xml_path="equilibrado_IA.xml"):
    soup = BeautifulSoup('<?xml version="1.0" encoding="UTF-8"?><quiz></quiz>', "xml")
    quiz = soup.find("quiz")
    for it in items:
        q = soup.new_tag("question", type="multichoice")
        qt = soup.new_tag("questiontext", format="html")
        qt_text = soup.new_tag("text"); qt_text.string = it["stem"]
        qt.append(qt_text); q.append(qt)
        for i,opt in enumerate(it["options"]):
            ans = soup.new_tag("answer", fraction="100" if i==it["correct_index"] else "0")
            at = soup.new_tag("text"); at.string = opt
            ans.append(at); q.append(ans)
        quiz.append(q)
    xml_str = str(soup)
    root = etree.fromstring(xml_str.encode("utf-8"), parser=etree.XMLParser(recover=True))
    with open(xml_path, "wb") as f:
        f.write(etree.tostring(root, encoding="utf-8", xml_declaration=True, pretty_print=True))
    return xml_path

def to_pdf(items, pdf_path="equilibrado_IA.pdf"):
    doc = SimpleDocTemplate(pdf_path, pagesize=A4)
    styles = getSampleStyleSheet()
    story = [Paragraph("<b>Banco de preguntas (IA)</b>", styles["Title"]), Spacer(1,10)]
    for i,it in enumerate(items, start=1):
        story.append(Paragraph(f"<b>{i}. {it['stem']}</b>", styles["Normal"]))
        for j,opt in enumerate(it["options"]):
            mark = " ‚úÖ" if j==it["correct_index"] else ""
            story.append(Paragraph(f"{chr(97+j)}) {opt}{mark}", styles["Normal"]))
        if it.get("justification"):
            story.append(Paragraph(f"<i>Justificaci√≥n:</i> {it['justification']}", styles["Normal"]))
        story.append(Spacer(1,8))
    doc.build(story)
    return pdf_path


üìÅ Sube tu documento base (PDF/DOCX/TXT)


Saving Neurociencia-del-lenguaje.pdf to Neurociencia-del-lenguaje (11).pdf
‚úÖ Cargado: Neurociencia-del-lenguaje (11).pdf
üß© Bloques de texto creados: 14 (‚âà6000 chars c/u)


In [None]:
# =========================
#  Celda 4 (OFFLINE, robusta) ‚Äî Generar banco sin IA a partir del documento
# =========================
import re, random
from collections import Counter
from nltk import word_tokenize
import nltk
from google.colab import files
from datetime import datetime

# 1) Tokenizadores en espa√±ol (evita el problema punkt_tab y segmenta bien)
print("üîß Preparando tokenizadores‚Ä¶")
nltk.download('punkt')
nltk.download('punkt_tab')
from nltk.tokenize import sent_tokenize
try:
    # Fuerza el uso del modelo de espa√±ol si est√° disponible
    sents_es = sent_tokenize
    lang_kw = {"language": "spanish"}
    test = sent_tokenize("Esto es una frase. Y esta es otra.", **lang_kw)
except TypeError:
    # versiones antiguas sin par√°metro language
    lang_kw = {}
print("‚úÖ Tokenizadores listos.")

# 2) Par√°metros del banco
TARGET_ITEMS = 200          # total de preguntas que quieres
MIN_SENT_WORDS = 12         # descarta oraciones demasiado cortas
MAX_STEM_WORDS = 40         # l√≠mite para el enunciado
RANDOM_SEED = 42
random.seed(RANDOM_SEED)

def clean_spaces(s):
    return re.sub(r"\s+", " ", s or "").strip()

print("üßπ Limpiando texto‚Ä¶")
raw_clean = clean_spaces(raw_text)

# 3) Segmentaci√≥n en oraciones (espa√±ol si es posible)
print("‚úÇÔ∏è Segmentando el documento en oraciones‚Ä¶")
try:
    sents = [clean_spaces(s) for s in sent_tokenize(raw_clean, **lang_kw)]
except TypeError:
    # fallback sin language param
    sents = [clean_spaces(s) for s in sent_tokenize(raw_clean)]

# Filtro por longitud m√≠nima
def wc(s):
    return len([w for w in s.split() if w.strip()])

sents = [s for s in sents if wc(s) >= MIN_SENT_WORDS]
print(f"üìè Oraciones candidatas: {len(sents)}")

# Fallback adicional si quedaron pocas oraciones
if len(sents) < 10:
    print("‚ÑπÔ∏è Pocas oraciones v√°lidas; aplicando fallback por puntos.")
    sents_alt = [clean_spaces(x) for x in re.split(r"[\.!?]\s+", raw_clean) if wc(x) >= MIN_SENT_WORDS]
    # combinar sin duplicar
    seen = set(sents)
    for x in sents_alt:
        if x not in seen:
            sents.append(x); seen.add(x)
    print(f"üìà Oraciones tras fallback: {len(sents)}")

if not sents:
    raise ValueError("No he encontrado oraciones suficientemente largas en el documento. Sube otro archivo o baja MIN_SENT_WORDS.")

# 4) Utilidades para opciones
STOPWORDS = set("""
de la que el los un una y o en a para por con sin sobre entre como m√°s menos muy
este esta estos estas ese esa esos esas aquel aquella aquellos aquellas lo al del
""".split())

def top_keywords(text, k=6):
    toks = [t.lower() for t in re.findall(r"[A-Za-z√Å√â√ç√ì√ö√ú√ë√°√©√≠√≥√∫√º√±]+", text)]
    toks = [t for t in toks if t not in STOPWORDS and len(t) > 2]
    cnt = Counter(toks)
    return [w for w,_ in cnt.most_common(k)]

def shorten(text, max_words=MAX_STEM_WORDS):
    ws = text.split()
    return text if len(ws) <= max_words else " ".join(ws[:max_words]) + " ‚Ä¶"

def make_distractors(sentence):
    """
    Crea dos distractores plausibles:
    - D1: matiz contrario o generalizaci√≥n simplificadora.
    - D2: relaci√≥n causal espuria o inversi√≥n de foco.
    A√±ade coletillas neutras para equilibrar longitud.
    """
    kws = top_keywords(sentence, k=6)
    base = shorten(sentence, max_words=MAX_STEM_WORDS)

    paddings = [
        " Este matiz se observa en distintos contextos experimentales.",
        " La formulaci√≥n es discutida en parte de la literatura especializada.",
        " El efecto puede variar seg√∫n tarea, muestra y nivel de proficiencia.",
    ]
    pad1 = random.choice(paddings)
    pad2_choices = [p for p in paddings if p != pad1] or paddings
    pad2 = random.choice(pad2_choices)

    d1 = base
    if re.search(r"\b(aumenta|incrementa|facilita|mejora)\b", base, flags=re.IGNORECASE):
        d1 = re.sub(r"\b(aumenta|incrementa|facilita|mejora)\b", "reduce", d1, flags=re.IGNORECASE)
    elif re.search(r"\b(disminuye|reduce|dificulta|empeora)\b", base, flags=re.IGNORECASE):
        d1 = re.sub(r"\b(disminuye|reduce|dificulta|empeora)\b", "mejora", d1, flags=re.IGNORECASE)
    else:
        d1 = "Generaliza el enunciado omitiendo condiciones clave del contexto descrito."
    d1 = (d1 + pad1).strip()

    if len(kws) >= 2:
        d2 = f"Plantea una causalidad directa entre ¬´{kws[0]}¬ª y ¬´{kws[1]}¬ª cuando el texto sugiere solo asociaci√≥n parcial."
    else:
        d2 = "Asume una relaci√≥n causal fuerte donde el texto solo indica coincidencia o covariaci√≥n limitada."
    d2 = (d2 + pad2).strip()

    return d1, d2

def build_item_from_sentence(sentence, idx):
    stem = f"Indique la opci√≥n que conserva con mayor fidelidad el contenido de la afirmaci√≥n: {shorten(sentence)}"
    correct = "Mantiene el contenido esencial del enunciado, respetando condiciones y alcance."
    d1, d2 = make_distractors(sentence)
    options = [correct, d1, d2]
    random.shuffle(options)
    ci = options.index(correct)
    return {
        "id": f"OFF-{idx}",
        "stem": stem,
        "options": options,
        "correct_index": ci,
        "justification": "La opci√≥n correcta conserva el significado y l√≠mites del enunciado; los distractores alteran matices o introducen causalidad espuria.",
        "difficulty": "media",
        "tags": ["offline","auto"]
    }

# 5) Generaci√≥n sin cuelgues (recorrido controlado)
print("üß™ Generando √≠tems offline‚Ä¶")
collected = []
seen_stems = set()

# generamos como m√°ximo una vuelta y media sobre sents o hasta TARGET_ITEMS
max_iters = max(TARGET_ITEMS * 2, len(sents) * 2)
for i in range(min(max_iters, TARGET_ITEMS * 3)):
    if len(collected) >= TARGET_ITEMS:
        break
    sent = sents[i % len(sents)]
    item = build_item_from_sentence(sent, idx=i+1)
    key = re.sub(r"\s+", " ", item["stem"].lower().strip())
    if key in seen_stems:
        continue
    seen_stems.add(key)
    collected.append(item)

print(f"‚úÖ √çtems (offline) generados: {len(collected)}")

# 6) Exportar (usa las funciones definidas en Celda 3: to_moodle_xml y to_pdf)
if not collected:
    raise RuntimeError("No se generaron √≠tems. Revisa los par√°metros o el documento.")

stamp = datetime.now().strftime("%Y%m%d-%H%M%S")
xml_name = f"banco_OFF_{len(collected)}_{stamp}.xml"
pdf_name = f"banco_OFF_{len(collected)}_{stamp}.pdf"

xml_path = to_moodle_xml(collected, xml_path=xml_name)
pdf_path = to_pdf(collected, pdf_path=pdf_name)
print("üì¶ XML:", xml_path)
print("üìÑ PDF:", pdf_path)

# 7) Descargas
files.download(xml_path)
files.download(pdf_path)
