Este cuaderno convierte tus citas APA en referencias numeradas en un par de minutos. Solo tendrás que subir dos archivos — tu borrador en texto plano (`draft.txt`) y el CSV exportado de Zotero (`zotero.csv`) — y ejecutar todas las celdas. Colab limpiará el entorno, renombrará los archivos correctamente, generará dos listas de referencias (una en Markdown con superíndices Unicode y otra en HTML con `<sup>` lista para Google Slides) y las descargará automáticamente. Así podrás sustituir los “(Autor, Año)” de tu presentación por números ordenados y pegar la lista final de fuentes sin complicaciones.

## 0. ¿Qué vas a conseguir?

1. **Subir** tu borrador (`draft.txt`) y tu exportación de Zotero (`zotero.csv`).
    
2. **Pulsar un único botón** para que Colab genere:
    
    - `citations.md` → lista de referencias con superíndices Unicode (ideal para Word o PDF).
        
    - `citations.html` → la misma lista formateada con `<sup>` para Google Slides o cualquier web.
        
3. **Descargar** los dos archivos con un clic.
    

Tiempo total: ≈ 3 minutos la primera vez, luego < 1 minuto.

## 1. Prepara tus dos archivos

|Archivo|Cómo crearlo|Dónde guardarlo|
|---|---|---|
|**draft.txt**|En tu Google Docs, ve a **Archivo → Descargar → Texto (.txt)**. Si escribes en Word o cualquier editor, guarda como “Texto sin formato” (UTF-8).|En tu ordenador (misma carpeta donde tengas el CSV).|
|**zotero.csv**|En Zotero: **Archivo → Export Library… → Format: CSV**. Marca _Export Notes_ si quieres que aparezcan.|En la misma carpeta que el TXT.|

**Importante:** ¡respeta exactamente esos nombres de archivo! (draft.txt y zotero.csv).  
Así evitamos que la gente tenga que cambiar rutas en el código.

## 2. Abre el cuaderno

1. Haz clic en **el enlace que te pasaron** (abre un notebook en Colab).  
    _Verás algo como `https://colab.research.google.com/drive/…` o desde GitHub con el badge “Open in Colab”._
    
2. Si Colab pide permiso para usar tu cuenta de Google, acéptalo.
    
3. Se mostrará el cuaderno con varias celdas ya listas (no hace falta editar nada).
    

> **Sugerencia:** si quieres conservar tu propia copia, ve a **Archivo → Guardar una copia en Drive**. No es obligatorio, pero así tendrás tu historial de ejecuciones.

## 3. Ejecuta todo en tres clics

1. Arriba, pulsa **Entorno de ejecución → Ejecutar todo**.
    
2. Colab comenzará a correr las celdas en orden.
    
3. **Cuando aparezca la ventana “Choose Files”**: selecciona **draft.txt** y **zotero.csv** (puedes arrastrarlos).
    
    - Verás debajo “✅ Archivos subidos correctamente.”
        
4. Espera unos segundos mientras Colab procesa.
    
    - Mensaje típico al final:
        
        ```
        ✓ Markdown written → citations.md
        ✓ HTML written     → citations.html
        📥  ¡Descargas listas!
        ```
        
5. El navegador descargará automáticamente `citations.md` y `citations.html`.
    
    - Si Chrome muestra un aviso de “Descargas múltiples bloqueadas”, pulsa **Permitir**.

6. Abre `citations.html` con tu navegador web preferido para ver las referencias formateadas.

7. Busca cualquier línea NOT FOUND y asegúrate que la cita es formateada correctamente dentro del texto (Autor, Año) o cualquier otra variación mencionada por debajo y que el (Autor, Año) corresponde exactamente al Autor, Año que tienes en tu Zotero.

8. Corrige estas discrepancias y repite el proceso hasta que no haya ninguna cita NOT FOUND

Se puede copiar y pegarlas directamente en tu página de refrencias de la presentación.
        

¡Eso es todo! Ya tienes tus referencias listas.

## 4. Usa el resultado en Google Slides

1. Abre tu presentación.
    
2. Menú **Citations → Replace All** (si es la primera vez, Google pedirá que autorices el script).
- Si no ves **Citations** al lado de **Accesibility**, asegúrate que usaste el template `Tema | Sponsor Draft X` que viene con el script.
- Si no ves nada, descarga `citation-replacer.gs` de la misma carpeta donde abriste este mismo archivo, regresa a tu Draft del estudio, haga click en **Extensions → Apps Script**, borra el código existente para pegar el código de `citation-replacer.gs` y finalmente recarga la página de tu Draft. Deberías ver **Citations** al lado de **Accesibility**.
    
3. Todos los “(Autor, Año)” se convertirán en superíndices numéricos. Si hay algún problema (p. ej., citas que no fueron convertidas a números), simplemente haz Control+Z y corregir el script otra vez con todo listo.
    
4. Abre `citations.html` con tu navegador web preferido para ver las referencias formateadas. Copia y pega estas referencias a las diapositivas finales de Referencias. Slides mantiene el formato tal cual.

5. ¡Listo! Todos los números dentro del texto deberían alinearse con las fuentes respectivas en la página de referencias

## 5. Problemas frecuentes y sus soluciones

|Mensaje / síntoma|Qué pasa|Cómo arreglarlo|
|---|---|---|
|Los archivos deben llamarse `draft.txt` y `zotero.csv`|Subiste el TXT o el CSV con otro nombre.|Renómbralos localmente y vuelve a ejecutarlo.|
|`UnicodeDecodeError` al leer el TXT|El borrador no está en UTF-8.|Vuelve a exportar desde Docs o Word eligiendo UTF-8.|
|Líneas con “— NOT FOUND” dentro de citations.md / html|Alguna cita no coincide con tu Zotero (nombre o año distintos).|Revisa la ortografía en el borrador o los campos en Zotero. El autor y el año tienen que ser exactamente lo mismo, aunque en el texto puede tener formatos como (Autor et al., Año), (Autor & Autor, Año) o (Autor, Año; Autor & Autor, Año; Autor et al., Año) etc.|
|El navegador no descarga nada|A veces el bloqueo de descargas múltiples lo impide.|Busca una barra amarilla o un icono en la URL y selecciona “Permitir”.|


## 6. Código para correr

In [16]:
# ---------------------------------------------
# 1. Instalar dependencias
# ---------------------------------------------
!pip install --quiet pandas markdown

In [17]:
# ---------------------------------------------
# 2. Subir y preparar archivos
# ---------------------------------------------
from google.colab import files, output
from pathlib import Path

def popup(msg: str):
    """Muestra un alert() simple en el navegador."""
    output.eval_js(f'alert("{msg}")')

# 1) Limpiar: eliminar cualquier .txt o .csv de ejecuciones anteriores
for f in Path.cwd().glob("*.txt"):
    f.unlink()
for f in Path.cwd().glob("*.csv"):
    f.unlink()

# 2) Aviso inicial
popup("Sube tu borrador (.txt) y tu export de Zotero (.csv) donde dice Choose Files en la celda por debajo.")

# 3) Diálogo de subida
uploaded = files.upload()

# 4) Localizar exactamente un .txt y un .csv
txt_files = [f for f in uploaded if f.lower().endswith(".txt")]
csv_files = [f for f in uploaded if f.lower().endswith(".csv")]

if len(txt_files) != 1 or len(csv_files) != 1:
    popup("Debes subir UN archivo .txt y UN archivo .csv — ni más ni menos.")
    raise RuntimeError("Número incorrecto de archivos subidos")

# 5) Renombrar para el resto del cuaderno
Path(txt_files[0]).rename("draft.txt")
Path(csv_files[0]).rename("zotero.csv")   # cambia a "Zotero.csv" si prefieres la mayúscula

# 6) Confirmación
popup("Archivos preparados: draft.txt y zotero.csv. Permite la descarga que viene.")

Saving draft.txt to draft.txt
Saving zotero.csv to zotero.csv


In [18]:
# ---------------------------------------------
# 3. Código principal
# ---------------------------------------------
%%writefile citation_extractor.py
#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
Build two files from in-text citations + Zotero CSV:

• citations.md   – Unicode superscripts (**¹,²,³**)
• citations.html – Web/Slides format (<sup><strong>1,2,3</strong></sup>)
"""

import re, unicodedata, os, sys
from pathlib import Path

import pandas as pd
import markdown

# ------------------------------------------------------------
# Helpers
# ------------------------------------------------------------

_super_map = str.maketrans("0123456789", "⁰¹²³⁴⁵⁶⁷⁸⁹")

def to_superscript(nums):
    """Return Unicode superscript digits (commas stay normal)."""
    return ','.join(''.join(str(n).translate(_super_map)) for n in nums)

def supers_html(nums):
    """Return bold <sup>…</sup> for HTML."""
    return f"<sup><strong>{','.join(str(n) for n in nums)}</strong></sup>"

def normalize_name(name):
    if pd.isna(name):
        return ""
    s = str(name).lower().strip()
    s = unicodedata.normalize('NFKD', s).encode('ASCII', 'ignore').decode('utf-8')
    s = re.sub(r'[^\w\s]', '', s)
    return re.sub(r'\s+', ' ', s).strip()

def normalize_author(author_field):
    if pd.isna(author_field):
        return ""
    text = str(author_field)
    if ',' not in text:
        return normalize_name(text)
    first = text.split(';')[0]
    return normalize_name(first.split(',')[0])

def format_apa_authors(author_field):
    if pd.isna(author_field):
        return ""
    parts = [a.strip() for a in str(author_field).split(';')]
    out = []
    for a in parts:
        if ',' in a:
            last, first = a.split(',', 1)
            initials = ' '.join(f"{n[0]}." for n in first.split())
            out.append(f"{last.strip()}, {initials}")
        else:
            out.append(a)
    if len(out) == 1:
        return out[0]
    if len(out) == 2:
        return f"{out[0]} & {out[1]}"
    return f"{', '.join(out[:-1])}, & {out[-1]}"

# ------------------------------------------------------------
# Core routine
# ------------------------------------------------------------

def extract_citations_and_merge_zotero(text_file, zotero_csv, output_md):
    # 1) Leer borrador
    draft = Path(text_file).read_text(encoding="utf-8")

    # 2) Extraer todas las cadenas "(Autor, 2024)" en orden
    raw_groups = re.findall(r'\(([^()]+?)\)', draft)
    in_text_citations = []
    for grp in raw_groups:
        for part in re.split(r';\s*', grp):
            m = re.match(r'(.+?),\s*(\d{4})$', part.strip())
            if m:
                in_text_citations.append((m.group(1).strip(), m.group(2)))

    # 3) Posiciones de cada cita en el texto (1-based)
    cites_by_pair = {}
    for idx, (auth, yr) in enumerate(in_text_citations, 1):
        cites_by_pair.setdefault((auth, yr), []).append(idx)

    # 4) Cargar CSV de Zotero
    z = pd.read_csv(zotero_csv, encoding="utf-8")
    z['NormAuthor'] = z['Author'].apply(normalize_author)
    z['Year']       = z['Publication Year'].astype(str).str.extract(r'(\d{4})')
    z['DateAdded']  = pd.to_datetime(z['Date Added'], errors='coerce')

    lookup = {}
    for _, row in z.iterrows():
        lookup.setdefault((row['NormAuthor'], row['Year']), []).append(row)
    for key in lookup:
        lookup[key].sort(key=lambda r: r['DateAdded'])  # más reciente al final

    # 5) Construir listas de salida
    outputs_md, outputs_html = [], []
    use_counter = {}

    for (raw_auth, yr), pos_list in sorted(cites_by_pair.items(), key=lambda x: x[1][0]):

        norm_raw = normalize_name(raw_auth)
        m_etal   = re.match(r'(.+?)\s+et al\.?', raw_auth, flags=re.I)
        simp     = normalize_name(
            m_etal.group(1) if m_etal else
            raw_auth.split('&')[0] if '&' in raw_auth else
            raw_auth
        )

        keys = ((norm_raw, yr), (simp, yr))
        cand  = None
        for k in keys:
            if k in lookup:
                cand, key_use = lookup[k], k
                break
        if cand is None:
            for (a, y), rows in lookup.items():
                if y == yr and (simp in a or a in simp):
                    cand, key_use = rows, (a, y)
                    break

        # 6) Generar líneas según el caso
        if not cand:  # ---------- NO ENCONTRADO
            sup_md, sup_ht = f"**{to_superscript(pos_list)}**", supers_html(pos_list)
            line_md  = f"{sup_md} {raw_auth}, {yr} — NOT FOUND"
            line_htm = f"{sup_ht} {raw_auth}, {yr} — NOT FOUND"
            outputs_md.append(line_md)
            outputs_html.append(line_htm)

        elif len(cand) == 1:  # ---------- Única coincidencia
            item = cand[0]
            sup_md, sup_ht = f"**{to_superscript(pos_list)}**", supers_html(pos_list)
            apa   = format_apa_authors(item['Author'])
            title = item['Title']
            url   = item.get('Url', '')
            url_part = f" <{url}>" if url else ""
            line_md  = f"{sup_md} {apa} ({yr}). *{title}*.{url_part}"
            line_htm = f"{sup_ht} {apa} ({yr}). <em>{title}</em>.{url_part}"
            outputs_md.append(line_md)
            outputs_html.append(line_htm)

        else:  # ---------- Múltiples filas (misma cita varias veces)
            for pos in pos_list:
                count = use_counter.get(key_use, 0)
                item  = cand[count] if count < len(cand) else cand[-1]
                use_counter[key_use] = count + 1

                sup_md, sup_ht = f"**{to_superscript([pos])}**", supers_html([pos])
                apa   = format_apa_authors(item['Author'])
                title = item['Title']
                url   = item.get('Url', '')
                url_part = f" <{url}>" if url else ""
                line_md  = f"{sup_md} {apa} ({yr}). *{title}*.{url_part}"
                line_htm = f"{sup_ht} {apa} ({yr}). <em>{title}</em>.{url_part}"
                outputs_md.append(line_md)
                outputs_html.append(line_htm)

    # 7) Escribir citations.md
    Path(output_md).write_text("\n".join(outputs_md), encoding="utf-8")

    # 8) Escribir citations.html (cada línea → <p>)
    html_body = "\n\n".join(outputs_html)
    html_file = Path(output_md).with_suffix(".html")
    html_text = markdown.markdown(html_body, extensions=["fenced_code", "tables"], output_format="html5")
    html_file.write_text(html_text, encoding="utf-8")

    print("✓ Markdown written →", output_md)
    print("✓ HTML written     →", html_file)

# ------------------------------------------------------------
# Entry-point
# ------------------------------------------------------------

if __name__ == "__main__":
    os.chdir(os.path.dirname(os.path.abspath(sys.argv[0])))
    extract_citations_and_merge_zotero(
        text_file  = "draft.txt",
        zotero_csv = "zotero.csv",
        output_md  = "citations.md",
    )

Overwriting citation_extractor.py


In [19]:
# ---------------------------------------------
# 4. Correr código
# ---------------------------------------------
!python citation_extractor.py

✓ Markdown written → citations.md
✓ HTML written     → citations.html


In [20]:
# ---------------------------------------------
# 5. Descargar
# ---------------------------------------------
from google.colab import files

files.download("citations.md")
files.download("citations.html")
print("📥  ¡Descargas listas! Revisa tu carpeta de descargas.")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

📥  ¡Descargas listas! Revisa tu carpeta de descargas.
