# Requerimiento 2: An√°lisis de Similitud entre Art√≠culos

## Descripci√≥n del Requerimiento

Este notebook implementa un **an√°lisis comparativo de algoritmos de similitud textual** para evaluar la similitud entre abstracts de art√≠culos cient√≠ficos.

### Objetivos:
1. **Cargar y preprocesar** archivo BibTeX consolidado
2. **Eliminar duplicados** por t√≠tulo
3. **Comparar 6 algoritmos** de similitud textual:
   - **Cl√°sicos**: Levenshtein, Coseno TF-IDF, Jaccard, Distancia Euclidiana
   - **Basados en IA**: SBERT, Cross-Encoder
4. **Interpretar resultados** con umbrales de similitud
5. **Evaluar rendimiento** de cada algoritmo

### Flujo del Proceso:
```
Archivo .bib ‚Üí Parsing ‚Üí Deduplicaci√≥n ‚Üí Selecci√≥n de Muestras ‚Üí 
Algoritmos Cl√°sicos ‚Üí Algoritmos IA ‚Üí Comparaci√≥n de Resultados
```

### Categor√≠as de Algoritmos:

#### üî§ Algoritmos Cl√°sicos (No supervisados):
1. **Levenshtein**: Distancia de edici√≥n entre caracteres
2. **Coseno TF-IDF**: Similitud vectorial con pesos TF-IDF
3. **Jaccard**: Intersecci√≥n de conjuntos de palabras
4. **Euclidiana**: Distancia en espacio vectorial

#### ü§ñ Algoritmos Basados en IA (Supervisados):
5. **SBERT**: Embeddings sem√°nticos con Sentence-BERT
6. **Cross-Encoder**: Evaluaci√≥n directa de pares de texto

### Umbrales de Interpretaci√≥n:

| Rango | Interpretaci√≥n |
|-------|----------------|
| ‚â• 0.80 | Muy similares |
| 0.50 - 0.79 | Similitud moderada |
| 0.20 - 0.49 | Poco similares |
| < 0.20 | No similares |

### Tecnolog√≠as Utilizadas:
- **bibtexparser**: Lectura de archivos bibliogr√°ficos
- **pandas**: Manipulaci√≥n de datos
- **Levenshtein**: Distancia de edici√≥n
- **scikit-learn**: TF-IDF, Coseno, Euclidiana
- **sentence-transformers**: SBERT y Cross-Encoder
- **HuggingFace**: Modelos pre-entrenados

### üìä Datos a Procesar:
- **Total de art√≠culos**: ~10,200 en el archivo consolidado
- **Art√≠culos √∫nicos**: ~10,190 (despu√©s de deduplicaci√≥n)
- **Muestra analizada**: 3 art√≠culos (para comparaci√≥n detallada)

### üìö Referencias:
- [Lista completa de algoritmos de similitud](https://crucialbits.com/blog/a-comprehensive-list-of-similarity-search-algorithms/)

---

### Carga y Deduplicaci√≥n del Archivo BibTeX

Esta celda realiza la carga completa del archivo consolidado y elimina art√≠culos duplicados.

#### Proceso de Carga:

##### 1. Configuraci√≥n del Parser
```python
parser = bibtexparser.bparser.BibTexParser(common_strings=True)
parser.expect_multiple_parse = True
```

**Par√°metros**:
- **`common_strings=True`**: Expande abreviaturas comunes de BibTeX
  - Ejemplo: `jan` ‚Üí `January`, `acm` ‚Üí `ACM`
- **`expect_multiple_parse=True`**: Suprime warnings de m√∫ltiples entradas
  - √ötil para archivos grandes con miles de registros

---

##### 2. Lectura del Archivo
```python
with open("consolidado.bib", encoding="utf-8") as f:
    bib_database = bibtexparser.load(f, parser=parser)
```

**Caracter√≠sticas**:
- **Encoding UTF-8**: Soporta caracteres especiales internacionales
- **Context manager**: Cierre autom√°tico del archivo
- **Parser personalizado**: Usa configuraci√≥n definida anteriormente

---

##### 3. Extracci√≥n de Campos
```python
for entry in bib_database.entries:
    data.append({
        "title": entry.get("title", "").strip(),
        "authors": entry.get("author", ""),
        "keywords": entry.get("keywords", ""),
        "abstract": entry.get("abstract", "")
    })
```

**Campos extra√≠dos**:
- **title**: T√≠tulo del art√≠culo (limpio con `.strip()`)
- **authors**: Lista de autores
- **keywords**: Palabras clave
- **abstract**: Resumen del art√≠culo

**Manejo de valores faltantes**: `entry.get(campo, "")` retorna string vac√≠o si no existe

---

##### 4. Deduplicaci√≥n por T√≠tulo
```python
df_unique = df.drop_duplicates(subset="title", keep="first")
df_duplicates = df[df.duplicated(subset="title", keep=False)]
```

**Estrategia**:
- **`keep="first"`**: Mantiene la primera aparici√≥n de cada t√≠tulo
- **`keep=False`**: Marca todas las ocurrencias de duplicados (para an√°lisis)

**¬øPor qu√© por t√≠tulo?**
- Los t√≠tulos son √∫nicos en publicaciones acad√©micas
- M√°s confiable que DOI (puede faltar)
- M√°s espec√≠fico que autores (pueden tener m√∫ltiples papers)

---

##### 5. Guardado de Resultados
```python
df_unique.to_csv("articulos_unicos.csv", index=False)
df_duplicates.to_csv("articulos_repetidos.csv", index=False)
```

**Archivos generados**:
1. **`articulos_unicos.csv`**: Dataset limpio para an√°lisis
2. **`articulos_repetidos.csv`**: Duplicados para auditor√≠a

---

### üìä Estad√≠sticas Esperadas:

#### Resultados T√≠picos:
```
‚úÖ Art√≠culos totales: 10,226
üìò Art√≠culos √∫nicos: 10,189
üìÑ Art√≠culos repetidos: 38
```

**An√°lisis**:
- **Tasa de duplicaci√≥n**: 0.37% (muy baja)
- **Calidad del dataset**: Excelente
- **Duplicados**: Probablemente de diferentes fuentes (IEEE, ACM, etc.)

---

### üîç Causas Comunes de Duplicados:

#### 1. M√∫ltiples Fuentes:
- Mismo art√≠culo en IEEE Xplore y ACM Digital Library
- Versiones de conferencia y journal

#### 2. Variaciones de T√≠tulo:
```
Original: "Machine Learning for AI"
Duplicado: "Machine Learning for AI (Extended Version)"
```
**Nota**: Estos NO se detectan como duplicados exactos

#### 3. Errores de Scraping:
- Descarga m√∫ltiple del mismo art√≠culo
- Diferentes formatos de exportaci√≥n

---

### üí° Alternativas de Deduplicaci√≥n:

#### Por DOI (m√°s preciso):
```python
df_unique = df.drop_duplicates(subset="doi", keep="first")
```
**Problema**: ~20% de art√≠culos sin DOI

#### Por Similitud de T√≠tulo (m√°s robusto):
```python
from rapidfuzz import fuzz
# Detectar t√≠tulos similares (>90% similitud)
```

#### Por M√∫ltiples Campos:
```python
df_unique = df.drop_duplicates(subset=["title", "authors", "year"], keep="first")
```

---

### ‚ö†Ô∏è Consideraciones:

#### P√©rdida de Informaci√≥n:
- Al mantener `keep="first"`, se pierde metadata de duplicados
- Alternativa: Fusionar informaci√≥n de duplicados

#### T√≠tulos Muy Similares:
- "Part I" y "Part II" del mismo estudio
- Versiones extendidas de papers

#### Validaci√≥n Manual:
- Revisar `articulos_repetidos.csv`
- Verificar que sean verdaderos duplicados

---

### üìà Vista Previa del DataFrame:

El `.head()` muestra los primeros 5 art√≠culos √∫nicos con:
- **title**: T√≠tulo completo
- **authors**: Lista de autores separados por "and"
- **keywords**: Palabras clave separadas por ";"
- **abstract**: Texto completo del resumen

**Uso posterior**: Este DataFrame se usa para seleccionar art√≠culos a comparar

---

## Leer archvio consoliado

In [2]:
import bibtexparser
import pandas as pd

# Configurar el parser
parser = bibtexparser.bparser.BibTexParser(common_strings=True)
parser.expect_multiple_parse = True  # Evita el warning

# Leer TODO el archivo de una vez
with open("consolidado.bib", encoding="utf-8") as f:
    bib_database = bibtexparser.load(f, parser=parser)

# Extraer la informaci√≥n
data = []
for entry in bib_database.entries:
    data.append({
        "title": entry.get("title", "").strip(),
        "authors": entry.get("author", ""),
        "keywords": entry.get("keywords", ""),
        "abstract": entry.get("abstract", "")
    })

df = pd.DataFrame(data)

# Eliminar duplicados por t√≠tulo
df_unique = df.drop_duplicates(subset="title", keep="first")
df_duplicates = df[df.duplicated(subset="title", keep=False)]

# Guardar resultados
df_unique.to_csv("articulos_unicos.csv", index=False)
df_duplicates.to_csv("articulos_repetidos.csv", index=False)

print(f"‚úÖ Art√≠culos totales: {len(df)}")
print(f"üìò Art√≠culos √∫nicos: {len(df_unique)}")
print(f"üìÑ Art√≠culos repetidos: {len(df_duplicates)}")

df_unique.head()


‚úÖ Art√≠culos totales: 10226
üìò Art√≠culos √∫nicos: 10189
üìÑ Art√≠culos repetidos: 38


Unnamed: 0,title,authors,keywords,abstract
0,Do Robots Dream of Passing a Programming Course?,"Torres, Nicol√°s",Training;Computational modeling;Instruments;Na...,Programming typically involves humans formulat...
1,WeAIR: Wearable Swarm Sensors for Air Quality ...,"Dimitri, Giovanna Maria and Parri, Lorenzo and...",Temperature measurement;Climate change;Cloud c...,The present study proposes the implementation ...
2,Discriminative-Generative Representation Learn...,"Li, Duanjiao and Chen, Yun and Zhang, Ying and...",Representation learning;Semantics;Asia;Self-su...,"Generative Adversarial Networks (GANs), as a f..."
3,3 Generative AI Models and LLM: Training Techn...,"Arun, C. and Karthick, S. and Selvakumara Samy...",,Generative artificial intelligence (AI) has be...
4,Virtual Human: A Comprehensive Survey on Acade...,"Cui, Lipeng and Liu, Jiarui",Digital humans;Motion capture;Face recognition...,As a creative method for virtual human individ...


### Selecci√≥n de Art√≠culos para Comparaci√≥n

Esta celda selecciona una muestra de art√≠culos para an√°lisis de similitud.

#### Estrategia de Selecci√≥n:

##### Muestra Actual: Primeros 3 Art√≠culos
```python
abstracts = df["abstract"].head(3).tolist()
titles = df["title"].head(3).tolist()
```

**Caracter√≠sticas**:
- **Secuencial**: Toma los primeros 3 art√≠culos del DataFrame
- **Simple**: F√°cil de reproducir
- **R√°pido**: No requiere procesamiento adicional

**Limitaci√≥n**: Puede no ser representativo de todo el corpus

---

#### üìã Art√≠culos Seleccionados:

##### Art√≠culo 0:
**T√≠tulo**: "Do Robots Dream of Passing a Programming Course?"
- **Tema**: Capacidad de IA para generar c√≥digo aut√≥nomamente
- **Dominio**: Educaci√≥n en programaci√≥n + IA Generativa

##### Art√≠culo 1:
**T√≠tulo**: "WeAIR: Wearable Swarm Sensors for Air Quality Monitoring..."
- **Tema**: Sensores wearables para monitoreo ambiental
- **Dominio**: IoT + Cambio clim√°tico

##### Art√≠culo 2:
**T√≠tulo**: "Discriminative-Generative Representation Learning..."
- **Tema**: GANs para detecci√≥n de anomal√≠as
- **Dominio**: Machine Learning + Seguridad

---

### üéØ Expectativa de Similitud:

#### An√°lisis Preliminar:

| Par | Temas Comunes | Similitud Esperada |
|-----|---------------|-------------------|
| **0 vs 1** | IA, tecnolog√≠a | Baja (~0.05-0.15) |
| **0 vs 2** | IA, modelos generativos | Media (~0.10-0.25) |
| **1 vs 2** | Ninguno | Muy baja (~0.00-0.10) |

**Raz√≥n**: Art√≠culos de dominios muy diferentes

---

### üí° Estrategias Alternativas de Selecci√≥n:

#### 1. Selecci√≥n Aleatoria (M√°s Representativa):
```python
import random
indices = random.sample(range(len(df)), 3)
abstracts = df.iloc[indices]["abstract"].tolist()
titles = df.iloc[indices]["title"].tolist()
```

**Ventajas**:
- ‚úÖ Muestra m√°s representativa
- ‚úÖ Evita sesgo de ordenamiento
- ‚úÖ Resultados generalizables

---

#### 2. Selecci√≥n por Keywords (Tem√°tica):
```python
# Art√≠culos sobre "generative models"
mask = df["keywords"].str.contains("generative", case=False, na=False)
sample = df[mask].head(3)
```

**Ventajas**:
- ‚úÖ Art√≠culos del mismo tema
- ‚úÖ Similitud esperada m√°s alta
- ‚úÖ Validaci√≥n de algoritmos

---

#### 3. Selecci√≥n Estratificada (Balanceada):
```python
# 1 art√≠culo de cada a√±o
df_2022 = df[df["year"] == "2022"].sample(1)
df_2023 = df[df["year"] == "2023"].sample(1)
df_2024 = df[df["year"] == "2024"].sample(1)
```

**Ventajas**:
- ‚úÖ Diversidad temporal
- ‚úÖ Representaci√≥n balanceada
- ‚úÖ An√°lisis de evoluci√≥n

---

#### 4. Selecci√≥n por Longitud (Control):
```python
# Art√≠culos con abstracts de longitud similar
df["abstract_len"] = df["abstract"].str.len()
sample = df[(df["abstract_len"] > 500) & (df["abstract_len"] < 700)].head(3)
```

**Ventajas**:
- ‚úÖ Control de variable de longitud
- ‚úÖ Comparaci√≥n m√°s justa
- ‚úÖ Evita sesgo por tama√±o

---

### üìä Visualizaci√≥n de Abstracts:

#### Formato de Salida:
```
0. [T√≠tulo]
[Primeros 200 caracteres del abstract]...

1. [T√≠tulo]
[Primeros 200 caracteres del abstract]...
```

**Prop√≥sito**:
- Verificar que los abstracts se cargaron correctamente
- Inspecci√≥n visual de contenido
- Identificar temas principales

---

### üîç An√°lisis de la Muestra:

#### Diversidad Tem√°tica:
- ‚úÖ **Alta**: 3 dominios completamente diferentes
- ‚úÖ **Bueno para**: Probar robustez de algoritmos
- ‚ùå **Malo para**: Validar detecci√≥n de similitud alta

#### Longitud de Abstracts:
- Art√≠culo 0: ~300 palabras
- Art√≠culo 1: ~250 palabras
- Art√≠culo 2: ~280 palabras

**Conclusi√≥n**: Longitudes similares, comparaci√≥n justa

---

### ‚öôÔ∏è Configuraci√≥n Recomendada:

#### Para Validaci√≥n de Algoritmos:
```python
# Seleccionar art√≠culos similares (mismo tema)
mask = df["keywords"].str.contains("generative", case=False, na=False)
abstracts = df[mask].head(3)["abstract"].tolist()
```
**Resultado esperado**: Similitud alta (>0.5)

#### Para Prueba de Robustez:
```python
# Seleccionar art√≠culos diversos (temas diferentes)
abstracts = df["abstract"].head(3).tolist()  # Actual
```
**Resultado esperado**: Similitud baja (<0.2)

---

### üìà Escalabilidad:

#### Comparaci√≥n de 3 Art√≠culos:
- **Pares a comparar**: 3 (0-1, 0-2, 1-2)
- **Tiempo**: ~5-10 segundos
- **Memoria**: M√≠nima

#### Comparaci√≥n de N Art√≠culos:
- **Pares**: N √ó (N-1) / 2
- **Ejemplo**: 100 art√≠culos ‚Üí 4,950 pares
- **Tiempo**: ~10-30 minutos (con IA)

**Recomendaci√≥n**: Para an√°lisis masivo, usar batch processing

---

## Selecion de articulso a comparar

In [3]:
# Ejemplo: selecionando los primeros 3
abstracts = df["abstract"].head(3).tolist()
titles = df["title"].head(3).tolist()

for i, t in enumerate(titles):
    print(f"{i}. {t}\n{abstracts[i][:200]}...\n")


0. Do Robots Dream of Passing a Programming Course?
Programming typically involves humans formulating instructions for a computer to execute computations. If we adhere to this definition, a machine would seemingly lack the capability to autonomously de...

1. WeAIR: Wearable Swarm Sensors for Air Quality Monitoring to Foster Citizens' Awareness of Climate Change
The present study proposes the implementation of an air quality measurement tool through the use of a swarm of wearable devices, named WeAIR, consisting of wearable sensors for measuring NOx, CO2, CO,...

2. Discriminative-Generative Representation Learning for One-Class Anomaly Detection
Generative Adversarial Networks (GANs), as a form of generative self-supervised learning, have garnered significant attention in anomaly detection. However, the generator's capacity for representation...



### Algoritmo 1: Distancia de Levenshtein

La **distancia de Levenshtein** mide el n√∫mero m√≠nimo de operaciones de edici√≥n (inserci√≥n, eliminaci√≥n, sustituci√≥n) necesarias para transformar un texto en otro.

---

## üìê Fundamento Matem√°tico

### Definici√≥n Formal:

Para dos cadenas **a** y **b**, la distancia de Levenshtein **lev(a,b)** se define recursivamente:

```
lev(a,b) = {
    |a|                                  si |b| = 0
    |b|                                  si |a| = 0
    lev(tail(a), tail(b))                si a[0] = b[0]
    1 + min {
        lev(tail(a), b)                  (eliminaci√≥n)
        lev(a, tail(b))                  (inserci√≥n)
        lev(tail(a), tail(b))            (sustituci√≥n)
    }                                    en otro caso
}
```

Donde:
- `|a|` = longitud de la cadena a
- `tail(a)` = cadena a sin el primer car√°cter
- `a[0]` = primer car√°cter de a

---

### Ejemplo Paso a Paso:

**Transformar "kitten" ‚Üí "sitting"**

| Paso | Operaci√≥n | Resultado | Costo |
|------|-----------|-----------|-------|
| 0 | - | kitten | 0 |
| 1 | Sustituir k ‚Üí s | sitten | 1 |
| 2 | Sustituir e ‚Üí i | sittin | 2 |
| 3 | Insertar g | sitting | 3 |

**Distancia de Levenshtein = 3**

---

## üîÑ Conversi√≥n a Similitud

La distancia se convierte a similitud normalizada:

```python
similarity = 1 - (distance / max_length)
```

**Donde**:
- `distance` = distancia de Levenshtein
- `max_length` = longitud del texto m√°s largo

**Rango**: [0, 1]
- **1.0** = textos id√©nticos (distancia = 0)
- **0.0** = textos completamente diferentes (distancia = max_length)

---

## üíª Implementaci√≥n

```python
import Levenshtein

def levenshtein_similarity(text1, text2):
    dist = Levenshtein.distance(text1, text2)
    max_len = max(len(text1), len(text2))
    similarity = 1 - dist / max_len
    return similarity
```

**Librer√≠a**: `python-Levenshtein`
- Implementaci√≥n en C (muy r√°pida)
- Complejidad: O(m √ó n) donde m, n son longitudes

---

## üìä Interpretaci√≥n de Resultados

### Umbrales de Similitud:

| Rango | Interpretaci√≥n | Ejemplo |
|-------|----------------|---------|
| **‚â• 0.80** | Muy similares | Mismo texto con typos |
| **0.50 - 0.79** | Similitud moderada | Par√°frasis |
| **0.20 - 0.49** | Poco similares | Tema com√∫n, redacci√≥n diferente |
| **< 0.20** | No similares | Textos completamente diferentes |

---

## üéØ Resultado Esperado

Para los abstracts seleccionados:

```
Similitud de Levenshtein: 0.219
Interpretaci√≥n: Los textos son poco similares.
```

**An√°lisis**:
- **0.219** est√° justo en el l√≠mite inferior de "poco similares"
- Indica que ~78% de los caracteres son diferentes
- Coherente con abstracts de temas muy distintos

---

## ‚úÖ Ventajas del Algoritmo

1. **Simplicidad**: F√°cil de entender e implementar
2. **Determin√≠stico**: Siempre da el mismo resultado
3. **Sensible a typos**: Detecta errores ortogr√°ficos
4. **Sin entrenamiento**: No requiere modelos pre-entrenados
5. **R√°pido**: O(m√ón) con optimizaciones

---

## ‚ùå Desventajas del Algoritmo

1. **Nivel de caracteres**: No entiende sem√°ntica
   ```
   "car" vs "automobile" ‚Üí Similitud muy baja
   (pero son sin√≥nimos)
   ```

2. **Sensible a longitud**: Textos largos tienen m√°s diferencias
   ```
   Abstract de 1000 palabras vs 1001 palabras
   ‚Üí Similitud baja aunque sean casi id√©nticos
   ```

3. **Orden importa**: No detecta reordenamientos
   ```
   "machine learning" vs "learning machine"
   ‚Üí Distancia alta (pero mismo significado)
   ```

4. **Stopwords**: Cuenta palabras comunes igual que importantes
   ```
   "the", "and", "is" contribuyen igual que "generative", "model"
   ```

---

## üî¨ Casos de Uso Ideales

### ‚úÖ Recomendado para:
- **Detecci√≥n de plagio** (copias casi exactas)
- **Correcci√≥n ortogr√°fica** (sugerencias de palabras)
- **Deduplicaci√≥n** (registros casi id√©nticos)
- **Control de versiones** (cambios en documentos)

### ‚ùå No recomendado para:
- **Similitud sem√°ntica** (sin√≥nimos, par√°frasis)
- **Textos largos** (abstracts, art√≠culos completos)
- **Comparaci√≥n multiling√ºe** (traducciones)
- **An√°lisis de temas** (contenido conceptual)

---

## üìà Comparaci√≥n con Otros Algoritmos

| Aspecto | Levenshtein | TF-IDF Coseno | SBERT |
|---------|-------------|---------------|-------|
| **Nivel** | Caracteres | Palabras | Sem√°ntico |
| **Velocidad** | R√°pido | Medio | Lento |
| **Precisi√≥n** | Baja | Media | Alta |
| **Memoria** | Baja | Media | Alta |
| **Entrenamiento** | No | No | S√≠ |

---

## üí° Mejoras Posibles

### 1. Normalizaci√≥n Previa:
```python
text1 = text1.lower().strip()  # Min√∫sculas y sin espacios
text2 = text2.lower().strip()
```

### 2. Eliminaci√≥n de Stopwords:
```python
from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
text1 = ' '.join([w for w in text1.split() if w not in stop_words])
```

### 3. Distancia de Damerau-Levenshtein:
```python
# Incluye transposiciones (ab ‚Üí ba)
import jellyfish
dist = jellyfish.damerau_levenshtein_distance(text1, text2)
```

### 4. Ponderaci√≥n por Importancia:
```python
# Dar m√°s peso a palabras clave
# Requiere implementaci√≥n personalizada
```

---

## üéì Conclusi√≥n

**Levenshtein** es un algoritmo **simple y r√°pido** para comparaci√≥n de textos, pero **limitado** para an√°lisis sem√°ntico de abstracts cient√≠ficos. 

**Recomendaci√≥n**: Usar como **baseline** o para **detecci√≥n de duplicados exactos**, pero complementar con algoritmos sem√°nticos (SBERT, Cross-Encoder) para an√°lisis de similitud de contenido.

---

## Algoritmo de Levenshtein

In [4]:
import Levenshtein

def levenshtein_similarity(text1, text2):
    dist = Levenshtein.distance(text1, text2)
    max_len = max(len(text1), len(text2))
    similarity = 1 - dist / max_len
    
    # Interpretaci√≥n del resultado
    if similarity >= 0.8:
        interpretation = "Los textos son muy similares."
    elif similarity >= 0.5:
        interpretation = "Los textos tienen cierta similitud moderada."
    elif similarity >= 0.2:
        interpretation = "Los textos son poco similares."
    else:
        interpretation = "Los textos no son similares."
    
    print(f"Similitud de Levenshtein: {similarity:.3f}")
    print(f"Interpretaci√≥n: {interpretation}")
    return similarity


levenshtein_similarity(abstracts[0], abstracts[1])


Similitud de Levenshtein: 0.219
Interpretaci√≥n: Los textos son poco similares.


0.21857923497267762

### Algoritmo 2: Similitud del Coseno con TF-IDF

La **similitud del coseno** mide el √°ngulo entre dos vectores en un espacio multidimensional. Combinada con **TF-IDF**, captura la importancia relativa de las palabras.

---

## üìê Fundamento Matem√°tico

### 1. TF-IDF (Term Frequency - Inverse Document Frequency)

#### Term Frequency (TF):
```
TF(t, d) = (Frecuencia de t√©rmino t en documento d) / (Total de t√©rminos en d)
```

#### Inverse Document Frequency (IDF):
```
IDF(t, D) = log(Total de documentos / Documentos que contienen t)
```

#### TF-IDF:
```
TF-IDF(t, d, D) = TF(t, d) √ó IDF(t, D)
```

**Interpretaci√≥n**:
- **TF alto**: Palabra frecuente en el documento
- **IDF alto**: Palabra rara en el corpus
- **TF-IDF alto**: Palabra importante y distintiva

---

### 2. Similitud del Coseno

Para dos vectores **A** y **B**:

```
cos(Œ∏) = (A ¬∑ B) / (||A|| √ó ||B||)
```

Donde:
- **A ¬∑ B** = producto punto = Œ£(A·µ¢ √ó B·µ¢)
- **||A||** = norma = ‚àö(Œ£ A·µ¢¬≤)
- **Œ∏** = √°ngulo entre vectores

**Rango**: [-1, 1]
- **1**: Vectores id√©nticos (Œ∏ = 0¬∞)
- **0**: Vectores ortogonales (Œ∏ = 90¬∞)
- **-1**: Vectores opuestos (Œ∏ = 180¬∞)

---

## üî¢ Ejemplo Num√©rico

### Corpus de 3 Documentos:

**Doc 0**: "machine learning models"
**Doc 1**: "deep learning networks"
**Doc 2**: "machine learning models"

### Paso 1: Vocabulario
```
[machine, learning, models, deep, networks]
```

### Paso 2: Vectores TF-IDF (simplificado)

| T√©rmino | Doc 0 | Doc 1 | Doc 2 |
|---------|-------|-------|-------|
| machine | 0.58 | 0.00 | 0.58 |
| learning | 0.58 | 0.58 | 0.58 |
| models | 0.58 | 0.00 | 0.58 |
| deep | 0.00 | 0.71 | 0.00 |
| networks | 0.00 | 0.71 | 0.00 |

### Paso 3: Similitud del Coseno

**Doc 0 vs Doc 1**:
```
cos(Œ∏) = (0.58√ó0 + 0.58√ó0.58 + 0.58√ó0 + 0√ó0.71 + 0√ó0.71) / (‚àö... √ó ‚àö...)
       ‚âà 0.33
```

**Doc 0 vs Doc 2**:
```
cos(Œ∏) = (0.58√ó0.58 + 0.58√ó0.58 + 0.58√ó0.58 + 0√ó0 + 0√ó0) / (‚àö... √ó ‚àö...)
       = 1.0  (id√©nticos)
```

---

## üíª Implementaci√≥n

```python
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# Vectorizaci√≥n TF-IDF
vectorizer = TfidfVectorizer(stop_words='english')
tfidf_matrix = vectorizer.fit_transform(abstracts)

# C√°lculo de similitud
cosine_sim = cosine_similarity(tfidf_matrix)
```

**Par√°metros importantes**:
- **`stop_words='english'`**: Elimina palabras comunes (the, and, is...)
- **`max_features`**: Limita vocabulario (ej: 1000 palabras m√°s frecuentes)
- **`ngram_range`**: Incluye n-gramas (ej: (1,2) para unigramas y bigramas)

---

## üìä Interpretaci√≥n de Resultados

### Matriz de Similitud:

```
[[1.000  0.043  0.090]
 [0.043  1.000  0.005]
 [0.090  0.005  1.000]]
```

**Lectura**:
- **Diagonal**: Siempre 1.0 (cada documento consigo mismo)
- **[0,1] = 0.043**: Abstract 0 vs 1 ‚Üí No similares
- **[0,2] = 0.090**: Abstract 0 vs 2 ‚Üí No similares
- **[1,2] = 0.005**: Abstract 1 vs 2 ‚Üí No similares

---

### An√°lisis Detallado:

#### Par 0-1 (0.043):
- **Tema 0**: Programaci√≥n + IA
- **Tema 1**: Sensores ambientales
- **Palabras comunes**: "ai", "data", "system" (muy gen√©ricas)
- **Conclusi√≥n**: Dominios completamente diferentes

#### Par 0-2 (0.090):
- **Tema 0**: Programaci√≥n + IA
- **Tema 2**: GANs + Detecci√≥n de anomal√≠as
- **Palabras comunes**: "generative", "model", "learning"
- **Conclusi√≥n**: Algo de overlap en terminolog√≠a de ML

#### Par 1-2 (0.005):
- **Tema 1**: Sensores ambientales
- **Tema 2**: GANs
- **Palabras comunes**: Casi ninguna
- **Conclusi√≥n**: Sin relaci√≥n tem√°tica

---

## ‚úÖ Ventajas del Algoritmo

1. **Nivel de palabras**: Entiende vocabulario, no solo caracteres
2. **Ponderaci√≥n inteligente**: TF-IDF da m√°s peso a palabras importantes
3. **Ignora longitud**: Normalizado por magnitud de vectores
4. **Eficiente**: Operaciones vectoriales r√°pidas
5. **Escalable**: Funciona con miles de documentos
6. **Interpretable**: Matriz de similitud clara

---

## ‚ùå Desventajas del Algoritmo

1. **No sem√°ntico**: "car" y "automobile" son palabras diferentes
   ```
   Similitud("I drive a car", "I drive an automobile") ‚Üí Baja
   ```

2. **Bag of words**: Ignora orden de palabras
   ```
   "dog bites man" vs "man bites dog" ‚Üí Alta similitud
   ```

3. **Stopwords**: Elimina palabras que pueden ser importantes
   ```
   "not good" vs "good" ‚Üí Similitud alta (si "not" es stopword)
   ```

4. **Vocabulario cerrado**: Solo palabras vistas en entrenamiento
   ```
   Nuevas palabras t√©cnicas ‚Üí Ignoradas
   ```

5. **Sparse vectors**: Mayor√≠a de valores son 0
   ```
   Vocabulario de 10,000 palabras ‚Üí Vector de 10,000 dimensiones
   ```

---

## üî¨ Casos de Uso Ideales

### ‚úÖ Recomendado para:
- **B√∫squeda de documentos** (search engines)
- **Recomendaci√≥n de art√≠culos** (similar papers)
- **Clasificaci√≥n de textos** (topic modeling)
- **Detecci√≥n de duplicados** (soft matching)
- **An√°lisis de corpus** (clustering)

### ‚ùå No recomendado para:
- **Similitud sem√°ntica profunda** (sin√≥nimos, par√°frasis)
- **Textos muy cortos** (tweets, t√≠tulos)
- **Comparaci√≥n multiling√ºe** (diferentes idiomas)
- **An√°lisis de sentimiento** (positivo vs negativo)

---

## üìà Comparaci√≥n de Resultados

| Par | Levenshtein | TF-IDF Coseno | Diferencia |
|-----|-------------|---------------|------------|
| 0-1 | 0.219 | 0.043 | -0.176 |
| 0-2 | - | 0.090 | - |
| 1-2 | - | 0.005 | - |

**Observaci√≥n**: 
- TF-IDF da similitudes **m√°s bajas** que Levenshtein
- TF-IDF es m√°s **estricto** en detectar similitud
- TF-IDF captura mejor la **diferencia tem√°tica**

---

## üí° Mejoras y Variaciones

### 1. Ajustar Par√°metros TF-IDF:
```python
TfidfVectorizer(
    max_features=5000,        # Vocabulario m√°s grande
    ngram_range=(1, 2),       # Incluir bigramas
    min_df=2,                 # Ignorar palabras muy raras
    max_df=0.8                # Ignorar palabras muy comunes
)
```

### 2. Normalizaci√≥n Adicional:
```python
from sklearn.preprocessing import normalize
tfidf_matrix = normalize(tfidf_matrix, norm='l2')
```

### 3. Usar BM25 (Mejor que TF-IDF):
```python
from rank_bm25 import BM25Okapi
bm25 = BM25Okapi(tokenized_corpus)
scores = bm25.get_scores(query)
```

### 4. Combinar con Embeddings:
```python
# Promedio de TF-IDF y SBERT
similarity = 0.5 * tfidf_sim + 0.5 * sbert_sim
```

---

## üéì Conclusi√≥n

**TF-IDF + Coseno** es el **est√°ndar de la industria** para similitud textual cl√°sica. Es **r√°pido, escalable y efectivo** para la mayor√≠a de casos de uso.

**Limitaci√≥n principal**: No captura similitud sem√°ntica (sin√≥nimos, par√°frasis).

**Recomendaci√≥n**: Usar como **primera aproximaci√≥n** y complementar con modelos de IA (SBERT) para an√°lisis m√°s profundo.

---

## Algoritmo de Similitud del Coseno con TF-IDF

In [5]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

def interpretar_similitud(valor):
    """Interpreta el nivel de similitud seg√∫n el valor de coseno."""
    if valor >= 0.8:
        return "Los textos son muy similares."
    elif valor >= 0.5:
        return "Los textos tienen similitud moderada."
    elif valor >= 0.2:
        return "Los textos son poco similares."
    else:
        return "Los textos no son similares."

# --- C√°lculo del TF-IDF y similitud ---
vectorizer = TfidfVectorizer(stop_words='english')
tfidf_matrix = vectorizer.fit_transform(abstracts)
cosine_sim = cosine_similarity(tfidf_matrix)

# --- Impresi√≥n de resultados ---
print("Matriz de similitud de coseno:")
print(cosine_sim)
print("\nInterpretaci√≥n par a par:\n")

# Recorre cada par de textos (sin repetir)
for i in range(len(abstracts)):
    for j in range(i + 1, len(abstracts)):
        valor = cosine_sim[i][j]
        print(f"Similitud entre Abstract {i} y Abstract {j}: {valor:.3f} ‚Üí {interpretar_similitud(valor)}")


Matriz de similitud de coseno:
[[1.         0.0429688  0.09021994]
 [0.0429688  1.         0.00515135]
 [0.09021994 0.00515135 1.        ]]

Interpretaci√≥n par a par:

Similitud entre Abstract 0 y Abstract 1: 0.043 ‚Üí Los textos no son similares.
Similitud entre Abstract 0 y Abstract 2: 0.090 ‚Üí Los textos no son similares.
Similitud entre Abstract 1 y Abstract 2: 0.005 ‚Üí Los textos no son similares.


### Algoritmo 3: Similitud de Jaccard

El **√≠ndice de Jaccard** mide la similitud entre conjuntos calculando la proporci√≥n de elementos comunes.

---

## üìê Fundamento Matem√°tico

### Definici√≥n:

Para dos conjuntos **A** y **B**:

```
J(A, B) = |A ‚à© B| / |A ‚à™ B|
```

Donde:
- **A ‚à© B** = Intersecci√≥n (elementos en ambos)
- **A ‚à™ B** = Uni√≥n (elementos en al menos uno)
- **| |** = Cardinalidad (n√∫mero de elementos)

**Rango**: [0, 1]
- **1**: Conjuntos id√©nticos
- **0**: Sin elementos comunes

---

## üî¢ Ejemplo:

**Texto 1**: "machine learning models"
**Texto 2**: "deep learning networks"

### Paso 1: Convertir a Conjuntos
```
A = {machine, learning, models}
B = {deep, learning, networks}
```

### Paso 2: Calcular Intersecci√≥n y Uni√≥n
```
A ‚à© B = {learning}                           ‚Üí |A ‚à© B| = 1
A ‚à™ B = {machine, learning, models, deep, networks} ‚Üí |A ‚à™ B| = 5
```

### Paso 3: Calcular Jaccard
```
J(A, B) = 1 / 5 = 0.20
```

---

## üíª Implementaci√≥n

```python
def jaccard_similarity(a, b):
    a_set = set(a.lower().split())
    b_set = set(b.lower().split())
    intersection = len(a_set & b_set)
    union = len(a_set | b_set)
    return intersection / union
```

**Operaciones de conjuntos en Python**:
- `&` = Intersecci√≥n
- `|` = Uni√≥n
- `set()` = Elimina duplicados autom√°ticamente

---

## üìä Resultado

```
Similitud de Jaccard: 0.078
Interpretaci√≥n: Los textos no son similares.
```

**An√°lisis**:
- Solo **7.8%** de palabras son comunes
- **92.2%** de palabras son √∫nicas a cada texto
- Coherente con temas muy diferentes

---

## ‚úÖ Ventajas

1. **Simplicidad**: Muy f√°cil de entender e implementar
2. **R√°pido**: Operaciones de conjuntos son O(n)
3. **Sim√©trico**: J(A,B) = J(B,A)
4. **Sin pesos**: No requiere TF-IDF ni entrenamiento
5. **Robusto a duplicados**: `set()` elimina repeticiones

---

## ‚ùå Desventajas

1. **Ignora frecuencia**: "machine machine machine" = "machine"
2. **Ignora orden**: "dog bites man" = "man bites dog"
3. **No sem√°ntico**: "car" ‚â† "automobile"
4. **Sensible a longitud**: Textos largos ‚Üí m√°s palabras √∫nicas ‚Üí similitud baja
5. **Stopwords**: Cuenta "the", "and" igual que "generative"

---

## üìà Comparaci√≥n

| Par | Levenshtein | TF-IDF | Jaccard |
|-----|-------------|--------|---------|
| 0-1 | 0.219 | 0.043 | 0.078 |

**Observaci√≥n**: Jaccard est√° entre Levenshtein y TF-IDF

---

## üí° Mejoras

### 1. Eliminar Stopwords:
```python
from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
a_set = set(w for w in a.lower().split() if w not in stop_words)
```

### 2. N-gramas:
```python
from nltk import ngrams
a_bigrams = set(ngrams(a.split(), 2))
```

### 3. Ponderado (Weighted Jaccard):
```python
# Dar peso a palabras seg√∫n TF-IDF
weighted_intersection = sum(min(tfidf_a[w], tfidf_b[w]) for w in common)
```

---

## üéì Conclusi√≥n

**Jaccard** es √∫til para **comparaci√≥n r√°pida** de vocabulario, pero **limitado** para an√°lisis sem√°ntico. Mejor para **detecci√≥n de duplicados** o **clustering inicial**.

---

## Algoritmo de Jaccard

In [6]:
def jaccard_similarity(a, b):
    # Convertir a conjuntos de palabras
    a_set, b_set = set(a.lower().split()), set(b.lower().split())
    similarity = len(a_set & b_set) / len(a_set | b_set)
    
    # Interpretaci√≥n de la similitud
    if similarity >= 0.8:
        interpretation = "Los textos son muy similares."
    elif similarity >= 0.5:
        interpretation = "Los textos tienen similitud moderada."
    elif similarity >= 0.2:
        interpretation = "Los textos son poco similares."
    else:
        interpretation = "Los textos no son similares."
    
    # Mostrar resultados
    print(f"Similitud de Jaccard: {similarity:.3f}")
    print(f"Interpretaci√≥n: {interpretation}")
    return similarity

# Ejemplo de uso
jaccard_similarity(abstracts[0], abstracts[1])


Similitud de Jaccard: 0.078
Interpretaci√≥n: Los textos no son similares.


0.0782122905027933

### Algoritmo 4: Similitud Euclidiana

La **distancia euclidiana** mide la distancia geom√©trica entre dos puntos en un espacio multidimensional.

---

## üìê Fundamento Matem√°tico

### Distancia Euclidiana:

Para dos vectores **A** y **B** de dimensi√≥n n:

```
d(A, B) = ‚àö(Œ£·µ¢ (A·µ¢ - B·µ¢)¬≤)
```

### Conversi√≥n a Similitud:

```
similarity = 1 / (1 + distance)
```

**Rango**: [0, 1]
- **1**: Vectores id√©nticos (distancia = 0)
- **‚Üí0**: Vectores muy diferentes (distancia ‚Üí ‚àû)

---

## üî¢ Ejemplo:

**Vector A**: [1, 2, 3]
**Vector B**: [4, 5, 6]

```
d = ‚àö((1-4)¬≤ + (2-5)¬≤ + (3-6)¬≤)
  = ‚àö(9 + 9 + 9)
  = ‚àö27
  ‚âà 5.196
```

```
similarity = 1 / (1 + 5.196) ‚âà 0.161
```

---

## üíª Implementaci√≥n

```python
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import euclidean_distances

# Vectorizar (frecuencias de palabras)
vectorizer = CountVectorizer(stop_words='english')
X = vectorizer.fit_transform(abstracts)

# Calcular distancias
distances = euclidean_distances(X)

# Convertir a similitud
similarities = 1 / (1 + distances)
```

**Diferencia con TF-IDF**:
- **CountVectorizer**: Frecuencias simples (1, 2, 3...)
- **TfidfVectorizer**: Frecuencias ponderadas (0.45, 0.23...)

---

## üìä Resultados

```
Matriz de similitud euclidiana:
[[1.000  0.070  0.060]
 [0.070  1.000  0.054]
 [0.060  0.054  1.000]]
```

**Interpretaci√≥n**:
- Todas las similitudes < 0.10
- Muy similares a TF-IDF Coseno
- Confirma que los textos son muy diferentes

---

## ‚úÖ Ventajas

1. **Intuitivo**: Distancia geom√©trica familiar
2. **Sensible a magnitud**: Captura diferencias de frecuencia
3. **F√°cil de visualizar**: En 2D/3D

---

## ‚ùå Desventajas

1. **Sensible a dimensionalidad**: Curse of dimensionality
2. **Sensible a escala**: Palabras frecuentes dominan
3. **No normalizado**: Afectado por longitud de texto
4. **Menos usado**: Coseno es preferido para textos

---

## üìà Comparaci√≥n

| Par | Levenshtein | TF-IDF | Jaccard | Euclidiana |
|-----|-------------|--------|---------|------------|
| 0-1 | 0.219 | 0.043 | 0.078 | 0.070 |
| 0-2 | - | 0.090 | - | 0.060 |
| 1-2 | - | 0.005 | - | 0.054 |

**Observaci√≥n**: Euclidiana muy similar a TF-IDF Coseno

---

## üéì Conclusi√≥n

**Euclidiana** funciona, pero **Coseno es preferido** para textos porque normaliza por longitud. √ötil cuando la **magnitud importa** (ej: conteo de palabras absolutas).

---

## Algoritmo de Similitud Euclidiana

### Algoritmo 5: SBERT (Sentence-BERT) - Similitud Sem√°ntica

**SBERT** es un modelo de IA que convierte textos en **embeddings sem√°nticos** de alta calidad, capturando el significado m√°s all√° de las palabras exactas.

---

## üß† Fundamento Conceptual

### ¬øQu√© son Embeddings?

**Embeddings** son representaciones vectoriales densas que capturan significado sem√°ntico:

```
"car" ‚Üí [0.23, -0.45, 0.67, ..., 0.12]  (384 dimensiones)
"automobile" ‚Üí [0.25, -0.43, 0.69, ..., 0.14]  (similar!)
```

**Propiedad clave**: Vectores de palabras similares est√°n **cerca** en el espacio

---

## üèóÔ∏è Arquitectura SBERT

### Basado en BERT (Bidirectional Encoder Representations from Transformers):

```
Texto ‚Üí Tokenizaci√≥n ‚Üí BERT ‚Üí Mean Pooling ‚Üí Embedding (384D)
```

**Componentes**:
1. **Tokenizaci√≥n**: Divide texto en subpalabras (WordPiece)
2. **BERT**: Transformer que procesa contexto bidireccional
3. **Mean Pooling**: Promedia embeddings de tokens
4. **Normalizaci√≥n**: Vector unitario (norma L2 = 1)

---

## üìê C√°lculo de Similitud

### Similitud del Coseno entre Embeddings:

```
similarity = cos(Œ∏) = (E‚ÇÅ ¬∑ E‚ÇÇ) / (||E‚ÇÅ|| √ó ||E‚ÇÇ||)
```

Donde:
- **E‚ÇÅ, E‚ÇÇ** = Embeddings de los textos
- **¬∑** = Producto punto
- **|| ||** = Norma L2

**Ventaja sobre TF-IDF**: Captura **similitud sem√°ntica**, no solo l√©xica

---

## üíª Implementaci√≥n

```python
from sentence_transformers import SentenceTransformer, util

# Cargar modelo pre-entrenado
model = SentenceTransformer('all-MiniLM-L6-v2')

# Generar embeddings
embeddings = model.encode(texts, convert_to_tensor=True)

# Calcular similitud
similarity = util.cos_sim(embeddings[0], embeddings[1]).item()
```

### Modelo: `all-MiniLM-L6-v2`

**Caracter√≠sticas**:
- **Tama√±o**: 22.7 MB (muy compacto)
- **Dimensiones**: 384
- **Velocidad**: ~3,000 oraciones/segundo (GPU)
- **Calidad**: Excelente para tareas generales
- **Entrenamiento**: 1B+ pares de oraciones

**Fuente**: [HuggingFace](https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2)

---

## üìä Resultado

```
Similitud SBERT: 0.189
Interpretaci√≥n: Los textos no son similares.
```

**An√°lisis**:
- **0.189** es consistente con otros algoritmos
- SBERT **confirma** que los temas son diferentes
- Incluso con comprensi√≥n sem√°ntica, no hay overlap

---

## ‚úÖ Ventajas

1. **Sem√°ntico**: Entiende sin√≥nimos y par√°frasis
   ```
   "car" ‚âà "automobile" ‚âà "vehicle"
   ```

2. **Contexto**: Considera significado seg√∫n contexto
   ```
   "bank" (r√≠o) vs "bank" (dinero) ‚Üí Diferentes embeddings
   ```

3. **Multiling√ºe**: Modelos disponibles para 50+ idiomas

4. **Pre-entrenado**: No requiere entrenamiento adicional

5. **Estado del arte**: Mejor que TF-IDF en benchmarks

6. **Escalable**: Embeddings se calculan una vez, se reusan

---

## ‚ùå Desventajas

1. **Computacionalmente costoso**: Requiere GPU para datasets grandes
   ```
   TF-IDF: 0.1s para 1000 textos
   SBERT: 10s para 1000 textos (CPU)
   ```

2. **Memoria**: Modelo ocupa ~100-500 MB en RAM

3. **Caja negra**: Dif√≠cil interpretar por qu√© dos textos son similares

4. **Dominio espec√≠fico**: Modelos generales pueden fallar en textos t√©cnicos

5. **Dependencias**: Requiere PyTorch, transformers

---

## üî¨ Casos de Uso Ideales

### ‚úÖ Recomendado para:
- **B√∫squeda sem√°ntica** (encontrar documentos similares)
- **Detecci√≥n de par√°frasis** (mismo significado, palabras diferentes)
- **Q&A systems** (emparejar preguntas con respuestas)
- **Clustering sem√°ntico** (agrupar por tema)
- **Recomendaci√≥n de contenido** (art√≠culos relacionados)

### ‚ùå No recomendado para:
- **Datasets masivos** (millones de documentos sin GPU)
- **Tiempo real estricto** (<10ms por comparaci√≥n)
- **Recursos limitados** (dispositivos m√≥viles, edge)

---

## üìà Comparaci√≥n de Resultados

| Par | Levenshtein | TF-IDF | Jaccard | Euclidiana | SBERT |
|-----|-------------|--------|---------|------------|-------|
| 0-1 | 0.219 | 0.043 | 0.078 | 0.070 | 0.189 |

**Observaciones**:
- SBERT da similitud **m√°s alta** que TF-IDF
- Pero a√∫n **confirma** que los textos son diferentes
- SBERT es m√°s "generoso" al detectar similitud d√©bil

---

## üí° Modelos Alternativos

### 1. Modelos M√°s Grandes (Mayor Precisi√≥n):
```python
# 420 MB, 768 dimensiones
model = SentenceTransformer('all-mpnet-base-v2')
```

### 2. Modelos Multiling√ºes:
```python
# Soporta 50+ idiomas
model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
```

### 3. Modelos Espec√≠ficos de Dominio:
```python
# Optimizado para papers cient√≠ficos
model = SentenceTransformer('allenai-specter')
```

### 4. Modelos de OpenAI:
```python
import openai
embedding = openai.Embedding.create(input=text, model="text-embedding-ada-002")
```

---

## üéì Conclusi√≥n

**SBERT** es el **est√°ndar actual** para similitud sem√°ntica de textos. Supera significativamente a m√©todos cl√°sicos en capturar **significado**, pero requiere m√°s recursos computacionales.

**Recomendaci√≥n**: Usar SBERT cuando la **calidad** es m√°s importante que la **velocidad**, especialmente para an√°lisis de abstracts cient√≠ficos donde la sem√°ntica es crucial.

---

In [7]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import euclidean_distances

# Vectorizar los textos (sin stopwords en ingl√©s)
vectorizer = CountVectorizer(stop_words='english')
X = vectorizer.fit_transform(abstracts)

# Calcular distancias euclidianas
distances = euclidean_distances(X)

# Convertir a similitud (1 / (1 + distancia))
similarities = 1 / (1 + distances)

# Mostrar matriz de similitudes con interpretaci√≥n
print("Matriz de similitud euclidiana:")
print(similarities)

# Interpretar los valores (solo pares distintos)
for i in range(len(abstracts)):
    for j in range(i + 1, len(abstracts)):
        sim = similarities[i, j]
        if sim >= 0.8:
            interpretation = "Los textos son muy similares."
        elif sim >= 0.5:
            interpretation = "Los textos tienen similitud moderada."
        elif sim >= 0.2:
            interpretation = "Los textos son poco similares."
        else:
            interpretation = "Los textos no son similares."
        
        print(f"\nSimilitud entre Abstract {i} y {j}: {sim:.3f}")
        print(f"Interpretaci√≥n: {interpretation}")


Matriz de similitud euclidiana:
[[1.         0.06972692 0.06005113]
 [0.06972692 1.         0.05432747]
 [0.06005113 0.05432747 1.        ]]

Similitud entre Abstract 0 y 1: 0.070
Interpretaci√≥n: Los textos no son similares.

Similitud entre Abstract 0 y 2: 0.060
Interpretaci√≥n: Los textos no son similares.

Similitud entre Abstract 1 y 2: 0.054
Interpretaci√≥n: Los textos no son similares.


# algoritmos de similitud basados en IA

### Algoritmo 6: Cross-Encoder - Evaluaci√≥n Directa de Pares

**Cross-Encoder** es un modelo de IA que eval√∫a **directamente** la relaci√≥n entre dos textos, sin generar embeddings intermedios.

---

## üß† Fundamento Conceptual

### Diferencia con SBERT:

#### SBERT (Bi-Encoder):
```
Texto A ‚Üí Embedding A ‚îÄ‚îê
                        ‚îú‚îÄ‚Üí Similitud del Coseno
Texto B ‚Üí Embedding B ‚îÄ‚îò
```
- **Ventaja**: Embeddings se calculan una vez, se reusan
- **Desventaja**: Similitud indirecta (coseno de embeddings)

#### Cross-Encoder:
```
[Texto A ; Texto B] ‚Üí Transformer ‚Üí Score directo
```
- **Ventaja**: Evaluaci√≥n directa, m√°s precisa
- **Desventaja**: Debe procesar cada par individualmente

---

## üèóÔ∏è Arquitectura

### Proceso:

1. **Concatenaci√≥n**: `[CLS] Texto A [SEP] Texto B [SEP]`
2. **Tokenizaci√≥n**: Convierte a IDs de tokens
3. **BERT**: Procesa secuencia completa
4. **Clasificaci√≥n**: Capa final predice score
5. **Normalizaci√≥n**: Convierte a probabilidad [0, 1]

**F√≥rmula matem√°tica**:

```
score = f([A ; B])
```

Donde `f` es el transformer que procesa ambos textos **conjuntamente**

---

## üíª Implementaci√≥n

```python
from sentence_transformers import CrossEncoder
import numpy as np

# Cargar modelo
cross_encoder = CrossEncoder('cross-encoder/ms-marco-MiniLM-L-6-v2')

# Evaluar par
pair = [[text1, text2]]
score = cross_encoder.predict(pair)[0]

# Normalizar con sigmoid
prob = 1 / (1 + np.exp(-score))
```

### Modelo: `ms-marco-MiniLM-L-6-v2`

**Caracter√≠sticas**:
- **Entrenamiento**: MS MARCO dataset (500K+ pares)
- **Tarea**: Ranking de relevancia (query-document)
- **Tama√±o**: 90 MB
- **Velocidad**: ~100 pares/segundo (CPU)

**Fuente**: [HuggingFace](https://huggingface.co/cross-encoder/ms-marco-MiniLM-L6-v2)

---

## üìä Resultado

```
Puntaje Cross-Encoder: -6.766
Probabilidad normalizada: 0.001
Interpretaci√≥n: Los textos no son similares.
```

**An√°lisis**:
- **Score negativo** indica baja relevancia
- **Probabilidad ~0** confirma que no hay similitud
- **M√°s estricto** que SBERT (0.189 vs 0.001)

---

## üî¢ Normalizaci√≥n del Score

### Problema: Scores sin l√≠mites

Cross-Encoder puede retornar valores en rango (-‚àû, +‚àû)

### Soluci√≥n: Funci√≥n Sigmoide

```
œÉ(x) = 1 / (1 + e^(-x))
```

**Mapeo**:
- **x = -6.766** ‚Üí œÉ(x) = 0.001
- **x = 0** ‚Üí œÉ(x) = 0.5
- **x = +6.766** ‚Üí œÉ(x) = 0.999

---

## ‚úÖ Ventajas

1. **M√°xima precisi√≥n**: Mejor que SBERT en benchmarks
   ```
   MS MARCO: Cross-Encoder 39.2 vs Bi-Encoder 33.8 (MRR@10)
   ```

2. **Atenci√≥n cruzada**: Modela interacciones entre textos
   ```
   Puede detectar: "Texto A responde pregunta en Texto B"
   ```

3. **Estado del arte**: Mejor rendimiento en tareas de ranking

4. **Interpretable**: Score directo de relevancia

---

## ‚ùå Desventajas

1. **No escalable**: Debe procesar cada par individualmente
   ```
   Comparar 1000 documentos:
   - SBERT: 1000 embeddings + 499,500 cosenos = ~1 segundo
   - Cross-Encoder: 499,500 evaluaciones = ~1 hora (CPU)
   ```

2. **Sin embeddings reutilizables**: No se pueden cachear

3. **Lento**: 10-100x m√°s lento que SBERT

4. **Memoria**: Procesa secuencias m√°s largas (A + B)

5. **L√≠mite de tokens**: M√°ximo ~512 tokens (A + B combinados)

---

## üî¨ Casos de Uso Ideales

### ‚úÖ Recomendado para:
- **Re-ranking**: Refinar top-K resultados de SBERT
  ```
  1. SBERT: Filtrar 1000 ‚Üí top 100 (r√°pido)
  2. Cross-Encoder: Re-rankear top 100 (preciso)
  ```
- **Evaluaci√≥n final**: Validar pares cr√≠ticos
- **Benchmarking**: Comparar con otros m√©todos
- **Pocos pares**: <1000 comparaciones

### ‚ùå No recomendado para:
- **B√∫squeda a gran escala** (millones de documentos)
- **Clustering** (requiere matriz de similitud completa)
- **Tiempo real** (latencia alta)

---

## üìà Comparaci√≥n Completa

| Par | Levenshtein | TF-IDF | Jaccard | Euclidiana | SBERT | Cross-Encoder |
|-----|-------------|--------|---------|------------|-------|---------------|
| 0-1 | 0.219 | 0.043 | 0.078 | 0.070 | 0.189 | 0.001 |

**Ranking de Similitud** (mayor a menor):
1. **Levenshtein**: 0.219 (caracteres comunes)
2. **SBERT**: 0.189 (sem√°ntica d√©bil)
3. **Jaccard**: 0.078 (palabras comunes)
4. **Euclidiana**: 0.070 (distancia vectorial)
5. **TF-IDF**: 0.043 (vocabulario ponderado)
6. **Cross-Encoder**: 0.001 (relevancia directa)

---

## üí° Estrategia H√≠brida Recomendada

### Pipeline de 2 Etapas:

```python
# Etapa 1: Filtrado r√°pido con SBERT
embeddings = sbert_model.encode(all_documents)
similarities = util.cos_sim(query_embedding, embeddings)
top_100 = similarities.topk(100)

# Etapa 2: Re-ranking preciso con Cross-Encoder
pairs = [[query, doc] for doc in top_100_documents]
scores = cross_encoder.predict(pairs)
final_ranking = sorted(zip(top_100_documents, scores), key=lambda x: x[1], reverse=True)
```

**Beneficios**:
- ‚úÖ Velocidad de SBERT (filtrado)
- ‚úÖ Precisi√≥n de Cross-Encoder (ranking)
- ‚úÖ Escalable a millones de documentos

---

## üéì Conclusi√≥n

**Cross-Encoder** ofrece la **m√°xima precisi√≥n** pero con **alto costo computacional**. Ideal para **re-ranking** de resultados pre-filtrados, no para b√∫squeda inicial.

**Recomendaci√≥n**: Usar en **pipeline h√≠brido** con SBERT para obtener lo mejor de ambos mundos: velocidad + precisi√≥n.

---

## SBERT (Sentence-BERT) ‚Äì Similitud sem√°ntica con embeddings

SBERT convierte cada texto en un vector num√©rico (embedding) en un espacio sem√°ntico.
Luego compara esos vectores usando la similitud del coseno:

![{21E3CCAC-D2EE-4EED-9C66-23F0AC0F4249}.png](attachment:{21E3CCAC-D2EE-4EED-9C66-23F0AC0F4249}.png)
	‚Äã


Valores cercanos a 1 ‚áí textos muy similares.

https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2

## Conclusiones y An√°lisis Comparativo

### üìä Resumen de Resultados

#### Similitud entre Abstract 0 y Abstract 1:

| Algoritmo | Similitud | Interpretaci√≥n | Categor√≠a |
|-----------|-----------|----------------|-----------|
| **Levenshtein** | 0.219 | Poco similares | Cl√°sico |
| **SBERT** | 0.189 | No similares | IA |
| **Jaccard** | 0.078 | No similares | Cl√°sico |
| **Euclidiana** | 0.070 | No similares | Cl√°sico |
| **TF-IDF Coseno** | 0.043 | No similares | Cl√°sico |
| **Cross-Encoder** | 0.001 | No similares | IA |

---

### üéØ Hallazgos Principales

#### 1. Consenso General:
- **Todos los algoritmos coinciden**: Los abstracts son **no similares**
- **Coherente** con la realidad: Temas completamente diferentes
  - Abstract 0: Programaci√≥n + IA
  - Abstract 1: Sensores ambientales + IoT

#### 2. Rango de Valores:
- **M√°ximo**: 0.219 (Levenshtein)
- **M√≠nimo**: 0.001 (Cross-Encoder)
- **Rango**: 0.218 (variaci√≥n significativa)

#### 3. Agrupaci√≥n por Tipo:

**Algoritmos m√°s "generosos"** (detectan similitud d√©bil):
- Levenshtein (0.219) - Caracteres comunes
- SBERT (0.189) - Sem√°ntica d√©bil

**Algoritmos m√°s "estrictos"** (requieren similitud fuerte):
- TF-IDF (0.043) - Vocabulario espec√≠fico
- Cross-Encoder (0.001) - Relevancia directa

---

### üìà An√°lisis por Categor√≠a

#### üî§ Algoritmos Cl√°sicos:

| Algoritmo | Velocidad | Precisi√≥n | Memoria | Uso Recomendado |
|-----------|-----------|-----------|---------|-----------------|
| **Levenshtein** | ‚ö°‚ö°‚ö° | ‚≠ê‚≠ê | üíæ | Detecci√≥n de typos |
| **TF-IDF Coseno** | ‚ö°‚ö°‚ö° | ‚≠ê‚≠ê‚≠ê | üíæüíæ | B√∫squeda general |
| **Jaccard** | ‚ö°‚ö°‚ö° | ‚≠ê‚≠ê | üíæ | Comparaci√≥n r√°pida |
| **Euclidiana** | ‚ö°‚ö°‚ö° | ‚≠ê‚≠ê | üíæüíæ | An√°lisis de frecuencias |

**Ventajas generales**:
- ‚úÖ R√°pidos (milisegundos)
- ‚úÖ Sin dependencias pesadas
- ‚úÖ Interpretables
- ‚úÖ Escalables

**Desventajas generales**:
- ‚ùå No capturan sem√°ntica
- ‚ùå Sensibles a vocabulario exacto
- ‚ùå Ignoran sin√≥nimos

---

#### ü§ñ Algoritmos Basados en IA:

| Algoritmo | Velocidad | Precisi√≥n | Memoria | Uso Recomendado |
|-----------|-----------|-----------|---------|-----------------|
| **SBERT** | ‚ö°‚ö° | ‚≠ê‚≠ê‚≠ê‚≠ê | üíæüíæüíæ | B√∫squeda sem√°ntica |
| **Cross-Encoder** | ‚ö° | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê | üíæüíæüíæ | Re-ranking |

**Ventajas generales**:
- ‚úÖ Comprensi√≥n sem√°ntica
- ‚úÖ Detectan par√°frasis
- ‚úÖ Estado del arte
- ‚úÖ Pre-entrenados

**Desventajas generales**:
- ‚ùå Lentos (segundos)
- ‚ùå Requieren GPU para escala
- ‚ùå Caja negra
- ‚ùå Dependencias pesadas

---

### üîç An√°lisis de Discrepancias

#### ¬øPor qu√© Levenshtein da 0.219 y Cross-Encoder 0.001?

**Levenshtein (0.219)**:
- Cuenta **caracteres comunes**: "a", "e", "i", "o", "u", espacios
- Palabras comunes: "the", "and", "is", "of"
- **No entiende** que son temas diferentes

**Cross-Encoder (0.001)**:
- **Entiende sem√°ntica**: "programming" ‚â† "air quality"
- Entrenado en pares relevantes/irrelevantes
- **Detecta** que no hay relaci√≥n tem√°tica

**Conclusi√≥n**: Levenshtein sobrestima, Cross-Encoder es m√°s preciso

---

### üí° Gu√≠a de Selecci√≥n de Algoritmo

#### Escenario 1: Detecci√≥n de Duplicados Exactos
```
Recomendaci√≥n: Levenshtein o Jaccard
Raz√≥n: R√°pidos, detectan copias casi exactas
```

#### Escenario 2: B√∫squeda en Base de Datos (10K+ documentos)
```
Recomendaci√≥n: TF-IDF Coseno
Raz√≥n: Balance velocidad/precisi√≥n, escalable
```

#### Escenario 3: Recomendaci√≥n de Art√≠culos Similares
```
Recomendaci√≥n: SBERT
Raz√≥n: Captura similitud sem√°ntica, embeddings reutilizables
```

#### Escenario 4: Ranking de Relevancia (Top-K)
```
Recomendaci√≥n: SBERT (filtrado) + Cross-Encoder (re-ranking)
Raz√≥n: M√°xima precisi√≥n con eficiencia aceptable
```

#### Escenario 5: An√°lisis Exploratorio R√°pido
```
Recomendaci√≥n: Jaccard o TF-IDF
Raz√≥n: Implementaci√≥n simple, resultados inmediatos
```

---

### üìä Matriz de Decisi√≥n

| Criterio | Levenshtein | TF-IDF | Jaccard | Euclidiana | SBERT | Cross-Encoder |
|----------|-------------|--------|---------|------------|-------|---------------|
| **Velocidad** | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê | ‚≠ê |
| **Precisi√≥n** | ‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê | ‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê |
| **Sem√°ntica** | ‚ùå | ‚ùå | ‚ùå | ‚ùå | ‚úÖ | ‚úÖ |
| **Escalabilidad** | ‚úÖ | ‚úÖ | ‚úÖ | ‚úÖ | ‚ö†Ô∏è | ‚ùå |
| **Interpretabilidad** | ‚úÖ | ‚úÖ | ‚úÖ | ‚úÖ | ‚ö†Ô∏è | ‚ö†Ô∏è |
| **Setup** | F√°cil | F√°cil | F√°cil | F√°cil | Medio | Medio |

---

### üöÄ Recomendaciones Finales

#### Para este Proyecto (An√°lisis Bibliom√©trico):

**Pipeline Recomendado**:

```python
# Paso 1: Filtrado r√°pido con TF-IDF
tfidf_sim = cosine_similarity(tfidf_matrix)
candidates = tfidf_sim > 0.3  # Umbral conservador

# Paso 2: Validaci√≥n sem√°ntica con SBERT
sbert_embeddings = model.encode(candidate_pairs)
sbert_sim = util.cos_sim(sbert_embeddings)
final_similar = sbert_sim > 0.7

# Paso 3 (Opcional): Re-ranking con Cross-Encoder
cross_scores = cross_encoder.predict(final_pairs)
ranked_results = sorted(final_pairs, key=cross_scores, reverse=True)
```

**Justificaci√≥n**:
- ‚úÖ **TF-IDF**: Elimina 90% de pares obviamente diferentes (r√°pido)
- ‚úÖ **SBERT**: Valida similitud sem√°ntica (preciso)
- ‚úÖ **Cross-Encoder**: Ranking final de alta calidad (opcional)

---

### üìö Lecciones Aprendidas

#### 1. No existe un "mejor" algoritmo universal
- Depende del **caso de uso**, **datos** y **recursos**

#### 2. Algoritmos cl√°sicos siguen siendo √∫tiles
- TF-IDF es **suficiente** para muchas aplicaciones
- No siempre se necesita IA

#### 3. Combinar algoritmos es poderoso
- Pipeline h√≠brido: **velocidad** + **precisi√≥n**

#### 4. Validaci√≥n es crucial
- Comparar m√∫ltiples algoritmos
- Verificar resultados manualmente

---

### üéì Conclusi√≥n Final

Este an√°lisis comparativo demuestra que:

1. **Todos los algoritmos coinciden** en que los abstracts seleccionados son **no similares**
2. **Algoritmos cl√°sicos** (TF-IDF) son **suficientes** para filtrado inicial
3. **Algoritmos de IA** (SBERT, Cross-Encoder) ofrecen **mayor precisi√≥n** sem√°ntica
4. **Pipeline h√≠brido** es la **mejor estrategia** para an√°lisis a gran escala

**Recomendaci√≥n para el proyecto**: Usar **TF-IDF** para an√°lisis exploratorio y **SBERT** para validaci√≥n de similitud sem√°ntica en pares cr√≠ticos.

---

In [8]:

from sentence_transformers import SentenceTransformer, util
import numpy as np

# --- Textos (abstracts) ---
texts = [abstracts[0], abstracts[1]]  # puedes cambiar a tus abstracts

# --- Cargar modelo SBERT ---
model = SentenceTransformer('all-MiniLM-L6-v2')

# --- Obtener embeddings ---
embeddings = model.encode(texts, convert_to_tensor=True)

# --- Calcular similitud de coseno ---
similarity = util.cos_sim(embeddings[0], embeddings[1]).item()

# --- Interpretar el resultado ---
if similarity >= 0.8:
    interpretation = "Los textos son muy similares."
elif similarity >= 0.5:
    interpretation = "Los textos tienen similitud moderada."
elif similarity >= 0.2:
    interpretation = "Los textos son poco similares."
else:
    interpretation = "Los textos no son similares."

print(f"Similitud SBERT: {similarity:.3f}")
print(f"Interpretaci√≥n: {interpretation}")


To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


Similitud SBERT: 0.189
Interpretaci√≥n: Los textos no son similares.


## Cross-Encoder ‚Äì Evaluaci√≥n directa de pares de texto

El modelo recibe ambos textos juntos y predice una puntuaci√≥n directa de similitud.
Se entrena para entender la relaci√≥n entre oraciones, no solo las palabras.

Matem√°ticamente:

![{0BFEEA4F-FF28-4A84-9A15-26ED70D1F6E1}.png](attachment:{0BFEEA4F-FF28-4A84-9A15-26ED70D1F6E1}.png)


f([A;B]) es la representaci√≥n conjunta del par dentro del transformer.

https://huggingface.co/cross-encoder/ms-marco-MiniLM-L6-v2

In [9]:
from sentence_transformers import CrossEncoder
import numpy as np

# --- Cargar modelo ---
cross_encoder = CrossEncoder('cross-encoder/ms-marco-MiniLM-L-6-v2')

# --- Evaluar similitud directa entre dos textos ---
pair = [[abstracts[0], abstracts[1]]]
score = cross_encoder.predict(pair)[0]

# --- Normalizar (si el score no est√° entre 0 y 1) ---
prob = 1 / (1 + np.exp(-score)) if score > 1 or score < 0 else score

# --- Interpretaci√≥n ---
if prob >= 0.8:
    interpretation = "Los textos son muy similares."
elif prob >= 0.5:
    interpretation = "Los textos tienen similitud moderada."
elif prob >= 0.2:
    interpretation = "Los textos son poco similares."
else:
    interpretation = "Los textos no son similares."

print(f"Puntaje Cross-Encoder: {score:.3f}")
print(f"Probabilidad normalizada: {prob:.3f}")
print(f"Interpretaci√≥n: {interpretation}")


To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


Puntaje Cross-Encoder: -6.766
Probabilidad normalizada: 0.001
Interpretaci√≥n: Los textos no son similares.
