### Prueba de entrada

Un pipeline de NLP es una secuencia estructurada de pasos que permite a una computadora procesar y analizar texto de manera sistemática, extrayendo información significativa. Cada paso en el pipeline se enfoca en una tarea específica del procesamiento del lenguaje, y juntos forman un sistema completo para entender y manipular el lenguaje natural.

Los pasos fundamentales en un pipeline de NLP incluyen:

1. **Segmentación de oraciones:** Dividir el texto en oraciones individuales, lo cual facilita el procesamiento posterior al tratar cada oración como una unidad de análisis.
2. **Tokenización:** Separar las oraciones en palabras o tokens, lo que permite el análisis detallado de cada unidad de texto.
3. **Predicción de partes gramaticales (POS):** Identificar la categoría gramatical de cada token (como sustantivo, verbo, adjetivo), lo cual ayuda a comprender la estructura gramatical de las oraciones.
4. **Lematización:** Reducir las palabras a su forma básica o lema, para asegurar que diferentes formas de una palabra se traten como una misma entidad.
5. **Identificación de stopwords:** Marcar palabras comunes y de poca relevancia (como "and", "the"), que pueden ser filtradas para reducir el ruido en el análisis.
6. **Análisis de dependencias:** Entender las relaciones gramaticales entre las palabras de una oración, como identificar qué palabras dependen de otras.
7. **Reconocimiento de entidades nombradas (NER):** Detectar y etiquetar nombres de personas, lugares y organizaciones, para extraer información específica del texto.
8. **Resolución de coreferencia:** Determinar a qué entidad se refieren los pronombres en el texto, para entender mejor la referencia de entidades en el contexto.

Cada uno de estos pasos contribuye a la extracción de información significativa de un texto, permitiendo a una computadora "entender" el contenido de manera más efectiva. Este proceso es fundamental en muchas aplicaciones de NLP, como la traducción automática, la generación de texto, y el análisis de sentimientos.

**Nota:** Este proyecto deberá ser subido a tu repositorio personal a más tardar el 7 de septiembre.


**Pregunta**

Desarrolla un pipeline simplificado de NLP que incluya tres componentes clave: tokenización usando expresiones regulares (Regex), codificación Byte Pair Encoding (BPE) para la compresión de tokens, y cálculo de distancia de edición para comparar la similitud entre tokens.

**Instrucciones:**

1. **Tokenización con regex:**
   - Implementa un tokenizador utilizando expresiones regulares. El tokenizador debe ser capaz de separar el texto en palabras, respetando la puntuación como tokens independientes.
   - Por ejemplo, usando el texto: `"London is the capital and most populous city of England and the United Kingdom."`, el resultado esperado sería:
     ```
     ["London", "is", "the", "capital", "and", "most", "populous", "city", "of", "England", "and", "the", "United", "Kingdom", "."]
     ```

2. **Aplicación de byte pair encoding (BPE):**
   - Implementa el algoritmo de Byte Pair Encoding para comprimir la representación de los tokens.
   - Aplica BPE sobre el conjunto de tokens obtenido en el paso anterior y muestra cómo el vocabulario se reduce mediante la combinación de pares de caracteres más frecuentes.
   - Evalúa cómo BPE afecta el tamaño del vocabulario y la representación de palabras raras.

3. **Cálculo de distancia de edición:**
   - Implementa un algoritmo de distancia de edición (por ejemplo, la distancia de Levenshtein) para comparar la similitud entre diferentes tokens en el texto.
   - Utiliza la distancia de edición para identificar palabras similares dentro del texto tokenizado. Por ejemplo, compara palabras como `"London"` y `"Londinium"` y analiza su similitud.

4. **Integración en un pipeline:**
   - Integra los tres componentes anteriores en un pipeline simple que procese un texto de entrada desde la tokenización hasta la evaluación de similitudes.
   - Evalúa el desempeño del pipeline en un texto de prueba, y discute posibles mejoras o ajustes.

**Criterios de evaluación:**

- Correctitud en la implementación de cada componente del pipeline.
- Eficiencia en la aplicación del algoritmo BPE y en la reducción del vocabulario.
- Precisión en el cálculo de la distancia de edición y en la identificación de palabras similares.
- Calidad del código (documentación, modularidad, legibilidad) y análisis crítico de los resultados.


In [5]:

import re
from collections import Counter, defaultdict

#Regex para separar palabras y puntuaciones
def tokenizar(texto):
    
    tokens = re.findall(r'\w+|[^\w\s]', texto)
    return tokens

#Genera un vocabulario con frecuencias de pares de tokens
def get_vocab(tokens):
    vocab = Counter(tokens)
    return vocab

#Obtiene las frecuencias de pares de caracteres adyacentes
def frecuencia(vocab):   
    parejas = defaultdict(int)
    for palabra, freq in vocab.items():
        aux = palabra.split()
        for i in range(len(aux)-1):
            parejas[aux[i], aux[i+1]] += freq
    return parejas

#Combina el par más frecuente en el vocabulario
def merge(pareja, vocab):
    new_vocab = Counter()
    aux = re.escape(' '.join(pareja))
    p = re.compile(r'(?<!\S)' + aux + r'(?!\S)')
    for palabra in vocab:
        new_palabra = p.sub(''.join(pareja), palabra)
        new_vocab[new_palabra] = vocab[palabra]
    return new_vocab

#Aplica byte pair encoding a los tokens dados
def bpe(tokens, num_merges=10):
    vocab = get_vocab(tokens)
    for i in range(num_merges):
        parejas = frecuencia(vocab)
        if not parejas:
            break
        mejor = max(parejas, key=parejas.get)
        vocab = merge(mejor, vocab)
    return vocab

#Calcula la distancia de Levenshtein entre dos cadenas
def levenshtein(a, b):
    if not a:
        return len(b)
    if not b:
        return len(a)
    if a[0] == b[0]:
        return levenshtein(a[1:], b[1:])
    return 1 + min(levenshtein(a[1:], b), levenshtein(a, b[1:]), levenshtein(a[1:], b[1:]))

def nlp_pipeline(texto):
    #Tokenización
    tokens = tokenizar(texto)
    
    #Aplicación de BPE
    bpe_vocab = bpe(tokens)
    
    #Cálculo de distancia de edición entre dos palabras ejemplo
    distancia = levenshtein('London', 'Londinium')
    return tokens, bpe_vocab, distancia

#texto de prueba
texto = "London is the capital and most populous city of England and the United Kingdom."
tokens, bpe_vocab, distancia = nlp_pipeline(texto)
print("Tokens:", tokens)
print("BPE vocabulario:", bpe_vocab)
print("Distancia entre 'London' y 'Londinium':", distancia)


Tokens: ['London', 'is', 'the', 'capital', 'and', 'most', 'populous', 'city', 'of', 'England', 'and', 'the', 'United', 'Kingdom', '.']
BPE vocabulario: Counter({'the': 2, 'and': 2, 'London': 1, 'is': 1, 'capital': 1, 'most': 1, 'populous': 1, 'city': 1, 'of': 1, 'England': 1, 'United': 1, 'Kingdom': 1, '.': 1})
Distancia entre 'London' y 'Londinium': 4
