## Procesamiento de Lenguaje Natural

![Colegio Bourbaki](./Images/Bourbaki.png)

## Corrector ortográfico con FastText

En este notebook construimos un **corrector ortográfico inteligente** combinando técnicas clásicas de NLP con **embeddings FastText**.

### ¿Qué hace el código?
1. **Tokenización del texto**  
   Dividimos las oraciones en palabras, espacios y signos de puntuación.  
   Solo intentamos corregir las palabras alfabéticas, manteniendo el resto intacto.

2. **Generación de candidatos (edits)**  
   Para cada palabra mal escrita, generamos posibles variantes aplicando operaciones de edición:
   - Eliminación de una letra  
   - Inserción de una letra  
   - Sustitución de una letra  
   - Transposición de dos letras seguidas  

   Además, consideramos los errores más comunes de teclado (QWERTY), donde confundir teclas adyacentes tiene menor costo.

3. **Distancia de edición ponderada**  
   Calculamos qué tan diferente es cada candidato de la palabra original, asignando costos menores a errores típicos de tipeo.

4. **Embeddings de FastText**  
   Usamos vectores de palabras (FastText) para comparar la similitud semántica entre la palabra mal escrita y cada candidato.  
   Esto permite corregir incluso palabras fuera del vocabulario (OOV) gracias a los sub-tokens de FastText.

5. **Ranking de candidatos**  
   Combinamos:
   - Similitud de embeddings  
   - Frecuencia de la palabra en el corpus  
   - Distancia de edición  

   El mejor candidato según esta puntuación se elige como corrección.

6. **Reconstrucción del texto**  
   Reemplazamos solo las palabras corregidas y dejamos intactos los espacios y la puntuación, devolviendo la oración completa.

---

En resumen: el sistema propone correcciones ortográficas basadas no solo en la cercanía de edición, sino también en la **probabilidad de uso real** (frecuencia) y la **cercanía semántica**

Link de Interés: https://fasttext.cc/

### Librerias

In [2]:
# Utilities
from __future__ import annotations
import math
import re
import string
from collections import Counter, defaultdict
from collections.abc import Iterable
from dataclasses import dataclass
import numpy as np

from wordfreq import zipf_frequency 

# Gensim for FastText
import gensim.downloader as api
from gensim.models.fasttext import FastText
from gensim.models import KeyedVectors
from gensim.models.fasttext import load_facebook_vectors

### Funciones de ayuda

In [3]:
TOKEN_RE = re.compile(r"([A-Za-z]+|[^A-Za-z\s]+|\s+)")

Usamos esa regex para separar el texto en tokens manteniendo todo, de manera que al corregir podamos reconstruir la oración sin perder espacios o símbolos.

In [4]:
def tokenize(text: str) -> list[str]:
    """Split into tokens: words, whitespace, punctuation blocks. Keep everything to reconstruct."""
    return TOKEN_RE.findall(text)

In [None]:
def is_word(tok: str) -> bool:
    '''Returns true if token is a word (only letters).'''
    return tok.isalpha()

Importamos todas las letras minúsculas del alfabeto inglés desde la librería estándar string.
Esto se usa para probar reemplazos e inserciones de letras en las palabras.

In [6]:
ALPHABET = string.ascii_lowercase

Construimos un diccionario de adyacencia de teclado (layout QWERTY en inglés).

Ejemplo: la letra s tiene como adyacentes a, d, w, x.

Esto sirve para que errores como “s → a” o “s → d” cuesten menos en la distancia de edición (porque son errores de tipeo comunes).

In [7]:
# Simple keyboard adjacency map (US QWERTY). Extend as needed.
KEY_ADJ: dict[str, set[str]] = defaultdict(set)

_adj_rows = [
    "qwertyuiop",
    "asdfghjkl",
    "zxcvbnm",
]
for row in _adj_rows:
    for i, ch in enumerate(row):
        if i > 0:
            KEY_ADJ[ch].add(row[i-1])
        if i < len(row)-1:
            KEY_ADJ[ch].add(row[i+1])

Generamos todas las palabras que están a una edición de distancia de la original:

deletes → eliminar una letra.

transposes → intercambiar dos letras consecutivas.

replaces → reemplazar una letra por otra del alfabeto.

inserts → insertar una letra extra en cualquier posición.

Estas son las candidatas para corrección.

In [8]:
def edits(word: str) -> set[str]:
    word = word.lower()
    splits = [(word[:i], word[i:]) for i in range(len(word) + 1)]
    deletes = [L + R[1:] for L, R in splits if R]
    transposes = [L + R[1] + R[0] + R[2:] for L, R in splits if len(R) > 1]
    replaces = [L + c + R[1:] for L, R in splits if R for c in ALPHABET]
    inserts  = [L + c + R for L, R in splits for c in ALPHABET]
    return set(deletes + transposes + replaces + inserts)

Implementamos una variante del algoritmo de Damerau-Levenshtein para calcular la distancia entre dos palabras:

Inserción = costo 1

Eliminación = costo 1

Sustitución = costo 1 (pero si la sustitución es entre teclas adyacentes → costo 0.6)

Transposición = costo 0.8

Así modelamos errores más realistas de escritura.

In [9]:
def weighted_edit_distance(src: str, dst: str) -> float:
    """Damerau-Levenshtein style with lower cost for adjacent-key substitutions."""
    src, dst = src.lower(), dst.lower()
    n, m = len(src), len(dst)
    dp = np.zeros((n+1, m+1), dtype=float)
    for i in range(n+1):
        dp[i,0] = i
    for j in range(m+1):
        dp[0,j] = j
    for i in range(1, n+1):
        for j in range(1, m+1):
            cost_sub = 0 if src[i-1]==dst[j-1] else (0.6 if dst[j-1] in KEY_ADJ[src[i-1]] else 1.0)
            dp[i,j] = min(
                dp[i-1,j] + 1,         # deletion
                dp[i, j-1] + 1,        # insertion
                dp[i-1,j-1] + cost_sub # substitution
            )
            if i>1 and j>1 and src[i-1]==dst[j-2] and src[i-2]==dst[j-1]:
                dp[i,j] = min(dp[i,j], dp[i-2,j-2] + 0.8)  # transposition
    return float(dp[n,m])

Vamos a definir un conjunto de parámetros ajustables para balancear los criterios de correción.

Por ejemplo, cuando evaluamos un candidato, el sistema calcula algo por el estilo:

score = sim_w * similitud + freq_w * log_frecuencia - dist_w * distancia

El candidato con mayor score es el que elegimos como corrección.

* sim_w → controla cuánto valoramos la similitud semántica entre la palabra original y el candidato, medida con FastText (cosine similarity).

* freq_w → controla cuánto valoramos que el candidato sea una palabra frecuente en el vocabulario.

* dist_w → controla cuánto penalizamos candidatos que están muy lejos de la palabra original en términos de operaciones de edición.

In [10]:
@dataclass
class RankWeights:
    sim_w: float = 2.0  # peso para la similitud de embeddings (coseno)
    freq_w: float = 1.2  # peso para la frecuencia de la palabra en el corpus
    dist_w: float = 1.0  # penalización por distancia de edición

Vamos a definir la clase principal del corrector ortográfico utilizando FastText. 
Esta clase incluirá métodos para entrenar el modelo, generar candidatos de corrección y seleccionar la mejor corrección basada en una puntuación compuesta, es decir,
la tokenización, la verificación de palabras conocidas, la generación de ediciones, el cálculo de similitud de embeddings y la distancia de edición ponderada, para entrenar, cargar, generar candidatos y corregir texto.

In [11]:
class SpellChecker:

    def __init__(
        self,
        model=None,  
        vocab: Counter | None = None,  
        weights: RankWeights | None = None, 
    ):
        self.model = model  # modelo FastText (entrenado o cargado)
        self.vocab = vocab or Counter()  # frecuencias de palabras
        self.weights = weights or RankWeights()  # pesos de ranking
        self._wordset: set[str] = (
            set()
        )  # conjunto rápido para saber si una palabra existe
        try:
            zipf_frequency,
            # escala ~0..7 (más alto = más frecuente)
            self.zipf_frequency = zipf_frequency
        except Exception:
            self.zipf_frequency = None

    # Model & vocab
    def train_model(
        self,
        corpus: Iterable[str],
        size: int = 100,
        window: int = 5,
        min_count: int = 1,
        epochs: int = 10,
    ) -> None:
        sentences = [re.findall(r"[A-Za-z]+", s.lower()) for s in corpus]
        self.model = FastText(vector_size=size, window=window, min_count=min_count)
        self.model.build_vocab(sentences)
        self.model.train(sentences, total_examples=len(sentences), epochs=epochs)
        self.vocab = Counter(w for sent in sentences for w in sent)
        self._wordset = set(self.vocab)

    def load_pretrained(self, path: str) -> None:
        if path.endswith(".bin"):
            try:
                self.model = KeyedVectors.load_word2vec_format(path, binary=True)
            except Exception:
                self.model = load_facebook_vectors(path)
        else:
            self.model = KeyedVectors.load_word2vec_format(path, binary=False)
        self._wordset = set(self.get_vocab_words())

    def set_vocab_from_corpus(self, corpus: Iterable[str]) -> None:
        words = [w.lower() for s in corpus for w in re.findall(r"[A-Za-z]+", s)]
        self.vocab = Counter(words)
        self._wordset = set(self.vocab)

    def get_vocab_words(self) -> Iterable[str]:
        m = self.model
        if hasattr(m, "key_to_index"):
            return list(m.key_to_index.keys())
        if hasattr(m, "wv") and hasattr(m.wv, "key_to_index"):
            return list(m.wv.key_to_index.keys())
        return list(self.vocab.keys())

    # Scoring
    def _freq_prior(self, w):

        # Prior por frecuencia de palabra:
        # - Si está wordfreq: usa Zipf (0..7).
        # - Si no, usa log-frecuencia de tu vocab.
        if self.zipf_frequency is not None:
            return self.zipf_frequency(w.lower(), "en")  # cambiá "en" por tu idioma si querés
        return math.log(self.vocab.get(w.lower(), 0) + 1.0)

    def _cosine(self, a, b):
        m = self.model
        if m is None:
            return 0.0
        try:
            if hasattr(m, "wv"):
                va, vb = m.wv[a], m.wv[b]
            else:
                va, vb = m[a], m[b]
            denom = (np.linalg.norm(va) * np.linalg.norm(vb))
            if denom == 0:
                return 0.0
            return float(np.dot(va, vb) / denom)
        except Exception:
            return 0.0

    def score(self, src, cand, prev=None, nxt=None):
        # Señales
        d   = weighted_edit_distance(src, cand)
        sim = self._cosine(src.lower(), cand.lower())
        fr  = self._freq_prior(cand)

        # Contexto (promedio de similitud con vecinos alfabéticos si existen)
        ctx = 0.0
        cnt = 0
        if prev and prev.isalpha():
            ctx += self._cosine(cand.lower(), prev.lower()); cnt += 1
        if nxt and nxt.isalpha():
            ctx += self._cosine(cand.lower(), nxt.lower());  cnt += 1
        if cnt:
            ctx /= cnt

        # Pequeño bono si el candidato ya es igual (evita cambios innecesarios)
        ident_bonus = 0.15 if src.lower() == cand.lower() else 0.0

        # Mezcla final (aumenté un poco el peso de similitud y el contexto)
        return ident_bonus + (2.5 * sim) + (1.4 * fr) + (1.0 * ctx) - (1.2 * d)

    # Candidates
    def known(self, words: Iterable[str]) -> set[str]:
        if self._wordset:
            return {w for w in words if w in self._wordset}
        return {w for w in words if self.vocab.get(w, 0) > 0}

    def candidates(self, word, max_edits=2, k_from_embeddings=200):
        wl = word.lower()
        cands = set()

        # 3 fuentes: identidad/edits, vecinos de edits->edits (edits2), y vecinos por embeddings
        # a) identidad + edits1 + edits2 (pruned)
        cands |= self.known({wl})
        e1 = self.known(edits(wl))
        cands |= e1
        if max_edits >= 2 and e1:
            for w1 in list(e1)[:300]:  # limitar expansión para no explotar el espacio
                cands |= self.known(edits(w1))

        # b) vecinos por embeddings (si hay modelo)
        try:
            m = self.model.wv if hasattr(self.model, "wv") else self.model
            if hasattr(m, "most_similar"):
                for w, _ in m.most_similar(wl, topn=k_from_embeddings):
                    cands.add(w)
        except Exception:
            pass

        if not cands:
            cands.add(wl)

        # c) filtro suave por frecuencia (descartar muy raras)
        #    umbral ajustable: si tenés wordfreq, pedí Zipf>=2.5; si no, al menos que aparezca en vocab
        filtered = set()
        for w in cands:
            if self.zipf_frequency is not None:
                if self.zipf_frequency(w, "en") >= 2.5:
                    filtered.add(w)
            else:
                if self.vocab.get(w, 0) > 0:
                    filtered.add(w)
        if filtered:
            cands = filtered

        return cands

    # Correction
    def correct_word(self, word, prev=None, nxt=None, max_edits=2):
        if len(word) <= 2:
            return word
        cands = self.candidates(word, max_edits=max_edits)
        best = max(cands, key=lambda c: self.score(word, c, prev=prev, nxt=nxt))
        if word.istitle():
            return best.title()
        if word.isupper():
            return best.upper()
        return best

    def correct(self, text, max_edits=2):
        toks = tokenize(text)
        out = []
        # Para cada token palabra, miramos palabra previa/siguiente (alfabéticas) como contexto
        for i, tok in enumerate(toks):
            if tok.isalpha():
                prev = None
                nxt  = None
                # buscar prev
                j = i - 1
                while j >= 0:
                    if toks[j].isalpha(): prev = toks[j]; break
                    j -= 1
                # buscar next
                j = i + 1
                while j < len(toks):
                    if toks[j].isalpha(): nxt = toks[j]; break
                    j += 1
                out.append(self.correct_word(tok, prev=prev, nxt=nxt, max_edits=max_edits))
            else:
                out.append(tok)
        return "".join(out)

* Constructor __init__

Se inicializa el corrector con un modelo de embeddings, un vocabulario y los parámetros de peso.


* Sección “Model & vocab”

train_model → entrena un modelo FastText desde cero sobre un corpus dado.

load_pretrained → carga un modelo ya entrenado desde archivo (.bin o texto).

set_vocab_from_corpus → construye un contador de frecuencias a partir de un corpus.

get_vocab_words → obtiene la lista de palabras conocidas según el modelo o vocabulario.

Esto define la base de conocimiento del corrector.


* Sección “Scoring”

_cosine → calcula la similitud de coseno entre embeddings de dos palabras.

_log_freq → devuelve el logaritmo de la frecuencia de una palabra (más frecuente = más probable).

score → combina: bonus de identidad (si ya coincide la palabra), similitud de embeddings, frecuencia, penalización por distancia de edición.

Da un puntaje total para ordenar candidatos.

* Sección “Candidates”

known → filtra una lista de palabras dejando solo las que están en el vocabulario/modelo.

candidates → genera posibles correcciones:

Variantes por ediciones (borrar, insertar, sustituir, transponer).

Vecinos semánticos según embeddings (most_similar).

Si no encuentra nada, devuelve la palabra original.

Aquí obtenemos qué opciones existen para corregir una palabra.

* Sección “Correction”

correct_word → evalúa todos los candidatos de una palabra y se queda con el de mayor score. Respeta mayúsculas/minúsculas.

correct → tokeniza el texto completo, corrige solo las palabras alfabéticas, y reconstruye el texto final.

Esta es la función que usamos directamente para corregir frases enteras.

Vamos a implementar una función que nos permita construir un corrector. Tenemos 3 modos de uso:

* Modo pretrained (pretrained no es None)

Carga un modelo FastText ya entrenado (ej. cc.en.300.bin).
Si el vocabulario está vacío, se inicializa con una lista de hasta 200k palabras del modelo.

* Modo demo (demo=True)

Entrena un mini-modelo FastText sobre el TOY_CORPUS.
Esto permite probar el pipeline sin descargar nada.

* Modo fallback (ni pretrained ni demo)

Usa solo el vocabulario del TOY_CORPUS, sin embeddings.
Es el modo más básico, útil si no hay FastText disponible.

In [12]:
TOY_CORPUS = [
    "this is a simple sentence",
    "another simple example sentence",
    "we write code to correct spelling errors",
    "fasttext uses subword embeddings",
    "spell checking benefits from language models",
]

In [13]:
def build_checker(pretrained=None, demo: bool = True) -> SpellChecker:
    """
    Construye un SpellChecker:
      - Si pretrained es un str -> se asume ruta a archivo .bin/.txt
      - Si pretrained es un objeto gensim (KeyedVectors/FastText) -> se usa directamente
      - Si demo=True -> entrena mini-modelo en TOY_CORPUS
      - Sino -> usa solo vocabulario de TOY_CORPUS (sin embeddings)
    """
    checker = SpellChecker(weights=RankWeights(sim_w=2.0, freq_w=1.2, dist_w=1.0))

    if pretrained is not None:
        # Caso 1: ruta a archivo
        if isinstance(pretrained, str):
            checker.load_pretrained(pretrained)
        else:
            # Caso 2: objeto de modelo gensim ya cargado (ej. api.load)
            checker.model = pretrained

        # inicializar vocabulario si está vacío
        if not checker.vocab:
            words = list(checker.get_vocab_words())[:200000]
            checker.vocab = Counter({w: 1 for w in words})
            checker._wordset = set(words)

    elif demo:
        checker.train_model(TOY_CORPUS, size=100, window=5, min_count=1, epochs=10)

    else:
        checker.vocab = Counter(w for s in TOY_CORPUS for w in s.split())
        checker._wordset = set(checker.vocab)

    return checker

Veamos cómo usarlo:

In [14]:
sample = "Ths is a smple sentnce with speling erors."

In [15]:
# Build the checker with a tiny demo FastText model (no external downloads)
checker = build_checker(pretrained=None, demo=True)
print("INPUT :", sample)
print("OUTPUT:", checker.correct(sample))

INPUT : Ths is a smple sentnce with speling erors.
OUTPUT: This is a simple sentence to spelling to.


In [16]:
model = api.load("fasttext-wiki-news-subwords-300")

In [17]:
checker = build_checker(pretrained=model, demo=False)
sample = "Ths is a smple sentnce with speling erors."
print("INPUT :", sample)
print("OUTPUT:", checker.correct(sample))

INPUT : Ths is a smple sentnce with speling erors.
OUTPUT: The is a simple sentence with spelling errors.


In [18]:
checker = build_checker(pretrained=None, demo=False)
sample = "Ths is a smple sentnce with speling erors."
print("INPUT :", sample)
print("OUTPUT:", checker.correct(sample))

INPUT : Ths is a smple sentnce with speling erors.
OUTPUT: This is a simple sentence with spelling errors.


In [19]:
import nltk

nltk.download("brown")
from nltk.corpus import brown

[nltk_data] Downloading package brown to /home/pdconte/nltk_data...
[nltk_data]   Package brown is already up-to-date!


In [20]:
corpus = [" ".join(sent) for sent in brown.sents()]
checker = build_checker(demo=False)
checker.train_model(corpus)
print(checker.correct("Ths is a smple sentnce with speling erors."))

The is a simple sentence with spelling errors.


In [21]:
examples = [
    "Ths is a smple sentnce with speling erors.",
    "Shee liks to read boks in the librery.",
    "We are lernig how to corect mispelled wrds.",
    "The quik borwn fox jmps ovr the lazi dog.",
    "Natrual langauge procesing is intersting.",
]

for s in examples:
    print("INPUT :", s)
    print("OUTPUT:", checker.correct(s))
    print("-" * 60)

INPUT : Ths is a smple sentnce with speling erors.
OUTPUT: The is a simple sentence with spelling errors.
------------------------------------------------------------
INPUT : Shee liks to read boks in the librery.
OUTPUT: She like to read books in the library.
------------------------------------------------------------
INPUT : We are lernig how to corect mispelled wrds.
OUTPUT: We are lena how to correct spelled words.
------------------------------------------------------------
INPUT : The quik borwn fox jmps ovr the lazi dog.
OUTPUT: The quick born for jumps over the lazy dog.
------------------------------------------------------------
INPUT : Natrual langauge procesing is intersting.
OUTPUT: Natural language processing is interesting.
------------------------------------------------------------


In [22]:
checker.correct_word("speling")


'spelling'

In [23]:
checker.correct_word("smple", prev="a", nxt="sentence")

'simple'

In [24]:
cands = checker.candidates("speling")
print("Candidatos para 'speling':", sorted(list(cands)))

Candidatos para 'speling': ['ailing', 'aiming', 'bing', 'briefing', 'bulging', 'bursting', 'bustling', 'calming', 'chafing', 'chatting', 'chugging', 'circling', 'cleaning', 'cling', 'coping', 'copying', 'creaking', 'crippling', 'cruising', 'curbing', 'curling', 'curving', 'damaging', 'dancing', 'darting', 'debunking', 'decking', 'deeming', 'delaying', 'denying', 'dialing', 'digging', 'dressing', 'drugging', 'dueling', 'embezzling', 'embodying', 'emitting', 'emptying', 'ensuing', 'escaping', 'facing', 'failing', 'fairing', 'falsifying', 'favoring', 'fawning', 'fencing', 'filing', 'fleming', 'fooling', 'fumbling', 'fuming', 'grieving', 'growling', 'humming', 'hurtling', 'hustling', 'idling', 'inkling', 'juggling', 'kipling', 'labeling', 'lifting', 'limping', 'lingering', 'linking', 'logging', 'meddling', 'mingling', 'modeling', 'mulling', 'mumbling', 'muttering', 'nailing', 'naming', 'napping', 'nudging', 'obeying', 'pacing', 'paging', 'patting', 'peeling', 'pleading', 'polling', 'poolin

In [25]:
word = "speling"
for cand in checker.candidates(word):
    print(cand, "→", checker.score(word, cand))

curving → 2.4114257230758662
spilling → 4.740142028808593
sticking → 3.7549466507434843
curbing → 2.076314577341079
obeying → 3.076804737567901
mumbling → 1.6649324946403503
puffing → 1.6046232278347015
pooling → 3.4934511904716494
squealing → 2.6789249153137202
favoring → 1.3417812445163726
sizzling → 3.21653785777092
circling → 2.775640658855438
dueling → 4.5210155007839194
juggling → 2.1666570873260493
wrapping → 1.9288007481098175
polling → 4.677364127159119
peeling → 4.606453977584838
falsifying → -1.1403046538829802
escaping → 2.85735041809082
limping → 1.7810463192462924
cling → 3.7253400549888616
curling → 4.233124584197998
growling → 2.7522533946037298
sniffing → 2.1842918665409083
spewing → 5.501380836725234
taming → 1.7268560652732852
facing → 3.9567791819572458
tingling → 1.9798583173751831
fencing → 2.6352004852294924
selling → 6.764867254734037
swelling → 5.152778234004975
embezzling → -0.030254003524780693
sewing → 5.182606098413467
coping → 3.2936266517639154
wobbling →

In [26]:
text = "Ths is a smple sentnce."
print(tokenize(text))

['Ths', ' ', 'is', ' ', 'a', ' ', 'smple', ' ', 'sentnce', '.']


In [27]:
print("Tamaño de vocabulario:", len(checker.vocab))
print("Palabras más frecuentes:", checker.vocab.most_common(10))

Tamaño de vocabulario: 41433
Palabras más frecuentes: [('the', 70003), ('of', 36473), ('and', 28935), ('to', 26247), ('a', 23517), ('in', 21422), ('that', 10789), ('is', 10109), ('was', 9815), ('he', 9801)]
