# Procesamiento de Texto

In [9]:
%pip install unidecode
%pip install spacy
!python -m spacy download es_core_news_sm

Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.
Collecting es-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.8.0/es_core_news_sm-3.8.0-py3-none-any.whl (12.9 MB)
     ---------------------------------------- 0.0/12.9 MB ? eta -:--:--
     --------------------- ------------------ 6.8/12.9 MB 35.8 MB/s eta 0:00:01
     --------------------------------------  12.6/12.9 MB 30.9 MB/s eta 0:00:01
     ---------------------------------------- 12.9/12.9 MB 28.2 MB/s  0:00:00
Installing collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')


In [1]:
%pip install nltk

Collecting nltk
  Downloading nltk-3.9.1-py3-none-any.whl.metadata (2.9 kB)
Collecting joblib (from nltk)
  Downloading joblib-1.5.1-py3-none-any.whl.metadata (5.6 kB)
Collecting regex>=2021.8.3 (from nltk)
  Downloading regex-2025.7.34-cp313-cp313-win_amd64.whl.metadata (41 kB)
Downloading nltk-3.9.1-py3-none-any.whl (1.5 MB)
   ---------------------------------------- 0.0/1.5 MB ? eta -:--:--
   ---------------------------------------- 1.5/1.5 MB 23.9 MB/s  0:00:00
Downloading regex-2025.7.34-cp313-cp313-win_amd64.whl (275 kB)
Downloading joblib-1.5.1-py3-none-any.whl (307 kB)
Installing collected packages: regex, joblib, nltk

   ---------------------------------------- 0/3 [regex]
   ------------- -------------------------- 1/3 [joblib]
   ------------- -------------------------- 1/3 [joblib]
   ------------- -------------------------- 1/3 [joblib]
   ------------- -------------------------- 1/3 [joblib]
   ------------- -------------------------- 1/3 [joblib]
   ------------- ----



## Pasos

### 1. Limpieza

El objetivo de este paso es hacer un reemplazo de simbologia del español, puntuación, etc.
Se podría hacer uso de .replace() de python. Sin embargo se trabaja con expresiones regulares, en este caso la libreria "re".

In [2]:
import re

def limpiar(texto):
    puntuación = r'[,;.:¡!¿?@#$%&[\](){}<>~=+\-*/|\\_^`"\']'
    
    # signos de puntuación
    texto = re.sub(puntuación, ' ', texto)
    
    # dígitos [0-9]
    # Se usa \d para representar dígitos usualmente.
    texto = re.sub('[0-9]', ' ', texto)

    return texto

ejemplo = "¡Hola, mundo! ¿Cómo estás? 1234"
resultado = limpiar(ejemplo)
resultado


' Hola  mundo   Cómo estás      '

### 2. Paso

Ejemplo:
- 13/03/30 -> trece de marzo de dos mil treinta
- DC -> departamento de computación

Es necesario ahora normalizar, osea, para el español eliminar tildes, convertir todo a minusculas.

Si bien podemos hacerlo de manera manual, se puede usar "unicode" para lograrlo en caso que se tenga caracteres chinos o letras extranjeras.

In [7]:
def normalizar(texto):

    # todo a minúsculas
    texto = texto.lower()

    # tildes y diacríticas
    texto = re.sub('á', 'a', texto)
    texto = re.sub('é', 'e', texto)
    texto = re.sub('í', 'i', texto)
    texto = re.sub('ó', 'o', texto)
    texto = re.sub('ú', 'u', texto)
    texto = re.sub('ü', 'u', texto)
    texto = re.sub('ñ', 'n', texto)

    return texto

resultado_normalizado = normalizar(resultado)
resultado_normalizado

' hola  mundo   como estas      '

In [3]:
# Opcion 2 Unicode

from unidecode import unidecode

resultado_normalizado2 = unidecode(resultado)
resultado_normalizado2

' Hola  mundo   Como estas      '

### Paso 3: Finalmente, tokenización
Separar el texto en partes mas pequeñas. Hay muchas modalidades y hay que tener mucho cuidado, sobretodo en situación donde la puntuación puede ser seperador. En ingles tenemos "it's" , que podría separarse como it - 's.

In [5]:
def tokenizar(texto):
    # IMPORTANTE: podría devolver una lista vacía
    return [tóken for tóken in texto.split()]
    
ejemplo_tokenizado = tokenizar(resultado_normalizado2)
ejemplo_tokenizado

['Hola', 'mundo', 'Como', 'estas']

Entonces, ahora usando spacy

In [10]:
import spacy

nlp = spacy.load('es_core_news_sm')

doc = nlp('Esto es una frase.')

print([tóken.text for tóken in doc])

['Esto', 'es', 'una', 'frase', '.']


### Stemming

Stem, de raíz, reduce la inflección de las palabras, mapeando un grupo de palabras a la misma raíz, sin importar si la raíz es una palabras válida en el lenguaje.

### Lemmatization

A diferencia del stemming, la lematización reduce las palabras inflexadas a palabras que pertenecen al lenguaje. La raíz pasa a llamarse lema.

# Trabajando con NLTK

In [3]:
import nltk
nltk.download('stopwords')

from nltk.corpus import stopwords

stopwords.words('spanish')[:10]

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\acca4\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


['de', 'la', 'que', 'el', 'en', 'y', 'a', 'los', 'del', 'se']

#  Ejemplo en Python con spaCy

In [1]:
import spacy

# 1. Cargar modelo en español
nlp = spacy.load("es_core_news_sm")

# 2. Texto de ejemplo
texto = "¡Hola! Estoy aprendiendo procesamiento de lenguaje natural con Python."

# 3. Procesar texto
doc = nlp(texto)

# 4. Tokenización
tokens = [token.text for token in doc]
print("Tokens:", tokens)

# 5. Lemmatización
lemmas = [token.lemma_ for token in doc]
print("Lemmas:", lemmas)

# 6. Filtrar solo palabras significativas (sin puntuación ni stopwords)
tokens_filtrados = [token.text for token in doc if not token.is_stop and token.is_alpha]
print("Tokens filtrados:", tokens_filtrados)


Tokens: ['¡', 'Hola', '!', 'Estoy', 'aprendiendo', 'procesamiento', 'de', 'lenguaje', 'natural', 'con', 'Python', '.']
Lemmas: ['¡', 'Hola', '!', 'estar', 'aprender', 'procesamiento', 'de', 'lenguaje', 'natural', 'con', 'Python', '.']
Tokens filtrados: ['Hola', 'aprendiendo', 'procesamiento', 'lenguaje', 'natural', 'Python']


# Ejemplo rápido con HuggingFace Tokenizers (sub-palabras)

In [2]:
%pip install transformers

Collecting transformers
  Downloading transformers-4.55.0-py3-none-any.whl.metadata (39 kB)
Collecting filelock (from transformers)
  Downloading filelock-3.18.0-py3-none-any.whl.metadata (2.9 kB)
Collecting huggingface-hub<1.0,>=0.34.0 (from transformers)
  Downloading huggingface_hub-0.34.4-py3-none-any.whl.metadata (14 kB)
Collecting pyyaml>=5.1 (from transformers)
  Downloading PyYAML-6.0.2-cp313-cp313-win_amd64.whl.metadata (2.1 kB)
Collecting tokenizers<0.22,>=0.21 (from transformers)
  Downloading tokenizers-0.21.4-cp39-abi3-win_amd64.whl.metadata (6.9 kB)
Collecting safetensors>=0.4.3 (from transformers)
  Downloading safetensors-0.6.2-cp38-abi3-win_amd64.whl.metadata (4.1 kB)
Collecting fsspec>=2023.5.0 (from huggingface-hub<1.0,>=0.34.0->transformers)
  Downloading fsspec-2025.7.0-py3-none-any.whl.metadata (12 kB)
Downloading transformers-4.55.0-py3-none-any.whl (11.3 MB)
   ---------------------------------------- 0.0/11.3 MB ? eta -:--:--
   ------------------- ------------



In [3]:
from transformers import AutoTokenizer

# Tokenizador preentrenado (multilingüe)
tokenizer = AutoTokenizer.from_pretrained("bert-base-multilingual-cased")

texto = "¡Hola! Estoy aprendiendo procesamiento de lenguaje natural con Python."

# Tokenización por sub-palabras
tokens = tokenizer.tokenize(texto)
ids = tokenizer.convert_tokens_to_ids(tokens)

print("Tokens:", tokens)
print("IDs:", ids)


  from .autonotebook import tqdm as notebook_tqdm
None of PyTorch, TensorFlow >= 2.0, or Flax have been found. Models won't be available and only tokenizers, configuration and file/data utilities can be used.
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


Tokens: ['¡', 'Ho', '##la', '!', 'Esto', '##y', 'apre', '##ndi', '##endo', 'procesa', '##miento', 'de', 'lenguaje', 'natural', 'con', 'Python', '.']
IDs: [199, 20220, 10330, 106, 24165, 10157, 87438, 17938, 17560, 103862, 16085, 10104, 65621, 13409, 10173, 47294, 119]
