---
## Dependencias

In [2]:
import spacy
from spacy.lang.es.stop_words import STOP_WORDS

---
## 1. Preprocesar texto

In [3]:
nlp = spacy.load("es_core_news_sm")

In [4]:
texto = """Conoce cómo aplica la medida de pico y placa en Bogotá este martes 16 de septiembre de 2025. Estos son los horarios de la medida para vehículos particulares y taxis que pueden circular en la ciudad, según el calendario de la Secretaría Distrital de Movilidad (SDM). ¡Agéndate y evita sanciones! 

Te puede interesar: Conoce los barrios en Bogotá con cortes de agua este martes 16 de septiembre

Vehículos particulares: Pueden circular los vehículos con placas terminadas en 6, 7, 8, 9 y 0.

Taxis: Pueden circular los vehículos con placas terminadas en 1, 2, 5, 6, 7, 8, 9 y 0.

Horarios de la medida para vehículos particulares de 6:00 a. m. a 9:00 p. m. y para taxis de 5:30 a. m. a 9:00 p. m. 

Recuerda que los usuarios que quieran ser exentos del pico y placa pueden registrarse en la página de la Secretaría Distrital de Movilidad y conocer el Pico y Placa Solidario, la modalidad con la que usted puede pagar para usar su vehículo en Bogotá sin ninguna restricción. Conoce más detalles aquí: Conoce la única plataforma autorizada para tramitar el pico y placa solidario en Bogotá.

¡Ojo! No te dejes engañar con páginas falsas que ofrecen pico y placa solidario en Bogotá
El único canal oficial para adquirir y pagar el Pico y Placa Solidario es la plataforma de la entidad, a la que se accede exclusivamente a través del sitio web: www.movilidadbogota.gov.co. Igualmente, se aclara que la única forma de pago es mediante botón de PSE dentro de la página oficial. """

In [10]:
 # Procesar el texto
doc = nlp(texto.lower())  # pasamos todo a minúsculas

# Filtrar tokens: sin stopwords, sin puntuación y con longitud > 1
oraciones_procesadas = []
for sent in doc.sents:
    tokens_limpios = [
        token.lemma_
        for token in sent
        if token.is_alpha and token.lemma_ not in STOP_WORDS
    ]
    oraciones_procesadas.append(tokens_limpios)

In [12]:
oraciones_procesadas

[['aplicar', 'medida', 'pico', 'placar', 'martes', 'septiembre'],
 ['horario',
  'medida',
  'vehículo',
  'particular',
  'taxi',
  'circular',
  'ciudad',
  'calendario',
  'secretaría',
  'distrital',
  'movilidad',
  'sdm'],
 ['agéndate',
  'evitar',
  'sanción',
  'interesar',
  'barrio',
  'bogotá',
  'corte',
  'agua',
  'martes',
  'septiembre',
  'vehículo',
  'particular',
  'circular',
  'vehículo',
  'placa',
  'terminado',
  'taxi',
  'circular',
  'vehículo',
  'placa',
  'terminado',
  'horario',
  'medida',
  'vehículo',
  'particular',
  'taxi',
  'recordar',
  'usuario',
  'querer',
  'exento',
  'pico',
  'placar',
  'registrar él',
  'página',
  'secretaría',
  'distrital',
  'movilidad',
  'pico',
  'placa',
  'solidario',
  'modalidad',
  'pagar',
  'vehículo',
  'restricción'],
 ['detalle',
  'único',
  'plataforma',
  'autorizado',
  'tramitar',
  'pico',
  'placo',
  'solidario',
  'bogotá'],
 ['ojo',
  'dej',
  'engañar',
  'página',
  'falso',
  'ofrecer',
  

---
## 2. Funcion para preprocesar

In [13]:
def preprocesar_texto(texto: str) -> list:
    """
    Preprocesa un texto en español: 
    - Tokeniza
    - Elimina stop words y signos de puntuación
    - Lematiza
    
    Parámetros:
        texto (str): Texto de entrada.
    
    Retorna:
        list: Lista de tokens lematizados limpios.
    """
    import spacy
    from spacy.lang.es.stop_words import STOP_WORDS

    # Cargar el modelo de spaCy para español
    try:
        nlp = spacy.load("es_core_news_sm")
    except OSError:
        from spacy.cli import download
        download("es_core_news_sm")
        nlp = spacy.load("es_core_news_sm")
    
    # Procesar el texto
    doc = nlp(texto.lower())  # pasamos todo a minúsculas
    
    # Filtrar tokens: sin stopwords, sin puntuación y con longitud > 1
    oraciones_procesadas = []
    for sent in doc.sents:
        tokens_limpios = [
            token.lemma_
            for token in sent
            if token.is_alpha and token.lemma_ not in STOP_WORDS
        ]
        oraciones_procesadas.append(tokens_limpios)
    
    return tokens_limpios