---
## Dependencias

In [1]:
from statistics import mean
import spacy

In [12]:
from spacy.cli import download
nlp = spacy.load("es_core_news_sm")

In [5]:
text = """Aquí sí pasa, te presentamos el pronóstico del clima o del tiempo en Bogotá, mi Ciudad, mi Casa para que programes tu salida y evites contratiempos. Aquí encuentras el reporte entregado por el Instituto Distrital de Gestión de Riesgos y Cambio Climático (IDIGER) para este martes 16 de septiembre de 2025. ¡Toma nota!  

No olvides leer: Conoce los barrios en Bogotá y Soacha con cortes de agua este martes 16 de septiembre

Según el reporte del IDIGER, en la madrugada de este martes, son estimadas condiciones secas con cielo mayormente nublado en Bogotá.

La temperatura mínima esperada es de 11°C.

En la mañana se espera predomine el tiempo seco con cielo entre parcial y mayormente nublado."""

---
## 1. Preprocesar oraciones y tokens

In [None]:
# Procesamiento del texto
doc = nlp(text)

# Obtener las oraciones
sentences = list(doc.sents)

In [20]:
sentences[0]

Aquí sí pasa, te presentamos el pronóstico del clima o del tiempo en Bogotá, mi Ciudad, mi Casa para que programes tu salida y evites contratiempos.

In [17]:
# Filtrar tokens que no sean espacios o puntuación
tokens_por_oracion = []
for sent in sentences:
    toks = [t for t in sent if not t.is_space and not t.is_punct]
    tokens_por_oracion.append(toks)

In [22]:
tokens_por_oracion[0][:]

[Aquí,
 sí,
 pasa,
 te,
 presentamos,
 el,
 pronóstico,
 del,
 clima,
 o,
 del,
 tiempo,
 en,
 Bogotá,
 mi,
 Ciudad,
 mi,
 Casa,
 para,
 que,
 programes,
 tu,
 salida,
 y,
 evites,
 contratiempos]

---
## 2. Análisis original 

In [23]:
palabras_totales = sum(len(toks) for toks in tokens_por_oracion)
num_oraciones   = len(sentences)
palabras_por_oracion = [len(toks) for toks in tokens_por_oracion]

In [24]:
verbos  = [sum(1 for t in toks if t.pos_ in {"VERB","AUX"}) for toks in tokens_por_oracion]
sustant = [sum(1 for t in toks if t.pos_ in {"NOUN","PROPN"}) for toks in tokens_por_oracion]
adjetiv = [sum(1 for t in toks if t.pos_ == "ADJ") for toks in tokens_por_oracion]
pronomb = [sum(1 for t in toks if t.pos_ == "PRON") for toks in tokens_por_oracion]
adverb  = [sum(1 for t in toks if t.pos_ == "ADV") for toks in tokens_por_oracion]
stopw   = [sum(1 for t in toks if t.is_stop) for toks in tokens_por_oracion]

In [25]:
print("=== ORIGINAL ===")
print("Oraciones:", num_oraciones)
print("Palabras totales:", palabras_totales)
print("Palabras sin stopwords:", sum(1 for t in doc if t.is_alpha and not t.is_stop))
print("Promedio palabras por oración:", mean(palabras_por_oracion))
print("Promedio verbos por oración:", mean(verbos))
print("Promedio sustantivos por oración:", mean(sustant))
print("Promedio adjetivos por oración:", mean(adjetiv))
print("Promedio pronombres por oración:", mean(pronomb))
print("Promedio adverbios por oración:", mean(adverb))
print("Promedio stopwords por oración:", mean(stopw))
print("Tokenización:", [t.text for t in doc if t.is_alpha])

=== ORIGINAL ===
Oraciones: 5
Palabras totales: 117
Palabras sin stopwords: 59
Promedio palabras por oración: 23.4
Promedio verbos por oración: 2.2
Promedio sustantivos por oración: 7.8
Promedio adjetivos por oración: 2
Promedio pronombres por oración: 0.4
Promedio adverbios por oración: 0.8
Promedio stopwords por oración: 10.6
Tokenización: ['Aquí', 'sí', 'pasa', 'te', 'presentamos', 'el', 'pronóstico', 'del', 'clima', 'o', 'del', 'tiempo', 'en', 'Bogotá', 'mi', 'Ciudad', 'mi', 'Casa', 'para', 'que', 'programes', 'tu', 'salida', 'y', 'evites', 'contratiempos', 'Aquí', 'encuentras', 'el', 'reporte', 'entregado', 'por', 'el', 'Instituto', 'Distrital', 'de', 'Gestión', 'de', 'Riesgos', 'y', 'Cambio', 'Climático', 'IDIGER', 'para', 'este', 'martes', 'de', 'septiembre', 'de', 'Toma', 'nota', 'No', 'olvides', 'leer', 'Conoce', 'los', 'barrios', 'en', 'Bogotá', 'y', 'Soacha', 'con', 'cortes', 'de', 'agua', 'este', 'martes', 'de', 'septiembre', 'Según', 'el', 'reporte', 'del', 'IDIGER', 'en',

---
## 3. Analisis Sin stopwords 

In [26]:
tokens_sin_sw = [[t for t in toks if not t.is_stop] for toks in tokens_por_oracion]
pal_sin_sw = sum(len(toks) for toks in tokens_sin_sw)

print("\n=== SIN STOPWORDS ===")
print("Palabras totales (sin stopwords):", pal_sin_sw)
print("Promedio palabras por oración:", mean(len(toks) for toks in tokens_sin_sw))
print("Promedio verbos por oración:", mean(sum(1 for t in toks if t.pos_ in {"VERB","AUX"}) for toks in tokens_sin_sw))
print("Promedio sustantivos por oración:", mean(sum(1 for t in toks if t.pos_ in {"NOUN","PROPN"}) for toks in tokens_sin_sw))
print("Promedio adjetivos por oración:", mean(sum(1 for t in toks if t.pos_ == "ADJ") for toks in tokens_sin_sw))
print("Promedio pronombres por oración:", mean(sum(1 for t in toks if t.pos_ == "PRON") for toks in tokens_sin_sw))
print("Promedio adverbios por oración:", mean(sum(1 for t in toks if t.pos_ == "ADV") for toks in tokens_sin_sw))
print("Tokenización sin stopwords:", [t.text for t in doc if t.is_alpha and not t.is_stop])



=== SIN STOPWORDS ===
Palabras totales (sin stopwords): 64
Promedio palabras por oración: 12.8
Promedio verbos por oración: 1.8
Promedio sustantivos por oración: 7.8
Promedio adjetivos por oración: 2
Promedio pronombres por oración: 0
Promedio adverbios por oración: 0.2
Tokenización sin stopwords: ['pasa', 'presentamos', 'pronóstico', 'clima', 'tiempo', 'Bogotá', 'Ciudad', 'Casa', 'programes', 'salida', 'evites', 'contratiempos', 'encuentras', 'reporte', 'entregado', 'Instituto', 'Distrital', 'Gestión', 'Riesgos', 'Cambio', 'Climático', 'IDIGER', 'martes', 'septiembre', 'Toma', 'nota', 'olvides', 'leer', 'Conoce', 'barrios', 'Bogotá', 'Soacha', 'cortes', 'agua', 'martes', 'septiembre', 'reporte', 'IDIGER', 'madrugada', 'martes', 'estimadas', 'condiciones', 'secas', 'cielo', 'mayormente', 'nublado', 'Bogotá', 'temperatura', 'mínima', 'esperada', 'mañana', 'espera', 'predomine', 'tiempo', 'seco', 'cielo', 'parcial', 'mayormente', 'nublado']


## 4. Analisis Sin Lematizado 

In [27]:
lemmas_por_oracion = [[t for t in sent if t.is_alpha] for sent in sentences]
print("\n=== LEMATIZADO ===")
print("Oraciones:", len(lemmas_por_oracion))
print("Palabras totales (lemmas):", sum(len(t) for t in lemmas_por_oracion))
print("Palabras sin stopwords:", sum(1 for t in doc if t.is_alpha and not t.is_stop))
print("Promedio palabras por oración:", mean(len(t) for t in lemmas_por_oracion))
print("Promedio verbos por oración:", mean(sum(1 for t in toks if t.pos_ in {"VERB","AUX"}) for toks in lemmas_por_oracion))
print("Promedio sustantivos por oración:", mean(sum(1 for t in toks if t.pos_ in {"NOUN","PROPN"}) for toks in lemmas_por_oracion))
print("Promedio adjetivos por oración:", mean(sum(1 for t in toks if t.pos_ == "ADJ") for toks in lemmas_por_oracion))
print("Promedio pronombres por oración:", mean(sum(1 for t in toks if t.pos_ == "PRON") for toks in lemmas_por_oracion))
print("Promedio adverbios por oración:", mean(sum(1 for t in toks if t.pos_ == "ADV") for toks in lemmas_por_oracion))
print("Promedio stopwords por oración:", mean(sum(1 for t in toks if t.is_stop) for toks in lemmas_por_oracion))
print("Tokenización lematizada:", [t.lemma_ for t in doc if t.is_alpha])


=== LEMATIZADO ===
Oraciones: 5
Palabras totales (lemmas): 112
Palabras sin stopwords: 59
Promedio palabras por oración: 22.4
Promedio verbos por oración: 2.2
Promedio sustantivos por oración: 7.8
Promedio adjetivos por oración: 2
Promedio pronombres por oración: 0.4
Promedio adverbios por oración: 0.8
Promedio stopwords por oración: 10.6
Tokenización lematizada: ['aquí', 'sí', 'pasar', 'tú', 'presentar', 'el', 'pronóstico', 'del', 'clima', 'o', 'del', 'tiempo', 'en', 'Bogotá', 'mi', 'Ciudad', 'mi', 'Casa', 'para', 'que', 'programser', 'tu', 'salida', 'y', 'evit', 'contratiempo', 'aquí', 'encontrar', 'el', 'reporte', 'entregado', 'por', 'el', 'Instituto', 'Distrital', 'de', 'Gestión', 'de', 'Riesgos', 'y', 'Cambio', 'Climático', 'IDIGER', 'para', 'este', 'martes', 'de', 'septiembre', 'de', 'Toma', 'noto', 'no', 'olvides', 'leer', 'conocer', 'el', 'barrio', 'en', 'Bogotá', 'y', 'Soacha', 'con', 'corte', 'de', 'agua', 'este', 'martes', 'de', 'septiembre', 'Según', 'el', 'reporte', 'del'

## 5. Generacion funcion que resuma el analisis

In [50]:
def morfologia_texto(text: str):
    
    # Importar librerías
    from statistics import mean
    import spacy

    # Cargar el modelo de spaCy para español
    try:
        nlp = spacy.load("es_core_news_sm")
    except OSError:
        from spacy.cli import download
        download("es_core_news_sm")
        nlp = spacy.load("es_core_news_sm")

    # Procesar el texto
    doc = nlp(text)

    # Obtener las oraciones
    sentences = list(doc.sents)
    tokens_por_oracion = [[t for t in sent if t.is_alpha] for sent in sentences]

    # Función para calcular el promedio de una lista, manejando listas vacías
    prom = lambda lst: float(mean(lst)) if lst else 0.0

    # -------- ORIGINAL --------
    palabras_totales = sum(len(t) for t in tokens_por_oracion)
    oraciones = len(tokens_por_oracion)

    verbos_list  = [sum(1 for t in toks if t.pos_ in {"VERB", "AUX"})  for toks in tokens_por_oracion]
    sustant_list = [sum(1 for t in toks if t.pos_ in {"NOUN", "PROPN"}) for toks in tokens_por_oracion]
    adjetiv_list = [sum(1 for t in toks if t.pos_ == "ADJ")             for toks in tokens_por_oracion]
    pronomb_list = [sum(1 for t in toks if t.pos_ == "PRON")            for toks in tokens_por_oracion]
    adverb_list  = [sum(1 for t in toks if t.pos_ == "ADV")             for toks in tokens_por_oracion]
    stopw_list   = [sum(1 for t in toks if t.is_stop)                   for toks in tokens_por_oracion]


    original = {
        "oraciones": oraciones,
        "cantidad_palabras": sum(palabras_por_oracion),
        "cantidad_palabras_sin_stopwords": sum(1 for t in doc if t.is_alpha and not t.is_stop),

        # Promedios por oración
        "promedio_palabras_por_oracion": prom(palabras_por_oracion),
        "promedio_verbos_por_oracion": prom(verbos_list),
        "promedio_sustantivos_por_oracion": prom(sustant_list),
        "promedio_adjetivos_por_oracion": prom(adjetiv_list),
        "promedio_pronombres_por_oracion": prom(pronomb_list),
        "promedio_adverbios_por_oracion": prom(adverb_list),
        "promedio_stopwords_por_oracion": prom(stopw_list),

        # Totales en todo el texto
        "total_verbos": sum(verbos_list),
        "total_sustantivos": sum(sustant_list),
        "total_adjetivos": sum(adjetiv_list),
        "total_pronombres": sum(pronomb_list),
        "total_adverbios": sum(adverb_list),
        "total_stopwords": sum(stopw_list)
    }

    # -------- SIN STOPWORDS --------
    tokens_sin_sw = [[t for t in toks if not t.is_stop] for toks in tokens_por_oracion]
    palabras_por_oracion_sw = [len(toks) for toks in tokens_sin_sw]

    verbos_sw_list  = [sum(1 for t in toks if t.pos_ in {"VERB", "AUX"})  for toks in tokens_sin_sw]
    sustant_sw_list = [sum(1 for t in toks if t.pos_ in {"NOUN", "PROPN"}) for toks in tokens_sin_sw]
    adjetiv_sw_list = [sum(1 for t in toks if t.pos_ == "ADJ")             for toks in tokens_sin_sw]
    pronomb_sw_list = [sum(1 for t in toks if t.pos_ == "PRON")            for toks in tokens_sin_sw]
    adverb_sw_list  = [sum(1 for t in toks if t.pos_ == "ADV")             for toks in tokens_sin_sw]

    sin_stopwords = {
        "oraciones": oraciones,
        "cantidad_palabras": sum(palabras_por_oracion_sw),
        "cantidad_palabras_sin_stopwords": sum(palabras_por_oracion_sw),

        # Promedios por oración
        "promedio_palabras_por_oracion": prom(palabras_por_oracion_sw),
        "promedio_verbos_por_oracion": prom(verbos_sw_list),
        "promedio_sustantivos_por_oracion": prom(sustant_sw_list),
        "promedio_adjetivos_por_oracion": prom(adjetiv_sw_list),
        "promedio_pronombres_por_oracion": prom(pronomb_sw_list),
        "promedio_adverbios_por_oracion": prom(adverb_sw_list),
        "promedio_stopwords_por_oracion": 0.0,

        # Totales en todo el texto (sin stopwords)
        "total_verbos": sum(verbos_sw_list),
        "total_sustantivos": sum(sustant_sw_list),
        "total_adjetivos": sum(adjetiv_sw_list),
        "total_pronombres": sum(pronomb_sw_list),
        "total_adverbios": sum(adverb_sw_list),
        "total_stopwords": 0
    }


    return {
        "original": original,
        "sin_stopwords": sin_stopwords,
    }

In [51]:
analisis = morfologia_texto("""Conoce cómo aplica la medida de pico y placa en Bogotá este martes 16 de septiembre de 2025. Estos son los horarios de la medida para vehículos particulares y taxis que pueden circular en la ciudad, según el calendario de la Secretaría Distrital de Movilidad (SDM). ¡Agéndate y evita sanciones! 

Te puede interesar: Conoce los barrios en Bogotá con cortes de agua este martes 16 de septiembre

Vehículos particulares: Pueden circular los vehículos con placas terminadas en 6, 7, 8, 9 y 0.

Taxis: Pueden circular los vehículos con placas terminadas en 1, 2, 5, 6, 7, 8, 9 y 0.

Horarios de la medida para vehículos particulares de 6:00 a. m. a 9:00 p. m. y para taxis de 5:30 a. m. a 9:00 p. m. 

Recuerda que los usuarios que quieran ser exentos del pico y placa pueden registrarse en la página de la Secretaría Distrital de Movilidad y conocer el Pico y Placa Solidario, la modalidad con la que usted puede pagar para usar su vehículo en Bogotá sin ninguna restricción. Conoce más detalles aquí: Conoce la única plataforma autorizada para tramitar el pico y placa solidario en Bogotá.

¡Ojo! No te dejes engañar con páginas falsas que ofrecen pico y placa solidario en Bogotá
El único canal oficial para adquirir y pagar el Pico y Placa Solidario es la plataforma de la entidad, a la que se accede exclusivamente a través del sitio web: www.movilidadbogota.gov.co. Igualmente, se aclara que la única forma de pago es mediante botón de PSE dentro de la página oficial. """)

In [52]:
analisis

{'original': {'oraciones': 9,
  'cantidad_palabras': 117,
  'cantidad_palabras_sin_stopwords': 108,
  'promedio_palabras_por_oracion': 23.4,
  'promedio_verbos_por_oracion': 3.7777777777777777,
  'promedio_sustantivos_por_oracion': 7.333333333333333,
  'promedio_adjetivos_por_oracion': 2.0,
  'promedio_pronombres_por_oracion': 1.3333333333333333,
  'promedio_adverbios_por_oracion': 0.6666666666666666,
  'promedio_stopwords_por_oracion': 13.222222222222221,
  'total_verbos': 34,
  'total_sustantivos': 66,
  'total_adjetivos': 18,
  'total_pronombres': 12,
  'total_adverbios': 6,
  'total_stopwords': 119},
 'sin_stopwords': {'oraciones': 9,
  'cantidad_palabras': 108,
  'cantidad_palabras_sin_stopwords': 108,
  'promedio_palabras_por_oracion': 12.0,
  'promedio_verbos_por_oracion': 2.4444444444444446,
  'promedio_sustantivos_por_oracion': 7.222222222222222,
  'promedio_adjetivos_por_oracion': 2.0,
  'promedio_pronombres_por_oracion': 0.0,
  'promedio_adverbios_por_oracion': 0.22222222222