# Preprocesamiento de texto con Python

<b>Usar al menos 2 bibliotecas de PLN para analizar el texto La trampa, de Mario Halley Mora y responder las siguientes preguntas:</b>

1. Cuantas palabras hay en el texto? (descartando símbolos de puntuación).
2. Cuantas palabras diferentes hay?.
3. Después de lematizar las palabras, cuantas palabras diferentes hay?.
4. ¿Cuál es la diversidad léxica del texto dado? (relación de palabras únicas con respecto al número total de palabras)
5. ¿Cuáles son las 20 palabras más frecuentes en el texto? ¿Cuál es su frecuencia?
6. Cual es el número promedio de palabras por oración?
7. Cual  es la frecuencia de de sustantivos, adjetivos y verbos en el texto?


<hr/>

In [60]:
import requests

In [61]:
url = "https://raw.githubusercontent.com/NelbaBarreto/programacion-ciencias-datos/refs/heads/main/data/latrampa.txt"

# Obtener el contenido de la URL
response = requests.get(url)

# Verificar si la solicitud fue exitosa
if response.status_code == 200:
    # Obtener el texto de la respuesta
    texto = response.text
    print(texto)
else:
    print("Error al obtener el contenido:", response.status_code)

LA TRAMPA
«Ruego al padre del alumno Raúl Ortiz (h), se sirva presentarse el día de mañana en horas de clase, por motivos que guardan relación con la conducta del niño. La maestra». La seca citación estaba escrita con prolija letra pedagógica, en el bastante sucio cuaderno de deber de Raulito (hijo).
Raúl (padre) requirió a Raulito (hijo) el motivo de esta llamada. Y por toda respuesta, el chico se echó a llorar desconsoladamente.
Un poco temeroso de encontrarse con una maestra como la que le había tocado a él mismo en el quinto grado, bigotuda, solterona y malhumorada, Raúl (padre) se encaminó a la Escuela, y solicitó una entrevista con la maestra de Raulito (hijo) y cuando ella, durante el primer recreo, lo recibió en la antesala de la Dirección, tuvo una agradable sorpresa. La maestra ni era solterona, ni bigotuda, aunque sí malhumorada, cosa que no podía ocultar ni siquiera detrás de sus ojos celestes y la inocencia juvenil de su boca.
-Señor Ortiz -dijo la joven maestra, sin preám

## spaCy

In [62]:
# Instalar spaCy
!pip install spacy
!python -m spacy download es_core_news_sm

Collecting es-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.8.0/es_core_news_sm-3.8.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m57.3 MB/s[0m eta [36m0:00:00[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [63]:
import spacy

# Cargar el modelo de español
nlp = spacy.load("es_core_news_sm")

# Procesar el texto con spaCy
doc = nlp(texto)

In [64]:
# Obtener palabras válidas: sin puntuación, sin espacios, sin caracteres vacíos
palabras_validas = [token.text.lower() for token in doc if token.is_alpha and token.text]

In [65]:
# 1. Cuantas palabras hay en el texto? (descartando símbolos de puntuación).
cantidad_palabras_total = len(palabras_validas)
print(f"Hay {cantidad_palabras_total} palabras en el texto descartando los símbolos de puntuación.")

Hay 627 palabras en el texto descartando los símbolos de puntuación.


In [66]:
# 2. Cuantas palabras diferentes hay?.
# Contar palabras únicas con set()
cantidad_palabras_unicas = len(set(palabras_validas))
print(f"Hay {cantidad_palabras_unicas} palabras diferentes.")

Hay 315 palabras diferentes.


In [67]:
# 3. Después de lematizar las palabras, cuantas palabras diferentes hay?.
# Obtener la forma lematizada de cada palabra, en minúsculas, sin signos de puntuación ni espacios
palabras = {token.lemma_.lower() for token in doc if token.is_alpha and token.text}

cantidad_palabras_lematizadas = len(set(palabras))
print(f"Después de lematizar las palabras, hay {cantidad_palabras_lematizadas} palabras diferentes.")

Después de lematizar las palabras, hay 276 palabras diferentes.


In [68]:
# 4. ¿Cuál es la diversidad léxica del texto dado? (relación de palabras únicas con respecto al número total de palabras)
diversidad_lexica = cantidad_palabras_unicas / cantidad_palabras_total
print(f"La diversidad léxica del texto es de {diversidad_lexica:.2f}.")

La diversidad léxica del texto es de 0.50.


In [69]:
# 5. ¿Cuáles son las 20 palabras más frecuentes en el texto? ¿Cuál es su frecuencia?
from collections import Counter

# Contar la frecuencia de cada palabra
frecuencia_palabras = Counter(palabras_validas)

# Obtener las 20 palabras más frecuentes
top_20 = frecuencia_palabras.most_common(20)

# Mostrar resultado
print("Las 20 palabras más frecuentes y su frecuencia son:")

for i, (palabra, frecuencia) in enumerate(top_20, 1):
    print(f"{i} => {palabra}: {frecuencia}")

Las 20 palabras más frecuentes y su frecuencia son:
1 => la: 35
2 => de: 29
3 => y: 20
4 => con: 18
5 => una: 14
6 => se: 13
7 => a: 13
8 => el: 12
9 => que: 11
10 => maestra: 10
11 => raúl: 9
12 => en: 9
13 => no: 9
14 => padre: 8
15 => su: 8
16 => sus: 7
17 => por: 6
18 => raulito: 6
19 => le: 6
20 => hijo: 5


In [70]:
# 6. Cual es el número promedio de palabras por oración?
# Obtener todas las oraciones

# Doc.sents | Iterate over the sentences in the document.
oraciones = list(doc.sents)

# Contar palabras en cada oración (excluyendo puntuación)
num_palabras_por_oracion = [
    len([token.text.lower() for token in oracion if token.is_alpha])
    for oracion in oraciones
]

# Calcular el promedio
promedio_palabras = sum(num_palabras_por_oracion) / len(num_palabras_por_oracion) if num_palabras_por_oracion else 0

# Mostrar resultado
print(f"El número promedio de palabras por oración es {promedio_palabras:.2f}")

El número promedio de palabras por oración es 12.29


In [71]:
# 7. Cual es la frecuencia de de sustantivos, adjetivos y verbos en el texto?
# Clasificar las palabras según su tipo (POS: Part of Speech)
sustantivos = [token.text.lower() for token in doc if token.pos_ == "NOUN" and token.is_alpha]
adjetivos = [token.text.lower() for token in doc if token.pos_ == "ADJ" and token.is_alpha]
verbos = [token.text.lower() for token in doc if token.pos_ == "VERB" and token.is_alpha]

# Contar la frecuencia de cada tipo de palabra
frecuencia_sustantivos = Counter(sustantivos)
frecuencia_adjetivos = Counter(adjetivos)
frecuencia_verbos = Counter(verbos)

# Ver las palabras más frecuentes según su tipo
print(f"Sustantivos más frecuentes: {frecuencia_sustantivos.most_common(10)}")
print(f"Adjetivos más frecuentes: {frecuencia_adjetivos.most_common(10)}")
print(f"Verbos más frecuentes: {frecuencia_verbos.most_common(10)}")

print("\n***********")
# Mostrar resultados
print(f"La frecuencia de sustantivos es: {len(frecuencia_sustantivos)}")
print(f"La frecuencia de adjetivos es: {len(frecuencia_adjetivos)}")
print(f"La frecuencia de verbos es: {len(frecuencia_verbos)}")

Sustantivos más frecuentes: [('maestra', 10), ('padre', 8), ('hijo', 5), ('señor', 3), ('niño', 2), ('bigotuda', 2), ('solterona', 2), ('ojos', 2), ('calamidad', 2), ('cabellos', 2)]
Adjetivos más frecuentes: [('celestes', 2), ('seca', 1), ('escrita', 1), ('letra', 1), ('pedagógica', 1), ('bastante', 1), ('sucio', 1), ('temeroso', 1), ('mismo', 1), ('quinto', 1)]
Verbos más frecuentes: [('señorita', 3), ('llorar', 2), ('solicitó', 2), ('viene', 2), ('estudiar', 2), ('escribe', 2), ('come', 2), ('tiene', 2), ('sirva', 1), ('presentarse', 1)]

***********
La frecuencia de sustantivos es: 101
La frecuencia de adjetivos es: 44
La frecuencia de verbos es: 70


<hr />

## Stanza

In [72]:
!pip install stanza



In [73]:
import stanza

stanza.download("es") # Descargar el modelo en español

nlp = stanza.Pipeline("es", processors="tokenize,mwt,pos,lemma") # Inicializar el pipeline en español

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.10.0.json:   0%|  …

INFO:stanza:Downloaded file to /root/stanza_resources/resources.json
INFO:stanza:Downloading default packages for language: es (Spanish) ...
INFO:stanza:File exists: /root/stanza_resources/es/default.zip
INFO:stanza:Finished downloading models and saved to /root/stanza_resources
INFO:stanza:Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.10.0.json:   0%|  …

INFO:stanza:Downloaded file to /root/stanza_resources/resources.json
INFO:stanza:Loading these models for language: es (Spanish):
| Processor | Package           |
---------------------------------
| tokenize  | combined          |
| mwt       | combined          |
| pos       | combined_charlm   |
| lemma     | combined_nocharlm |

INFO:stanza:Using device: cpu
INFO:stanza:Loading: tokenize
INFO:stanza:Loading: mwt
INFO:stanza:Loading: pos
INFO:stanza:Loading: lemma
INFO:stanza:Done loading processors!


In [74]:
doc = nlp(texto) # Procesar el texto con Stanza

# Filtrar palabras válidas: sin puntuación, sin espacios, sin caracteres vacíos
palabras_validas = [word.text.lower() for sent in doc.sentences for word in sent.words if word.text.isalpha()]

In [75]:
# 1. Cuantas palabras hay en el texto? (descartando símbolos de puntuación).
cantidad_palabras_total = len(palabras_validas)
print(f"Hay {cantidad_palabras_total} palabras en el texto descartando los símbolos de puntuación.")

Hay 648 palabras en el texto descartando los símbolos de puntuación.


In [76]:
# 2. Cuantas palabras diferentes hay?.
# Contar palabras únicas con set()
cantidad_palabras_unicas = len(set(palabras_validas))
print(f"Hay {cantidad_palabras_unicas} palabras diferentes.")

Hay 314 palabras diferentes.


In [77]:
# 3. Después de lematizar las palabras, cuantas palabras diferentes hay?.
# Obtener la forma lematizada de cada palabra, en minúsculas, sin signos de puntuación ni espacios
palabras = {word.lemma.lower() for sent in doc.sentences for word in sent.words if word.lemma.isalpha()}

cantidad_palabras_lematizadas = len(set(palabras))
print(f"Después de lematizar las palabras, hay {cantidad_palabras_lematizadas} palabras diferentes.")

Después de lematizar las palabras, hay 274 palabras diferentes.


In [78]:
# 4. ¿Cuál es la diversidad léxica del texto dado? (relación de palabras únicas con respecto al número total de palabras)
diversidad_lexica = cantidad_palabras_unicas / cantidad_palabras_total
print(f"La diversidad léxica del texto es de {diversidad_lexica:.2f}.")

La diversidad léxica del texto es de 0.48.


In [79]:
# 5. ¿Cuáles son las 20 palabras más frecuentes en el texto? ¿Cuál es su frecuencia?
from collections import Counter

# Contar la frecuencia de cada palabra
frecuencia_palabras = Counter(palabras_validas)

# Obtener las 20 palabras más frecuentes
top_20 = frecuencia_palabras.most_common(20)

# Mostrar resultado
print("Las 20 palabras más frecuentes y su frecuencia son:")

for i, (palabra, frecuencia) in enumerate(top_20, 1):
    print(f"{i} => {palabra}: {frecuencia}")

Las 20 palabras más frecuentes y su frecuencia son:
1 => la: 35
2 => de: 33
3 => y: 20
4 => con: 18
5 => el: 17
6 => se: 16
7 => a: 14
8 => una: 14
9 => que: 11
10 => no: 11
11 => maestra: 10
12 => raúl: 9
13 => en: 9
14 => padre: 8
15 => su: 8
16 => le: 7
17 => sus: 7
18 => me: 7
19 => por: 6
20 => raulito: 6


In [81]:
# 6. Cual es el número promedio de palabras por oración?
# Obtener todas las oraciones
oraciones = list(doc.sentences)

# Contar palabras en cada oración (excluyendo puntuación)
num_palabras_por_oracion = [
    len([word.text for word in oracion.words if word.text.isalpha()])
    for oracion in oraciones
]

# Calcular el promedio
promedio_palabras = sum(num_palabras_por_oracion) / len(num_palabras_por_oracion) if num_palabras_por_oracion else 0

# Mostrar resultado
print(f"El número promedio de palabras por oración es {promedio_palabras:.2f}")

El número promedio de palabras por oración es 13.50


In [82]:
# 7. Cual es la frecuencia de de sustantivos, adjetivos y verbos en el texto?
# Clasificar palabras por su tipo gramatical
sustantivos = [word.text.lower() for sent in doc.sentences for word in sent.words if word.upos == "NOUN" and word.text.isalpha()]
adjetivos = [word.text.lower() for sent in doc.sentences for word in sent.words if word.upos == "ADJ" and word.text.isalpha()]
verbos = [word.text.lower() for sent in doc.sentences for word in sent.words if word.upos == "VERB" and word.text.isalpha()]

# Contar la frecuencia de cada tipo de palabra
frecuencia_sustantivos = Counter(sustantivos)
frecuencia_adjetivos = Counter(adjetivos)
frecuencia_verbos = Counter(verbos)

# Mostrar las 10 palabras más frecuentes por tipo
print(f"Sustantivos más frecuentes: {frecuencia_sustantivos.most_common(10)}")
print(f"Adjetivos más frecuentes: {frecuencia_adjetivos.most_common(10)}")
print(f"Verbos más frecuentes: {frecuencia_verbos.most_common(10)}")

print("\n***********")
# Mostrar frecuencia total
print(f"La frecuencia de sustantivos es: {len(frecuencia_sustantivos)}")
print(f"La frecuencia de adjetivos es: {len(frecuencia_adjetivos)}")
print(f"La frecuencia de verbos es: {len(frecuencia_verbos)}")

Sustantivos más frecuentes: [('maestra', 9), ('padre', 8), ('hijo', 5), ('señor', 4), ('señorita', 3), ('niño', 2), ('bigotuda', 2), ('ojos', 2), ('calamidad', 2), ('cabellos', 2)]
Adjetivos más frecuentes: [('solterona', 2), ('malhumorada', 2), ('celestes', 2), ('seca', 1), ('escrita', 1), ('prolija', 1), ('pedagógica', 1), ('sucio', 1), ('temeroso', 1), ('mismo', 1)]
Verbos más frecuentes: [('llorar', 2), ('solicitó', 2), ('viene', 2), ('estudiar', 2), ('escribe', 2), ('come', 2), ('tiene', 2), ('ruego', 1), ('sirva', 1), ('presentar', 1)]

***********
La frecuencia de sustantivos es: 98
La frecuencia de adjetivos es: 48
La frecuencia de verbos es: 74
