### José de Jesús Tapia López
### Procesamiento de Lenguaje Natural
### 25 de Noviembre del 2020
### Tema 6 - Actividad Sumativa 2

Elegir uno de los sistemas que se han presentado en la presentación Herramientas.

Analizar el texto El ramo azul, de Octavio Paz y responder las siguientes preguntas:

1. Tokeniza el texto. ¿Cuántas palabras hay? (sin símbolos de puntuación).
2. Para cada palabra, da el lema y la raíz.
3. ¿Cuántas palabras diferentes hay?
4. Después de lematizar las palabras, ¿cuántas palabras diferentes hay?
5. ¿Cuál es la diversidad léxica del texto dado? (relación de palabras únicas con respecto al número total de palabras)
6. ¿Cuáles son las 20 palabras léxicas más frecuentes en el texto? ¿Cuál es su frecuencia?
7. ¿Cuál es el número promedio de palabras por oración?
8. ¿Cuál  es la frecuencia de de sustantivos, adjetivos y verbos en el texto?.

Entregar Notebook con código bien comentado.

In [1]:
import nltk
#nltk.download('punkt')
from nltk.corpus import wordnet as wn
from nltk.corpus import stopwords
#nltk.download('wordnet')
#nltk.download('brown')
#nltk.download('universal_tagset')
import spacy
from collections import Counter

In [None]:
pip install stanza

Collecting stanza
  Using cached https://files.pythonhosted.org/packages/e7/8b/3a9e7a8d8cb14ad6afffc3983b7a7322a3a24d94ebc978a70746fcffc085/stanza-1.1.1-py3-none-any.whl
Collecting torch>=1.3.0 (from stanza)
[?25l  Downloading https://files.pythonhosted.org/packages/d9/74/d52c014fbfb50aefc084d2bf5ffaa0a8456f69c586782b59f93ef45e2da9/torch-1.7.0-cp37-cp37m-manylinux1_x86_64.whl (776.7MB)
[K    52% |█████████████████               | 411.1MB 2.8MB/s eta 0:02:1060% |                                | 337kB 2.6MB/s eta 0:04:59    0% |                                | 573kB 5.6MB/s eta 0:02:19    0% |▏                               | 2.8MB 2.3MB/s eta 0:05:33    1% |▋                               | 13.8MB 2.7MB/s eta 0:04:43    3% |█                               | 23.7MB 424kB/s eta 0:29:36    3% |█▏                              | 28.0MB 1.8MB/s eta 0:06:56    3% |█▎                              | 29.8MB 1.6MB/s eta 0:07:57    4% |█▎                              | 31.1MB 1.2MB/s eta 0:10:3

In [2]:
# abrimos el archivo txt que nos fue brindado, lo leemos y lo guardamos en la variable el_ramo_azul
with open('elramoazul.txt', 'r') as archivo:
    # leemos el archivo y reemplazamos todos los saltos de línea con espacios en blanco
    el_ramo_azul = archivo.read().replace('\n', ' ')

In [3]:
# eliminamos signos de puntuación

signos_puntuacion = ('¡','!','.',':',',',';','*','?','¿','*','-','–','(',')','[',']','\'','"','“','”','>','<')
el_ramo_azul_prep = "".join(c for c in el_ramo_azul if c not in signos_puntuacion)

# pasamos todo a minúsculas
el_ramo_azul_prep = el_ramo_azul_prep.lower() 

1. Tokeniza el texto. ¿Cuántas palabras hay? (sin símbolos de puntuación)

In [4]:
# usamos la biblioteca de nltk con el respectivo método que tokeniza
tokens = nltk.word_tokenize(el_ramo_azul_prep)
print("Hay {} palabras".format(len(tokens)))

Hay 826 palabras


2. Para cada palabra, da el lema y la raíz.

In [5]:
# Inicializamos el lematizador de Wordnet (nltk)
WNlemma = nltk.WordNetLemmatizer()
# Obtenemos el lema de cada token (cada palabra) en lista por comprensión
lemas = [(t,WNlemma.lemmatize(t)) for t in tokens]
lemas

[('el', 'el'),
 ('ramo', 'ramo'),
 ('azul', 'azul'),
 ('un', 'un'),
 ('cuento', 'cuento'),
 ('de', 'de'),
 ('octavio', 'octavio'),
 ('paz', 'paz'),
 ('desperté', 'desperté'),
 ('cubierto', 'cubierto'),
 ('de', 'de'),
 ('sudor', 'sudor'),
 ('del', 'del'),
 ('piso', 'piso'),
 ('de', 'de'),
 ('ladrillos', 'ladrillos'),
 ('rojos', 'rojos'),
 ('recién', 'recién'),
 ('regados', 'regados'),
 ('subía', 'subía'),
 ('un', 'un'),
 ('vapor', 'vapor'),
 ('caliente', 'caliente'),
 ('una', 'una'),
 ('mariposa', 'mariposa'),
 ('de', 'de'),
 ('alas', 'ala'),
 ('grisáceas', 'grisáceas'),
 ('revoloteaba', 'revoloteaba'),
 ('encandilada', 'encandilada'),
 ('alrededor', 'alrededor'),
 ('del', 'del'),
 ('foco', 'foco'),
 ('amarillento', 'amarillento'),
 ('salté', 'salté'),
 ('de', 'de'),
 ('la', 'la'),
 ('hamaca', 'hamaca'),
 ('y', 'y'),
 ('descalzo', 'descalzo'),
 ('atravesé', 'atravesé'),
 ('el', 'el'),
 ('cuarto', 'cuarto'),
 ('cuidando', 'cuidando'),
 ('no', 'no'),
 ('pisar', 'pisar'),
 ('algún', 'algún

In [6]:
# Inicializamos el algoritmo de Porter (para realizar el stemming) 
porter = nltk.PorterStemmer()
# Obtenemos la raíz de cada token (cada palabra) en lista por comprensión
raiz = [(t,porter.stem(t)) for t in tokens]
raiz

[('el', 'el'),
 ('ramo', 'ramo'),
 ('azul', 'azul'),
 ('un', 'un'),
 ('cuento', 'cuento'),
 ('de', 'de'),
 ('octavio', 'octavio'),
 ('paz', 'paz'),
 ('desperté', 'desperté'),
 ('cubierto', 'cubierto'),
 ('de', 'de'),
 ('sudor', 'sudor'),
 ('del', 'del'),
 ('piso', 'piso'),
 ('de', 'de'),
 ('ladrillos', 'ladrillo'),
 ('rojos', 'rojo'),
 ('recién', 'recién'),
 ('regados', 'regado'),
 ('subía', 'subía'),
 ('un', 'un'),
 ('vapor', 'vapor'),
 ('caliente', 'calient'),
 ('una', 'una'),
 ('mariposa', 'mariposa'),
 ('de', 'de'),
 ('alas', 'ala'),
 ('grisáceas', 'grisácea'),
 ('revoloteaba', 'revoloteaba'),
 ('encandilada', 'encandilada'),
 ('alrededor', 'alrededor'),
 ('del', 'del'),
 ('foco', 'foco'),
 ('amarillento', 'amarillento'),
 ('salté', 'salté'),
 ('de', 'de'),
 ('la', 'la'),
 ('hamaca', 'hamaca'),
 ('y', 'y'),
 ('descalzo', 'descalzo'),
 ('atravesé', 'atravesé'),
 ('el', 'el'),
 ('cuarto', 'cuarto'),
 ('cuidando', 'cuidando'),
 ('no', 'no'),
 ('pisar', 'pisar'),
 ('algún', 'algún'),
 

In [7]:
nlp = spacy.load('es_core_news_sm')
# lematizamos con spacy, iterando sobre cada palabra del texto sin signos de puntuación
lematizacion_spacy = [(word.text,word.lemma_) for word in nlp(el_ramo_azul_prep)]
lematizacion_spacy

[('el', 'el'),
 ('ramo', 'ramo'),
 ('azul', 'azul'),
 ('un', 'uno'),
 ('cuento', 'contar'),
 ('de', 'de'),
 ('octavio', 'octavio'),
 ('paz', 'paz'),
 (' ', ' '),
 ('desperté', 'despertar'),
 ('cubierto', 'cubrir'),
 ('de', 'de'),
 ('sudor', 'sudor'),
 ('del', 'del'),
 ('piso', 'pisar'),
 ('de', 'de'),
 ('ladrillos', 'ladrillo'),
 ('rojos', 'rojo'),
 ('recién', 'recién'),
 ('regados', 'regar'),
 ('subía', 'subir'),
 ('un', 'uno'),
 ('vapor', 'vapor'),
 ('caliente', 'calentar'),
 ('una', 'uno'),
 ('mariposa', 'mariposa'),
 ('de', 'de'),
 ('alas', 'ala'),
 ('grisáceas', 'grisáceo'),
 ('revoloteaba', 'revolotear'),
 ('encandilada', 'encandilar'),
 ('alrededor', 'alrededor'),
 ('del', 'del'),
 ('foco', 'foco'),
 ('amarillento', 'amarillento'),
 ('salté', 'saltar'),
 ('de', 'de'),
 ('la', 'lo'),
 ('hamaca', 'hamaca'),
 ('y', 'y'),
 ('descalzo', 'descalzar'),
 ('atravesé', 'atravesar'),
 ('el', 'el'),
 ('cuarto', 'cuartar'),
 ('cuidando', 'cuidar'),
 ('no', 'no'),
 ('pisar', 'pisar'),
 ('algú

NOTA: Spacy no tiene para stemming

3. ¿Cuántas palabras diferentes hay?


In [8]:
print("Hay {} diferentes palabras".format(len(set(tokens)))) 

Hay 435 diferentes palabras


4. Después de lematizar las palabras, ¿cuántas palabras diferentes hay?


In [9]:
# para obtener los lemas, extraemos el segundo elemento de cada tupla en la lista
print("Después de lematizar las palabras con nltk, hay {} diferentes palabras".format(len(set([l[1] for l in lemas])))) 

Después de lematizar las palabras con nltk, hay 431 diferentes palabras


In [10]:
# para obtener los lemas de spacy, extraemos el segundo elemento de cada tupla en la lista
# Le resto un 1 porque hay una tupla así: (' ',' ')
print("Después de lematizar las palabras con spacy, hay {} diferentes palabras".format(len(set([l[1] for l in lematizacion_spacy]))-1)) 

Después de lematizar las palabras con spacy, hay 376 diferentes palabras


5. ¿Cuál es la diversidad léxica del texto dado? (relación de palabras únicas con respecto al número total de palabras)

In [11]:
# dividimos palabras distintas entre el total de palabras del texto
print("La diversidad léxica del texto dado es de: {}".format(len(set(tokens)) / len(tokens))) 

La diversidad léxica del texto dado es de: 0.5266343825665859


6. ¿Cuáles son las 20 palabras léxicas más frecuentes en el texto? ¿Cuál es su frecuencia?


In [12]:
# obtenemos en una lista las palabras que NO son stop words del texto
tokens_no_stop_words_esp = [p for p in tokens if p not in stopwords.words('spanish')]
# contamos la frecuencia de todas las palabras usando la lista anterior
frecuencia_palabras = nltk.FreqDist(tokens_no_stop_words_esp)
# el método "most_common(n)" brinda una lista de las n tuplas (la primera entrada 
# de cada tupla es la palabra y la segunda entrada es su frecuencia) que tienen en su segunda
# entrada la frecuencia (y las da en orden descendiente)
print("Las 20 palabras léxicas más frecuentes en el texto, con su respectiva frecuencia, son:\n", frecuencia_palabras.most_common(20))


Las 20 palabras léxicas más frecuentes en el texto, con su respectiva frecuencia, son:
 [('ojos', 13), ('señor', 6), ('azules', 5), ('acerqué', 3), ('noche', 3), ('puerta', 3), ('voz', 3), ('aquí', 3), ('cara', 3), ('palabra', 3), ('bien', 3), ('aire', 2), ('campo', 2), ('froté', 2), ('mesón', 2), ('dueño', 2), ('sentado', 2), ('vuelta', 2), ('alcé', 2), ('caminé', 2)]


7. ¿Cuál es el número promedio de palabras por oración?


In [26]:
# extraemos todas las oraciones
sent_tokenize_el_ramo_azul = nltk.tokenize.sent_tokenize(el_ramo_azul)

# la primera oración contiene al título del texto, por lo que no lo voy a considerar en esta parte
sent_tokenize_el_ramo_azul[0] = sent_tokenize_el_ramo_azul[0][39:-1]
print("Hay {} oraciones.".format(len(sent_tokenize_el_ramo_azul)))

Hay 105 oraciones.


In [27]:
# creamos una lista vacía en la que colocaremos la cantidad de palabras que tiene cada oración del texto
num_palabras_por_oración = []
for i in range(len(sent_tokenize_el_ramo_azul)):
    palabras = sent_tokenize_el_ramo_azul[i].split()
    num_palabras_por_oración.append(len(palabras))
#calculamos el promedio   
promedio = sum(num_palabras_por_oración)/len(sent_tokenize_el_ramo_azul)
print("El número promedio de palabras por oración es de: ", promedio)


El número promedio de palabras por oración es de:  7.8


8. ¿Cuál  es la frecuencia de sustantivos, adjetivos y verbos en el texto?.

In [15]:
# parte del etiquetador (part of speech) para etiquetar la lista de los tokens.
el_ramo_azul_tagged = nltk.pos_tag(tokens)
# contamos la frecuencia de cada pos (part of speech)
tag_fd = nltk.FreqDist(tag for(word, tag) in el_ramo_azul_tagged)
# calculamos la frecuencia de cada POS
tag_fd.most_common() 


[('NN', 376),
 ('FW', 148),
 ('JJ', 111),
 ('IN', 40),
 ('DT', 34),
 ('VBP', 28),
 ('VBZ', 25),
 ('PRP', 24),
 ('NNS', 17),
 ('RB', 8),
 ('VB', 7),
 ('VBD', 4),
 ('VBN', 1),
 ('CC', 1),
 ('PDT', 1),
 ('NNP', 1)]

In [16]:
# De la lista de tuplas que acabamos de obtener, nos quedamos con los que empiecen con NN,
# los cuales indican que son sustantivos

es_sustantivo = lambda pos: pos[:2] == 'NN'
sustantivos = [palabra for (palabra, pos) in el_ramo_azul_tagged if es_sustantivo(pos)] 
print("La frecuencia de sustantivos, usando nltk, es de {}".format(len(sustantivos)))

La frecuencia de sustantivos, usando nltk, es de 394


In [17]:
# De la lista de tuplas que acabamos de obtener, nos quedamos con los que empiecen con JJ,
# los cuales indican que son adjetivos

es_adjetivo = lambda pos: pos[:2] == 'JJ'
adjetivos = [palabra for (palabra, pos) in el_ramo_azul_tagged if es_adjetivo(pos)] 
print("La frecuencia de adjetivos, usando nltk, es de {}".format(len(adjetivos)))

La frecuencia de adjetivos, usando nltk, es de 111


In [18]:
# De la lista de tuplas que acabamos de obtener, nos quedamos con los que empiecen con VB,
# los cuales indican que son verbos
es_verbo = lambda pos: pos[:2] == 'VB'
verbos = [palabra for (palabra, pos) in el_ramo_azul_tagged if es_verbo(pos)] 
print("La frecuencia de verbos, usando nltk, es de {}".format(len(verbos)))

La frecuencia de verbos, usando nltk, es de 65


In [19]:
# usando spacy

# contamos la frecuencia de cada pos del archivo sin signos de puntuacion
# counter arroja algo como un diccionario, donde la llave es el pos y el
# valor de la llave es su frecuencia en el texto
c = Counter(([token.pos_ for token in nlp(el_ramo_azul_prep)]))
c

Counter({'DET': 135,
         'NOUN': 172,
         'ADJ': 72,
         'ADP': 107,
         'SPACE': 3,
         'VERB': 118,
         'ADV': 53,
         'AUX': 38,
         'PROPN': 8,
         'CCONJ': 27,
         'PRON': 71,
         'INTJ': 8,
         'SCONJ': 16,
         'NUM': 1})

In [20]:
print("La frecuencia de sustantivos, usando spacy, es de {}".format(c['NOUN']))

La frecuencia de sustantivos, usando spacy, es de 172


In [21]:
print("La frecuencia de adjetivos, usando spacy, es de {}".format(c['ADJ']))

La frecuencia de adjetivos, usando spacy, es de 72


In [22]:
print("La frecuencia de verbos, usando spacy, es de {}".format(c['VERB']))

La frecuencia de verbos, usando spacy, es de 118


Vemos que cambia la frecuencia de esos tres POS si usamos nltk o spacy