### Ejercicio: Analizar texto
Utilizar un texto de proyecto Gutenberg en castellano
http://www.gutenberg.org/browse/languages/es

Contar palabras y ordenar por frecuencia

Limpiar preludio y licencia de Project Gutenberg

Omitir “palabras vacías” (stop words) y símbolos

Encontrar personajes

Hacer un análisis extra a gusto

Hint: Tutorial para español
https://relopezbriega.github.io/blog/2017/09/23/procesamiento-del-lenguaje-natural-con-python/
○ Usa spacy.io y github.com/chartbeat-labs/textacy
○ No hace falta la parte de Deep Learning

In [251]:
# Importando las librerías que vamos a utilizar
import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt 
import textacy
from textacy.datasets import Wikipedia
from collections import Counter, defaultdict
import warnings; warnings.simplefilter('ignore')
import spacy

# graficos incrustados
%matplotlib inline

# función auxiliar
def leer_texto(texto):
    """Funcion auxiliar para leer un archivo de texto"""
    with open(texto, 'r', encoding="utf8") as text:
        return text.read()

In [252]:

# Cargando el modelo en español de spacy
nlp = textacy.load_spacy("es")

In [253]:
# Procesando un texto 
# Procesando 1984 de George Orwell - mi novela favorita
texto = leer_texto('CuentosQuiroga.txt')
print("Cantidad de caracteres del texto:")
print(len(texto))
print("Los primeros 100 caracteres:")
print(texto[1:200])
print("Los ultimos 100 caracteres:")
print(texto[len(texto)-200:len(texto)])
print("Los ultimos 100 caracteres again:")
print(texto[-200:])

Cantidad de caracteres del texto:
313032
Los primeros 100 caracteres:
Project Gutenberg's Cuentos de Amor de Locura y de Muerte, by Horacio Quiroga

This eBook is for the use of anyone anywhere at no cost and with
almost no restrictions whatsoever.  You may copy it, gi
Los ultimos 100 caracteres:
rg-tm,
including how to make donations to the Project Gutenberg Literary
Archive Foundation, how to help produce our new eBooks, and how to
subscribe to our email newsletter to hear about new eBooks.

Los ultimos 100 caracteres again:
rg-tm,
including how to make donations to the Project Gutenberg Literary
Archive Foundation, how to help produce our new eBooks, and how to
subscribe to our email newsletter to hear about new eBooks.



In [254]:
# Sacar preludio y licencia de final de documento
sep1 ="#Cuentos de Amor de Locura y de Muerte#"
sep2 ="FIN"
head, sep1, tail = texto.partition(sep1)
texto= sep1+tail
head, sep2, tail = texto.partition(sep2)
texto= head+sep2

In [255]:
# Primeros 200 caracteres
texto[1:200]

'Cuentos de Amor de Locura y de Muerte#\n\n\nHORACIO QUIROGA\n\n1917\n\n\n\n\n#INDICE#\n\n\nUna estación de amor\nLos ojos sombríos\nEl solitario\nLa muerte de Isolda\nEl infierno artificial\nLa gallina degollada\nLos b'

In [256]:
#Últimos 200 caracteres
texto[-200:]

'é si a mucho más de cinco\ncentímetros.\n\n--¿Es verdad?--murmura--o arrulla, mejor dicho.\n\n--¿Se puede poner arrulla?--le pregunto.\n\n--¡Sí, y esto, y esto! Y me da un beso.\n\n¿Qué más puedo añadir?\n\n\nFIN'

In [257]:
# Si hago esto, pongo todas las palabtas en minuscula
#texto=texto.lower()  
#Luego el nlp ya no puede distinguir ents del tipo PERSON 'PER'
#Últimos 200 caracteres
#texto[-200:]

In [258]:
texto_procesado = nlp(texto)

In [259]:

def encontrar_personajes(doc):
    """
    Devuelve una lista de los personajes de un `doc` con su cantidad de
    ocurrencias
    
    :param doc: NLP documento parseado por Spacy
    :return: Lista de Tuplas con la forma
        [('winston', 686), ("o'brien", 135), ('julia', 85),]
    """
    
    personajes = Counter()
    for ent in doc.ents:
        if ent.label_ == 'PER': #Cuando usaba =='PERSON' no funcionaba
            personajes[ent.lemma_] += 1
            #print("Encontro un personaje")
            
    return personajes.most_common() #se puede colocar en most_common(n), donde muestra los n personajes mas comunes.

In [260]:
print(encontrar_personajes(texto_procesado)[:100])

[('Nébel', 49), ('', 44), ('Podeley', 21), ('Cayé', 20), ('María Elvira', 18), ('Candiyú', 17), ('Mazzini', 16), ('Berta', 13), ('Kassim', 13), ('Luis María', 12), ('Cooper', 11), ('Fué', 11), ('Así', 10), ('Benincasa', 9), ('Castelhum', 8), ('Alfonso', 8), ('Después', 6), ('Prince', 6), ('Míster Jones', 6), ('Inés', 6), ('Allí', 6), ('Volví', 6), ('Había', 6), ('Alicia', 6), ('Jones', 5), ('Pasó', 5), ('Milk', 5), ('Zapiola', 5), ('María', 4), ('Fragoso', 4), ('Octavio', 4), ('Jordán', 4), ('¡ Ah !', 4), ('Posadas', 4), ('Silex _', 4), ('María Elvira Funes', 4), ('Funes', 3), ('Y', 3), ('Miró', 3), ('¡ Pero', 3), ('Mi', 3), ('Wagner', 3), ('Ayestarain', 3), ('¡ Mi', 3), ('Vd', 3), ('¡ No', 3), ('Acaso', 3), ('Luis \n María', 3), ('Tenía', 3), ('San Ignacio', 3), ('-PRON-', 3), ('Aquí', 2), ('¡ Bah !', 2), ('Allá', 2), ('Barigüí', 2), ('Me', 2), ('Entretanto', 2), ('Dije', 2), ('Está', 2), ('¡ Ah', 2), ('Qué', 2), ('Salimos', 2), ('Dejó', 2), ('¡ Todos', 2), ('Padilla', 2), ('Tarde', 2

In [261]:
def palabras_frecuentes(doc):
    """
    Devuelve una lista de las palabras de un `doc` con su cantidad de
    ocurrencias
    
    :param doc: NLP documento parseado por Spacy
    :return: Lista de Tuplas con la forma
        [('winston', 686), ("o'brien", 135), ('julia', 85),]
    """
    
    palabras = Counter()
    for token in doc:
            palabras[token.orth_] += 1
            
    return palabras.most_common()

In [262]:
#Frecuencias de palabras
freq_palabras = palabras_frecuentes(texto_procesado)[:200]
freq_palabras

[(',', 4341),
 ('\n', 3341),
 ('.', 2611),
 ('de', 2239),
 ('\n\n', 1641),
 ('la', 1480),
 ('y', 1247),
 ('el', 1236),
 ('que', 1224),
 ('a', 1183),
 ('en', 1050),
 ('un', 631),
 ('su', 627),
 ('se', 610),
 ('no', 582),
 ('con', 573),
 ('!', 535),
 ('los', 530),
 ('...', 423),
 ('una', 363),
 ('al', 354),
 ('por', 354),
 ('lo', 350),
 ('--', 345),
 ('¡', 341),
 ('más', 320),
 ('las', 319),
 ('del', 318),
 ('me', 293),
 ('?', 277),
 ('para', 241),
 (';', 214),
 ('había', 213),
 ('¿', 204),
 (':', 201),
 ('mi', 192),
 ('*', 185),
 ('como', 178),
 ('Y', 176),
 ('es', 170),
 ('El', 170),
 ('sus', 168),
 ('Pero', 164),
 ('le', 163),
 ('sin', 158),
 ('ojos', 149),
 ('      ', 148),
 ('sobre', 138),
 ('No', 136),
 ('pero', 136),
 ('vez', 135),
 ('ya', 134),
 ('La', 121),
 ('todo', 119),
 ('era', 115),
 ('dos', 114),
 ('aún', 111),
 ('bien', 108),
 ('Nébel', 108),
 ('ella', 106),
 ('él', 105),
 ('día', 103),
 ('noche', 102),
 ('qué', 101),
 ('cuando', 101),
 ('yo', 100),
 ('fin', 94),
 ('María

In [263]:
#Buscamos los stop words
from spacy.lang.es.stop_words import STOP_WORDS

print(STOP_WORDS)
#stop = list(nlp.STOP_WORDS)
#stop[:15]

{'mios', 'antano', 'principalmente', 'uso', 'incluso', 'menudo', 'las', 'yo', 'ahora', 'creo', 'aqui', 'decir', 'desde', 'expresó', 'quedó', 'tan', 'gueno', 'sería', 'agregó', 'aquello', 'ser', 'ésos', 'dia', 'saber', 'tercera', 'quiere', 'arribaabajo', 'intento', 'podriamos', 'fui', 'ahí', 'conseguimos', 'solamente', 'poner', 'final', 'empleais', 'habla', 'quien', 'consigues', 'nuestras', 'usa', 'encuentra', 'mi', 'tanto', 'señaló', 'mejor', 'excepto', 'podriais', 'al', 'hacen', 'muchas', 'deprisa', 'trabajo', 'dijo', 'atras', 'tambien', 'podrán', 'días', 'hacerlo', 'sean', 'unos', 'próximos', 'buenas', 'esta', 'ampleamos', 'hacia', 'trabaja', 'otra', 'estamos', 'aquellas', 'en', 'ayer', 'vaya', 'hoy', 'para', 'nuestro', 'algunos', 'ese', 'no', 'nuestros', 'tenido', 'quiza', 'hecho', 'dijeron', 'próximo', 'realizar', 'pocos', 'estoy', 'si', 'trabajar', 'veces', 'bien', 'haber', 'este', 'cuatro', 'quizas', 'estas', 'primero', 'pronto', 'quiénes', 'nuevas', 'nosotros', 'sera', 'pues', '

In [264]:
#Esta es una manera de filtrar el texto, para luego aplicarle la libreria spacy al texto, y seguir extrayendo informacion.
#En este caso, solo le extrajimos los STOP_WORDS. Pero tambien podriamos haber procedido de la misma manera para extraer 
#los simbolos, etc. Al final de este trabajo, procedemos de otra manera para extraer simbolos.
texto_filtrado=""
print(len(texto_procesado))
s=0
for token in texto_procesado:
    s=s+1
    #print(token)
    palabra=str(token)
    #palabra=palabra.lower()
    if palabra.lower() not in STOP_WORDS:
        texto_filtrado = texto_filtrado +" "+ palabra 


print(s)
print(texto_filtrado[-100:])
print(len(texto_filtrado))

65106
65106
rmura -- o arrulla , . 

 --¿Se arrulla ?-- pregunto . 

 --¡Sí , y , y ! Y beso . 

 ¿ añadir ? 



208911


In [265]:
texto_procesado_filtrado = nlp(texto_filtrado)

In [266]:
print("Texto sin filtrar")
print(encontrar_personajes(texto_procesado)[:20])
print("Texto con filtrado de STOP_WORDS")
print(encontrar_personajes(texto_procesado_filtrado)[:20])

Texto sin filtrar
[('Nébel', 49), ('', 44), ('Podeley', 21), ('Cayé', 20), ('María Elvira', 18), ('Candiyú', 17), ('Mazzini', 16), ('Berta', 13), ('Kassim', 13), ('Luis María', 12), ('Cooper', 11), ('Fué', 11), ('Así', 10), ('Benincasa', 9), ('Castelhum', 8), ('Alfonso', 8), ('Después', 6), ('Prince', 6), ('Míster Jones', 6), ('Inés', 6)]
Texto con filtrado de STOP_WORDS
[('Nébel', 60), ('Podeley', 25), ('Cayé', 23), ('María Elvira', 18), ('Candiyú', 17), ('Mazzini', 16), ('Berta', 15), ('Luis María', 12), ('María', 12), ('Kassim', 11), ('Benincasa', 11), ('Fué', 11), ('Cooper', 10), ('Inés', 10), ('Paraná', 9), ('Alfonso', 9), ('Funes', 9), ('Jones', 8), ('Posadas', 8), ('', 7)]


In [267]:
#Filtro las palabras que no son stop words
x=[(word, count) for word, count in freq_palabras if word not in STOP_WORDS]
x[1:20]

[('\n', 3341),
 ('.', 2611),
 ('\n\n', 1641),
 ('y', 1247),
 ('a', 1183),
 ('!', 535),
 ('...', 423),
 ('--', 345),
 ('¡', 341),
 ('?', 277),
 (';', 214),
 ('¿', 204),
 (':', 201),
 ('*', 185),
 ('Y', 176),
 ('El', 170),
 ('Pero', 164),
 ('ojos', 149),
 ('      ', 148)]

In [268]:
#Filtro las palabras de longitud mayor que 3, para remover los simbolos y palabras cortas
y=[(word, count) for word, count in x if len(word)>3]
y

[('Pero', 164),
 ('ojos', 149),
 ('      ', 148),
 ('Nébel', 108),
 ('noche', 102),
 ('María', 93),
 ('hombre', 74),
 ('cabeza', 74),
 ('casa', 73),
 ('mujer', 66),
 ('madre', 64),
 ('amor', 60),
 ('--No', 54),
 ('años', 53),
 ('Lidia', 52),
 ('monte', 50),
 ('rato', 50),
 ('perros', 50),
 ('mañana', 47),
 ('vida', 46),
 ('hora', 46),
 ('--Sí', 46),
 ('mamá', 45),
 ('mano', 44),
 ('mirada', 41),
 ('seguida', 39),
 ('miró', 39),
 ('perro', 39),
 ('agua', 38),
 ('caballos', 37),
 ('Elvira', 37),
 ('instante', 36),
 ('\n\n       ', 36),
 ('diez', 35),
 ('camino', 34),
 ('Kassim', 34),
 ('cosa', 34),
 ('volvió', 34),
 ('fiebre', 32)]