## En este cuaderno se muestran algunos ejemplos del nivel de prosamiento de Tokenización y Segmentación

Descarga de datos desde el proyecto Gutenberg, en concreto el Quijote

In [None]:
from urllib import request
URL_LIBRO = "http://www.gutenberg.org/cache/epub/2000/pg2000.txt"
file_book = request.urlopen(URL_LIBRO)
raw_book = file_book.read().decode("utf-8")
print(raw_book[500:550])

Ejemplo de segmentación

In [None]:
from nltk import sent_tokenize
sents_book = sent_tokenize(raw_book, language="spanish")
print("5 oraciones del libro descargado: %s" % "\n".join(sents_book[500:505]))
n_sents = len(sents_book)
print("\nNº. de oraciones: %d" % n_sents)

Ejemplo de Tokanización

In [None]:
from nltk.tokenize.treebank import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()
sent_tokens = [tokenizer.tokenize(sent) for sent in sents_book]
print("Tokens de 5 oraciones: %s" % "\n".join(map(lambda x:", ".join(x), sent_tokens[500:505])))
n_words = 0
for sent in sents_book:
    n_words += len(sent)
print("\nNº. de palabras: %d" % n_words)

Cálculo de la bolsa de palabras (hay palabras repetidas). Se suelen pasar todas a minúscula.

In [None]:
bag_of_words = [word.lower() for sent in sent_tokens for word in sent]

Definición de función de cálculo y exposición de frecuencias en términos absolutos.

In [None]:
from nltk.probability import FreqDist
import matplotlib.pyplot as plt
def calculo_frecuencias(bag_of_words):
    """Calcula frecuencias de las palabras y muestra una gráfica con las más frecuentes
    
    Args:
        bag_of_words: lista de strings
    """
    freq_dist = FreqDist(bag_of_words)
    print("Nº. objetos: %d"%freq_dist.N())
    print("Nº. objetos únicos: %d"%freq_dist.B())
    print("El objeto más frecuente es: %s" % str(freq_dist.max()))
    freq_dist.plot(50)

In [None]:
print("Frecuencias\n")
plt.figure(figsize=(20, 10))
calculo_frecuencias(bag_of_words)
print("---------------------------")

La palabras frecuentes son signos de puntuación y palabras vacías, veamos que ocurre si las quitamos.

In [None]:
import re
def rm_puntuation(bag_of_words):
    """Elimina los signos de puntuación.
    
    Args:
        bag_of_words: lista de strings.
        
    """
    re_puntuation = re.compile(r"""[\.,":;]""")
    bag_of_words_no_puntation = [word for word in bag_of_words if re_puntuation.fullmatch(word) is None]
    return bag_of_words_no_puntation

In [None]:
print("No signos de puntuación\n")
bag_of_words_no_puntuacion = rm_puntuation(bag_of_words)
plt.figure(figsize=(20, 10))
calculo_frecuencias(bag_of_words_no_puntuacion)
print("---------------------------")

In [None]:
from nltk.corpus import stopwords
def rm_stopwods(bag_of_words):
    """Elimina las stopwords del texto de entrada
    
    Args:
        sent_words_book: lista de strings.
    
    Returns:
        Una lista de listas de oraciones por palabras sin incluir las 
        palabras vacías.
    """
    spanish_stopwords = stopwords.words("spanish")
    no_stop_words = [word for word in bag_of_words if word not in spanish_stopwords]
    return no_stop_words

In [None]:
print("Stopper\n")
bag_of_words_no_puntuacion_no_stopper = rm_stopwods(bag_of_words_no_puntuacion)
plt.figure(figsize=(20, 10))
calculo_frecuencias(bag_of_words_no_puntuacion_no_stopper)
print("---------------------------")

Veamos lo que ocurre con Bigramas y Trigramas

In [None]:
from nltk import bigrams
from nltk import trigrams
print("Unigramas/Bigramas/Trigramas\n")
    
print("Unigramas: %s" % ", ".join(bag_of_words_no_puntuacion_no_stopper[500:510]))
print("---------------------------")
print("-Bigramas")
plt.figure(figsize=(20, 10))
bag_of_bigrams = list(bigrams(bag_of_words_no_puntuacion_no_stopper))
calculo_frecuencias(bag_of_bigrams)
print("---------------------------")
print("-Trigramas")
bag_of_trigrams = trigrams(bag_of_words_no_puntuacion_no_stopper)
plt.figure(figsize=(20, 10))
calculo_frecuencias(bag_of_trigrams)
print("---------------------------")