# _Héctor J. Aparicio Muñoz_

# Use of NLTK library to NLP

En este ejercicio se usará la librería NLTK con el fin de crear una serie de funciones para explorar un texto y prepararlo de acuerdo con las transformaciones que nos interese realizar.

El texto con el que vamos a trabajar es el texto de la novela "Niebla" de Miguel de Unamuno que se puede descargar desde la siguiente URL: https://www.gutenberg.org/files/49836

## --> Carga de los datos en una variable

Comenzamos cargando el fichero .txt que hemos descargado desde el proyecto Gutenberg con el texto de _Niebla_.


*Utilizaremos el siguiente encoding = "utf-8-sig".*

In [1]:
# Comenzamos importando las librerías que vamos a utilizar:
import nltk
import re  # Expresiones regulares.
import string
import pandas as pd
import numpy as np

# Cargamos el fichero .txt con el texto de "Niebla", utilizando el encoding (juego de caracteres) "utf-8-sig":
with open("49836-0.txt", encoding="utf-8-sig") as f:
    text = f.read()  # Cargamos los datos del fichero f en la variable text.

f.close()  # Una vez cargados los datos del fichero podemos cerrarlo.

# Veamos el texto que acabamos de cargar:
#    print(text)

## --> Función que calcule cuántos *tokens* hay en el texto que hemos cargado

In [2]:
# Cargamos primeramente el siguiente paquete "punkt" ya que vamos a necesitar utilizar instancias del mismo:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/hector/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [3]:
def n_tokens(texto):
    '''
    Función que tokeniza el texto que le pasamos como parámetro, en este caso en palabras (y signos de puntuación).
    Nos devuelve el número de tokens del texto.
    
    Parámetros
    ----------
    texto : string
        Texto que vamos a tokenizar.
        
    Returns
    -------
    total : int
        Devolvemos el total de tokens del texto.
    '''
    
    texto_tokenizado = nltk.word_tokenize(texto)
    total = len(texto_tokenizado)
    
    return(total)


print("El número de tokens del texto es:")
n_tokens(text)

El número de tokens del texto es:


72437

## --> Función que calcule cuántos *tokens* únicos tiene el texto

In [4]:
def n_tokens_unicos(texto):
    '''
    Función que tokeniza el texto que le pasamos como parámetro, en este caso en palabras (y signos de puntuación).
    Nos devuelve el número de tokens únicos del texto.
    
    Parámetros
    ----------
    texto : string
        Texto que vamos a tokenizar.
        
    Returns
    -------
    total_unicos : int
        Devolvemos el total de tokens únicos del texto.
    '''
    
    texto_tokenizado = nltk.word_tokenize(texto)
    total_unicos = len(set(texto_tokenizado))
    
    return(total_unicos)


print("El número de tokens únicos del texto es:")
n_tokens_unicos(text)

El número de tokens únicos del texto es:


9967

## --> Función que calcule cuántos tokens únicos tiene el texto si previamente lematizamos los verbos

In [5]:
# Al lematizar los verbos, se reemplaza cada uno de los mismos por su lema, el cual representará a todas la 
# palabras derivadas del mismo.

from nltk.stem import WordNetLemmatizer

def n_tokens_verbos_lematizados(texto):
    '''
    Función que lematiza los verbos del texto que le pasamos como parámetro, y a continuación nos devuelve 
    el número de tokens únicos que hay.
    
    Parámetros
    ----------
    texto : string
        Texto que vamos a tokenizar.
        
    Returns
    -------
    total_unicos_lematizados : int
        Devolvemos el total de tokens únicos del texto con los verbos previamente lematizados.
    '''
    WNlemma = nltk.WordNetLemmatizer()
    words = texto.split()  # Separamos el texto en palabras, teniendo en cuenta espacios y saltos de línea.
    
    lista_lematizada = [WNlemma.lemmatize(t, 'v') for t in words]  # Lematizamos los verbos, obteniendo como 
                                                                   # resultado una lista de palabras.
    texto_lematizado = " ".join(lista_lematizada)  # De esta forma pasamos de tener la lista anterior a tener 
                                                   # una cadena con los elementos de dicha lista en la que el 
                                                   # separador espacio une la secuencia de elementos.
                                                   # Así ya podemos utilizar la función de la pregunta 3, ya 
                                                   # que como parámetro de entrada sólo admite string.
    total_unicos_lematizados = n_tokens_unicos(texto_lematizado)
    
    return(total_unicos_lematizados)


print("El número de tokens únicos del texto si previamente hemos lematizado los verbos es:")
n_tokens_verbos_lematizados(text)

El número de tokens únicos del texto si previamente hemos lematizado los verbos es:


9910

In [6]:
# Vemos que el resultado obtenido es lógicamente menor que el obtenido al calcular el número de tokens únicos 
# sin lematizar los verbos, ya que al lematizar lo que hacemos es que varias palabras que son derivadas de la 
# misma, en esta caso verbos, se representan con el mismo lema, el mismo token.

## --> Función que nos indique la diversidad del léxico del texto

In [7]:
# La diversidad de un léxico se calcula como la proporción de tokens únicos con respecto al número total de tokens.

def diversidad_lexico(texto):
    '''
    Función que nos devuelve la diversidad del léxico de un texto, entendida ésta como la proporción de tokens 
    únicos respecto a tokens totales de dicho texto.
    
    Parámetros
    ----------
    texto : string
        Texto para el que vamos a calcular su diversidad léxica.
        
    Returns
    -------
    diversidad_lexica : int
        Devolvemos la diversidad léxica del texto, redondeada a tres decimales.
    '''
    
    tokens_unicos = n_tokens_unicos(texto)
    tokens_totales = n_tokens(texto)
    diversidad_lexica = tokens_unicos / tokens_totales
    
    return(round(diversidad_lexica, 3))


print("""La diversidad del léxico del texto, entendida como la proporción de tokens únicos respecto a tokens 
totales de dicho texto, es:""")
diversidad_lexico(text)

La diversidad del léxico del texto, entendida como la proporción de tokens únicos respecto a tokens 
totales de dicho texto, es:


0.138

## --> Función que nos dice cuáles son los 20 tokens que aparecen con mayor frecuencia en el texto y cuál es su frecuencia

In [8]:
def tokens_mas_frecuentes(texto):
    '''
    Función que nos devuelve los 20 tokens que aparecen con mayor frecuencia en el texto.
    
    Parámetros
    ----------
    texto : string
        Texto del que queremos encontrar sus 20 tokens más frecuentes.
        
    Returns
    -------
    tokens_frecuentes : list
        Devolvemos una lista con los 20 tokens más frecuentes de la forma (token, frequency).
    '''
    
    texto_tokenizado = nltk.word_tokenize(texto)  # Tokenizamos el texto de entrada.
    
    dict_tokens = {}  # Creamos un diccionario donde almacenaré los tokens junto con su frecuncia de 
                                # aparición en el texto.
    for token in texto_tokenizado:
        if token in dict_tokens:
            dict_tokens[token] += 1  # Voy sumando 1 a su frecuencia cada vez que el token aparece de nuevo.
        else:
            dict_tokens[token] = 1  # Si el token es la primera vez que aparece le doy la frecuencia 1.
    
    # Convertimos el diccionario anterior en una lista de tuplas:
    tokens_frecuentes = list(dict_tokens.items())
    
    # Ordenamos los elementos de la lista de tuplas por su frecuencia de mayor a menor:
    tokens_frecuentes.sort(key = lambda x: x[1], reverse=True)
    
    # Devolvemos los 20 más frecuentes:
    return(tokens_frecuentes[:20])


print("""Los 20 tokens que aparecen con mayor frecuencia en el texto, y su frecuencia, 
por orden de frecuencia, son:""")
tokens_mas_frecuentes(text)

Los 20 tokens que aparecen con mayor frecuencia en el texto, y su frecuencia, 
por orden de frecuencia, son:


[(',', 5529),
 ('.', 2480),
 ('de', 2445),
 ('que', 2430),
 ('la', 1452),
 ('y', 1451),
 ('a', 1447),
 ('no', 1181),
 ('!', 1017),
 ('...', 958),
 ('?', 928),
 ('en', 891),
 ('el', 875),
 ('se', 781),
 ('es', 738),
 ('lo', 637),
 ('me', 554),
 ('un', 532),
 ('le', 480),
 ('Y', 471)]

## --> Función que enumera los tokens que tienen una longitud mayor que 5 caracteres y una frecuencia de aparición en el texto mayor que 150

In [9]:
def tokens_largos_frec(texto):
    '''
    Función que nos devuelve, ordenados de mayor a menor frecuancia de aparición, los tokens que tienen una 
    longitud mayor de 5 caracteres y una frecuencia de aparición en el texto mayor que 150.
    
    Parámetros
    ----------
    texto : string
        Texto del que queremos encontrar sus tokens con más de 5 caracteres y con frecuencia mayor que 150.
        
    Returns
    -------
    tokens_largos_frecuentes : list
        Devolvemos una lista con los tokens encontrados de la forma (token, frequency).
    '''
    
    texto_tokenizado = nltk.word_tokenize(texto)  # Tokenizamos el texto de entrada.
    
    dict_tokens = {}  # Creamos un diccionario donde almacenaré los tokens junto con su frecuncia de 
                                # aparición en el texto.
    for token in texto_tokenizado:
        if token in dict_tokens:
            dict_tokens[token] += 1  # Voy sumando 1 a su frecuencia cada vez que el token aparece de nuevo.
        else:
            dict_tokens[token] = 1  # Si el token es la primera vez que aparece le doy la frecuencia 1.
    
    # Convertimos el diccionario anterior en una lista de tuplas:
    tokens_frecuentes = list(dict_tokens.items())
    
    tokens_largos_frecuentes = []  # Inicializamos la lista en la que almacenaremos los tokens largos frecuentes.
    for token in tokens_frecuentes:
        if len(token[0]) > 5 and token[1] > 150:  # Nos quedamos con los tokens con una longitud mayor 
                                                  # que 5 caracteres y frecuencia de aparición mayor que 150.
            tokens_largos_frecuentes.append(token)
    
    # Ordenamos los elementos de la lista de tuplas por su frecuencia de mayor a menor:
    tokens_largos_frecuentes = sorted(tokens_largos_frecuentes, key = lambda x: x[1], reverse=True)
    
    return(tokens_largos_frecuentes)


print("""Tokens que tienen una longitud mayor de 5 caracteres y una frecuencia de aparición en el texto 
mayor que 150, ordenados de mayor a menor por frecuencia de aparición:""")
tokens_largos_frec(text)

Tokens que tienen una longitud mayor de 5 caracteres y una frecuencia de aparición en el texto 
mayor que 150, ordenados de mayor a menor por frecuencia de aparición:


[('Augusto', 340), ('Eugenia', 202)]

## --> Función que calcula el número medio de *tokens* por frase del texto

In [10]:
def n_medio_tokens_frase(texto):
    '''
    Función que tokeniza por frases el texto que le pasamos como parámetro, para posteriormente tokenizar las 
    frases por palabras. Nos devuelve el número medio de tokens por frase del texto.
    
    Parámetros
    ----------
    texto : string
        Texto que vamos a tokenizar.
        
    Returns
    -------
    num_medio : int
        Devolvemos el número medio de tokens por frase del texto.
    '''
    
    # Comenzamos tokenizando el texto por frases:
    texto_tokenizado_frases = nltk.sent_tokenize(texto)  # Obtenemos una lista de cadenas de caracteres, cada una 
                                                         # de las cuales representa una frase u oración.
    num_frases = len(texto_tokenizado_frases)  # Aquí obtenemos el número de frases del texto.
    
    # A continuación deberíamos tokenizar por palabras cada una de las frases de la lista anterior, sumar el 
    # total de tokens de todas las frases del texto, y dividirlo entre el número de frases del texto que acabamos 
    # de calcular. Como el número total de tokens del texto ya lo hemos calculado con la función programada 
    # anteriormente, "n_tokens", la utilizamos aquí:
    num_tokens = n_tokens(texto)
    
    # El número medio de tokens por frase del texto es, redondeando a dos decimales:
    num_medio = round(num_tokens / num_frases, 2)
    
    return(num_medio)


print("El número medio de tokens por frase del texto es:")
n_medio_tokens_frase(text)

El número medio de tokens por frase del texto es:


17.69

## --> Función que elimina los signos de puntuación, espacios duplicados y convierta el texto a minúsculas

In [11]:
def normaliza_texto(texto):
    '''
    Función que a partir de un texto de entrada lo normaliza eliminando los signos de puntuación, los espacios 
    duplicados y lo convierte a minúsculas.
    
    Parámetros
    ----------
    texto : string
        Texto que vamos a normalizar.
        
    Returns
    -------
    texto_normalizado : string
        Devolvemos el texto normalizado de la manera que hemos indicado.
    '''
    
    # Vamos a comenzar convirtiendo a minúsculas todos los caracteres el texto de partida:
    texto_minus = texto.lower()
    
    # A continuación vamos a eliminar los signos de puntuación del texto, para lo cual utilizamos 
    # "string.punctuation", que contiene todos lo caracteres considerados de puntuación en inglés. Para ello 
    # utilizamos esta lista y luego reemplazamos todas la puntuaciones con una cadena vacía para eliminarlas 
    # de nuestro texto:
    punct_english = string.punctuation
    for c in punct_english:
        texto_minus = texto_minus.replace(c, '')
    
    # Hemos eliminado los caracteres considerados de puntuación en inglés, pero quedan algunos específicos del 
    # castellano, como son ¡ y ¿, vamos a eliminarlos también:
    texto_minus = texto_minus.replace('¡', '').replace('¿', '')
    
    # Además también debemos eliminar éstos otros —, «, », teniendo en cuenta que en el texto original, como 
    # por ejemplo en este extracto del mismo:
    #
    # ...
    # —Pues allá va.
    #
    # Y perdió también la partida, por distraído.
    #
    # «Pues, señor—se decía al retirarse a su cuarto—, todos la conocen;
    # todos la conocen menos yo. He aquí la obra del amor. ¿Y mañana? ¿Qué
    # haré mañana? ¡Bah! A cada día bástele su cuidado. Ahora, a la cama.»
    #
    # Y se acostó.
    # ...
    #
    # Vemos que el signo — se utiliza sin espacios estre las palabras que separa, por lo tanto ese signo lo 
    # vamos a reemplazar por un espacio, para que nuestro texto normalizado quede de la forma correcta:
    texto_sin_puntuacion = texto_minus.replace('—', ' ').replace('«', '').replace('»', '')
    
    # Por último, utilizamos el método "split()" para separar el texto en palabras, teniendo en cuenta 
    # espacios en blanco y saltos de línea, y luego mediante el método "join()" normalizamos que todos los 
    # espacios entre palabras sean un único espacio en blanco:
    texto_normalizado = " ".join(texto_sin_puntuacion.split())
    
    return(texto_normalizado)


print("""El texto normalizado después de pasarlo a minúsculas, y eliminar signos de puntuación y espacios 
duplicados, queda de la siguiente forma:""")
normaliza_texto(text)

El texto normalizado después de pasarlo a minúsculas, y eliminar signos de puntuación y espacios 
duplicados, queda de la siguiente forma:


'the project gutenberg ebook of niebla by miguel de unamuno this ebook is for the use of anyone anywhere in the united states and most other parts of the world at no cost and with almost no restrictions whatsoever you may copy it give it away or reuse it under the terms of the project gutenberg license included with this ebook or online at wwwgutenbergorg if you are not located in the united states youll have to check the laws of the country where you are located before using this ebook title niebla nivola author miguel de unamuno release date august 31 2015 ebook 49836 language spanish character set encoding utf8 start of this project gutenberg ebook niebla produced by roberto marabini ramon pajares box and the online distributed proofreading team at httpwwwpgdpnet this file was produced from images generously made available by the internet archivecanadian libraries nota de transcripción en el texto las cursivas se muestran entre subrayados y las versalitas como mayúsculas se ha moder

In [12]:
# NOTA: Como curiosidad, vamos a ver los signos de puntuación que "string.punctuation" considera en inglés:

for c in string.punctuation:
    print(c)

!
"
#
$
%
&
'
(
)
*
+
,
-
.
/
:
;
<
=
>
?
@
[
\
]
^
_
`
{
|
}
~


## --> Función que normaliza el texto y nos dice cuáles son los 20 *tokens* que aparecen con mayor frecuencia y cuál es su frecuencia

In [13]:
def tokens_normalizados_mas_frecuentes(texto):
    '''
    Función que nos devuelve los 20 tokens que aparecen con mayor frecuencia en el texto al que le hemos 
    eliminado los signos de puntuación, espacios duplicados y lo hemos convertido a minúsculas.
    
    Parámetros
    ----------
    texto : string
        Texto del que queremos encontrar sus 20 tokens más frecuentes una vez normalizado.
        
    Returns
    -------
    tokens_frecuentes : list
        Devolvemos una lista de la forma (token, frequency) con los 20 tokens más frecuentes del texto normalizado.
    '''
    
    # Comenzamos llamando a la función "normaliza_texto" que previamente vreamos para convertir el texto a 
    # minúsculas, y eliminar signos de puntuación y espacios duplicados, es decir, para normalizarlo:
    texto_normalizado = normaliza_texto(texto)
    # Llamamos ahora a la función "tokens_mas_frecuentes" que también creamos previamente para calcular los 20 
    # tokens que aparecen con mayor frecuancia en el texto, ordenados de mayor a menor frecuencia:
    tokens_frecuantes = tokens_mas_frecuentes(texto_normalizado)
    
    return(tokens_frecuantes)


print("""Los 20 tokens que aparecen con mayor frecuencia en el texto previamente normalizado (pasado a minúsculas, 
y eliminados signos de puntuación y espacios duplicados), y su frecuencia, por orden de frecuencia, son:""")
tokens_normalizados_mas_frecuentes(text)

Los 20 tokens que aparecen con mayor frecuencia en el texto previamente normalizado (pasado a minúsculas, 
y eliminados signos de puntuación y espacios duplicados), y su frecuencia, por orden de frecuencia, son:


[('de', 2530),
 ('que', 2479),
 ('y', 2228),
 ('no', 1551),
 ('la', 1548),
 ('a', 1534),
 ('el', 969),
 ('en', 951),
 ('es', 880),
 ('se', 862),
 ('lo', 686),
 ('me', 627),
 ('le', 571),
 ('un', 555),
 ('su', 445),
 ('por', 441),
 ('con', 431),
 ('una', 427),
 ('pero', 418),
 ('los', 409)]