# Python para Lingüistas

Notebook 7: Introducción a NLTK

Alejandro Ariza

Universitat de Barcelona 2022

En este notebook comenzaremos a trabajar con NLTK.

Cargaremos un corpus e intentaremos procesarlo.

Aplicaremos transformaciones básicas como segmentación de frases y tokenización.

Calcularemos estadísticas básicas usando bucles así como funciones de NLTK.

In [None]:
# Importar nltk
import nltk

In [None]:
# Descargar los paquetes importantes para hoy
nltk.download()

In [None]:
# Importar todos los recursos necesarios para hoy
from nltk.corpus import reuters
from nltk import sent_tokenize
from nltk.tokenize import *
from nltk.corpus import stopwords
from nltk import FreqDist
from nltk import bigrams

In [None]:
# Conseguir todos los identificadores de los ficheros en el corpus reuters
print(reuters.fileids())

In [None]:
# Comenzaremos trabajando con un único fichero, 'test/14826'
c_fid = 'test/14826'

# Ahora extraemos la versión sin procesar de este fichero
test_raw = reuters.raw(c_fid)

print(test_raw)

In [None]:
# También disponemos de la versión tokenizada del fichero
test_tok = reuters.words(c_fid)

print(test_tok[0:30])

In [None]:
# Ahora obtenemos la versión tokenizada y segmentada por frases del fichero
test_sent = reuters.sents(c_fid)

print(test_sent[0])

In [None]:
# NLTK tiene una herramienta que puede automáticamente tokenizar un corpus
manual_tok = word_tokenize(test_raw)

# Veamos el corpus tokenizado
# Compáralo con el corpus test_tok
print(manual_tok[0:30])

In [None]:
# Ahora, usemos la función split() para separar las palabras
split_tok = test_raw.split()

# Veamos y comparemos lo anterior con esta versión también
print(split_tok[0:30])

In [None]:
# NLTK también tiene una herramienta que puede automáticamente separar las frases de un corpus
manual_sent = sent_tokenize(test_raw)

# Observa las primeras dos frases
print(manual_sent[0:2])

In [None]:
# NLTK tiene una herramienta que cuenta la frecuencia de las palabras en un corpus
fd = FreqDist(test_tok)
print(fd.most_common(10))
fd.plot(10)


In [None]:
# NLTK tiene una función que calcula los bigramas de una lista de tokens
# Observa la siguiente sentencia
test_bigr = list(bigrams(test_tok))

print(test_bigr[0:5])

In [None]:
# Tarea 1
# 
# Tokeniza el corpus reuters usando "split" y "word_tokenize"
# Compara el resultado con la versión ya tokenizada del corpus
# 
# Primero, escribe tu código para un único id de fichero ('test/14826')
# Después, ejecuta el código en todo el corpus (sin tener que especificar el id de fichero)
# 
# Compara los resultados
# Cuenta el número de tokens en cada "corpus"
# Cuenta el número de tokens únicos en cada "corpus"


In [None]:
# Tarea 2
# 
# Para el corpus creado con word_tokenize, calcula las palabras más frecuentes
# 
#    - contándolas manualmente (al igual que hicimos en las clases previas)
#    - usando FreqDist
#
#    Compara las palabras más frecuentes - ¿son los mismos resultados con las mismas frecuencias?

In [None]:
# Tarea 3
# 
# Para el corpus creado con word_tokenize y el corpus pre-tokenizado, obtén la lista de bigramas
# Calcula y compara la distribución de frecuencias de los bigramas para los dos corpus
# 

In [None]:
# Tareas avanzadas
# 
# Tarea 4 - calcula la frecuencia de las palabras en el corpus, ignorando múltiples repeticiones de la palabra en
# una frase e.g.: ["Esto no es aquello, ¡sino esto!","Es muy decepcionante, pero es lo que es"]
#       
#       En este corpus:
#           la frecuencia de "esto" es 1 (1 en frase 1, 0 en frase 2)
#           la frecuencia de "es" es 2 (1 en frase 1, 1 en frase 2)
#       Ignoramos múltiples repeticiones de la misma palabra en la misma frase
#
#       En esta tarea puedes usar el corpus existente que ya está separado por frases y palabras
#       o usar las funciones sent_tokenize y word_tokenize

In [None]:
# Tareas avanzadas
# 
# Tarea 5 - similar a la tarea 4, calcula la frecuencia de los bigramas ignorando múltiples repeticiones
# dentro de la misma frase