In [None]:
# Instalacion de dependencias
!pip install nltk
!pip install matplotlib

In [None]:
# Importar dependencais
import nltk
import re
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
from nltk.stem import WordNetLemmatizer
import matplotlib.pyplot as plt

In [None]:
# Punto 1
## Se busca construir el BoW mas optimizado del archivo solicitado
## Eliminando stop words, tokenizando, haciendo stemming y lemmatizacion

# Lectura del archivo
file = open('./data/0704.3504.pdf.txt')
rawText = file.read()

In [None]:
# Tokenizacion basica
tokens = nltk.word_tokenize(rawText)
fdist = nltk.FreqDist(tokens)
topWords = fdist.most_common(20)

# Se imprime longitud de primera version de tokens
print(len(tokens))
# Se imprime longitud de primera version de BoW
print(len(fdist))

# Se muestra el top 20 de palabras
x,y = zip(*topWords)
plt.figure(figsize=(15,10))
plt.bar(x,y)
plt.xticks(rotation=90)
plt.show()

In [None]:
# Se eliminan los caracteres especiales (no alfabeticos)
tokens = [re.sub(r'[^A-Za-z0-9]+','',w) for w in tokens]

# Se pasan todos los tokens a minusculas
tokens = [w.lower() for w in tokens if len(w) > 1]

# Se remueven palabras que tengan caracteres que no son alfabeto
tokens = [w for w in tokens if w.isalpha()]

fdist = nltk.FreqDist(tokens)
topWords = fdist.most_common(20)

# Longitud de segunda version de tokens y BoW luego de limpieza
print(len(tokens))
print(len(fdist))

# Se muestra el top 20 de palabras
x,y = zip(*topWords)
plt.figure(figsize=(15,10))
plt.bar(x,y)
plt.xticks(rotation=90)
plt.show()

In [None]:
# Eliminacion de stopwords
stopwordsEnglish = set(stopwords.words('english'))
tokens = [w for w in tokens if w not in stopwordsEnglish]
fdist = nltk.FreqDist(tokens)
topWords = fdist.most_common(20)

# Longitud de tercera version de tokens y BoW luego de remocion de stopwords
print(len(tokens))
print(len(fdist))

# Se muestra el top 20 de palabras
x,y = zip(*topWords)
plt.figure(figsize=(15,10))
plt.bar(x,y)
plt.xticks(rotation=90)
plt.show()

In [None]:
# Stemming
porter = PorterStemmer()
tokens = [porter.stem(w) for w in tokens]
fdist = nltk.FreqDist(tokens)
topWords = fdist.most_common(20)

# Longitud de cuarta version de tokens y BoW luego de Stemming
print(len(tokens))
print(len(fdist))

# Se muestra el top 20 de palabras
x,y = zip(*topWords)
plt.figure(figsize=(15,10))
plt.bar(x,y)
plt.xticks(rotation=90)
plt.show()

In [None]:
# Lematizacion
lemmatizer = WordNetLemmatizer()
tokens = [lemmatizer.lemmatize(w) for w in tokens]
fdist = nltk.FreqDist(tokens)
topWords = fdist.most_common(20)

# Longitud de version final de tokens y BoW luego de lematizacion
print(len(tokens))
print(len(fdist))

# Se muestra el top 20 de palabras
x,y = zip(*topWords)
plt.figure(figsize=(15,10))
plt.bar(x,y)
plt.xticks(rotation=90)
plt.show()