# NLTK para procesamiento de texto

In [2]:
import nltk
from nltk.corpus import stopwords

### Tokenizar

In [3]:
palabras = []
books = []
for i in range (1,7):
    name = "libro"
    name += str(i) + ".txt"
    with open(name) as libro:
        temp = nltk.word_tokenize(libro.read().lower())
        books.append(temp)
    palabras += temp


### Filtrar stopwords

In [4]:
with open('stoplist.txt') as file:
    stoplist = [line.lower().strip() for line in file]
stoplist += ['.','?','-',',',';','»','«','¿','¡','!',':','(',')','\'\'',]


In [20]:
clean_books = books[:]

for book in clean_books:
    for token in book:
        if token in stoplist:
            book.remove(token)
    print(book)

['obra', 'comienza', 'noticia', 'celebración', '111º', 'cumpleaños', 'bilbo', 'bolsón', 'comarca', 'bilbo', 'fiesta', 'motivo', 'principal', 'partida', 'viaje', 'producto', 'deseo', 'terminar', 'días', 'paz', 'tranquilidad', 'mago', 'gandalf', 'amigo', 'bilbo', 'informado', 'decisión', 'hobbit', 'acudió', 'fiesta', 'discurso', 'pronunciado', 'bilbo', 'puso', 'anillo', 'mágico', 'desapareció', 'sorprendidos', 'hobbits', 'gandalf', 'sabía', 'acababa', 'bilbo', 'encontró', 'bolsón', 'cerrado', 'allí', 'pequeña', 'discusión', 'negaba', 'dejar', 'anillo', 'resto', 'herencia', 'sobrino', 'frodo', 'mago', 'acabó', 'convenciéndole', 'bilbo', 'partió', 'dudas', 'ocasionando', 'anillo', 'gandalf', 'busca', 'información', 'informar', 'frodo', 'guarde', 'toque', 'veinte', 'años', 'gandalf', 'regresa', 'bolsón', 'cerrado', 'frodo', 'descubierto', 'anillo', 'trataba', 'rey', 'isildur', 'arnor', 'arrebatado', 'señor', 'oscuro', 'sauron', 'años', 'encontrado', 'criatura', 'gollum', 'haberse', 'perdido

### Reduccion de palabras 

In [21]:
from nltk.stem.snowball import SnowballStemmer
stemmer = SnowballStemmer('spanish')

books_index = []
for book in clean_books:
    temp = []
    for w in book:
        temp.append(stemmer.stem(w))
    books_index.append(temp)

books_index


[['obra',
  'comienz',
  'notici',
  'celebr',
  '111º',
  'cumpleañ',
  'bilb',
  'bolson',
  'comarc',
  'bilb',
  'fiest',
  'motiv',
  'principal',
  'part',
  'viaj',
  'product',
  'dese',
  'termin',
  'dias',
  'paz',
  'tranquil',
  'mag',
  'gandalf',
  'amig',
  'bilb',
  'inform',
  'decision',
  'hobbit',
  'acud',
  'fiest',
  'discurs',
  'pronunci',
  'bilb',
  'pus',
  'anill',
  'magic',
  'desaparec',
  'sorprend',
  'hobbits',
  'gandalf',
  'sab',
  'acab',
  'bilb',
  'encontr',
  'bolson',
  'cerr',
  'alli',
  'pequeñ',
  'discusion',
  'neg',
  'dej',
  'anill',
  'rest',
  'herenci',
  'sobrin',
  'frod',
  'mag',
  'acab',
  'convenc',
  'bilb',
  'part',
  'dud',
  'ocasion',
  'anill',
  'gandalf',
  'busc',
  'inform',
  'inform',
  'frod',
  'guard',
  'toqu',
  'veint',
  'años',
  'gandalf',
  'regres',
  'bolson',
  'cerr',
  'frod',
  'descubiert',
  'anill',
  'trat',
  'rey',
  'isildur',
  'arnor',
  'arrebat',
  'señor',
  'oscur',
  'sauron',
  '

Construir el índice con los 500 términos más frecuentes

In [22]:
import operator
frec = {}

allwords = []

for book in books_index:
    for w in book:
        allwords.append(w)
        
for w in allwords:
   frec[w] = allwords.count(w)

frec = sorted(frec.items(), key=operator.itemgetter(1), reverse=True)

most_frec = []
term = 0
for w in enumerate(frec):
    term += 1
    if(term == 501):
        break
    most_frec.append(w[1][0])

most_frec.sort()

print(most_frec)

['111º', 'abism', 'acab', 'accidental', 'acebed', 'acerc', 'acompañ', 'aconsej', 'acontec', 'actos', 'acud', 'adentr', 'agot', 'agu', 'alcanz', 'alde', 'alert', 'alli', 'amig', 'amo', 'amon', 'anduin', 'anill', 'aniquil', 'antigu', 'aparec', 'aparent', 'apart', 'apen', 'apres', 'apresur', 'aprovech', 'aragorn', 'arañ', 'ardid', 'armas', 'arnor', 'arrastr', 'arrebat', 'arroj', 'asamble', 'ascend', 'asent', 'asfaloth', 'atac', 'ataqu', 'atrap', 'atraves', 'ayud', 'años', 'balin', 'balrog', 'barbol', 'barc', 'batall', 'bilb', 'blanc', 'bolson', 'bombadil', 'bord', 'borom', 'bosqu', 'bre', 'bruin', 'bruj', 'busc', 'caball', 'caballer', 'cai', 'cam', 'camin', 'camp', 'cancion', 'cansanci', 'cant', 'capitan', 'capitul', 'captur', 'car', 'caradhr', 'carg', 'cas', 'cazador', 'celeborn', 'celebr', 'cercan', 'cerr', 'cirith', 'ciud', 'clim', 'cobij', 'cog', 'comarc', 'combat', 'combin', 'comenz', 'comienz', 'comit', 'compañ', 'complet', 'comun', 'concili', 'condujeron', 'conflu', 'congener', 'co

Guardar el índice

In [23]:
ind = {}

for w in most_frec:
    ind[w] = []

#print(ind)
n_book = 1
for book in books_index:
    for w in most_frec:
        if w in book:
            ind[w].append(n_book)
    n_book+=1

indexFile = open('index.txt','w')
for i in ind.items():
    indexFile.write(str(i))
    indexFile.write('\n')
indexFile.close()   


3. APLICAR CONSULTAS BOOLEANAS

Función L

In [39]:
def L(token):
    if ind.get(stemmer.stem(token).lower()) == None:
        return []
    else: 
        return ind.get(stemmer.stem(token).lower())

print(L("Frodo"))
print(L("abismo"))
print(L("acompañar"))


[1, 2, 3, 4, 5, 6]
[2, 3]
[1, 2, 5, 6]


Función ADD

In [40]:

def AND(books_1, books_2):
    result = []
    for i in books_1:
        for j in books_2:
            if i == j:
                result.append(i)
    return result

#Ejemplo
print(AND(L("Frodo"), L("abismo")))


[2, 3]


Función OR

In [41]:

def OR(books_1, books_2):
    result = books_1 + books_2
    result = list(set(result))
    sorted(result)
    return result

print(OR(L("abismo"), L("acaba")))


[1, 2, 3, 4, 5, 6]


Función NOT

In [42]:
def AND_NOT(books_1, books_2):
    for i in books_2:
        if i in books_1:
            books_1.remove(i)
    sorted(books_1)
    return books_1

print(AND_NOT(L("Frodo"), L("obra")))


[2, 3, 4, 5, 6]


In [44]:
result = AND_NOT(AND(L("Frodo"), L("Abismo")), L("acompañar"))

print(result)

[3]
