# Eliminación de palabras vacías (stop-words)

In [4]:
### Importación de librerías. Importa nltk y spacy

import time
import nltk
import spacy

# cargamos modelo de tokenizacion para nltk, y de stopwords
stopwords = nltk.corpus.stopwords.words('spanish')

### carga el modelo es_core_news_lg de spacy
nlp = spacy.load("es_core_news_lg")

In [5]:
stopwords

['de',
 'la',
 'que',
 'el',
 'en',
 'y',
 'a',
 'los',
 'del',
 'se',
 'las',
 'por',
 'un',
 'para',
 'con',
 'no',
 'una',
 'su',
 'al',
 'lo',
 'como',
 'más',
 'pero',
 'sus',
 'le',
 'ya',
 'o',
 'este',
 'sí',
 'porque',
 'esta',
 'entre',
 'cuando',
 'muy',
 'sin',
 'sobre',
 'también',
 'me',
 'hasta',
 'hay',
 'donde',
 'quien',
 'desde',
 'todo',
 'nos',
 'durante',
 'todos',
 'uno',
 'les',
 'ni',
 'contra',
 'otros',
 'ese',
 'eso',
 'ante',
 'ellos',
 'e',
 'esto',
 'mí',
 'antes',
 'algunos',
 'qué',
 'unos',
 'yo',
 'otro',
 'otras',
 'otra',
 'él',
 'tanto',
 'esa',
 'estos',
 'mucho',
 'quienes',
 'nada',
 'muchos',
 'cual',
 'poco',
 'ella',
 'estar',
 'estas',
 'algunas',
 'algo',
 'nosotros',
 'mi',
 'mis',
 'tú',
 'te',
 'ti',
 'tu',
 'tus',
 'ellas',
 'nosotras',
 'vosotros',
 'vosotras',
 'os',
 'mío',
 'mía',
 'míos',
 'mías',
 'tuyo',
 'tuya',
 'tuyos',
 'tuyas',
 'suyo',
 'suya',
 'suyos',
 'suyas',
 'nuestro',
 'nuestra',
 'nuestros',
 'nuestras',
 'vuestro'

In [6]:
### Genera una función que lea un fichero txt

def read_text_file(filename):
    file = open(filename, "r", encoding="utf-8") 
    return file.read()

### Pasos a seguir con NLTK
1. Tokenización del texto (separar en palabras)
2. Filtrado de la lista de palabras, para excluir aquellas que estén en la lista de stopwords (generada en la primera celda)

In [7]:
### Principal. Lee el archivo de lazarillo

lazarillo_text = read_text_file("data/Lazarillo.txt")

### 
words = nltk.word_tokenize(lazarillo_text)
print(words[:30])

words = [word for word in words if word.lower() not in stopwords]

texto_procesado = []
for word in words:
    if word.lower() not in stopwords:
        texto_procesado.append(word)

print(words[:30])



['Pues', 'sepa', 'V.M', '.', 'ante', 'todas', 'cosas', 'que', 'a', 'mí', 'llaman', 'Lázaro', 'de', 'Tormes', ',', 'hijo', 'de', 'Tomé', 'González', 'y', 'de', 'Antona', 'Pérez', ',', 'naturales', 'de', 'Tejares', ',', 'aldea', 'de']
['Pues', 'sepa', 'V.M', '.', 'todas', 'cosas', 'llaman', 'Lázaro', 'Tormes', ',', 'hijo', 'Tomé', 'González', 'Antona', 'Pérez', ',', 'naturales', 'Tejares', ',', 'aldea', 'Salamanca', '.', 'nacimiento', 'dentro', 'río', 'Tormes', ',', 'causa', 'tomé', 'sobrenombre']


### Pasos a seguir con Spacy
1. Generación del doc (si recorremos doc con un for, ya tenemos los tokens).
2. Filtrado de la lista de palabras, para excluir aquellas que tengan la etiqueta de stop word (en cada palabra del texto, ._is_stop es True si lo es))

In [9]:
### Eliminación stopwords - spaCy

doc = nlp(lazarillo_text)
words = [word for word in doc if not word.is_stop]

texto_procesado = []
for token in doc:
    if token.is_stop==False:
        texto_procesado.append(token)

print(texto_procesado)
    



[sepa, V.M., 
, a, llaman, Lázaro, Tormes, ,, hijo, Tomé, González, y, Antona, Pérez, ,, naturales, Tejares, ,, aldea, Salamanca, ., 
, nacimiento, río, Tormes, ,, causa, tomé, sobrenombre, ,, y, desta, ., 
, padre, ,, Dios, perdone, ,, cargo, proveer, molienda, aceña, ,, ribera, río, ,, molinero, quince, años, ;, y, estando, madre, noche, aceña, ,, preñada, ,, tomóle, parto, y, parióme, :, nacido, río, ., 
, niño, años, ,, achacaron, a, padre, sangrías, hechas, costales, a, moler, venían, ,, preso, ,, y, confesó, y, negó, y, padeció, persecución, justicia, ., 
, Espero, Dios, Gloria, ,, Evangelio, llama, bienaventurados, ., 
, armada, moros, ,, padre, ,, a, sazón, desterrado, desastre, ,, cargo, acemilero, caballero, allá, ,, y, señor, ,, leal, criado, ,, feneció, vida, ., 
]
