# Generalidades de Spacy

- Es una librería de python para Procesamiento de Lenguaje Natural.

- Una ventaja respesto a NLTK es que trae modelos preentrenados para diferentes idiomas, entre ellos, el español.

- Tiene mejor rendimiento que NTLK.

- Algunas tareas que se pueden hacer con  Spacy:

    - Tokenización

    - Stop Words

    - Part of Speech (PoS)

    - Lematización

- Para poder usar los modelos preentrenados de Spacy se deben descargar:

     - es_core_news_md

     - es_core_news_sm

El primero más pesado que el segundo.

- Para más información se puede consultar 
[Spacy]("https://spacy.io/")-



In [1]:
pip install spacy

Note: you may need to restart the kernel to use updated packages.


In [2]:
!python -m spacy download es_core_news_sm

Collecting es-core-news-sm==3.5.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.5.0/es_core_news_sm-3.5.0-py3-none-any.whl (12.9 MB)
     ---------------------------------------- 0.0/12.9 MB ? eta -:--:--
     ---------------------------------------- 0.1/12.9 MB 3.6 MB/s eta 0:00:04
      --------------------------------------- 0.3/12.9 MB 4.0 MB/s eta 0:00:04
     - -------------------------------------- 0.5/12.9 MB 4.1 MB/s eta 0:00:04
     - -------------------------------------- 0.6/12.9 MB 3.7 MB/s eta 0:00:04
     -- ------------------------------------- 0.9/12.9 MB 3.9 MB/s eta 0:00:04
     ---- ----------------------------------- 1.3/12.9 MB 4.2 MB/s eta 0:00:03
     ---- ----------------------------------- 1.6/12.9 MB 4.4 MB/s eta 0:00:03
     ----- ---------------------------------- 1.8/12.9 MB 4.7 MB/s eta 0:00:03
     ------ --------------------------------- 2.1/12.9 MB 4.5 MB/s eta 0:00:03
     ------- -------------------------

In [6]:
import spacy
#Este es para español
nlp = spacy.load('es_core_news_sm')
#Este es 

In [4]:
#para acceder a los datos del drive
from google.colab import drive
drive.mount('/content/drive')

ModuleNotFoundError: No module named 'google'

In [None]:
doc_file = '/content/drive/MyDrive/3. PLN/MATERIAL CURSO OTROS/MATERIAL 2/data/corpus_mundo_today.csv'
file_txt = open(doc_file, encoding="utf8").read()

In [None]:
file_txt[0:100]

Hacemos una estructura de control para separar los párrafos y eliminar los "||"

In [None]:
doc_list = list()
for line in file_txt.split('\n'):
    line = line.split('||')
    doc_list.append(line[1] + ' ' + line[2])
doc_list = doc_list[1:] # Elimino la cabecera del fichero

In [None]:
doc_list[0]

## Algunos ejemplos con Spacy

In [7]:
# Tokenización doc: tokeniza en spacy
doc = nlp(doc_list[0])
# imprimimos qué tipo de dato es:
print('Tipo de dato: ' + str(type(doc)))
# estructura de control para 
print([w for w in doc])
print([w.text for w in doc])

NameError: name 'doc_list' is not defined

In [8]:
# Segmentación, es decir , dividir en las cadenas de texto en frases o párrafos usando: puntos, adiración, interrogante, etc.
# se usa "sentencier"
from spacy.pipeline import Sentencizer
sentencizer = Sentencizer()
doc = nlp("Fabián es Matemático. Todos estamos en el salón de clae! Pero tenemos hambre.")
print([frase.text for frase in doc.sents])

['Fabián es Matemático.', 'Todos estamos en el salón de clae!', 'Pero tenemos hambre.']


In [9]:
# Lematización
doc = nlp("Atentos : Todos en el río estaban pescando cuando de repente vieron un oso gigante que se comía un salmón")
for palabra in doc:  
    print(palabra.text + " - " + palabra.lemma_)

Atentos - atento
: - :
Todos - todo
en - en
el - el
río - río
estaban - estar
pescando - pescar
cuando - cuando
de - de
repente - repente
vieron - ver
un - uno
oso - oso
gigante - gigante
que - que
se - él
comía - comer
un - uno
salmón - salmón


In [None]:
# Stop Word o palabras de parada 
# No aportan al significado de la frase
# hay 521 palabras en Español.
# se usa : spacy.lang.es.stop_words.STOP_WORDS
stopwords = spacy.lang.es.stop_words.STOP_WORDS
print('Número de stop words: ' + str(len(stopwords)))
print('Stop words: ' + str(list(stopwords)))

Número de stop words: 521
Stop words: ['dice', 'sean', 'cuantos', 'de', 'aunque', 'haceis', 'algunas', 'usas', 'menudo', 'lado', 'algunos', 'buen', 'todavía', 'dijo', 'mencionó', 'éstos', 'aquéllos', 'encima', 'tampoco', 'consideró', 'alli', 'aquí', 'llegó', 'para', 'tambien', 'tenemos', 'consigues', 'quien', 'añadió', 'sabes', 'sé', 'comentó', 'modo', 'ellas', 'voy', 'sino', 'segunda', 'pasada', 'éstas', 'mayor', 'quién', 'fuimos', 'mí', 'hacen', 'cuales', 'ningunos', 'tarde', 'encuentra', 'mejor', 'ellos', 'pero', 'nosotras', 'según', 'vaya', 'estuvo', 'acuerdo', 'alguno', 'señaló', 'tanto', 'buenos', 'usais', 'atras', 'última', 'pueda', 'nada', 'otras', 'hacerlo', 'ocho', 'cuánta', 'podriamos', 'tan', 'aquellas', 'donde', 'mía', 'qué', 'tuya', 'e', 'solos', 'hizo', 'sea', 'entre', 'suyas', 'ya', 'siendo', 'mediante', 'solas', 'dicho', 'sabemos', 'nuestras', 'contra', 'sólo', 'suya', 'grandes', 'dejó', 'junto', 'saben', 'saber', 'adelante', 'aquellos', 'tienen', 'le', 'conseguimos', 

In [10]:
# Los token en Spacy tienen un método denominado is_stop 
# es una variable lógica indicando si el token está o no en la lista 
doc = nlp("Atentos, Todos en el río estaban pescando cuando de repente vieron un oso gigante que se comía un salmón")
for palabra in doc:
    if not palabra.is_stop:
        print(palabra)

Atentos
,
río
pescando
vieron
oso
gigante
comía
salmón


In [11]:
# Tagging : Part of Speech - Categorizar las palabras en un texto (corpus) o etiquetado gramatical. 
# pos: etiqueta de más alto nivel (verbo, nombre)

doc = nlp("Atentos, Todos en el río estaban pescando cuando de repente vieron un oso gigante que se comía un salmón")
pos = [[tk.text, tk.pos_] for tk in doc]

# los podemos organizar en un Dataframe
import pandas as pd
pd.DataFrame(pos, columns=["Text", "PoS"])

Unnamed: 0,Text,PoS
0,Atentos,ADJ
1,",",PUNCT
2,Todos,PRON
3,en,ADP
4,el,DET
5,río,NOUN
6,estaban,AUX
7,pescando,VERB
8,cuando,SCONJ
9,de,ADP


In [None]:
from collections import Counter
doc = nlp("Atentos, Todos en el río estaban pescando cuando de repente vieron un oso gigante que se comía un salmón")
parte_oracion = [palabra.pos_ for palabra in doc]
Counter(parte_oracion).most_common()
pd.DataFrame(Counter(parte_oracion).most_common(), columns=["Text", "PoS"])

In [None]:
from collections import Counter
doc = nlp(doc_list[0])
parte_oracion = [palabra.pos_ for palabra in doc]
Counter(parte_oracion).most_common()
pd.DataFrame(Counter(parte_oracion).most_common(), columns=["Text", "PoS"])

Finalmente,

In [None]:
import spacy
import pandas as pd

nlp = spacy.load('es_core_news_sm')
doc = nlp("Atentos, Todos en el río estaban pescando cuando de repente vieron un oso gigante que se comía 10 salmones")

resultado = [[tk.text, tk.lemma_, tk.pos_, tk.is_alpha, tk.is_stop] for tk in doc]
pd.DataFrame(resultado, columns=["Text", "Lema", "PoS", "Alpha", "is Stop word"])

In [None]:
!python -m spacy download es_core_news_md

In [None]:
import es_core_news_md
nlp_md = es_core_news_md.load()
from spacy import displacy
from IPython.display import SVG
article_text = '''La ONG Fundación del Río explicó este Fabián viernes que la decisión de la Organización de la ONU para la Educación, la Ciencia y la Cultura (Unesco) de declarar como geoparque el río Coco, ubicado en el norte de Nicaragua, obliga a las autoridades nicaragüenses a proteger su ecosistema, ya que se encuentra en el área más deforestada de la cuenca. La Unesco está reconociendo la importancia del río Coco, pero también está haciendo un llamado al Gobierno a que actúe en la protección y la conservación de esos ecosistemas, dijo a Efe el presidente de la Fundación del Río, Amaru Ruiz.'''
doc = nlp_md(article_text)
SVG(data = displacy.render(doc, style="ent"))

In [None]:
# similitud de palabras
tokens = nlp_md("perro gato banana manzana rey reina")
for token1 in tokens:
    for token2 in tokens:
        print(token1.text, token2.text, token1.similarity(token2))

==============================================================================================================================

# Bag of Words (BoW) : Bolsa de Palabras

- Es un modelo para generar como su nombre lo indica una bolsa de palabras que simplifique el contenido de documentos.

- En los **BoW** se omiten la grámatica y el orden de las palabras.

- Se concentra en la frecuencia de las palabras, es decir, en el número de veces que aparece en el texto.

In [None]:
# Supongamos que tenemos un documento así:
documento = ["carlos juega mucho carlos carlos carro carro juega universidad universidad juega juega  mucho mucho carlos",
             "conduce conduce conduce carro carro mucho mucho carro carro carro carro carro",
             "universidad universidad MACC MACC MACC MACC MACC MACC UR UR UR UR UR UR UR",
             "universidad universidad universidad carlos carlos conduce conduce carlos carlos carlos UR UR UR UR",
             "universidad universidad carlos carlos carlos conduce conduce carro carro carro carro mucho mucho mucho",
             "carlos juega universidad carro mucho juega mucho"]

In [None]:
# el método split() divide las cadenas de texto y obtenemos listas con cada oración (elemento de documento)
for doc in documento:
  print(doc.split(" "))

In [None]:
# construimos la bolsa de palabras
bow = dict()
for doc in documento:
  doc = doc.split(" ")
  for palabra in doc:
    if palabra in bow:
      bow[palabra] +=1
    else:
      bow[palabra]=1
print(bow)      

Observe que se genera un diccionario con la frecuencia de cada palabra. Sin embrago, cuando se construye una bolsa de palabras también es importante asignar un "peso" que determina cierto nivel de importancia en el documento o corpus.

Existen varias formas de generar una bolsa de palabras.

- Vectores de frecuencias

- One Hot Encode

- TF-IDF : Term Frequency-Inverse Document Frequency: Es una medida que pondera el uso de una determinada palabra dentro de un conjunto de documentos y que supone por lo tanto un elemento importante y relevante para la clasificación de documentos frente a la consulta de un usuario

Para generar bolsas de palabras usaremos tres librerías diferentes:

- **scikit**: aprendizaje automático

- **NLTK** : procesamiento de lenguaje natural

- **Gensim**: está específicamente diseñado para manejar grandes colecciones de texto, utilizando el flujo de datos y algoritmos incrementales eficientes. Se fundamenta en Numpy y Scipy

## Vectores de Frecuencias

- Es la forma más fácil de hacer una bolsa de palabras.

- Consiste en contar cuantas palabras aparecen en el documento

In [None]:
# Usando scikit tenemos : sklearn.feature_extraction.text
from sklearn.feature_extraction.text import CountVectorizer
vectorizar = CountVectorizer()
vectores = vectorizar.fit_transform(documento)
print(vectorizar.get_feature_names_out())
print(vectores.toarray())

In [None]:
# usando NLTK : from collections import defaultdict
import nltk
nltk.download("all")

In [None]:
# tarea construir una función que cuente, ver este ejemplo con una entreda.
tokens = nltk.word_tokenize(documento[0])
Freq_dist=nltk.FreqDist(tokens) ; Freq_dist

In [None]:
# Usando Gensim
import gensim
tokenizar = [nltk.word_tokenize(text) for text in documento]
diccionario = gensim.corpora.Dictionary(tokenizar)
vectores = [diccionario.doc2bow(token) for token in tokenizar]

# Resultados
print('\nApariciones de las palabras en los documentos:')
vectores

## One Hot Encode

- Para construir una *bolsa de palabras* con este método lo que hacemos es asignar 0 y 1 : equivalentes a False o True según si una palabra está o no en el documento.

In [None]:
# Usando scikit
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.preprocessing import Binarizer

vectorizar = CountVectorizer()
corpus = vectorizar.fit_transform(documento)

onehot = Binarizer()
corpus = onehot.fit_transform(corpus.toarray())

# Resultados
print(vectorizar.get_feature_names_out())
print(corpus)

In [None]:
# usando NLTK
# ejercicio hacer un diccionario key = palabra y el valor = true.

In [None]:
# Usando Gensim
# la estructura es similar a la frecuencia de palabras, solo que ya no aparece la frecuencia sino uno.
tokenize = [nltk.word_tokenize(text) for text in documento]
dictionary = gensim.corpora.Dictionary(tokenize)
vectors = [[(token[0], 1) for token in dictionary.doc2bow(doc)] for doc in tokenize]

# Resultados
print('Diccionario de palabras -> palabra: id\n')
print(dictionary.token2id)
print('\nApariciones de las palabras en los documentos (id, 1):')
vectors

## TF-IDF : Frecuencia de Término-Frecuencia Inversa de Documento

Es una medida que pondera el uso de una determinada palabra dentro de un conjunto de documentos y que supone por lo tanto un elemento importante y relevante para la clasificación de documentos frente a la consulta de un usuario.

- Construir la Bolsa de Palabras con TF-IDF en vez de con frecuencias evita dar "importancia" a texto muy largos y con mucha repetición de palabras, frente a textos cortos y con pocas repeticiones de palabras.


- ***TF-IDF*** tiene dos componentes que son:
    
    * ***TF*** (Term Frecuency): Es la frecuencia con la que aparece la palabra en un documento del corpus. Esta se define como:
    
    $$tf(t,d) = 1 + log(f_{t,d})$$
    
    * ***IDF*** (Inverse Document Frequency): La frecuencia inversa del documento nos indica lo común que es una palabra en el corpus.
    
    $$idf(t,D) = log(1 + \frac{N}{n_t})$$
    

* ***TF-IDF*** queda definido como:
$$tfidf(t,d,D) = tf(t,d) \cdot idf(t,D)$$

## Ejemplo

* Supongamos un corpus de 2 documentos con las siguientes palabras:

```
corpus = ["carro carro carro ur ur feliz",
          "carro ur fabian fabian fabian"]
```

* ***Ejemplo 1***: Calculamos el ***tf-idf*** de la palabra "**carro**" para el documento 1:
    
    * ***TF***:

        - t: número de veces que aparece la palabra "carro" en el documento 1 es 3.
        - d: número de palabras que tiene el documento 1 es 6

        $$tf(t,d) = 1 + log(\frac{3}{6}) =  0,69$$
        
    * ***IDF***:

        - n<sub>t</sub>: número de documentos en los que aparece la palabra "carro" es 2.

        - D: número total de documentos en el corpus es 2

        $$idf(t,D) = log(1 + \frac{2}{2}) = 0,3$$
        
    * ***TF-IDF***:
    $$tfidf(t,d,D) = tf(t,d) \cdot idf(t,D) = 0,69 * 0,3 = 0,21$$


* ***Ejemplo 2***: Calculamos el ***tf-idf*** de la palabra "**fabian**" para el documento 2:
    
    * ***TF***:
        - t: número de veces que aparece la palabra "fabian" en el documento 2 es 3
        - d: número de palabras que tiene el documento 1 es 5

        $$tf(t,d) = 1 + log(\frac{3}{5}) =  0,78$$
        
    * ***IDF***:

        - n<sub>t</sub>: número de documentos en los que aparece la palabra 'fabian' es 1
        - D: número total de documentos en el corpus es 2

        $$idf(t,D) = log(1 + \frac{2}{1}) = 0,48$$
        
    * ***TF-IDF***:

    $$tfidf(t,d,D) = tf(t,d) \cdot idf(t,D) = 0,78 * 0,48 = 0,37$$


**Observación:** 

- Las implementaciones del ***TF-IDF*** de **Scikit** y **Gensim** estan pensadas para corpus con un número relevante de documentos y de palabras, por tanto la implementación del ***TF-IDF*** acepta una serie de parámetros para no tener en cuenta Stop Words, palabras irrelevantes, etc. 

- Si se realiza una implementación del ***TF-IDF*** no van a conincidir los resultados de esa implementación con los resultados de las librerías de **Scikit** y **Gensim** a no ser que se modifiquen los parámetros de las funciones del ***TF-IDF***.



In [None]:
# en Scikit
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer()
corpus = tfidf.fit_transform(documento)

# Resultados
print(tfidf.get_feature_names_out ())
print(corpus.toarray())

In [None]:
# en Gensim
tokenize = [nltk.word_tokenize(text) for text in documento]
dictionary = gensim.corpora.Dictionary(tokenize)
tfidf = gensim.models.TfidfModel(dictionary=dictionary, normalize=True)
vectors = [tfidf[dictionary.doc2bow(doc)] for doc in tokenize]

# Resultados
print('Diccionario de palabras -> palabra: id\n')
print(dictionary.token2id)
print('\nApariciones de las palabras en los documentos (id, tfidf):')
vectors

## ETIQUETADO MORFOLÓGICO : (*part-of-speech tagging*)

NLTK nos da algunas herramientas para crear etiquetadores morfológicos, es decir, identificar si una palabra es verbo, sustantivo, adjetivo , etc.

CC : coodinate conjunction

CD : cardinal number

DT : determiner

EX ; existencial there

FW : foeign word

IN : preprosition or subordinating

JJ : adjetive

JJR : adjetive, comparative

JJS : adjetive superlative
...
BV : verbo forma base

VBD : verbo pasado

VBG : verb gerundio

ver

[TAGGING](https://pythonspot.com/nltk-speech-tagging/)

Usaremos primer : nltk.pos_tag que es un etiquetador morfológico basado en aprendizaje automático. A partir de miles de ejemplos de oraciones etiquetadas manualmente, el sistema *ha aprendido*, calculando frecuencias y generalizando cuál es la categoría gramatical más probable para cada token. 

In [None]:
# inicialmente usaremos una función de NLTK denominada : nltk.pos_tag

oracion1 = "This is the lost dog I found at the park".split()
oracion2 = "The progress of the humankind as I progress".split()
oracion3 = "When I went to the University, I played soccer".split()
print(nltk.pos_tag(oracion1))
print(nltk.pos_tag(oracion2))
print(nltk.pos_tag(oracion3))

### Etiquetador basado en Expresiones Regulares

- Las expresiones regulares nos permiten especificar cadenas de texto.

- Esta nos permite identificar patrones en las palabras para poderlas clasificar

- Vamos a crear nuestra propia lista para etiquetar. (tagging)

- El primer elemento es la expresión regular y la segunda la categoría gramatical. 

- Usamos la instrucción `RegexpTagger`. 

- Este ejemplo lo haremos en inglés

Usaremos Raw String Notation (r'texto') : una forma en la cual Python nos permite implementar expresiones regulares.

- El método que usamos es **.tag**

In [None]:
¿Cuál es el error?
pattern = [(r'(March)$', "TAG")] # $ : final de palabra
tagger=nltk.RegexpTagger(pattern)

print(tagger.tag('He was born in March 1991'))

In [None]:
patrones = [
    (r'[Aa]m$', 'VBP'),               # irregular forms of 'to be' 
    (r'[Aa]re$', 'VBP'),              #  
    (r'[Ii]s$', 'VBZ'),               #  
    (r'[Ww]as$', 'VBD'),              #  
    (r'[Ww]ere$', 'VBD'),             #  
    (r'[Bb]een$', 'VBN'),             #  

    (r'[Hh]ave$', 'VBP'),             # irregular forms of 'to be' 
    (r'[Hh]as$', 'VBZ'),              #  
    (r'[Hh]ad$', 'VBD'),              #

    (r'^I$', 'PRP'),                  # personal pronouns
    (r'[Yy]ou$', 'PRP'),              # 
    (r'[Hh]e$', 'PRP'),               # 
    (r'[Ss]he$', 'PRP'),              # 
    (r'[Ii]t$', 'PRP'),               # 
    (r'[Tt]hey$', 'PRP'),             # 
    (r'[Aa]n?$', 'AT'),               #  (? se repite el caracter una o cero vez)
    (r'[Tt]he$', 'AT'),               # 

    (r'[wW]h.+$', 'WP'),              # wh- pronoun  (. es cualquier caracter y + que se repite una o más veces)

    (r'.*ing$', 'VBG'),               # gerunds

    (r'.*ed$', 'VBD'),                # simple past

    (r'.*es$', 'VBZ'),                # 3rd singular present

    (r'[Cc]an(not|n\'t)?$', 'MD'),    # modals
    (r'[Mm]ight$', 'MD'),             # 
    (r'[Mm]ay$', 'MD'),               # 

    (r'.+ould$', 'MD'),               # modals: could, should, would

    (r'.*ly$', 'RB'),                 # adverbs (.* re repite un caracter cero o más veces)

    (r'.*\'s$', 'NN$'),               # possessive nouns

    (r'.*s$', 'NNS'),                 # plural nouns

    (r'-?[0-9]+(.[0-9]+)?$', 'CD'),   # cardinal numbers

    (r'^to$', 'TO'),                  # to 

    (r'^in$', 'IN'),                  # in prep

    (r'^[A-Z]+([a-z])*$', 'NNP'),     # proper nouns 

    (r'.*', 'NN')                     # nouns (default)
]

regexTagger = nltk.RegexpTagger(patrones)

In [None]:
print(regexTagger.tag("I was taking a sunbath in Alpedrete".split()))

print(regexTagger.tag("She would have found 100 dollars in the bag".split()))

print(regexTagger.tag("DSFdfdsfsd 1852 to dgdfgould fXXXdg in XXXfdg".split()))

# Taller de normalización

* Se comparte los siguientes datos (./data/corpus_mundo_today.csv). fuente: "https://www.elmundotoday.com/ (artículo)


* Este CSV esta formado por 3 campos que son:

    - Tema
    - Título
    - Texto
    
* **Objetivo**: Normalizar el ***Corpus*** tomando el *título* y *texto* como contenido de cada documento y crear 3 ***Bolsa de Palabras*** de la tres formas.

## Punto 1

* Dada una lista en la que cada elemento de la misma tiene el contenido (título + texto) de cada documento del corpus se pide:

1. **Crear una función que devuelva los documentos *Tokenizados* (una lista de listas) y con los tokens (palabras) en minúsculas.**
        * **input**: lista de documentos (lista de Strings).
        * **output**: lista de listas, en la que cada lista contiene los tokens del documento.


2. **Crear una función que elimine los tokens que sean signos de puntuación y *Stop-Words*.**

        - **input**: lista de listas, en la que cada lista contiene los tokens del documento.
        - **output**: lista de listas, en la que cada lista contiene los tokens del documento.

3. **Crear una función que transforme cada token a su lema (*Lematización*)**
        - **input**: lista de listas, en la que cada lista contiene los tokens del documento.
        - **output**: lista de listas, en la que cada lista contiene los tokens del documento.

4. **Crear una función que elimine todos los tokens que no sean *Nombres* (NOUN, PROPN), *Verbos*, *Advervios* o *Adjetivos*.**
        - **input**: lista de listas, en la que cada lista contiene los tokens del documento.
        - **output**: lista de listas, en la que cada lista contiene los tokens del documento.
     
5. **Función que dada una lista de documentos, devuelva los documentos normalizados. Este ejercicio ya esta hecho y simplemente tiene que funcionar llamando a las 4 funciones anteriores.**
        -  **input**: lista de documentos (lista de Strings).
        - **output**: lista de listas, en la que cada lista contiene los tokens del documento normalizados.


## Punto 2 

Aprovechando la normalización realizada anteriormente se pide:

6. **Crear una función que dada una lista de documentos (*corpus*) tokenizados, elimine del corpus aquellos tokens que aparecen menos de 'N' veces (N=10) en el corpus**
        * **input**: lista de listas, en la que cada lista contiene los tokens del documento normalizados.
        * **input**: 'N' -> Parámetro que nos indica el número mínimo de apariciones de la palabra en el corpus.
        * **output**: lista de listas, en la que cada lista contiene los tokens del documento normalizados.


7. **Dado el corpus, normalizado y con tokens que aparecen 10 veces o más en el corpus, se pide crear una bolsa de palabras en ONE-HOT-ENCODE con Gensim**


8. **Dado el corpus, normalizado y con tokens que aparecen 10 veces o más en el corpus, se pide crear una bolsa de palabras aplicando el TF-IDF con Scikit**
    
