# Formas canónicas: lematización y stemming

NLTK y Spacy son dos librerías que se pueden utilizar para lematizar palabras. En esta práctica se va a realizar una comparativa de ambas librerías para comparar tanto resultados como tiempos de ejecución. Rellena las líneas de código que se piden, y responde a las preguntas.

## Estructura del código
1. Importación de librerías y carga de modelo (si es necesario)
2. Definición de funciones. En este caso, de una que lea un fichero txt.
3. Lectura del fichero.
4. `NLTK` Creación del "objeto" del modelo de stemming (extracción de lexemas)
5. `NLTK` Tokenización
6. `NLTK` Aplicación del stemming a cada token con SnowballStemmer
7. `Spacy` Creación del "objeto" Doc
8. `Spacy` Aplicación del lematizador a cada token (palabra.lemma_)

In [1]:
### Importación de librerías. Importa nltk y spacy

import pandas as pd
import nltk
import spacy

from nltk.stem import SnowballStemmer

### carga el modelo es_core_news_lg de spacy
nlp = spacy.load("es_core_news_lg")

In [2]:
### Genera una función que lea un fichero txt

def read_text_file(filename):
    file = open(filename, "r", encoding="utf-8") 
    return file.read()

In [4]:
# lee el archivo Lazarillo.txt con la función generada
text = read_text_file("Lazarillo.txt")

# Stemming o extracción de lexemas - NLTK
# Se utilizará el modelo SnowballSteemer configurandolo para español para la extracción de raíces
print("Stemms - NLTK")
spanish_stemmer = SnowballStemmer('spanish')

# Genera los tokens del texto. Se recomienda utilizar los recursos mostrados en Lab_06
tokens = nltk.word_tokenize(text)

# Aplicación de la lematización a cada token
stems=[]
for token in tokens:
    # Aplica el lematizador sobre cada token. Se recomienda utilizar spanish_steemer.stem()
    result = spanish_stemmer.stem(token)
    # Guardamos el resultado en una lista
    stems.append(result)

print(stems[:15])

### Lematización en spaCy
print("Lematización - spaCy")

### Construye el Doc de Spacy con el modelo previamente cargado (es_core_news_lg). 
doc = nlp(text)

### Se extrae el lemma de cada palabra
lemmas = []
for token in doc:
    lemmas.append(token.lemma_)

print(lemmas)


Stemms - NLTK
['pues', 'sep', 'v.m', '.', 'ante', 'tod', 'cos', 'que', 'a', 'mi', 'llam', 'lazar', 'de', 'torm', ',']
Lematización - spaCy
['pues', 'saber', 'V.M.', 'ante', 'todo', 'cosa', 'que', 'a', 'yo', 'llamar', 'Lázaro', 'de', 'Tormes', ',', 'hijo', 'de', 'Tomé', 'González', 'y', 'de', 'Antona', 'Pérez', ',', 'natural', 'de', 'Tejares', ',', 'aldea', 'de', 'Salamanca', '.', 'mi', 'nacimiento', 'ser', 'dentro', 'del', 'río', 'Tormes', ',', 'por', 'el', 'cual', 'causa', 'tomar', 'el', 'sobrenombre', ',', 'y', 'ser', 'destar', 'manera', '.', 'mi', 'padre', ',', 'que', 'Dios', 'perdone', ',', 'tener', 'cargo', 'de', 'proveer', 'uno', 'molienda', 'de', 'uno', 'aceña', ',', 'que', 'estar', 'ribera', 'de', 'aquel', 'río', ',', 'en', 'el', 'cual', 'ser', 'molinero', 'más', 'de', 'quince', 'año', ';', 'y', 'estar', 'mi', 'madre', 'uno', 'noche', 'en', 'el', 'aceña', ',', 'preñado', 'de', 'yo', ',', 'tomóle', 'el', 'parto', 'y', 'parióme', 'allí', ':', 'de', 'manera', 'que', 'con', 'verdad

In [5]:
tokens_tagged = [(palabra.text, palabra.lemma_) for palabra in doc]

### Se muestra en una tabla para visualizar correctamente la palabra original y la lematización
df=pd.DataFrame(tokens_tagged, columns=['Palabra', 'F. Canónica'])
df.iloc[:15]

Unnamed: 0,Palabra,F. Canónica
0,Pues,pues
1,sepa,saber
2,V.M.,V.M.
3,ante,ante
4,todas,todo
5,cosas,cosa
6,que,que
7,a,a
8,mí,yo
9,llaman,llamar


### Ejercicio extra. 
Convierte en función el stemming de NLTK y el lematizador de Spacy, para optimizar el código.

In [6]:
### Análisis con spaCy

def analyze_spacy(text):
    doc = nlp(text)
    return(doc)

In [7]:
## Stemming - NLTK

def stemming_nltk(text):    
    spanish_stemmer = SnowballStemmer('spanish')
    stems=[]

    tokens = nltk.word_tokenize(text)
    for token in tokens:
        stems.append(spanish_stemmer.stem(token)) 
        
    return(stems)

In [11]:
stemming_nltk(text)

['pues',
 'sep',
 'v.m',
 '.',
 'ante',
 'tod',
 'cos',
 'que',
 'a',
 'mi',
 'llam',
 'lazar',
 'de',
 'torm',
 ',',
 'hij',
 'de',
 'tom',
 'gonzalez',
 'y',
 'de',
 'anton',
 'perez',
 ',',
 'natural',
 'de',
 'tejar',
 ',',
 'alde',
 'de',
 'salamanc',
 '.',
 'mi',
 'nacimient',
 'fue',
 'dentr',
 'del',
 'rio',
 'torm',
 ',',
 'por',
 'la',
 'cual',
 'caus',
 'tom',
 'el',
 'sobrenombr',
 ',',
 'y',
 'fue',
 'dest',
 'maner',
 '.',
 'mi',
 'padr',
 ',',
 'que',
 'dios',
 'perdon',
 ',',
 'ten',
 'carg',
 'de',
 'prov',
 'una',
 'moliend',
 'de',
 'una',
 'aceñ',
 ',',
 'que',
 'esta',
 'riber',
 'de',
 'aquel',
 'rio',
 ',',
 'en',
 'la',
 'cual',
 'fue',
 'moliner',
 'mas',
 'de',
 'quinc',
 'años',
 ';',
 'y',
 'estand',
 'mi',
 'madr',
 'una',
 'noch',
 'en',
 'la',
 'aceñ',
 ',',
 'preñ',
 'de',
 'mi',
 ',',
 'tomol',
 'el',
 'part',
 'y',
 'pariom',
 'alli',
 ':',
 'de',
 'maner',
 'que',
 'con',
 'verd',
 'pued',
 'dec',
 'nac',
 'en',
 'el',
 'rio',
 '.',
 'pues',
 'siend',