# Formas canónicas: lematización y stemming

NLTK y Spacy son dos librerías que se pueden utilizar para lematizar palabras. En esta práctica se va a realizar una comparativa de ambas librerías para comparar tanto resultados como tiempos de ejecución. Rellena las líneas de código que se piden, y responde a las preguntas.

## Estructura del código
1. Importación de librerías y carga de modelo (si es necesario)
2. Definición de funciones. En este caso, de una que lea un fichero txt.
3. Lectura del fichero.
4. `NLTK` Creación del "objeto" del modelo de stemming (extracción de lexemas)
5. `NLTK` Tokenización
6. `NLTK` Aplicación del stemming a cada token con SnowballStemmer
7. `Spacy` Creación del "objeto" Doc
8. `Spacy` Aplicación del lematizador a cada token (palabra.lemma_)

In [1]:
### Importación de librerías. Importa nltk y spacy

import pandas as pd
import nltk
import spacy

from nltk.stem import SnowballStemmer

### carga el modelo es_core_news_lg de spacy
nlp = spacy.load("es_core_news_lg")

OSError: [E050] Can't find model 'es_core_news_lg'. It doesn't seem to be a Python package or a valid path to a data directory.

In [1]:
### Genera una función que lea un fichero txt

def read_text_file(filename):
    file = open(filename, "r", encoding="utf-8") 
    return file.read()

In [4]:
# lee el archivo Lazarillo.txt con la función generada
text = read_text_file("Lazarillo.txt")

# Stemming o extracción de lexemas - NLTK
# Se utilizará el modelo SnowballSteemer configurandolo para español para la extracción de raíces
print("Stemms - NLTK")
spanish_stemmer = SnowballStemmer('spanish')

# Genera los tokens del texto. Se recomienda utilizar los recursos mostrados en Lab_06
tokens = nltk.word_tokenize(text)

# Aplicación de la lematización a cada token
stems=[]
for token in tokens:
    # Aplica el lematizador sobre cada token. Se recomienda utilizar spanish_steemer.stem()
    result = spanish_stemmer.stem(token)
    # Guardamos el resultado en una lista
    stems.append(result)

print(stems[:15])

### Lematización en spaCy
print("Lematización - spaCy")

### Construye el Doc de Spacy con el modelo previamente cargado (es_core_news_lg). 
doc = nlp(text)

### Se extrae el lemma de cada palabra
lemmas = []
for token in doc:
    lemmas.append(token.lemma_)

print(lemmas)


Stemms - NLTK


NameError: name 'SnowballStemmer' is not defined

In [None]:
tokens_tagged = [(palabra.text, palabra.lemma_) for palabra in doc]

### Se muestra en una tabla para visualizar correctamente la palabra original y la lematización
df=pd.DataFrame(tokens_tagged, columns=['Palabra', 'F. Canónica'])
df.iloc[:15]

### Ejercicio extra. 
Convierte en función el stemming de NLTK y el lematizador de Spacy, para optimizar el código.

In [7]:
### Análisis con spaCy

def analyze_spacy(text):
    doc = nlp(text)
    return(doc)

In [8]:
## Stemming - NLTK

def stemming_nltk(text):    
    spanish_stemmer = SnowballStemmer('spanish')
    stems=[]

    tokens = nltk.word_tokenize(text)
    for token in tokens:
        stems.append(spanish_stemmer.stem(token)) 
        
    return(stems)