### Lematización

Antes de extraer características, vamos a tener que simplificar el texto. Esto ayudará a que el texto sea más fácil de manejar debido a las variaciones en las formas de las palabras.

Estos son los pasos para el preprocesamiento de texto:

1. Tokenización: dividir el texto en tokens (frases, palabras y símbolos separados);
2. Lematización: reducir las palabras a sus formas fundamentales (lema).

Puedes usar estas librerías tanto para la tokenización como para la lematización:

- Natural Language Toolkit (NLTK)
- spaCy

Hay otras librerías que puedes usar para la tarea (por ejemplo, UDPipe, word2vec), pero NLTK y spaCy son las opciones más populares.

Importa la función de tokenización y crea un objeto de lematización:

In [5]:
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer

lemmatizer  = WordNetLemmatizer()

Pasa a la función lemmatize() el texto "All models are wrong, but some are useful" ("Todos los modelos son incorrectos, pero algunos son útiles") como tokens separados:

In [6]:
text = "All models are wrong, but some are useful."

tokens = word_tokenize(text.lower())

lemmas = [lemmatizer.lemmatize(token) for token in tokens]

LookupError: 
**********************************************************************
  Resource [93mpunkt_tab[0m not found.
  Please use the NLTK Downloader to obtain the resource:

  [31m>>> import nltk
  >>> nltk.download('punkt_tab')
  [0m
  For more information see: https://www.nltk.org/data.html

  Attempted to load [93mtokenizers/punkt_tab/english/[0m

  Searched in:
    - 'C:\\Users\\jovan/nltk_data'
    - 'c:\\Users\\jovan\\anaconda3\\envs\\ml_for_text_env\\nltk_data'
    - 'c:\\Users\\jovan\\anaconda3\\envs\\ml_for_text_env\\share\\nltk_data'
    - 'c:\\Users\\jovan\\anaconda3\\envs\\ml_for_text_env\\lib\\nltk_data'
    - 'C:\\Users\\jovan\\AppData\\Roaming\\nltk_data'
    - 'C:\\nltk_data'
    - 'D:\\nltk_data'
    - 'E:\\nltk_data'
**********************************************************************


La función word_tokenize() divide un texto en tokens y la función lemmatize() devuelve el lema de un token que se le pasó. Debido a que nos interesa lematizar una oración, el resultado generalmente se presenta como una lista de tokens lematizados.

['all', 'model', 'are', 'wrong', ',', 'but', 'some', 'are', 'useful', '.']

También convertimos el texto a minúsculas porque así lo exige el lematizador NLTK.

Usa la función join() para volver a convertir la lista de tokens procesados en una línea de texto, separando los elementos con un espacio opcional:

" ".join(lemmas)

Obtenemos:

'all model be wrong , but some be useful .'

spaCy (materiales en inglés) es otra librería popular para tokenizar y lematizar texto. El ejemplo anterior se puede procesar con spaCy de manera similar.
La variable nlp significa "procesamiento del lenguaje natural" y contiene un modelo principal para el reconocimiento de texto. spaCy utiliza una pipeline especial para procesar el texto entrante. La línea nlp = spacy.load('en_core_web_sm', disable=['parser', 'ner']) indica cargar el modelo de tamaño pequeño en inglés y deshabilitar algunos componentes de la pipeline. En el sitio web oficial hay más información sobre modelos (https://spacy.io/models) y pipelines (https://spacy.io/usage/processing-pipelines) (materiales en inglés).

lemma_ es un atributo de un token que devuelve su forma base.

In [None]:
import spacy

nlp = spacy.load('en_core_web_sm', disable=['parser', 'ner'])

doc = nlp(text.lower())

lemmas = [token.lemma_ for token in doc]

#Obtenemos:

#all model be wrong , but some be useful.

El resultado es un poco diferente, pero eso era de esperar. Las librerías de NLP a menudo comparten técnicas y principios, pero los implementan de diferentes maneras.

En este capítulo usaremos reseñas de películas de IMDB.

El conjunto de datos que usaremos en nuestros ejercicios contiene alrededor de 4,300 reseñas. (¡El conjunto de datos completo tiene 47,300!). A cada reseña se le ha asignado un "código de tonalidad", donde 0 significa reseñas negativas y 1, reseñas positivas.

Importa los datos:

import pandas as pd

data = pd.read_csv('/datasets/imdb_reviews_small.tsv', sep='\t')

Probablemente notaste que el archivo tiene una extensión "tsv", en lugar de la habitual "csv". TSV significa "valores separados por tabuladores". Es esencialmente el mismo formato que CSV, excepto por una diferencia. TSV usa el carácter de tabulación como delimitador en lugar del carácter de coma. Se eligió este formato para este conjunto de datos en particular para que fuera más fácil que aparecieran comas dentro de las reseñas.

Un conjunto de textos se denomina colectivamente corpus. Por lo general, es necesario definir un corpus para una tarea de análisis de texto (por ejemplo, para construir un diccionario o un espacio vectorial basado en él). Cada registro de texto es tratado por un algoritmo de machine learning, de acuerdo con su "posición" en un corpus. No te preocupes, analizaremos todo esto con más detalle en las próximas lecciones.

Crea un corpus a partir de las reseñas. Convierte la columna review en una lista de textos.

corpus = data['review']

### Ejercicio

Escribe la función lemmatize(text) usando la librería spaCy. 

Esta debería convertir el texto a minúsculas y lematizarlo, devolviendo una cadena lematizada. 

Puedes tomar cualquier registro aleatorio del conjunto de datos. Si te parece que son demasiado largos (después de todo, ¡son reseñas!), utiliza el registro de texto No. 2557 (este es una reseña breve) de imdb_reviews_small.tsv. 

Imprime tanto el texto inicial como el lematizado (en precódigo).

In [None]:
import pandas as pd
import random             # para seleccionar una reseña aleatoria
import spacy

nlp = spacy.load('en_core_web_sm', disable=['parser', 'ner'])

data = pd.read_csv('/datasets/imdb_reviews_small.tsv', sep='\t')
corpus = data['review']


def lemmatize(text):

    doc = nlp(text.lower())
    lemmas = [token.lemma_ for token in doc]
    return " ".join(lemmas)# < escribe tu código aquí >

# guarda el índice de revisión en la variable review_idx
# ya sea como un número aleatorio o un valor fijo, por ejemplo, 2557
#review_idx = random.randint(0, len(corpus)-1)
review_idx = 2557

review = corpus[review_idx]

print('El texto original:', review)
print()
print('El texto lematizado:', lemmatize(review))

Output:

El texto original: I liked this show from the first episode I saw, which was the "Rhapsody in Blue" episode (for those that don't know what that is, the Zan going insane and becoming pau lvl 10 ep). Best visuals and special effects I've seen on a television series, nothing like it anywhere.

El texto lematizado: I like this show from the first episode I see , which be the " rhapsody in blue " episode ( for those that do not know what that be , the zan go insane and become pau lvl 10 ep ) . good visual and special effect I 've see on a television series , nothing like it anywhere .