# Preprocessing

Para trabajar con NLP tenemos que preprocesar el texto de diferentes formas, según el problema que queramos solucionar. En este notebook vamos a ver las diferentes formas que tenemos de modificar el texto para facilitar el trabajo a los algoritmos de NLP.

**Importante:** según el problema que queramos resolver tendremos que realizar unas u otras operaciones sobre el texto. Por ejemplo, para generación de lenguaje natural, no deberíamos _romper_ las palabras. En cambio, si queremos clasificar texto, no nos interesa que _gato_, _gata_, _gatos_, _gatas_ lo tome como palabras diferentes.

## Stopwords

Las _stopwords_ son palabras que no tienen significado por sí mismas y que, normalmente, queremos eliminar de nuestros textos. Para cada idioma, tenemos diferentes _stopwords_. Antes de preprocesar el texto, vamos a descargar estas _stopwords_.

In [2]:
# Descargar las Stopwords
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/gallardo/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

## Preprocesado

Hemos creado una clase para preprocesar el texto. Vamos a ver el funcionamiento de esta clase. Lo primero que tenemos que hacer es instanciar la clase. 

In [25]:
from utils.preprocessing import Preprocessor
preprocessor = Preprocessor()

Cuando preprocesamos el texto, vamos a trabajar con tokens. Lo primero que vamos a hacer es cargar el texto y ver los tokens que se han geneado.

Nosotros vamos a tokenizar con `nltk`.

```python
from nltk.tokenize import word_tokenize, wordpunct_tokenize

def set_text(self, text):
    self.__tokens = wordpunct_tokenize(text if text else '')
    return self

def get_tokens(self):
    return self.__tokens
```

In [4]:
sample = "Seven Dwarves gets +1/+1 for each other creature named Seven Dwarves you control. A deck can have up to seven cards named Seven Dwarves."
preprocessor.set_text(sample)
preprocessor.get_tokens()

['Seven',
 'Dwarves',
 'gets',
 '+',
 '1',
 '/+',
 '1',
 'for',
 'each',
 'other',
 'creature',
 'named',
 'Seven',
 'Dwarves',
 'you',
 'control',
 '.',
 'A',
 'deck',
 'can',
 'have',
 'up',
 'to',
 'seven',
 'cards',
 'named',
 'Seven',
 'Dwarves',
 '.']

### Estandarizar el texto
Antes de continuar vamos a estandarizar el texto. Vamos a dejar todo el texto en minúsculas y a eliminar los números y signos de puntuación.

In [6]:
preprocessor.standardize()
preprocessor.get_text()

'seven dwarves gets for each other creature named seven dwarves you control a deck can have up to seven cards named seven dwarves'

### Eliminar _stopwords_
Como hemos visto antes, las _stopwords_ son palabras que no nos van a aportar nada (según el problema que vayamos a resolver), así que las podemos eliminar.

Vamos a ver qué palabras son las _stopwords_ para el español y para el inglés. A continuación vamos a llamar al método `remove_stop_words` para eliminarlas.

In [7]:
from nltk.corpus import stopwords
print("Stopword in spanish: ", len(stopwords.words('spanish')))
print(stopwords.words('spanish')[:10])
print("Stopword in english: ", len(stopwords.words('english')))
print(stopwords.words('english')[:10])

Stopword in spanish:  313
['de', 'la', 'que', 'el', 'en', 'y', 'a', 'los', 'del', 'se']
Stopword in english:  179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]


In [9]:
preprocessor.remove_stop_words()
preprocessor.get_text()

'seven dwarves gets creature named seven dwarves control deck seven cards named seven dwarves'

En muchos problemas de NLP (como la clasificación que vamos a ver) no nos intenresa que contemple una palabra con sus diferentes variantes de género, número o familia de palabra. Por tanto, tenemos dos opciones para unificar todas esas palabras: Stemming o Lemmatization.

### Stemming
Con el `Stemming` vamos a cortar la palabra para quedarnos con la parte común.

_Para **gatos, gato, gata, gatas** sería **gat**_

In [15]:
stem = "gato gatos gata gatas"
stem_preprocessor = Preprocessor(language='spanish', language_code='es')
stem_preprocessor.set_text(stem).stemming()
stem_preprocessor.get_tokens()

['gat', 'gat', 'gat', 'gat']

### Lemmatization
Con la `Lemmatization` vamos a quedarnos con el _lemma_ (palabra canónica, palabra del diccionario).

_Para **gatos, gato, gata, gatas**, sería **gato**_

In [16]:
lemma = "gato gatos gata gatas"
lemma_preprocessor = Preprocessor(language='spanish', language_code='es')
lemma_preprocessor.set_text(lemma).lemmatization()
lemma_preprocessor.get_tokens()

['gato', 'gato', 'gato', 'gato']

Para nuestro ejemplo, nos vamos a quedar con la `Lemmatization`.

In [18]:
preprocessor.lemmatization()
preprocessor.get_text()

'seven dwarf get creature name seven dwarf control deck seven card name seven dwarf'

## Resultados
Ahora podemos ver la diferencia entre el texto de entrada y el texto preprocesado. Adelante, puedes probar cosas :)

In [11]:
from utils.preprocessing import Preprocessor

sample = "Los Siete enanitos obtienen +1/+1 por cada otra criatura llamada Siete enanitos que controlas. Un mazo puede tener más de cuatro cartas, hasta siete llamadas Siete enanitos."

preprocessor = Preprocessor(language="spanish", language_code="es")

output = preprocessor.set_text(sample).standardize().remove_stop_words().get_text()



print(f"Sample: {sample}\n")
print(f"Standarize: {preprocessor.set_text(sample).standardize()}\n")
print(f"Remove stopwords: {preprocessor.set_text(sample).standardize().remove_stop_words()}\n")
print(f"Remove accents: {preprocessor.set_text(sample).standardize().remove_stop_words().remove_accents()}\n")
print(f"Stemming: {preprocessor.set_text(sample).standardize().remove_stop_words().remove_accents().stemming()}\n")
print(f"Lemmatization: {preprocessor.set_text(sample).standardize().remove_stop_words().remove_accents().lemmatization()}\n")

Sample: Los Siete enanitos obtienen +1/+1 por cada otra criatura llamada Siete enanitos que controlas. Un mazo puede tener más de cuatro cartas, hasta siete llamadas Siete enanitos.

Standarize: los siete enanitos obtienen por cada otra criatura llamada siete enanitos que controlas un mazo puede tener más de cuatro cartas hasta siete llamadas siete enanitos

Remove stopwords: siete enanitos obtienen cada criatura llamada siete enanitos controlas mazo puede tener cuatro cartas siete llamadas siete enanitos

Remove accents: siete enanitos obtienen cada criatura llamada siete enanitos controlas mazo puede tener cuatro cartas siete llamadas siete enanitos

Stemming: siet enanit obtien cad criatur llam siet enanit control maz pued ten cuatr cart siet llam siet enanit

Lemmatization: siete enanitos obtener cada criatura llamar siete enanitos controlar mazar poder tener cuatro carta siete llamar siete enanitos

