# Normalization

Variabilidad del lenguaje. Ejemplo: 

- Lisa **comió** la comida y lavó los platos.
- Estaban **comiendo** fideos en un café.
- ¿No quieres **comer** antes de que nos vayamos?
- **Comeré** el sábado con mis amigos.
- También **come** frutas y verduras.

En el desarrollo de muchos sistemas de PLN, es necesario normalizar las palabras (convertirlas a su raíz o a su forma canónica) para evitar su posible variabilidad (distintas formas, pero igual significado semántico). 


La normalización no sólo permite tratar la variabilidad, sino también disminuir el tamaño del dataset. 

Dos tipos de normalización:
- steming, que consiste transformar la palabra a su raíz.
- lematización, que es transformar una palabra a su lema o forma canónica. 

Stemming suele ser un proceso sencillo y rápido, basado en un conjunto de reglas que permite cortar la palabra a partir de un conjunto de prefijos y sufijos (por ejemplo, “ing”, “ly”, “es”, “s”).

La lematización es más lento pero la información que devuelve es de mayor calidad ya que utiliza diccionarios con detallado conocimiento lingüístico. 

## Stemming con NLTK

In [0]:
import nltk
#nltk.download('punkt')
#nltk.download('stopwords')

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize 
from nltk.stem import PorterStemmer

set(stopwords.words('english'))

text='The children were playing, while their parents were chatting.'
text=text.lower()

stop_words = set(stopwords.words('english')) 
  
word_tokens = word_tokenize(text) 
    
filtered_sentence = [] 
  
for w in word_tokens: 
    if w not in stop_words: 
        filtered_sentence.append(w) 

Stem_words = []
ps =PorterStemmer()
for w in filtered_sentence:
    rootWord=ps.stem(w)
    Stem_words.append(rootWord)
print(filtered_sentence)
print(Stem_words)

['children', 'playing', ',', 'parents', 'chatting', '.']
['children', 'play', ',', 'parent', 'chat', '.']


## Lematización con NLKT

In [0]:
import nltk

nltk.download('wordnet')
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize 

from nltk.stem import WordNetLemmatizer
set(stopwords.words('english'))

text='The children were playing, while their parents were chatting.'
text=text.lower()
stop_words = set(stopwords.words('english')) 
  
word_tokens = word_tokenize(text) 
    
filtered_sentence = [] 
  
for w in word_tokens: 
    if w not in stop_words: 
        filtered_sentence.append(w) 
print(filtered_sentence) 

lemma_word = []
import nltk
from nltk.stem import WordNetLemmatizer
wordnet_lemmatizer = WordNetLemmatizer()
for w in filtered_sentence:
    word1 = wordnet_lemmatizer.lemmatize(w, pos = "n")
    word2 = wordnet_lemmatizer.lemmatize(word1, pos = "v")
    word3 = wordnet_lemmatizer.lemmatize(word2, pos = ("a"))
    lemma_word.append(word3)
print(lemma_word)

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.
['children', 'playing', ',', 'parents', 'chatting', '.']
['child', 'play', ',', 'parent', 'chat', '.']


## Lematización con Spacy



In [10]:
#make sure to download the english model with "python -m spacy download en"

import en_core_web_sm
nlp = en_core_web_sm.load()
text='The children were playing, while their parents were chatting.'
text=text.lower()
doc = nlp(text)

lemmas = [] 
tokens=[]
for token in doc:
    lemmas.append(token.lemma_)
    tokens.append(token)
print(tokens)
print(lemmas)



[the, children, were, playing, ,, while, their, parents, were, chatting, .]
['the', 'child', 'be', 'play', ',', 'while', '-PRON-', 'parent', 'be', 'chat', '.']


Existen otras librerías, como TextBlob, que también permiten realizar la lematización de un texto. 
