# Normalización

Las tecnicas de normalización intentan reducir la complejidad derivada de:
- El uso de sinonimos
- La existencia de palabras derivadas de una misma raiz
- Las variaciones de las palabras en cuanto a genero y numero (para nombres) y conjugaciones (para formas verbales)

In [7]:
import nltk # Importacion de nltk
nltk.download('wordnet') # Descarga del paquete wordnet. WordNet es una BBDD, de palabras, de la que entre otras cosas, podemos obtener sinonimos y antonimos.
from nltk.corpus import wordnet # Importación de wordnet


[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


## Sinonimos

Funcion para encontrar sinonimos

In [28]:
# Función para obtener sinonimos de una palabra
def get_synonyms(palabra):
  synonyms = [] # Lista de sinonimos

  for syn in wordnet.synsets(palabra): # Obtenemos la lista de palabras realcionadas, llamando a la función synsets de wordnet, e iteramos por cada una de ellas
      for l in syn.lemmas(): # Obtener los lemas de las palabras relacionadas
        if not l.antonyms(): # Si no es antonimo
          synonyms.append(l.name()) # Insertarlas en la lista
  return synonyms


In [29]:
palabra = input("Ingresa una palabra en ingles para buscar sinonimos\n")
print(get_synonyms(palabra))

Ingresa una palabra en ingles para buscar sinonimos
love
['love', 'passion', 'beloved', 'dear', 'dearest', 'honey', 'love', 'love', 'sexual_love', 'erotic_love', 'love', 'sexual_love', 'lovemaking', 'making_love', 'love', 'love_life', 'love', 'enjoy', 'love', 'sleep_together', 'roll_in_the_hay', 'love', 'make_out', 'make_love', 'sleep_with', 'get_laid', 'have_sex', 'know', 'do_it', 'be_intimate', 'have_intercourse', 'have_it_away', 'have_it_off', 'screw', 'fuck', 'jazz', 'eff', 'hump', 'lie_with', 'bed', 'have_a_go_at_it', 'bang', 'get_it_on', 'bonk']


Función para encontrar antonimos

In [32]:
# Función para obtener sinonimos de una palabra
def get_antonyms(palabra):
  from nltk.corpus import wordnet
  antonyms  = [] # Lista de antonimos

  for syn in wordnet.synsets(palabra): # Obtenemos la lista de palabras realcionadas, llamando a la función synsets de wordnet, e iteramos por cada una de ellas
      for l in syn.lemmas(): # Obtener los lemas de las palabras relacionadas
         if l.antonyms(): # Si  es antonimo
              antonyms.append(l.antonyms()[0].name()) # Insertarlas en la lista
  return antonyms

In [33]:
palabra = input("Ingresa una palabra en ingles para buscar antonimos\n")
print(get_antonyms(palabra))

Ingresa una palabra en ingles para buscar antonimos
love
['hate', 'hate']


Ahora la idea seria sustituir en una frase todos los sinonimos de una cierta palabra, siempre por la misma palabra, de forma que se reduzca la complejidad

In [34]:
palabra_principal = "love"
frase = "Love is one of the most important things. Passion and honey are important"

In [13]:
# Función para sustituir lso sinonimos en una frase, de una palabra principal
def remplazar_por_sinonimos(palabra_principal,frase): # Recibe como parametro la palabra principal, y la frase
  synonyms = get_synonyms(palabra_principal) # Obtengo la lista de sinonimos de la palabra principal
  nueva_frase = [] # Nueva frase con la sustitución por sinonimos
  for word in frase.lower().split(" "): # Divido en palabras e itero por ellas
    if word  in synonyms: # Si la palabra, esta en la lista de sinonimos
      nueva_frase.append(palabra_principal) # Meto en su lugar la palabra principal
    else: #Si no esta
      nueva_frase.append(word) # Metemos la palabra
  return " ".join(nueva_frase) # Retornamos la nueva frase, con los sinonimos sustituidos

In [35]:
nueva_frase = remplazar_por_sinonimos(palabra_principal,frase)
print(nueva_frase)

love is one of the most important things. love and love are important


## Derivación regresiva o Stemming

La derivación regresiva consiste en encontrar la parte fija de la palabra, excluyendo prefijos y sufijos

#### En ingles

In [46]:
from nltk.stem import PorterStemmer # Usamos la clase PorterStemmer, 

stemmer = PorterStemmer() # Cremos una instancia de la clase

print(stemmer.stem('working')) # Perdimos la palabra raiz, eliminado sufijos y prefijos
print(stemmer.stem('worked'))

work
work


#### En español

In [42]:
from nltk.stem import SnowballStemmer # Usamos la clase SnowballStemmer, 

spanish_stemmer = SnowballStemmer('spanish')  # Cremos una instancia de la clase, recibiendo como parametro el idioma

print(spanish_stemmer.stem('trabajando')) # Perdimos la palabra raiz, eliminado sufijos y prefijos
print(spanish_stemmer.stem('trabajo'))

trabaj
trabaj


Función para obtener la raiz de una palabra a partir de una frase en cualquier idioma

In [17]:
# Creamos una función para obtener la raiz de las palabras de una frase
def obtener_raiz(frase,idioma='english' ): # recibimos como parámetros la frase y el idioma, que por defecto sera en ingles
  from nltk.stem import SnowballStemmer
  stemmer = SnowballStemmer(idioma) #  Cremos una instancia de la clase, recibiendo como parametro el idioma 
  clean_token_sin_strems = [stemmer.stem(token) for token in frase.split(" ")] # Dividimos en palabras separando por espacios en blanco, y aplicamos la funcion stem a cada palabra, para obtener la raiz
  return clean_token_sin_strems # Retornamos las palabras de la frase, despues de aplciar el stemmer

In [18]:
obtener_raiz("Hoy estoy cansado por que he estado trabajando todo el día","spanish")

['hoy',
 'estoy',
 'cans',
 'por',
 'que',
 'he',
 'estad',
 'trabaj',
 'tod',
 'el',
 'dia']

In [47]:
obtener_raiz("La trabajadora esta cansada por haber trabajado todos los días","spanish")

['la', 'trabaj', 'esta', 'cans', 'por', 'hab', 'trabaj', 'tod', 'los', 'dias']

# Lematización

A partir de las formas flexionadas de las palabras, permite obtener la forma canónica de una palabra excluyendo el genero, numero, conjugación verbal….. Por ejemplo decir es la forma canonica de dire, dije, dijésemos …

#### En Ingles

In [48]:
from nltk.stem import WordNetLemmatizer # En nltk, importamos la clase WordNetLemmatizer, que usa WordNet, para conocer la raiz de la palabra
lematizer = WordNetLemmatizer() # Instanciamos la clase
print(lematizer.lemmatize('was', pos='v')) # Sustantivos de manera predeterminada, especificar "v" si se quiere trabajar con verbos

be


#### En Español

In [49]:
!python -m spacy download es_core_news_sm
!python -m spacy link es_core_news_sm es
import spacy
nlp = spacy.load('es')

Collecting es_core_news_sm==2.2.5
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-2.2.5/es_core_news_sm-2.2.5.tar.gz (16.2 MB)
[K     |████████████████████████████████| 16.2 MB 1.3 MB/s 
[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('es_core_news_sm')

[38;5;1m✘ Link 'es' already exists[0m
To overwrite an existing link, use the --force flag



In [53]:

frase_1 = "Siempre me ha gustado leer grandes libros"
frase_2 = "Me gustan los libros aunque ya los haya leído"

def lematizar(frase):
  clean_tokens_sin_lem = [] # Lista donde pondremos las palabras lematizadas
  separator = ' ' # Separador usado
  for token in frase.split(separator): # Separamos la frase en palabras
      for word in nlp(token): # Pasamos cada palabra al modelo de Spacy
          print('\t'+word.text+ ' ==> ' +word.lemma_+ ' ==> ' +word.pos_) # Obtenemos el texto original con "text", el lema con "lemma_" y la función en la frase con "pos_", y lo mostramos por pantalla
          clean_tokens_sin_lem.append(word.lemma_) # Insertamos el lema en la lista
  return clean_tokens_sin_lem # Retornamos la Lista de palabras lematizadas
print('Frase 1 Lematizada',lematizar(frase_1)) # Ejecutamos con la frase 1
print('Frase 2 Lematizada',lematizar(frase_2)) # Ejecutamos con la frase 2

	Siempre ==> Siempre ==> ADV
	me ==> me ==> PRON
	ha ==> haber ==> AUX
	gustado ==> gustar ==> ADJ
	leer ==> leer ==> VERB
	grandes ==> grande ==> ADJ
	libros ==> libro ==> NOUN
Frase 1 Lematizada ['Siempre', 'me', 'haber', 'gustar', 'leer', 'grande', 'libro']
	Me ==> Me ==> PRON
	gustan ==> gustar ==> VERB
	los ==> lo ==> DET
	libros ==> libro ==> NOUN
	aunque ==> aunque ==> SCONJ
	ya ==> ya ==> ADV
	los ==> lo ==> DET
	haya ==> haber ==> AUX
	leído ==> leer ==> ADJ
Frase 2 Lematizada ['Me', 'gustar', 'lo', 'libro', 'aunque', 'ya', 'lo', 'haber', 'leer']
