# Creando un modelo de lenguaje natural con Spacy

# 1. Introducción a Spacy

Link: https://spacy.io/

In [1]:
import spacy

In [2]:
nlp = spacy.load("es_core_news_sm")

In [3]:
nlp

<spacy.lang.es.Spanish at 0x159663ca7c8>

In [4]:
documento = """La situación de la pandemia en el mundo cada vez se vuelve más compleja. En la actualidad, cada país está afectado por distintos problemas sociales, sanitarios y económicos, lo que ha llevado a una merma en la calidad de vida de las personas, principalmente de bajos recursos. Dicho esto, es fundamental tener políticas adecuadas para enfrentar la incertidumbre. """

In [5]:
documento_spacy = nlp(documento)

In [6]:
type(documento_spacy)

spacy.tokens.doc.Doc

## 2. Preprocesamiento del texto

In [7]:
for token in documento_spacy:
    print(token)

La
situación
de
la
pandemia
en
el
mundo
cada
vez
se
vuelve
más
compleja
.
En
la
actualidad
,
cada
país
está
afectado
por
distintos
problemas
sociales
,
sanitarios
y
económicos
,
lo
que
ha
llevado
a
una
merma
en
la
calidad
de
vida
de
las
personas
,
principalmente
de
bajos
recursos
.
Dicho
esto
,
es
fundamental
tener
políticas
adecuadas
para
enfrentar
la
incertidumbre
.


In [8]:
for token in documento_spacy:
    print(token.text, '--', token.is_stop, '--',token.is_punct)

La -- True -- False
situación -- False -- False
de -- True -- False
la -- True -- False
pandemia -- False -- False
en -- True -- False
el -- True -- False
mundo -- False -- False
cada -- True -- False
vez -- True -- False
se -- True -- False
vuelve -- False -- False
más -- True -- False
compleja -- False -- False
. -- False -- True
En -- True -- False
la -- True -- False
actualidad -- False -- False
, -- False -- True
cada -- True -- False
país -- False -- False
está -- True -- False
afectado -- False -- False
por -- True -- False
distintos -- False -- False
problemas -- False -- False
sociales -- False -- False
, -- False -- True
sanitarios -- False -- False
y -- False -- False
económicos -- False -- False
, -- False -- True
lo -- True -- False
que -- True -- False
ha -- True -- False
llevado -- False -- False
a -- False -- False
una -- True -- False
merma -- False -- False
en -- True -- False
la -- True -- False
calidad -- False -- False
de -- True -- False
vida -- False -- False
de 

In [9]:
documento_spacy_limpio = [token for token in documento_spacy if not token.is_stop and not token.is_punct]

In [10]:
documento_spacy_limpio

[situación,
 pandemia,
 mundo,
 vuelve,
 compleja,
 actualidad,
 país,
 afectado,
 distintos,
 problemas,
 sociales,
 sanitarios,
 y,
 económicos,
 llevado,
 a,
 merma,
 calidad,
 vida,
 personas,
 bajos,
 recursos,
 fundamental,
 políticas,
 adecuadas,
 enfrentar,
 incertidumbre]

In [11]:
for token in documento_spacy_limpio:
    print(token.lemma_)

situación
pandemia
mundo
volver
complejo
actualidad
país
afectado
distinto
problema
social
sanitario
y
económico
llevar
a
merma
calidad
vida
persona
bajo
recurso
fundamental
política
adecuado
enfrentar
incertidumbre


## 3. Reconocimiento de entidades

In [12]:
empleados = """ nombre: Nestor Campos email: nestor@micorreo.com pais: Chile org: Microsoft
                nombre: Juana Perez email: juana@otrocorreo.cl pais: Argentina org: Apple
                nombre: Frnacisca Leiva email: francisca.leiva@gmail.cl pais: Uruguay org: Facebook
            """


In [13]:
empleados_spacy = nlp(empleados)

In [14]:
for token in empleados_spacy:
    if token.like_email: # like number, like url, is digit, is upper, is lower
        print(token.text)

nestor@micorreo.com
juana@otrocorreo.cl
francisca.leiva@gmail.cl


In [15]:
print(empleados_spacy.ents)

(Nestor Campos, Chile, Microsoft
                , Juana Perez, Argentina, Apple
                , Frnacisca Leiva, Uruguay, Facebook)


In [16]:
# Imprimir entidad y su concepto
for entidad in empleados_spacy.ents:
    print(entidad.text, '--', entidad.label_)

Nestor Campos -- PER
Chile -- LOC
Microsoft
                 -- MISC
Juana Perez -- PER
Argentina -- LOC
Apple
                 -- MISC
Frnacisca Leiva -- PER
Uruguay -- LOC
Facebook -- MISC


In [17]:
from spacy import displacy
displacy.render(empleados_spacy, style = "ent", jupyter = True)

## 4. Coincidencia basada en reglas

In [18]:
mi_viaje = """Hace un par de años visité Cuzco para conocer Machu Picchu.
              También he visitado Argentina un par de veces.
              La última vezm en 2020, pude visitar Boston.
           """

In [19]:
mi_viaje_spacy = nlp(mi_viaje)

In [20]:
from spacy.matcher import Matcher

In [21]:
matcher = Matcher(nlp.vocab)

In [22]:
patron = [{"LEMMA":"visitar"},{"POS":"PROPN"}]

In [23]:
matcher.add("Lugares_visitados",[patron])

In [24]:
coincidencias_viaje = matcher(mi_viaje_spacy)

In [25]:
coincidencias_viaje

[(9096919277268213772, 5, 7),
 (9096919277268213772, 15, 17),
 (9096919277268213772, 30, 32)]

In [26]:
for id_valor, inicio,fin in coincidencias_viaje:
    print(mi_viaje_spacy[inicio:fin].text)

visité Cuzco
visitado Argentina
visitar Boston


## 5. Similitud

In [32]:
nlp = spacy.load("es_core_news_md")

In [33]:
texto1 = nlp("malo")

In [34]:
texto2 = nlp("terrible")

In [35]:
texto1.similarity(texto2)

0.3673310392994297

es_core_news_sm no contiene todos los vectores para hacer uso de las similitudes

es_core_news_md soporta 

In [36]:
texto1 = nlp("horrible")

In [37]:
texto2 = nlp("terrible")

In [38]:
texto1.similarity(texto2)

0.7973623455625944

In [39]:
# Ahora con textos completos
revision1 = nlp("La comida estaba deliciosa")
revision2 = nlp("La comida estaba escelente")
revision3 = nlp("No me gustó la comida")
revision4 = nlp("No me gustó la experiencia")

In [40]:
revision1.similarity(revision2)

0.9841328328436417

In [41]:
revision3.similarity(revision4)

0.9809006957988695

In [None]:
revision1.similarity(revision2)