# Otras aplicaciones de spaCy

- Requerimientos: spaCy
- [Documentación](https://spacy.io/usage/linguistic-features)
- [Demo de _parser_ de dependencias](https://explosion.ai/demos/displacy)

In [None]:
import spacy

In [None]:
# Para ver los idiomas y modelos disponibles por idioma: https://spacy.io/usage/models
# Se puede entrar a cada modelo y ver en qué tareas y corpus fue entrenado

#!python -m spacy download en_core_web_md
#!python -m spacy download es_core_news_sm
#!python -m spacy download es_core_news_md

In [None]:
# Para ver los idiomas que tenemos descargados
# Observar qué sucede con la versión de la librería y la de los modelos

spacy.cli.validate()

In [None]:
nlp_sm = spacy.load("es_core_news_sm")

In [None]:
# Me muestra qué tiene el pipeline del modelo cargado
nlp_sm.pipe_names

In [None]:
# Me muestra a qué objeto en Python se asocian los nombres anteriores
nlp_sm.pipeline

In [None]:
# Me devuelve un diccionario cuyas keys son los nombres de los componentes
# del pipe y sus values, las etiquetas que puede asignar ese componente
nlp_sm.pipe_labels['parser']

In [None]:
sent = "Probemos el modelo."
doc_sm = nlp_sm(sent)
doc_sm

In [None]:
# ¿Qué tipo de objeto es doc_sm?
#type(doc_sm)

In [None]:
#for s in sent:
#    print(s)

In [None]:
#for s in doc_sm:
#    print(s)

In [None]:
print('{0:10}{1:8}{2:10}{3:8}{4:20}'.format('TOKEN','DEP TAG','NÚCLEO','POS TAG','DEPENDENDIENTES'))
for token in doc_sm:
    print('{0:10}{1:8}{2:10}{3:8}{4:20}'.format(
        token.text,
        token.dep_,
        token.head.text,
        token.head.pos_,
        str([child for child in token.children])
    ))

In [None]:
spacy.displacy.render(doc_sm, style="dep")

In [None]:
# Con el parámetro disable puedo desabilitar los componentes del modelo
# que no necesito
nlp_sm_smaller = spacy.load('es_core_news_sm', disable=['parser'])
nlp_sm_smaller.pipe_names

En [esta página](https://spacy.io/usage/processing-pipelines) pueden encontrar la documentación de spaCy sobre _pipelines_.

In [None]:
# Muestra de qué tamaño son los vectores asignados al vocabulario del modelo
nlp_sm.vocab.vectors.shape

In [None]:
nlp = spacy.load("es_core_news_md")
nlp.pipe_names

In [None]:
nlp.vocab.vectors.shape

In [None]:
doc = nlp("Probemos el modelo.")

for token in doc:
    print('{0:10}{1:20}'.format(token.text,str(token.vector[:5])))

In [None]:
#nlp('modelo').vector

In [None]:
spacy.displacy.render(doc, style="dep")

In [None]:
doc1 = nlp("Probemos el modelo")
doc2 = nlp("Ah la flauta")

In [None]:
print(doc1, "<->", doc2, ':', doc1.similarity(doc2))

In [None]:
doc1_vec = doc1.vector
doc2_vec = doc2.vector

In [None]:
type(doc1_vec)

In [None]:
len(doc1_vec)

In [None]:
print('{0:10}{1:8}{2:10}{3:8}{4:20}'.format('TOKEN','DEP TAG','NÚCLEO','POS TAG','DEPENDENDIENTES'))
for token in doc:
    print('{0:10}{1:8}{2:10}{3:8}{4:20}'.format(
        token.text,
        token.dep_,
        token.head.text,
        token.head.pos_,
        str([child for child in token.children])
    ))

{% include additional_content.html %}

{% include copybutton.html %}