Notebook usado como tutorial de SpaCy

From: https://spacy.io/usage/spacy-101

In [1]:
import spacy
from spacy import displacy


# Anotaciones linguisticas

Proveen info que nos da un paneo de la estructura gramatical del texto.

In [2]:
nlp = spacy.load("en_core_web_sm")
doc = nlp("Apple is looking at buying U.K. startup for $1 billion")
for token in doc:
    print(token.text, token.pos_, token.dep_)

Apple PROPN nsubj
is AUX aux
looking VERB ROOT
at ADP prep
buying VERB pcomp
U.K. PROPN compound
startup NOUN dobj
for ADP prep
$ SYM quantmod
1 NUM compound
billion NUM pobj


In [3]:
nlp = spacy.load("es_core_news_lg")
doc = nlp("Apple está viendo de comprar un emprendimiento por muchos dólares, unos 100.000 o cien mil.")
for token in doc:
    print(token.text, token.pos_, token.dep_)

Apple PROPN nsubj
está AUX aux
viendo VERB ROOT
de ADP mark
comprar VERB xcomp
un DET det
emprendimiento NOUN obj
por ADP case
muchos DET det
dólares NOUN nmod
, PUNCT punct
unos DET det
100.000 NUM appos
o CCONJ cc
cien NUM conj
mil NUM compound
. PUNCT punct


# Tokenización

La tokenización consiste en partir el texto en palabras, puntuación, etc.

In [4]:
for token in doc:
    print(token.text)

Apple
está
viendo
de
comprar
un
emprendimiento
por
muchos
dólares
,
unos
100.000
o
cien
mil
.


Dado un documento, se puede usar spacy para realizar un análisis gramatical (parse) y obtener la etiqueta (tag).

ADJ = adjetivo (ej: verde)
PROPN = pronombre propio
etc...

(nota: se usa el _ para mostrar los nombres varios de los atributos, dado que se guardan como hash para ahorrar memoria)

In [18]:
for token in doc:
    print(token.text, token.lemma_, token.pos_, token.tag_,
            token.shape_, token.is_alpha, token.is_stop, token.head.lemma_, token.dep_)

Apple Apple PROPN PROPN Xxxxx True False ver nsubj
está estar AUX AUX xxxx True True ver aux
viendo ver VERB VERB xxxx True False ver ROOT
de de ADP ADP xx True True comprar mark
comprar comprar VERB VERB xxxx True False ver xcomp
un uno DET DET xx True True emprendimiento det
emprendimiento emprendimiento NOUN NOUN xxxx True False comprar obj
por por ADP ADP xxx True True dólar case
muchos mucho DET DET xxxx True True dólar det
dólares dólar NOUN NOUN xxxx True False emprendimiento nmod
, , PUNCT PUNCT , False False 100000 punct
unos uno DET DET xxxx True True 100000 det
100.000 100000 NUM NUM ddd.ddd False False dólar appos
o o CCONJ CCONJ x True False cien cc
cien cien NUM NUM xxxx True False 100000 conj
mil mil NUM NUM xxx True False 100000 compound
. . PUNCT PUNCT . False False ver punct


In [21]:
print(doc[2].head.text)

viendo


In [7]:
for child in doc[0].children:
    print(child)
    
for child in doc[2].children:
    print(child)


Apple
está
comprar
.


Veamos esto gráficamente

In [8]:
displacy.render(doc, style='dep')

# Entidades nombradas

Objetos "del mundo real" que tienen asignado un nombre. La librería spicy puede reconocer algunos de ellos...

In [9]:
for ent in doc.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

Apple 0 5 ORG


In [10]:
displacy.render(doc, style="ent")

# Word vectors (i.e. word embeddings)!

"multi-dimensional meaning representations of a word"

In [11]:
tokens = nlp("perro gato banana afskfsd")

for token in tokens:
    print(token.text, token.has_vector, token.vector_norm, token.is_oov)

perro True 32.17176 False
gato True 35.150936 False
banana True 18.258509 False
afskfsd False 0.0 True


Comparamos dos vectores mediante análisis de similaridad, provisto por spaCy. De la documentación:

"spaCy’s similarity implementation usually assumes a pretty general-purpose definition of similarity"

In [12]:
doc1 = nlp("Me gustan las berenjenas fritas y las hamburguesas de soja.")
doc2 = nlp("La comida vegetariana sabe muy bien.")

# Similarity of two documents
print(doc1, "<->", doc2, doc1.similarity(doc2))
# Similarity of tokens and spans
berenjenas_fritas = doc1[3:5]
hamburguesas = doc1[7]
print(berenjenas_fritas, "<->", hamburguesas, berenjenas_fritas.similarity(hamburguesas))

Me gustan las berenjenas fritas y las hamburguesas de soja. <-> La comida vegetariana sabe muy bien. 0.2382928796692645
berenjenas fritas <-> hamburguesas 0.7923454


Al llamar a la función nlp(), entra el Text y sale el Doc, esto se produce mediante una pipeline.

Vemos los nombres de los componentes de la pipeline (nota: tokenizer no está dentro de la pipeline, se corre antes que la misma).
Más detalle de cada uno de ellos, acá https://spacy.io/usage/spacy-101#pipelines

In [13]:
nlp.pipe_names

['tok2vec', 'morphologizer', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']

TODO LAURA: poner otros inputs y hacer sanity checks (ej: darle todos ejemplos iguales, darle todos ejemplos muy parecidos y uno diferente, ejemplos extremos)

tratar de hacer exploración adversaria: ponerle adelante problemas difíciles, que sepamos que le va a costar al algoritmo

Para el miércoles, leer el cap 5 de Manning y Schütze (1999) para poder desarrollar un poco una familiaridad de cosas a bajo nivel de NLP