# Introducción a la librería `spaCy`

In [48]:
import spacy
import pandas as pd
import re

Vemos las principales características de la librería y del modelo.

In [49]:
spacy.info()

{'spacy_version': '3.3.1',
 'location': 'c:\\Users\\David_Sanchis\\anaconda3\\lib\\site-packages\\spacy',
 'platform': 'Windows-10-10.0.19041-SP0',
 'python_version': '3.9.13',
 'pipelines': {}}

In [50]:
spacy.info('es_core_news_md')

{'lang': 'es',
 'name': 'core_news_md',
 'version': '3.3.0',
 'description': 'Spanish pipeline optimized for CPU. Components: tok2vec, morphologizer, parser, senter, ner, attribute_ruler, lemmatizer.',
 'author': 'Explosion',
 'email': 'contact@explosion.ai',
 'url': 'https://explosion.ai',
 'license': 'GNU GPL 3.0',
 'spacy_version': '>=3.3.0.dev0,<3.4.0',
 'spacy_git_version': '849bef2de',
 'vectors': {'width': 300,
  'vectors': 20000,
  'keys': 500000,
  'name': 'es_vectors'},
 'labels': {'tok2vec': [],
  'morphologizer': ['Definite=Def|Gender=Masc|Number=Sing|POS=DET|PronType=Art',
   'Gender=Masc|Number=Sing|POS=NOUN',
   'Definite=Def|Gender=Masc|Number=Sing|POS=ADP|PronType=Art',
   'Gender=Masc|Number=Sing|POS=ADJ',
   'POS=ADP',
   'Definite=Def|Gender=Fem|Number=Plur|POS=DET|PronType=Art',
   'POS=PROPN',
   'Case=Acc|POS=PRON|Person=3|PrepCase=Npr|PronType=Prs|Reflex=Yes',
   'Mood=Ind|Number=Sing|POS=VERB|Person=3|Tense=Past|VerbForm=Fin',
   'POS=VERB|VerbForm=Inf',
   'Ge

Podemos ver todos los modelos instalados con este comando:

In [51]:
!python -m spacy validate


[2K✔ Loaded compatibility table
[1m
ℹ spaCy installation: c:\Users\David_Sanchis\anaconda3\lib\site-packages\spacy

NAME              SPACY                 VERSION    
en_core_web_lg    >=3.3.0.dev0,<3.4.0   3.3.0     ✔
en_core_web_md    >=3.3.0.dev0,<3.4.0   3.3.0     ✔
en_core_web_sm    >=3.3.0.dev0,<3.4.0   3.3.0     ✔
en_core_web_trf   >=3.3.0.dev0,<3.4.0   3.3.0     ✔
es_core_news_md   >=3.3.0.dev0,<3.4.0   3.3.0     ✔
es_core_news_sm   >=3.3.0.dev0,<3.4.0   3.3.0     ✔



Cargamos el modelo de lenguaje para el español.

In [52]:
nlp = spacy.load('es_core_news_md')

Cargamos el modelo de lenguaje para el inglés.

In [53]:
nlp_en = spacy.load('en_core_web_md')

In [54]:
nlp_en

<spacy.lang.en.English at 0x23c90443d60>

Cada modelo tiene un conjunto de lexemas del idioma definidos en su Vocabulario

In [55]:
nlp.vocab

<spacy.vocab.Vocab at 0x23c8f3dea60>

In [56]:
print("\nTamaño vocabulario: ", len(nlp.vocab))


Tamaño vocabulario:  420


`spaCy` no precargar en memoria todo el vocabulario, sino que carga los lexemas conforme los va necesitando:  
> *To reduce the initial loading time, the lexemes in `nlp.vocab` are no longer loaded on initialization for models with vectors. As you process texts, the lexemes will be added to the vocab automatically, just as in small models without vectors.*

In [57]:
for w in nlp.vocab.vectors:
    _ = nlp.vocab[w]

In [58]:
print("\nTamaño vocabulario: ", len(nlp.vocab))


Tamaño vocabulario:  500142


### Información del modelo
Podemos ver todas las características del modelo cargado con su atributo `meta` (diccionario)

In [59]:
nlp.meta.keys()

dict_keys(['lang', 'name', 'version', 'description', 'author', 'email', 'url', 'license', 'spacy_version', 'spacy_git_version', 'vectors', 'labels', 'pipeline', 'components', 'disabled', 'performance', 'sources', 'requirements'])

In [60]:
nlp.meta['name']

'core_news_md'

In [61]:
nlp.meta['components']

['tok2vec',
 'morphologizer',
 'parser',
 'senter',
 'attribute_ruler',
 'lemmatizer',
 'ner']

Vectores de palabra

In [62]:
nlp.meta['vectors']

{'width': 300,
 'vectors': 20000,
 'keys': 500000,
 'name': 'es_vectors',
 'mode': 'default'}

In [63]:
nlp.vocab.vectors.shape

(20000, 300)

### Lexemas
El modelo guarda cada palabra dentro del vocabulario como un objeto de tipo `spacy.lexeme.Lexeme`.  
Si la palabra no existe, crea la correspondiente entrada en el vocabulario.

In [64]:
nlp.vocab["ciudad"]

<spacy.lexeme.Lexeme at 0x23c90437640>

In [65]:
nlp.vocab["ciudad"].text

'ciudad'

In [66]:
print([att for att in dir(spacy.lexeme.Lexeme) if not att.startswith("__")])

['check_flag', 'cluster', 'flags', 'has_vector', 'is_alpha', 'is_ascii', 'is_bracket', 'is_currency', 'is_digit', 'is_left_punct', 'is_lower', 'is_oov', 'is_punct', 'is_quote', 'is_right_punct', 'is_space', 'is_stop', 'is_title', 'is_upper', 'lang', 'lang_', 'like_email', 'like_num', 'like_url', 'lower', 'lower_', 'norm', 'norm_', 'orth', 'orth_', 'prefix', 'prefix_', 'prob', 'rank', 'sentiment', 'set_attrs', 'set_flag', 'shape', 'shape_', 'similarity', 'suffix', 'suffix_', 'text', 'vector', 'vector_norm', 'vocab']


In [67]:
nlp.vocab["ciudad"]

<spacy.lexeme.Lexeme at 0x23c86018f80>

In [68]:
nlp.vocab["ciudad"].is_lower

True

In [69]:
nlp.vocab["Ciudad"].is_lower

False

Vocabulario al que pertenece el lexema

In [70]:
nlp.vocab["ciudad"].vocab

<spacy.vocab.Vocab at 0x23c8f3dea60>

In [71]:
nlp.vocab

<spacy.vocab.Vocab at 0x23c8f3dea60>

Cuando una palabra no existe, se crea

In [72]:
"albaricoque" in nlp.vocab

True

In [73]:
"albaricoque" in nlp_en.vocab

False

In [74]:
nlp_en.vocab["albaricoque"]

<spacy.lexeme.Lexeme at 0x23c8c6ce0c0>

In [75]:
"albaricoque" in nlp_en.vocab

True

## Procesado de texto
> When you call nlp on a text, spaCy first tokenizes the text to produce a Doc object. The Doc is then processed in several different steps – this is also referred to as the processing pipeline. The pipeline used by the default models consists of a tagger, a parser and an entity recognizer. 

In [76]:
# Ejemplo de texto
texto = "La gata de Juan es muy bonita."

Lo primero que hacemos es analizar el texto y generar un objeto de tipo `Doc`

In [77]:
parsedData = nlp(texto)
type(parsedData)

spacy.tokens.doc.Doc

In [78]:
parsedData

La gata de Juan es muy bonita.

In [79]:
texto

'La gata de Juan es muy bonita.'

In [80]:
print([prop for prop in dir(spacy.tokens.doc.Doc) if not prop.startswith('_')])

['cats', 'char_span', 'copy', 'count_by', 'doc', 'ents', 'extend_tensor', 'from_array', 'from_bytes', 'from_dict', 'from_disk', 'from_docs', 'from_json', 'get_extension', 'get_lca_matrix', 'has_annotation', 'has_extension', 'has_unknown_spaces', 'has_vector', 'is_nered', 'is_parsed', 'is_sentenced', 'is_tagged', 'lang', 'lang_', 'mem', 'noun_chunks', 'noun_chunks_iterator', 'remove_extension', 'retokenize', 'sentiment', 'sents', 'set_ents', 'set_extension', 'similarity', 'spans', 'tensor', 'text', 'text_with_ws', 'to_array', 'to_bytes', 'to_dict', 'to_disk', 'to_json', 'to_utf8_array', 'user_data', 'user_hooks', 'user_span_hooks', 'user_token_hooks', 'vector', 'vector_norm', 'vocab']


In [81]:
parsedData.lang_

'es'

In [82]:
parsedData.text

'La gata de Juan es muy bonita.'

## Tokens
Cada Doc es un iterable de los tokens que forman el documento.

In [83]:
len(parsedData)

8

In [84]:
[t for t in parsedData]

[La, gata, de, Juan, es, muy, bonita, .]

Que es distinto de...

In [85]:
texto.split(' ')

['La', 'gata', 'de', 'Juan', 'es', 'muy', 'bonita.']

In [86]:
nlp.vocab["."].is_punct

True

In [87]:
parsedData[0]

La

In [88]:
parsedData[7]

.

In [89]:
parsedData[7].is_punct

True

In [90]:
type(parsedData[0])

spacy.tokens.token.Token

In [91]:
print([prop for prop in dir(spacy.tokens.token.Token) if not prop.startswith('_')])

['ancestors', 'check_flag', 'children', 'cluster', 'conjuncts', 'dep', 'dep_', 'doc', 'ent_id', 'ent_id_', 'ent_iob', 'ent_iob_', 'ent_kb_id', 'ent_kb_id_', 'ent_type', 'ent_type_', 'get_extension', 'has_dep', 'has_extension', 'has_head', 'has_morph', 'has_vector', 'head', 'i', 'idx', 'iob_strings', 'is_alpha', 'is_ancestor', 'is_ascii', 'is_bracket', 'is_currency', 'is_digit', 'is_left_punct', 'is_lower', 'is_oov', 'is_punct', 'is_quote', 'is_right_punct', 'is_sent_end', 'is_sent_start', 'is_space', 'is_stop', 'is_title', 'is_upper', 'lang', 'lang_', 'left_edge', 'lefts', 'lemma', 'lemma_', 'lex', 'lex_id', 'like_email', 'like_num', 'like_url', 'lower', 'lower_', 'morph', 'n_lefts', 'n_rights', 'nbor', 'norm', 'norm_', 'orth', 'orth_', 'pos', 'pos_', 'prefix', 'prefix_', 'prob', 'rank', 'remove_extension', 'right_edge', 'rights', 'sent', 'sent_start', 'sentiment', 'set_extension', 'set_morph', 'shape', 'shape_', 'similarity', 'subtree', 'suffix', 'suffix_', 'tag', 'tag_', 'tensor', 't

### StringStore
Todos los *strings* en spaCy (tokens, lexemas, características) están mapeados con una función *hash* en el `StringStore`

In [92]:
nlp.vocab.strings

<spacy.strings.StringStore at 0x23c9048f4f0>

In [93]:
len(nlp.vocab.strings)

703363

In [94]:
nlp.vocab.strings["gata"]

5859305670779334074

Esta dirección (*hash*) corresponde a la dirección del lexema y de todos los tokens con esa palabra

In [95]:
nlp.vocab["gata"].orth

5859305670779334074

In [96]:
parsedData[1].orth

5859305670779334074

In [97]:
nlp.vocab.strings[nlp.vocab.strings["gata"]]

'gata'

In [98]:
token=parsedData[0]
print("TOKEN:", token)
print("original:", token.orth, token.orth_)
print("lowercased:", token.lower, token.lower_)
print("lemma:", token.lemma, token.lemma_)
print("shape:", token.shape, token.shape_)
print("prefix:", token.prefix, token.prefix_)
print("suffix:", token.suffix, token.suffix_)
print("POS:", token.pos, token.pos_)
print("tag:", token.tag, token.tag_)
print("Dependency parsing:", token.dep, token.dep_)


TOKEN: La
original: 6239908149323985340 La
lowercased: 6804705863737483857 la
lemma: 11488171005156075516 el
shape: 12204527652707022206 Xx
prefix: 10603054956214495369 L
suffix: 6239908149323985340 La
POS: 90 DET
tag: 90 DET
Dependency parsing: 415 det


Cuando no existe un string de texto determinado se crea en el vocabulario

In [99]:
'siblings' in nlp.vocab

False

In [100]:
len(nlp.vocab.strings)

703363

In [101]:
nlp.vocab["siblings"]

<spacy.lexeme.Lexeme at 0x23c973e0600>

In [102]:
len(nlp.vocab.strings)

703364

In [103]:
nlp.vocab["siblings"].orth

4571852539544974449

In [104]:
nlp.vocab.strings[nlp.vocab["siblings"].orth]

'siblings'

Aunque la palabra no existía, al indexarla en el vocabulario se ha creado:

In [105]:
'siblings' in nlp.vocab

True

### Tokens
`spaCy` divide cada texto en una secuencia de *tokens*. Para cada token tenemos una serie de atributos

In [106]:
pd.set_option('display.max_colwidth', None)

datos = map(lambda t: {'token': t.orth_,
                       'lema': t.lemma_,
                       'shape': t.shape_,
                       'POS': t.pos_,
                       'POS detallado': t.morph,
                       'dependencia': t.dep_,
                       'Descripción dep': spacy.explain(t.dep_)},
                        parsedData)

pd.DataFrame(datos)

Unnamed: 0,token,lema,shape,POS,POS detallado,dependencia,Descripción dep
0,La,el,Xx,DET,"(Definite=Def, Gender=Fem, Number=Sing, PronType=Art)",det,determiner
1,gata,gata,xxxx,NOUN,"(Gender=Fem, Number=Sing)",nsubj,nominal subject
2,de,de,xx,ADP,(),case,case marking
3,Juan,Juan,Xxxx,PROPN,(),nmod,modifier of nominal
4,es,ser,xx,AUX,"(Mood=Ind, Number=Sing, Person=3, Tense=Pres, VerbForm=Fin)",cop,copula
5,muy,mucho,xxx,ADV,(),advmod,adverbial modifier
6,bonita,bonito,xxxx,ADJ,"(Gender=Fem, Number=Sing)",ROOT,root
7,.,.,.,PUNCT,(PunctType=Peri),punct,punctuation


### Diferencia entre token y lexema

In [107]:
parsedData = nlp_en("I like to run. I completed a long run yesterday")
datos = map(lambda t: {'token': t.orth_,
                       'lema': t.lemma_,
                       'shape': t.shape_,
                       'POS': t.pos_,
                       'POS detallado': t.morph,
                       'dependencia': t.dep_,
                       'Descripción dep': spacy.explain(t.dep_)},
                        parsedData)

pd.DataFrame(datos)

Unnamed: 0,token,lema,shape,POS,POS detallado,dependencia,Descripción dep
0,I,I,X,PRON,"(Case=Nom, Number=Sing, Person=1, PronType=Prs)",nsubj,nominal subject
1,like,like,xxxx,VERB,"(Tense=Pres, VerbForm=Fin)",ROOT,root
2,to,to,xx,PART,(),aux,auxiliary
3,run,run,xxx,VERB,(VerbForm=Inf),xcomp,open clausal complement
4,.,.,.,PUNCT,(PunctType=Peri),punct,punctuation
5,I,I,X,PRON,"(Case=Nom, Number=Sing, Person=1, PronType=Prs)",nsubj,nominal subject
6,completed,complete,xxxx,VERB,"(Tense=Past, VerbForm=Fin)",ROOT,root
7,a,a,x,DET,"(Definite=Ind, PronType=Art)",det,determiner
8,long,long,xxxx,ADJ,(Degree=Pos),amod,adjectival modifier
9,run,run,xxx,NOUN,(Number=Sing),dobj,direct object


In [108]:
parsedData[3].pos_

'VERB'

In [109]:
parsedData[9].pos_

'NOUN'

In [110]:
parsedData[3]==parsedData[9]

False

In [111]:
parsedData[3].orth

12767647472892411841

In [112]:
nlp_en.vocab.strings[parsedData[3].orth]

'run'

In [113]:
parsedData[9].orth

12767647472892411841

In [114]:
parsedData[3].orth==parsedData[9].orth

True

In [115]:
parsedData[3].text==parsedData[9].text

True

### Separación en oraciones

In [116]:
texto = "Al Sr. Daniel siempre le gustaron las catedrales. La de su ciudad era tan alta, \
que al mirarla desde su pequeña estatura, tenía que torcer el cuello de tal forma que \
le costaba no marearse. Lo que más temía era que sus pies se despegasen de la tierra \
y la Catedral le arrastrara con ella hasta los cielos. Aun así, un espíritu \
aventurero le llevaba cada tarde hasta la Plaza Mayor."
parsedData = nlp(texto)

In [117]:
parsedData

Al Sr. Daniel siempre le gustaron las catedrales. La de su ciudad era tan alta, que al mirarla desde su pequeña estatura, tenía que torcer el cuello de tal forma que le costaba no marearse. Lo que más temía era que sus pies se despegasen de la tierra y la Catedral le arrastrara con ella hasta los cielos. Aun así, un espíritu aventurero le llevaba cada tarde hasta la Plaza Mayor.

In [118]:
[t for t in parsedData[0:10]]

[Al, Sr., Daniel, siempre, le, gustaron, las, catedrales, ., La]

In [119]:
parsedData.sents

<generator at 0x23c97276a40>

In [120]:
next(parsedData.sents)

Al Sr. Daniel siempre le gustaron las catedrales.

In [121]:
type(next(parsedData.sents))

spacy.tokens.span.Span

In [122]:
for i, sent in enumerate(parsedData.sents):
    print(f"Oración {i}:\n{sent}\n")

Oración 0:
Al Sr. Daniel siempre le gustaron las catedrales.

Oración 1:
La de su ciudad era tan alta, que al mirarla desde su pequeña estatura, tenía que torcer el cuello de tal forma que le costaba no marearse.

Oración 2:
Lo que más temía era que sus pies se despegasen de la tierra y la Catedral le arrastrara con ella hasta los cielos.

Oración 3:
Aun así, un espíritu aventurero le llevaba cada tarde hasta la Plaza Mayor.



Cada sentencia también tiene sus propios atributos, distintos de los de los tokens. Para spaCy las oraciones son objetos de tipo `spacy.tokens.span.Span`

In [123]:
print([prop for prop in dir(spacy.tokens.span.Span) if not prop.startswith('_')])

['as_doc', 'char_span', 'conjuncts', 'doc', 'end', 'end_char', 'ent_id', 'ent_id_', 'ents', 'get_extension', 'get_lca_matrix', 'has_extension', 'has_vector', 'id', 'id_', 'kb_id', 'kb_id_', 'label', 'label_', 'lefts', 'lemma_', 'n_lefts', 'n_rights', 'noun_chunks', 'orth_', 'remove_extension', 'rights', 'root', 'sent', 'sentiment', 'sents', 'set_extension', 'similarity', 'start', 'start_char', 'subtree', 'tensor', 'text', 'text_with_ws', 'to_array', 'vector', 'vector_norm', 'vocab']


Algunas propiedades de `Span` son distintas que las de cada `Token`:

In [124]:
[prop for prop in dir(spacy.tokens.span.Span) if
 not prop.startswith('_') and not prop in dir(spacy.tokens.token.Token)]

['as_doc',
 'char_span',
 'end',
 'end_char',
 'ents',
 'get_lca_matrix',
 'id',
 'id_',
 'kb_id',
 'kb_id_',
 'label',
 'label_',
 'noun_chunks',
 'root',
 'sents',
 'start',
 'start_char',
 'to_array']

In [125]:
frases = list(parsedData.sents)
frases[1]

La de su ciudad era tan alta, que al mirarla desde su pequeña estatura, tenía que torcer el cuello de tal forma que le costaba no marearse.

In [126]:
type(frases[1])

spacy.tokens.span.Span

In [127]:
frases[1].start

9

In [128]:
frases[1].end

39

In [129]:
parsedData[frases[1].start:frases[1].end]

La de su ciudad era tan alta, que al mirarla desde su pequeña estatura, tenía que torcer el cuello de tal forma que le costaba no marearse.

In [130]:
#propiedades de las oraciones
raices = [s.root for s in parsedData.sents]
raices

[gustaron, alta, era, llevaba]

In [131]:
type(raices[0])

spacy.tokens.token.Token

In [132]:
parsedData[5]

gustaron

In [133]:
raices[0]==parsedData[5]

True

In [134]:
raices[0].pos_

'VERB'

In [135]:
[t for t in frases[0]]

[Al, Sr., Daniel, siempre, le, gustaron, las, catedrales, .]

### Part of Speech
Por cada token tenemos su POS y su POS detallado (objeto `morph`)

In [136]:
{w.pos: (w.pos_, spacy.explain(w.pos_)) for w in parsedData} 

{85: ('ADP', 'adposition'),
 96: ('PROPN', 'proper noun'),
 86: ('ADV', 'adverb'),
 95: ('PRON', 'pronoun'),
 100: ('VERB', 'verb'),
 90: ('DET', 'determiner'),
 92: ('NOUN', 'noun'),
 97: ('PUNCT', 'punctuation'),
 87: ('AUX', 'auxiliary'),
 84: ('ADJ', 'adjective'),
 98: ('SCONJ', 'subordinating conjunction'),
 89: ('CCONJ', 'coordinating conjunction')}

In [137]:
pd.DataFrame(set([(w.pos_, w.morph) for w in parsedData]), columns=['POS', 'MORPH']).sort_values('POS')

Unnamed: 0,POS,MORPH
37,ADJ,"(Gender=Masc, Number=Sing)"
6,ADJ,"(Gender=Fem, Number=Sing)"
19,ADP,()
13,ADP,"(Definite=Def, Gender=Masc, Number=Sing, PronType=Art)"
2,ADV,(Degree=Cmp)
17,ADV,()
32,ADV,(Polarity=Neg)
34,AUX,"(Mood=Ind, Number=Sing, Person=3, Tense=Imp, VerbForm=Fin)"
23,CCONJ,()
24,DET,"(Definite=Def, Gender=Fem, Number=Plur, PronType=Art)"


In [138]:
parsedData[0].pos_

'ADP'

In [139]:
parsedData[0].morph

Definite=Def|Gender=Masc|Number=Sing|PronType=Art

In [140]:
type(parsedData[0].morph)

spacy.tokens.morphanalysis.MorphAnalysis

In [141]:
[att for att in dir(parsedData[0].morph) if not att.startswith('_')]

['from_id', 'get', 'key', 'to_dict', 'to_json', 'vocab']

In [142]:
parsedData[0].morph.to_dict()

{'Definite': 'Def', 'Gender': 'Masc', 'Number': 'Sing', 'PronType': 'Art'}

In [143]:
parsedData[0].morph.get('Number')

['Sing']

In [144]:
#P. ej. palabras en plural
[w.text for w in parsedData if 'Number=Plur' in str(w.morph)]

['gustaron', 'las', 'catedrales', 'sus', 'pies', 'despegasen', 'los', 'cielos']

In [145]:
#Otra manera
[w.text for w in parsedData if 'Plur' in w.morph.get('Number')]

['gustaron', 'las', 'catedrales', 'sus', 'pies', 'despegasen', 'los', 'cielos']

In [146]:
#P. ej. palabras que son NOMBRE en plural
[w.text for w in parsedData if 'Number=Plur' in str(w.morph) and w.pos_=="NOUN"]

['catedrales', 'pies', 'cielos']

In [147]:
#palabras que son adjetivo

### Análisis de dependencias (dependency parsing)
La librería `spaCy` también analiza las relaciones entre palabras de una frase.

In [148]:
texto2 = "El perro de Juan se comió mi bocadillo."

doc = nlp(texto2)
dependencias = [(t.text, t.dep_, spacy.explain(t.dep_)) for t in doc]
pd.DataFrame(dependencias, columns=['texto', 'dependencia', 'explicación'])

Unnamed: 0,texto,dependencia,explicación
0,El,det,determiner
1,perro,nsubj,nominal subject
2,de,case,case marking
3,Juan,nmod,modifier of nominal
4,se,iobj,indirect object
5,comió,ROOT,root
6,mi,det,determiner
7,bocadillo,obj,object
8,.,punct,punctuation


Cada palabra tiene un tipo de dependencia determinado dentro de la frase. 
La lista completa está en https://spacy.io/docs/api/annotation  
La dependencia `root` coincide con el atributo `root` de cada sentencia.

In [149]:
sent=next(doc.sents)
sent.root

comió

Cada token tiene una serie de hijos (tokens que dependen gramaticalmente de ese token).

In [150]:
list(sent.root.children)

[perro, se, bocadillo, .]

Podemos extender el análisis a cada palabra del texto.

In [151]:
for word in sent: 
    print(word, ': ', str(list(word.children)))

El :  []
perro :  [El, Juan]
de :  []
Juan :  [de]
se :  []
comió :  [perro, se, bocadillo, .]
mi :  []
bocadillo :  [mi]
. :  []


Además, cada palabra -excepto la raíz- tiene una palabra de la que depende (`.head`). Además las palabras que dependen de ella (`children`) se dividen en palabras a izquierda (`.lefts`) y a derecha (`.rights`).

In [152]:
dependencias = map(lambda t: {
    'Palabra': t.orth_,
    'tipo de dependencia': f"{t.dep_} ({spacy.explain(t.dep_)})",
    'HEAD': t.head.orth_},
    doc)

pd.DataFrame(dependencias)

Unnamed: 0,Palabra,tipo de dependencia,HEAD
0,El,det (determiner),perro
1,perro,nsubj (nominal subject),comió
2,de,case (case marking),Juan
3,Juan,nmod (modifier of nominal),perro
4,se,iobj (indirect object),comió
5,comió,ROOT (root),comió
6,mi,det (determiner),bocadillo
7,bocadillo,obj (object),comió
8,.,punct (punctuation),comió


In [153]:
dependencias = map(lambda token: {
    'Palabra': token.orth_,
    'tipo de dependencia': f"{token.dep_} ({spacy.explain(token.dep_)})",
    'HEAD': token.head.orth_,
    'dep. izquierdas': [t.orth_ for t in token.lefts],
    'dep.derechas': [t.orth_ for t in token.rights]},
    doc)

pd.DataFrame(dependencias)

Unnamed: 0,Palabra,tipo de dependencia,HEAD,dep. izquierdas,dep.derechas
0,El,det (determiner),perro,[],[]
1,perro,nsubj (nominal subject),comió,[El],[Juan]
2,de,case (case marking),Juan,[],[]
3,Juan,nmod (modifier of nominal),perro,[de],[]
4,se,iobj (indirect object),comió,[],[]
5,comió,ROOT (root),comió,"[perro, se]","[bocadillo, .]"
6,mi,det (determiner),bocadillo,[],[]
7,bocadillo,obj (object),comió,[mi],[]
8,.,punct (punctuation),comió,[],[]


Podemos representar gráficamente las dependencias como un árbol con el módulo de visualización `displaCy`:

In [154]:
from spacy import displacy

displacy.render(doc, style='dep', jupyter=True, options={'distance':100})

También se pueden obtener los **sintagmas nominales** (*noun phrases*) de la oración. Cada NP tiene un sustantivo como raíz, acompañado ocasionalmente de las palabras que describen el sustantivo.  

In [155]:
chunks = map(lambda chunk: {'NP': chunk.text,
                            'root': chunk.root.text,
                            'Dep.': chunk.root.dep_,
                            'head': chunk.root.head.text},
             doc.noun_chunks)

pd.DataFrame(chunks)

Unnamed: 0,NP,root,Dep.,head
0,El perro,perro,nsubj,comió
1,Juan,Juan,nmod,perro
2,mi bocadillo,bocadillo,obj,comió


# Búsqueda de patrones
Spacy tiene una clase `Matcher` que permite buscar tokens con un patrón definido dentro de los objetos `Doc`.  
Se puede buscar por el texto del token o por atributos del token.  
Ref: https://spacy.io/usage/rule-based-matching

In [156]:
from spacy.matcher import Matcher

#inicializamos sobre el vocabulario
matcher = Matcher(nlp.vocab)

In [157]:
#definimos un patrón de texto a buscar
patron = [{"TEXT": "iPhone"}, {"TEXT": "X"}] #Patrón: texto 'iPhone' seguido de texto 'X'
matcher.add("iphone_x", [patron])

#procesamos un documento con el patrón
doc = nlp("El iPhone X salió después del iPhone 8, y nunca sacaron el iPhone 9")

#llamamos al matcher
matches = matcher(doc)

#iteramos sobre los resultados
for match_id, start, end in matches:
    matched_span = doc[start:end]
    print(matched_span.text)

iPhone X


In [158]:
matches

[(1738708750870670527, 1, 3)]

In [159]:
nlp.vocab.strings[matches[0][0]]

'iphone_x'

In [160]:
type(matched_span)

spacy.tokens.span.Span

Podemos buscar por atributos del token:

In [161]:
#Patrón: texto 'iPhone' seguido token con la atributo 'IS_DIGIT' a True
patron = [{"TEXT": "iPhone"}, {"IS_DIGIT": True}]
matcher.add("iphone_DD", [patron])

#llamamos al matcher
matches = matcher(doc)

#iteramos sobre los resultados
for match_id, start, end in matches:
    matched_span = doc[start:end] #span del match en el documento
    string_id = nlp.vocab.strings[match_id] #identificador del match
    print(f"Patrón: {string_id}, match: {matched_span.text}")

Patrón: iphone_x, match: iPhone X
Patrón: iphone_DD, match: iPhone 8
Patrón: iphone_DD, match: iPhone 9


In [162]:
matches

[(1738708750870670527, 1, 3),
 (8955871054418582609, 6, 8),
 (8955871054418582609, 13, 15)]

In [163]:
doc = nlp("A mí me gusta bailar y a Pedro le gustaría tocar la trompeta, pero no me gustaba María y sí me gustó el iPhone X")

patron = [{"LEMMA": "gustar"}, {"POS": "VERB"}]
matcher.add("patron_gustar_verbo", [patron])
#llamamos al matcher
matches = matcher(doc)

#iteramos sobre el resultado
for match_id, start, end in matches:
    matched_span = doc[start:end] #span del match en el documento
    string_id = nlp.vocab.strings[match_id] #identificador del match
    print(f"Patrón: {string_id}, match: {matched_span.text}")

Patrón: patron_gustar_verbo, match: gusta bailar
Patrón: patron_gustar_verbo, match: gustaría tocar
Patrón: iphone_x, match: iPhone X


# Explorando las entidades propias (Named Entities)
La librería `spaCy` identifica las entidades propias que aparecen en el texto. Podemos acceder a las entidades de un documento a través de su atributo `doc.ents` (objeto de tipo Tupla).  
Por ejemplo en el artículo cargado hay las siguientes entidades:

In [164]:
# Cargamos un archivo de texto y exploramos sus entidades
with open('articulo.txt', 'r', encoding = 'utf-8') as f:
    texto_raw = f.read()
print(texto_raw)

La Policía Nacional, en colaboración con la policía marroquí, ha desarticulado una "importante y peligrosa" célula del Estado Islámico (ISIS, en sus siglas en inglés) que pretendía impulsar atentados yihadistas en España y en otros países de Europa: "Tenía como objetivo materializar la estrategia de la organización terrorista en occidente", aseguran fuentes de la investigación, que aseguran que estaban en contacto con yihadistas ubicados en Siria. Los agentes de la Comisaría General de Información (CGI) y los de la Dirección General de Vigilancia del Territorio del Reino de Marruecos (DGST) han detenido en total a cinco personas, dos en España, en las localidades de Lorca (Murcia) y Abadiño (Bizkaia); y otras tres en Marruecos, que integraban la red de la organización terrorista.


In [165]:
doc = nlp(texto_raw)

El atributo `doc.ents` devuelve una tupla con las entidades del documento (objetos de tipo `Span`)

In [166]:
type(doc.ents)

tuple

In [167]:
len(doc.ents)

15

In [168]:
doc.ents

(Policía Nacional,
 Estado Islámico,
 España,
 Europa,
 Siria,
 Los agentes de la,
 Comisaría General de Información,
 Dirección General de Vigilancia del Territorio,
 Reino de Marruecos,
 España,
 Lorca,
 Murcia,
 Abadiño,
 Bizkaia,
 Marruecos)

In [169]:
type(doc.ents[0])

spacy.tokens.span.Span

In [170]:
entities = [(e.text, e.label_) for e in doc.ents]
pd.DataFrame(list(entities), columns=['entidad', 'tipo'])

Unnamed: 0,entidad,tipo
0,Policía Nacional,ORG
1,Estado Islámico,ORG
2,España,LOC
3,Europa,LOC
4,Siria,LOC
5,Los agentes de la,MISC
6,Comisaría General de Información,ORG
7,Dirección General de Vigilancia del Territorio,ORG
8,Reino de Marruecos,LOC
9,España,LOC


Los tipos de entidades que aparecen en el documento son:  

In [171]:
{w.label_:spacy.explain(w.label_) for w in doc.ents}

{'ORG': 'Companies, agencies, institutions, etc.',
 'LOC': 'Non-GPE locations, mountain ranges, bodies of water',
 'MISC': 'Miscellaneous entities, e.g. events, nationalities, products or works of art'}

Podemos visualizar gráficamente las entidades en su contexto con displaCy:

In [172]:
displacy.render(doc, style='ent', jupyter=True)

Cargamos el libro "Cañas y barro", de Vicente Blasco Ibáñez y analizamos los 10 personajes más comunes

In [173]:
text_raw = open('cañas y barro.txt', encoding="utf8").read()
libro = nlp(text_raw)

In [174]:
len(libro)

86996

In [175]:
len(libro.ents)

3024

In [176]:
len([s for s in libro.sents])

3439

In [177]:
from collections import Counter
Counter([w.text for w in libro.ents if w.label_ == 'LOC']).most_common(10)

[('Palmar', 114),
 ('la Albufera', 110),
 ('Sangonera', 82),
 ('Neleta', 73),
 ('Valencia', 39),
 ('Cañamèl', 39),
 ('Dehesa', 36),
 ('Saler', 26),
 ('Catarroja', 19),
 ('lago.', 16)]

Estos son los distintos tipos de entidades que aparecen en el libro:  

In [178]:
{w.label_:spacy.explain(w.label_) for w in libro.ents}

{'LOC': 'Non-GPE locations, mountain ranges, bodies of water',
 'PER': 'Named person or family.',
 'MISC': 'Miscellaneous entities, e.g. events, nationalities, products or works of art',
 'ORG': 'Companies, agencies, institutions, etc.'}

In [179]:
# Entidades de tipo ORG en el libro
set([e.text for e in libro.ents if e.label_== 'ORG'])

{'Al',
 'Borda',
 'Cañamèl.',
 'Comunidad',
 'Comunidad.',
 'Después',
 'Encima',
 'Guardia',
 'Guardia civil',
 'Guardia civil de la huerta',
 'Hacienda',
 'Hacienda.',
 'Halagaban',
 'Iglesia',
 'Naturaleza',
 'Neleta',
 'Neleta,',
 'Perelló',
 'Reconocíase',
 'Samaruca',
 'Samaruca?',
 'Sangonera',
 'Sangonera.',
 'Seiscientas',
 'Sequiòta',
 'Sequiòta.',
 'Tendió',
 'Todavía',
 '_all',
 'bolsa.',
 'esquilón',
 'iglesia',
 'periódicos.'}

Ahora utilizamos el análisis de dependencias para buscar los adjetivos más utilizados por Blasco Ibáñez para describir cada personaje. Para eso, hacemos un barrido de todas las frases en las que aparece el personaje y buscamos los tokens de tipo `adj` que dependen gramaticalmente de la entidad propia del personaje.

In [180]:
def adjectivesDescribingCharacters(text, character):
    sents = [sent for sent in text.sents if character in str(sent)]
    adjectives = []
    for sent in sents: 
        for word in sent: 
            if character in str(word):
                for child in word.children: 
                    if child.pos_ == 'ADJ': 
                        adjectives.append(str(child).strip())
    return Counter(adjectives).most_common(10)

In [181]:
adjectivesDescribingCharacters(libro, "Neleta")

[('pequeña', 1),
 ('mejor', 1),
 ('fija', 1),
 ('repantigado', 1),
 ('junto', 1),
 ('sola', 1),
 ('dueña', 1),
 ('vestida', 1),
 ('sentada', 1),
 ('triste', 1)]