<a href="https://colab.research.google.com/github/cristhiamdaniel/AprendizajeMaquina/blob/main/NLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Bases del PLN

In [1]:
pip install nltk



In [2]:
pip install spacy



In [3]:
!python -m spacy download en_core_web_sm

Collecting en-core-web-sm==3.2.0
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.2.0/en_core_web_sm-3.2.0-py3-none-any.whl (13.9 MB)
[K     |████████████████████████████████| 13.9 MB 2.4 MB/s 
Installing collected packages: en-core-web-sm
  Attempting uninstall: en-core-web-sm
    Found existing installation: en-core-web-sm 2.2.5
    Uninstalling en-core-web-sm-2.2.5:
      Successfully uninstalled en-core-web-sm-2.2.5
Successfully installed en-core-web-sm-3.2.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')


## Diviendo el texto en oraciones.

Cuando trabajamos con texto, podemos trabajar con unidades de texto en diferentes escalas: podemos trabajar a nivel del propio documento, como un artículo de periódico, el párrafo, la oración o la palabra. Las oraciones son la unidad principal de procesamiento en muchas tareas de la PNL

In [4]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [5]:
# Lectura del texto
filename = "coding.txt"
file = open(filename, "r", encoding="utf-8")
text = file.read()

In [6]:
# Cambio de salto de línea por espacios:
text = text.replace("\n", " ")

In [7]:
# Inicializamos el tokenizador:
tokenizer = nltk.data.load("tokenizers/punkt/english.pickle")

In [8]:
# División del texto en oraciones:
sentences = tokenizer.tokenize(text)
sentences

['Put simply, Coding is the a method of communicating with  a computer.',
 'It is using a language that a computer  understands to give a computer instructions in order  to perform specific functions.',
 'Coding allows us to create  things such as computer software, websites, apps and video games.']

**También podemos usar una estrategia diferente para analizar el texto en oraciones, empleando otro paquete de PNL muy popular, spaCy.**

In [9]:
# importamos el paquete
import spacy
# inicializamos el motor de spaCy:
nlp = spacy.load("en_core_web_sm")
# dividimos el texto en oraciones:
doc = nlp(text)
sentences = [sentence.text for sentence in doc.sents]
sentences

['Put simply, Coding is the a method of communicating with  a computer.',
 'It is using a language that a computer  understands to give a computer instructions in order  to perform specific functions.',
 'Coding allows us to create  things such as computer software, websites, apps and video games.',
 ' ']

**Ahora en español**

In [10]:
tokenizer = nltk.data.load("tokenizers/punkt/spanish.pickle")

In [11]:
def read_text_file(filename):
    file = open(filename, "r", encoding="utf-8") 
    return file.read()

def preprocess_text(text):
    text = text.replace("\n", " ")
    return text

def divide_into_sentences_nltk(text):
    sentences = tokenizer.tokenize(text)
    return sentences

In [12]:
code_text = read_text_file("codigo.txt")
code_text = preprocess_text(code_text)
sentences = divide_into_sentences_nltk(code_text)
sentences

['Las ventajas de la programación van más allá del  entorno laboral.',
 'La enseñanza de esta disciplina  fomenta el pensamiento computacional.',
 'Este proceso  de razonamiento estructura la mente y ordena las ideas.',
 '“Te permite dividir un problema grande en problemas  más pequeños”, explica García.']

## Dividiendo las oraciones en palabras - tokenización

In [13]:
# dividir el texto en palabras.
words = nltk.tokenize.word_tokenize(code_text)
print("El texto tiene ", len(words), "palabras")
print()
print("Las palabras son: ")
print(words)

El texto tiene  50 palabras

Las palabras son: 
['Las', 'ventajas', 'de', 'la', 'programación', 'van', 'más', 'allá', 'del', 'entorno', 'laboral', '.', 'La', 'enseñanza', 'de', 'esta', 'disciplina', 'fomenta', 'el', 'pensamiento', 'computacional', '.', 'Este', 'proceso', 'de', 'razonamiento', 'estructura', 'la', 'mente', 'y', 'ordena', 'las', 'ideas', '.', '“', 'Te', 'permite', 'dividir', 'un', 'problema', 'grande', 'en', 'problemas', 'más', 'pequeños', '”', ',', 'explica', 'García', '.']


**Tweet**

In [14]:
tweet = "@Docker Docker facilita mucho el trabajo como desarrollador siiiiii"

Divida el texto en palabras. Establezca los parámetros para preservar el caso, reducir la longitud y quitar las @:

In [15]:
words = nltk.tokenize.casual.casual_tokenize(tweet,\
                                             preserve_case=True,\
                                             reduce_len=True, \
                                             strip_handles=True)

In [16]:
print(words)

['Docker', 'facilita', 'mucho', 'el', 'trabajo', 'como', 'desarrollador', 'siii']


**Importante a tener en cuenta**

El paquete NLTK solo tiene tokenización de palabras para inglés.
spaCy tiene modelos para varios otros idiomas:



In [17]:
!!python -m spacy download es_core_news_sm

['Collecting es-core-news-sm==3.2.0',
 '  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.2.0/es_core_news_sm-3.2.0-py3-none-any.whl (14.0 MB)',
 '\x1b[?25l',
 '\x1b[K     |                                | 10 kB 789 kB/s eta 0:00:18',
 '\x1b[K     |                                | 20 kB 1.4 MB/s eta 0:00:10',
 '\x1b[K     |                                | 30 kB 1.9 MB/s eta 0:00:08',
 '\x1b[K     |                                | 40 kB 1.5 MB/s eta 0:00:10',
 '\x1b[K     |▏                               | 51 kB 1.8 MB/s eta 0:00:08',
 '\x1b[K     |▏                               | 61 kB 2.0 MB/s eta 0:00:07',
 '\x1b[K     |▏                               | 71 kB 2.2 MB/s eta 0:00:07',
 '\x1b[K     |▏                               | 81 kB 2.4 MB/s eta 0:00:06',
 '\x1b[K     |▏                               | 92 kB 2.0 MB/s eta 0:00:08',
 '\x1b[K     |▎                               | 102 kB 2.1 MB/s eta 0:00:07',
 '\x1b[K     |▎             

In [18]:
import es_core_news_sm
nlp = es_core_news_sm.load()
doc = nlp("Yo amo Python.")
words = [token.text for token in doc]
words

['Yo', 'amo', 'Python', '.']

## Partes de etiquetado del discurso

En muchos casos, el procesamiento de PNL depende de determinar las partes del habla de las palabras en el texto. Por ejemplo, en la clasificación de oraciones, a veces usamos las partes del habla de las palabras como una característica que se introduce en el clasificador. 

In [19]:
# Importamos el paquete
import spacy
import es_core_news_sm
# Cargamos el texto
filename = "codigo.txt"
file = open(filename, "r", encoding="utf-8")
text = file.read()
# Preprocesamiento del texto
text = text.replace("\n", " ")
# Iniciamos el motor Spacy
nlp = es_core_news_sm.load()
# Procesamos el texto
doc = nlp(text)
# Lista de tuplas con palabras y partes del etiquetado de voz
words = [token.text for token in doc]
pos = [token.pos_ for token in doc]
word_pos_tuples = list(zip(words, pos))
word_pos_tuples


[('Las', 'DET'),
 ('ventajas', 'NOUN'),
 ('de', 'ADP'),
 ('la', 'DET'),
 ('programación', 'NOUN'),
 ('van', 'VERB'),
 ('más', 'ADV'),
 ('allá', 'ADV'),
 ('del', 'ADP'),
 (' ', 'SPACE'),
 ('entorno', 'NOUN'),
 ('laboral', 'ADJ'),
 ('.', 'PUNCT'),
 ('La', 'DET'),
 ('enseñanza', 'NOUN'),
 ('de', 'ADP'),
 ('esta', 'DET'),
 ('disciplina', 'NOUN'),
 (' ', 'SPACE'),
 ('fomenta', 'VERB'),
 ('el', 'DET'),
 ('pensamiento', 'NOUN'),
 ('computacional', 'ADJ'),
 ('.', 'PUNCT'),
 ('Este', 'DET'),
 ('proceso', 'NOUN'),
 (' ', 'SPACE'),
 ('de', 'ADP'),
 ('razonamiento', 'NOUN'),
 ('estructura', 'NOUN'),
 ('la', 'DET'),
 ('mente', 'NOUN'),
 ('y', 'CCONJ'),
 ('ordena', 'VERB'),
 ('las', 'DET'),
 ('ideas', 'NOUN'),
 ('.', 'PUNCT'),
 (' ', 'SPACE'),
 ('“', 'NOUN'),
 ('Te', 'PRON'),
 ('permite', 'VERB'),
 ('dividir', 'VERB'),
 ('un', 'DET'),
 ('problema', 'NOUN'),
 ('grande', 'ADJ'),
 ('en', 'ADP'),
 ('problemas', 'NOUN'),
 (' ', 'SPACE'),
 ('más', 'ADV'),
 ('pequeños', 'ADJ'),
 ('”', 'PUNCT'),
 (',', 'PUN

## Stemming de palabras

In [20]:
# Importamos Snowball Stemmer
from nltk.stem.snowball import SnowballStemmer

In [21]:
# Inicializamos el "stemmer" con inglés.
stemmer = SnowballStemmer('english')

In [22]:
# Creamos una lista con palabras para stem:
words = ['leaf', 'leaves', 'booking', 'writing',
 'completed', 'stemming', 'skies']

In [23]:
# Stem las palabas
stemmed_words = [stemmer.stem(word) for word in words]
stemmed_words

['leaf', 'leav', 'book', 'write', 'complet', 'stem', 'sky']

Probamos con español

In [24]:
stemmer = SnowballStemmer('spanish')
spanish_words = ['caminando', 'amigo', 'bueno']
stemmed_words = [stemmer.stem(word) for word in spanish_words]
stemmed_words

['camin', 'amig', 'buen']

## Combinación de palabras similares - lemmatización

In [25]:
 nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [26]:
# Importamos NLTK WordNet lemmatizer:
from nltk.stem import WordNetLemmatizer

In [27]:
# Iniciamos el lemmatizer:
lemmatizer = WordNetLemmatizer()

In [28]:
# Creamos una lista de palabras para lemmatizar
words = ['duck', 'geese', 'cats', 'books']

In [29]:
# Lemmatizamos las palabras
lemmatized_words = [lemmatizer.lemmatize(word) for word in words]
lemmatized_words

['duck', 'goose', 'cat', 'book']

La función lemmatize tiene un parámetro, pos (para partes del habla), que se establece como sustantivo por defecto. Si desea lemmatizar un verbo o un adjetivo, debe especificarlo explícitamente:

In [30]:
lemmatizer.lemmatize('loved', 'v')

'love'

In [31]:
 lemmatizer.lemmatize('worse', 'a')

'bad'

## Eliminar stopwords

In [32]:
# Importamos paquetes
import csv
import nltk

In [33]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [34]:
# Lista predeterminada de NLTK:
stopwords = nltk.corpus.stopwords.words('english')

In [35]:
# Lectura del texto
filename = "coding.txt"
file = open(filename, "r", encoding="utf-8")
text = file.read()
text = text.replace("\n", " ")
# Tokenizar el texto
words = nltk.tokenize.word_tokenize(text)
# Eliminamos los stopwords
words_2 = [word for word in words if word.lower() not in stopwords]
print("Texto completo: ")
print(words)
print()
print("Texto sin stopwords: ")
print(words_2)

Texto completo: 
['Put', 'simply', ',', 'Coding', 'is', 'the', 'a', 'method', 'of', 'communicating', 'with', 'a', 'computer', '.', 'It', 'is', 'using', 'a', 'language', 'that', 'a', 'computer', 'understands', 'to', 'give', 'a', 'computer', 'instructions', 'in', 'order', 'to', 'perform', 'specific', 'functions', '.', 'Coding', 'allows', 'us', 'to', 'create', 'things', 'such', 'as', 'computer', 'software', ',', 'websites', ',', 'apps', 'and', 'video', 'games', '.']

Texto sin stopwords: 
['Put', 'simply', ',', 'Coding', 'method', 'communicating', 'computer', '.', 'using', 'language', 'computer', 'understands', 'give', 'computer', 'instructions', 'order', 'perform', 'specific', 'functions', '.', 'Coding', 'allows', 'us', 'create', 'things', 'computer', 'software', ',', 'websites', ',', 'apps', 'video', 'games', '.']


**Y en español**

In [36]:
# Lista predeterminada de NLTK:
stopwords = nltk.corpus.stopwords.words('spanish')
# Lectura del texto
filename = "codigo.txt"
file = open(filename, "r", encoding="utf-8")
text = file.read()
text = text.replace("\n", " ")
# Tokenizar el texto
words = nltk.tokenize.word_tokenize(text)
# Eliminamos los stopwords
words_2 = [word for word in words if word.lower() not in stopwords]
print("Texto completo: ")
print(words)
print()
print("Texto sin stopwords: ")
print(words_2)


Texto completo: 
['Las', 'ventajas', 'de', 'la', 'programación', 'van', 'más', 'allá', 'del', 'entorno', 'laboral', '.', 'La', 'enseñanza', 'de', 'esta', 'disciplina', 'fomenta', 'el', 'pensamiento', 'computacional', '.', 'Este', 'proceso', 'de', 'razonamiento', 'estructura', 'la', 'mente', 'y', 'ordena', 'las', 'ideas', '.', '“', 'Te', 'permite', 'dividir', 'un', 'problema', 'grande', 'en', 'problemas', 'más', 'pequeños', '”', ',', 'explica', 'García', '.']

Texto sin stopwords: 
['ventajas', 'programación', 'van', 'allá', 'entorno', 'laboral', '.', 'enseñanza', 'disciplina', 'fomenta', 'pensamiento', 'computacional', '.', 'proceso', 'razonamiento', 'estructura', 'mente', 'ordena', 'ideas', '.', '“', 'permite', 'dividir', 'problema', 'grande', 'problemas', 'pequeños', '”', ',', 'explica', 'García', '.']


**Bonus**

También podemos compilar una lista de palabras clave usando el texto con el que estamos trabajando y calculando las frecuencias de las palabras en él.

In [37]:
# Importamos el módulo ntlk y la clase FreqDist
import nltk
from nltk.probability import FreqDist

Cree el objeto de distribución de frecuencia y utilícelo para crear una lista de tuplas donde el primer elemento es la palabra y el segundo es el conteo de frecuencia:

In [38]:
freq_dist = FreqDist(word.lower() for word in words)
words_with_frequencies = [(word, freq_dist[word]) for word in freq_dist.keys()]

In [39]:
# organizar la lista de tuplas por frecuencia
sorted_words = sorted(words_with_frequencies, key=lambda tup: tup[1])
sorted_words

[('ventajas', 1),
 ('programación', 1),
 ('van', 1),
 ('allá', 1),
 ('del', 1),
 ('entorno', 1),
 ('laboral', 1),
 ('enseñanza', 1),
 ('esta', 1),
 ('disciplina', 1),
 ('fomenta', 1),
 ('el', 1),
 ('pensamiento', 1),
 ('computacional', 1),
 ('este', 1),
 ('proceso', 1),
 ('razonamiento', 1),
 ('estructura', 1),
 ('mente', 1),
 ('y', 1),
 ('ordena', 1),
 ('ideas', 1),
 ('“', 1),
 ('te', 1),
 ('permite', 1),
 ('dividir', 1),
 ('un', 1),
 ('problema', 1),
 ('grande', 1),
 ('en', 1),
 ('problemas', 1),
 ('pequeños', 1),
 ('”', 1),
 (',', 1),
 ('explica', 1),
 ('garcía', 1),
 ('las', 2),
 ('más', 2),
 ('de', 3),
 ('la', 3),
 ('.', 4)]

In [40]:
# Utilizamos un corte de frecuencia para las stopwords.
# usamos 1 como frecuencia de corte:
stopwords = [tuple[0] for tuple in sorted_words if tuple[1] > 1]
stopwords

['las', 'más', 'de', 'la', '.']

In [41]:
# Otra opción: usar n% de palabras más frecuentes
length_cutoff = int(0.1*len(sorted_words))
stopwords = [tuple[0] for tuple in sorted_words[-length_cutoff:]]
stopwords

['más', 'de', 'la', '.']

# Jugando con la gramática

Vamos a usar diferentes paquetes para revelar la estructura gramatical de las palabras y oraciones, así como extraer ciertas partes de las oraciones.

In [42]:
# Requerimientos
!pip install inflect
!python -m spacy download en_core_web_md
!pip install textacy

Collecting en-core-web-md==3.2.0
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_md-3.2.0/en_core_web_md-3.2.0-py3-none-any.whl (45.7 MB)
[K     |████████████████████████████████| 45.7 MB 61 kB/s 
Installing collected packages: en-core-web-md
  Attempting uninstall: en-core-web-md
    Found existing installation: en-core-web-md 2.2.5
    Uninstalling en-core-web-md-2.2.5:
      Successfully uninstalled en-core-web-md-2.2.5
Successfully installed en-core-web-md-3.2.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_md')


In [43]:
# Para referencias de búsqueda
!pip install neuralcoref



## Contando sustantivos (plurales y singulares)

In [45]:
# importamos los módulos necesarios
import nltk
from nltk.stem import WordNetLemmatizer
import inflect

In [58]:
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

In [53]:
# Cargamos el texto
filename = "coding.txt"
file = open(filename, "r", encoding="utf-8")
text = file.read()

In [56]:
# Creamos las funciones:

tokenizer = nltk.data.load("tokenizers/punkt/english.pickle")

def read_text_file(filename):
    file = open(filename, "r", encoding="utf-8") 
    return file.read()

def preprocess_text(text):
    text = text.replace("\n", " ")
    return text

def divide_into_sentences_nltk(text):
    sentences = tokenizer.tokenize(text)
    return sentences

def tokenize_nltk(text):
    return nltk.tokenize.word_tokenize(text)

def pos_tag_nltk(text):
    words = tokenize_nltk(text)
    words_with_pos = nltk.pos_tag(words)
    return words_with_pos

In [63]:
words_with_pos = pos_tag_nltk(text)
print(words_with_pos)

[('Put', 'VB'), ('simply', 'RB'), (',', ','), ('Coding', 'NNP'), ('is', 'VBZ'), ('the', 'DT'), ('a', 'DT'), ('method', 'NN'), ('of', 'IN'), ('communicating', 'VBG'), ('with', 'IN'), ('a', 'DT'), ('computer', 'NN'), ('.', '.'), ('It', 'PRP'), ('is', 'VBZ'), ('using', 'VBG'), ('a', 'DT'), ('language', 'NN'), ('that', 'IN'), ('a', 'DT'), ('computer', 'NN'), ('understands', 'VBZ'), ('to', 'TO'), ('give', 'VB'), ('a', 'DT'), ('computer', 'NN'), ('instructions', 'NNS'), ('in', 'IN'), ('order', 'NN'), ('to', 'TO'), ('perform', 'VB'), ('specific', 'JJ'), ('functions', 'NNS'), ('.', '.'), ('Coding', 'VBG'), ('allows', 'VBZ'), ('us', 'PRP'), ('to', 'TO'), ('create', 'VB'), ('things', 'NNS'), ('such', 'JJ'), ('as', 'IN'), ('computer', 'NN'), ('software', 'NN'), (',', ','), ('websites', 'VBZ'), (',', ','), ('apps', 'NN'), ('and', 'CC'), ('video', 'NN'), ('games', 'NNS'), ('.', '.')]


In [64]:
# Filtramos los sustantivos con la siguiente función:
def get_nouns(words_with_pos):
 noun_set = ["NN", "NNS"]
 nouns = [word for word in words_with_pos if 
 word[1] in noun_set]
 return nouns

In [65]:
# imprimimos el resultado
nouns = get_nouns(words_with_pos)
print(nouns)

[('method', 'NN'), ('computer', 'NN'), ('language', 'NN'), ('computer', 'NN'), ('computer', 'NN'), ('instructions', 'NNS'), ('order', 'NN'), ('functions', 'NNS'), ('things', 'NNS'), ('computer', 'NN'), ('software', 'NN'), ('apps', 'NN'), ('video', 'NN'), ('games', 'NNS')]


Determinamos cuáles son prulares y singulares


In [68]:
# Primera opción
def is_plural_nltk(noun_info):
 pos = noun_info[1]
 if (pos == "NNS"):
   return True
 else:
   return False

# Segunda opción
def is_plural_wn(noun):
  wnl = WordNetLemmatizer()
  lemma = wnl.lemmatize(noun, 'n')
  plural = True if noun is not lemma else False
  return plural

In [69]:
# Cambiamos de sustantivos singulares a plurales
def get_plural(singular_noun):
  p = inflect.engine()
  return p.plural(singular_noun)
# Cambiamos los sustantivos plurales a singualres
def get_singular(plural_noun):
 p = inflect.engine()
 plural = p.singular_noun(plural_noun)
 if (plural):
   return plural
 else:
   return plural_noun

In [72]:
# determinar si el sustantivo es plural
def plurals_wn(words_with_pos):
  other_nouns = []
  for noun_info in words_with_pos:
    word = noun_info[0]
    plural = is_plural_wn(word)
    if (plural):
      singular = get_singular(word)
      other_nouns.append(singular)
    else:
      plural = get_plural(word)
      other_nouns.append(plural)
  return other_nouns

In [74]:
# Cambiamos la lista
other_nouns_wn = plurals_wn(nouns)
print(nouns)
print()
print(other_nouns_wn)

[('method', 'NN'), ('computer', 'NN'), ('language', 'NN'), ('computer', 'NN'), ('computer', 'NN'), ('instructions', 'NNS'), ('order', 'NN'), ('functions', 'NNS'), ('things', 'NNS'), ('computer', 'NN'), ('software', 'NN'), ('apps', 'NN'), ('video', 'NN'), ('games', 'NNS')]

['methods', 'computers', 'languages', 'computers', 'computers', 'instruction', 'orders', 'function', 'thing', 'computers', 'softwares', 'app', 'videos', 'game']


**Probemos con español**

In [85]:
# Importamos el paquete
import spacy
import es_core_news_sm
# Cargamos el texto
filename = "codigo.txt"
file = open(filename, "r", encoding="utf-8")
text = file.read()
# Preprocesamiento del texto
text = text.replace("\n", " ")
# Iniciamos el motor Spacy
nlp = es_core_news_sm.load()
# Procesamos el texto
doc = nlp(text)
# Lista de tuplas con palabras y partes del etiquetado de voz
words = [token.text for token in doc]
pos = [token.pos_ for token in doc]
word_pos_tuples = list(zip(words, pos))




In [87]:
# imprimimos el resultado
nouns = get_nouns(word_pos_tuples)
print(nouns)

[('ventajas', 'NOUN'), ('programación', 'NOUN'), ('entorno', 'NOUN'), ('enseñanza', 'NOUN'), ('disciplina', 'NOUN'), ('pensamiento', 'NOUN'), ('proceso', 'NOUN'), ('razonamiento', 'NOUN'), ('estructura', 'NOUN'), ('mente', 'NOUN'), ('ideas', 'NOUN'), ('“', 'NOUN'), ('problema', 'NOUN'), ('problemas', 'NOUN')]


## Obteniendo el análisis de dependencia

In [88]:
# Importamos spacy
import spacy

In [90]:
# Definimos una oración
sentence = 'I have seldom heard him mention her under any other name.'
# cargamos el motor de spacy
nlp = spacy.load('en_core_web_sm')
# procesamos la oración
doc = nlp(sentence)


La información de dependencias estará contenida en el objeto doc. Podemos ver las etiquetas de dependencias haciendo un bucle a través de los tokens en doc:

In [91]:
for token in doc:
 print(token.text, "\t", token.dep_, "\t",
 spacy.explain(token.dep_))

I 	 nsubj 	 nominal subject
have 	 aux 	 auxiliary
seldom 	 advmod 	 adverbial modifier
heard 	 ROOT 	 None
him 	 nsubj 	 nominal subject
mention 	 ccomp 	 clausal complement
her 	 dobj 	 direct object
under 	 prep 	 prepositional modifier
any 	 det 	 determiner
other 	 amod 	 adjectival modifier
name 	 pobj 	 object of preposition
. 	 punct 	 punctuation


Para explorar la estructura de análisis de dependencias, podemos usar los atributos de la clase Token. Usando sus atributos ancestrales e hijos, podemos obtener los tokens de los que depende este token y los tokens que dependen de él, respectivamente. 

In [92]:
for token in doc:
 print(token.text)
 ancestors = [t.text for t in token.ancestors]
 print(ancestors)

I
['heard']
have
['heard']
seldom
['heard']
heard
[]
him
['mention', 'heard']
mention
['heard']
her
['mention', 'heard']
under
['mention', 'heard']
any
['name', 'under', 'mention', 'heard']
other
['name', 'under', 'mention', 'heard']
name
['under', 'mention', 'heard']
.
['heard']


Para ver todos los tokens secundarios, use el siguiente código:

In [93]:
for token in doc:
 print(token.text)
 children = [t.text for t in token.children]
 print(children)

I
[]
have
[]
seldom
[]
heard
['I', 'have', 'seldom', 'mention', '.']
him
[]
mention
['him', 'her', 'under']
her
[]
under
['name']
any
[]
other
[]
name
['any', 'other']
.
[]


También podemos ver el subárbol en el que está el token:

In [94]:
for token in doc:
 print(token.text)
 subtree = [t.text for t in token.subtree]
 print(subtree)

I
['I']
have
['have']
seldom
['seldom']
heard
['I', 'have', 'seldom', 'heard', 'him', 'mention', 'her', 'under', 'any', 'other', 'name', '.']
him
['him']
mention
['him', 'mention', 'her', 'under', 'any', 'other', 'name']
her
['her']
under
['under', 'any', 'other', 'name']
any
['any']
other
['other']
name
['any', 'other', 'name']
.
['.']


**Intentemos en español**

In [98]:
import es_core_news_sm
nlp = es_core_news_sm.load()
# Definimos una oración
sentence = "Los ordenadores son inútiles. Sólo pueden darte respuestas"
# cargamos el motor de spacy
nlp = spacy.load('es_core_news_sm')
# procesamos la oración
doc = nlp(sentence)

Los ordenadores son inútiles. Sólo pueden darte respuestas


In [99]:
for token in doc:
 print(token.text, "\t", token.dep_, "\t", spacy.explain(token.dep_))

Los 	 det 	 determiner
ordenadores 	 nsubj 	 nominal subject
son 	 cop 	 copula
inútiles 	 ROOT 	 None
. 	 punct 	 punctuation
Sólo 	 advmod 	 adverbial modifier
pueden 	 aux 	 auxiliary
darte 	 ROOT 	 None
respuestas 	 nsubj 	 nominal subject


In [100]:
for token in doc:
 print(token.text)
 ancestors = [t.text for t in token.ancestors]
 print(ancestors)

Los
['ordenadores', 'inútiles']
ordenadores
['inútiles']
son
['inútiles']
inútiles
[]
.
['inútiles']
Sólo
['darte']
pueden
['darte']
darte
[]
respuestas
['darte']


In [101]:
for token in doc:
 print(token.text)
 subtree = [t.text for t in token.subtree]
 print(subtree)

Los
['Los']
ordenadores
['Los', 'ordenadores']
son
['son']
inútiles
['Los', 'ordenadores', 'son', 'inútiles', '.']
.
['.']
Sólo
['Sólo']
pueden
['pueden']
darte
['Sólo', 'pueden', 'darte', 'respuestas']
respuestas
['respuestas']
