<a href="https://colab.research.google.com/github/cristhiamdaniel/AprendizajeMaquina/blob/main/NLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Bases del PLN

In [1]:
pip install nltk



In [2]:
pip install spacy



In [3]:
!python -m spacy download en_core_web_sm

Collecting en_core_web_sm==2.2.5
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-2.2.5/en_core_web_sm-2.2.5.tar.gz (12.0 MB)
[K     |████████████████████████████████| 12.0 MB 28.7 MB/s 
[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('en_core_web_sm')


## Diviendo el texto en oraciones.

Cuando trabajamos con texto, podemos trabajar con unidades de texto en diferentes escalas: podemos trabajar a nivel del propio documento, como un artículo de periódico, el párrafo, la oración o la palabra. Las oraciones son la unidad principal de procesamiento en muchas tareas de la PNL

In [4]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [5]:
# Lectura del texto
filename = "coding.txt"
file = open(filename, "r", encoding="utf-8")
text = file.read()

In [6]:
# Cambio de salto de línea por espacios:
text = text.replace("\n", " ")

In [7]:
# Inicializamos el tokenizador:
tokenizer = nltk.data.load("tokenizers/punkt/english.pickle")

In [8]:
# División del texto en oraciones:
sentences = tokenizer.tokenize(text)
sentences

['Put simply, Coding is the a method of communicating with  a computer.',
 'It is using a language that a computer  understands to give a computer instructions in order  to perform specific functions.',
 'Coding allows us to create  things such as computer software, websites, apps and video games.']

**También podemos usar una estrategia diferente para analizar el texto en oraciones, empleando otro paquete de PNL muy popular, spaCy.**

In [9]:
# importamos el paquete
import spacy
# inicializamos el motor de spaCy:
nlp = spacy.load("en_core_web_sm")
# dividimos el texto en oraciones:
doc = nlp(text)
sentences = [sentence.text for sentence in doc.sents]
sentences

['Put simply, Coding is the a method of communicating with  a computer.',
 'It is using a language that a computer  understands to give a computer instructions in order  to perform specific functions.',
 'Coding allows us to create  things such as computer software, websites, apps and video games.  ']

**Ahora en español**

In [10]:
tokenizer = nltk.data.load("tokenizers/punkt/spanish.pickle")

In [11]:
def read_text_file(filename):
    file = open(filename, "r", encoding="utf-8") 
    return file.read()

def preprocess_text(text):
    text = text.replace("\n", " ")
    return text

def divide_into_sentences_nltk(text):
    sentences = tokenizer.tokenize(text)
    return sentences

In [12]:
code_text = read_text_file("codigo.txt")
code_text = preprocess_text(code_text)
sentences = divide_into_sentences_nltk(code_text)
sentences

['Las ventajas de la programación van más allá del  entorno laboral.',
 'La enseñanza de esta disciplina  fomenta el pensamiento computacional.',
 'Este proceso  de razonamiento estructura la mente y ordena las ideas.',
 '“Te permite dividir un problema grande en problemas  más pequeños”, explica García.']

## Dividiendo las oraciones en palabras - tokenización

In [13]:
# dividir el texto en palabras.
words = nltk.tokenize.word_tokenize(code_text)
print("El texto tiene ", len(words), "palabras")
print()
print("Las palabras son: ")
print(words)

El texto tiene  50 palabras

Las palabras son: 
['Las', 'ventajas', 'de', 'la', 'programación', 'van', 'más', 'allá', 'del', 'entorno', 'laboral', '.', 'La', 'enseñanza', 'de', 'esta', 'disciplina', 'fomenta', 'el', 'pensamiento', 'computacional', '.', 'Este', 'proceso', 'de', 'razonamiento', 'estructura', 'la', 'mente', 'y', 'ordena', 'las', 'ideas', '.', '“', 'Te', 'permite', 'dividir', 'un', 'problema', 'grande', 'en', 'problemas', 'más', 'pequeños', '”', ',', 'explica', 'García', '.']


**Tweet**

In [14]:
tweet = "@Docker Docker facilita mucho el trabajo como desarrollador siiiiii"

Divida el texto en palabras. Establezca los parámetros para preservar el caso, reducir la longitud y quitar las @:

In [15]:
words = nltk.tokenize.casual.casual_tokenize(tweet,\
                                             preserve_case=True,\
                                             reduce_len=True, \
                                             strip_handles=True)

In [16]:
print(words)

['Docker', 'facilita', 'mucho', 'el', 'trabajo', 'como', 'desarrollador', 'siii']


**Importante a tener en cuenta**

El paquete NLTK solo tiene tokenización de palabras para inglés.
spaCy tiene modelos para varios otros idiomas:



In [17]:
!!python -m spacy download es_core_news_sm

['Collecting es_core_news_sm==2.2.5',
 '  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-2.2.5/es_core_news_sm-2.2.5.tar.gz (16.2 MB)',
 '\x1b[?25l',
 '\x1b[K     |                                | 10 kB 18.0 MB/s eta 0:00:01',
 '\x1b[K     |                                | 20 kB 25.2 MB/s eta 0:00:01',
 '\x1b[K     |                                | 30 kB 20.6 MB/s eta 0:00:01',
 '\x1b[K     |                                | 40 kB 15.3 MB/s eta 0:00:02',
 '\x1b[K     |                                | 51 kB 16.3 MB/s eta 0:00:01',
 '\x1b[K     |▏                               | 61 kB 17.8 MB/s eta 0:00:01',
 '\x1b[K     |▏                               | 71 kB 18.7 MB/s eta 0:00:01',
 '\x1b[K     |▏                               | 81 kB 20.0 MB/s eta 0:00:01',
 '\x1b[K     |▏                               | 92 kB 21.7 MB/s eta 0:00:01',
 '\x1b[K     |▏                               | 102 kB 23.6 MB/s eta 0:00:01',
 '\x1b[K     |▎             

In [18]:
import es_core_news_sm
nlp = es_core_news_sm.load()
doc = nlp("Yo amo Python.")
words = [token.text for token in doc]
words

['Yo', 'amo', 'Python', '.']

## Partes de etiquetado del discurso

En muchos casos, el procesamiento de PNL depende de determinar las partes del habla de las palabras en el texto. Por ejemplo, en la clasificación de oraciones, a veces usamos las partes del habla de las palabras como una característica que se introduce en el clasificador. 

In [19]:
# Importamos el paquete
import spacy
import es_core_news_sm
# Cargamos el texto
filename = "codigo.txt"
file = open(filename, "r", encoding="utf-8")
text = file.read()
# Preprocesamiento del texto
text = text.replace("\n", " ")
# Iniciamos el motor Spacy
nlp = es_core_news_sm.load()
# Procesamos el texto
doc = nlp(text)
# Lista de tuplas con palabras y partes del etiquetado de voz
words = [token.text for token in doc]
pos = [token.pos_ for token in doc]
word_pos_tuples = list(zip(words, pos))
word_pos_tuples


[('Las', 'DET'),
 ('ventajas', 'NOUN'),
 ('de', 'ADP'),
 ('la', 'DET'),
 ('programación', 'NOUN'),
 ('van', 'VERB'),
 ('más', 'ADV'),
 ('allá', 'ADV'),
 ('del', 'ADP'),
 (' ', 'SPACE'),
 ('entorno', 'NOUN'),
 ('laboral', 'ADJ'),
 ('.', 'PUNCT'),
 ('La', 'DET'),
 ('enseñanza', 'NOUN'),
 ('de', 'ADP'),
 ('esta', 'DET'),
 ('disciplina', 'NOUN'),
 (' ', 'SPACE'),
 ('fomenta', 'VERB'),
 ('el', 'DET'),
 ('pensamiento', 'NOUN'),
 ('computacional', 'ADJ'),
 ('.', 'PUNCT'),
 ('Este', 'DET'),
 ('proceso', 'NOUN'),
 (' ', 'SPACE'),
 ('de', 'ADP'),
 ('razonamiento', 'NOUN'),
 ('estructura', 'VERB'),
 ('la', 'DET'),
 ('mente', 'NOUN'),
 ('y', 'CONJ'),
 ('ordena', 'VERB'),
 ('las', 'DET'),
 ('ideas', 'NOUN'),
 ('.', 'PUNCT'),
 (' ', 'SPACE'),
 ('“', 'PROPN'),
 ('Te', 'PRON'),
 ('permite', 'VERB'),
 ('dividir', 'VERB'),
 ('un', 'DET'),
 ('problema', 'NOUN'),
 ('grande', 'ADJ'),
 ('en', 'ADP'),
 ('problemas', 'NOUN'),
 (' ', 'SPACE'),
 ('más', 'ADV'),
 ('pequeños', 'ADJ'),
 ('”', 'PROPN'),
 (',', 'PUN

## Stemming de palabras

In [20]:
# Importamos Snowball Stemmer
from nltk.stem.snowball import SnowballStemmer

In [21]:
# Inicializamos el "stemmer" con inglés.
stemmer = SnowballStemmer('english')

In [22]:
# Creamos una lista con palabras para stem:
words = ['leaf', 'leaves', 'booking', 'writing',
 'completed', 'stemming', 'skies']

In [23]:
# Stem las palabas
stemmed_words = [stemmer.stem(word) for word in words]
stemmed_words

['leaf', 'leav', 'book', 'write', 'complet', 'stem', 'sky']

Probamos con español

In [24]:
stemmer = SnowballStemmer('spanish')
spanish_words = ['caminando', 'amigo', 'bueno']
stemmed_words = [stemmer.stem(word) for word in spanish_words]
stemmed_words

['camin', 'amig', 'buen']

## Combinación de palabras similares - lemmatización

In [25]:
 nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


True

In [26]:
# Importamos NLTK WordNet lemmatizer:
from nltk.stem import WordNetLemmatizer

In [27]:
# Iniciamos el lemmatizer:
lemmatizer = WordNetLemmatizer()

In [28]:
# Creamos una lista de palabras para lemmatizar
words = ['duck', 'geese', 'cats', 'books']

In [29]:
# Lemmatizamos las palabras
lemmatized_words = [lemmatizer.lemmatize(word) for word in words]
lemmatized_words

['duck', 'goose', 'cat', 'book']

La función lemmatize tiene un parámetro, pos (para partes del habla), que se establece como sustantivo por defecto. Si desea lemmatizar un verbo o un adjetivo, debe especificarlo explícitamente:

In [30]:
lemmatizer.lemmatize('loved', 'v')

'love'

In [31]:
 lemmatizer.lemmatize('worse', 'a')

'bad'

## Eliminar stopwords

In [32]:
# Importamos paquetes
import csv
import nltk

In [33]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [34]:
# Lista predeterminada de NLTK:
stopwords = nltk.corpus.stopwords.words('english')

In [35]:
# Lectura del texto
filename = "coding.txt"
file = open(filename, "r", encoding="utf-8")
text = file.read()
text = text.replace("\n", " ")
# Tokenizar el texto
words = nltk.tokenize.word_tokenize(text)
# Eliminamos los stopwords
words_2 = [word for word in words if word.lower() not in stopwords]
print("Texto completo: ")
print(words)
print()
print("Texto sin stopwords: ")
print(words_2)

Texto completo: 
['Put', 'simply', ',', 'Coding', 'is', 'the', 'a', 'method', 'of', 'communicating', 'with', 'a', 'computer', '.', 'It', 'is', 'using', 'a', 'language', 'that', 'a', 'computer', 'understands', 'to', 'give', 'a', 'computer', 'instructions', 'in', 'order', 'to', 'perform', 'specific', 'functions', '.', 'Coding', 'allows', 'us', 'to', 'create', 'things', 'such', 'as', 'computer', 'software', ',', 'websites', ',', 'apps', 'and', 'video', 'games', '.']

Texto sin stopwords: 
['Put', 'simply', ',', 'Coding', 'method', 'communicating', 'computer', '.', 'using', 'language', 'computer', 'understands', 'give', 'computer', 'instructions', 'order', 'perform', 'specific', 'functions', '.', 'Coding', 'allows', 'us', 'create', 'things', 'computer', 'software', ',', 'websites', ',', 'apps', 'video', 'games', '.']


**Y en español**

In [36]:
# Lista predeterminada de NLTK:
stopwords = nltk.corpus.stopwords.words('spanish')
# Lectura del texto
filename = "codigo.txt"
file = open(filename, "r", encoding="utf-8")
text = file.read()
text = text.replace("\n", " ")
# Tokenizar el texto
words = nltk.tokenize.word_tokenize(text)
# Eliminamos los stopwords
words_2 = [word for word in words if word.lower() not in stopwords]
print("Texto completo: ")
print(words)
print()
print("Texto sin stopwords: ")
print(words_2)


Texto completo: 
['Las', 'ventajas', 'de', 'la', 'programación', 'van', 'más', 'allá', 'del', 'entorno', 'laboral', '.', 'La', 'enseñanza', 'de', 'esta', 'disciplina', 'fomenta', 'el', 'pensamiento', 'computacional', '.', 'Este', 'proceso', 'de', 'razonamiento', 'estructura', 'la', 'mente', 'y', 'ordena', 'las', 'ideas', '.', '“', 'Te', 'permite', 'dividir', 'un', 'problema', 'grande', 'en', 'problemas', 'más', 'pequeños', '”', ',', 'explica', 'García', '.']

Texto sin stopwords: 
['ventajas', 'programación', 'van', 'allá', 'entorno', 'laboral', '.', 'enseñanza', 'disciplina', 'fomenta', 'pensamiento', 'computacional', '.', 'proceso', 'razonamiento', 'estructura', 'mente', 'ordena', 'ideas', '.', '“', 'permite', 'dividir', 'problema', 'grande', 'problemas', 'pequeños', '”', ',', 'explica', 'García', '.']


**Bonus**

También podemos compilar una lista de palabras clave usando el texto con el que estamos trabajando y calculando las frecuencias de las palabras en él.

In [37]:
# Importamos el módulo ntlk y la clase FreqDist
import nltk
from nltk.probability import FreqDist

Cree el objeto de distribución de frecuencia y utilícelo para crear una lista de tuplas donde el primer elemento es la palabra y el segundo es el conteo de frecuencia:

In [38]:
freq_dist = FreqDist(word.lower() for word in words)
words_with_frequencies = [(word, freq_dist[word]) for word in freq_dist.keys()]

In [39]:
# organizar la lista de tuplas por frecuencia
sorted_words = sorted(words_with_frequencies, key=lambda tup: tup[1])
sorted_words

[('ventajas', 1),
 ('programación', 1),
 ('van', 1),
 ('allá', 1),
 ('del', 1),
 ('entorno', 1),
 ('laboral', 1),
 ('enseñanza', 1),
 ('esta', 1),
 ('disciplina', 1),
 ('fomenta', 1),
 ('el', 1),
 ('pensamiento', 1),
 ('computacional', 1),
 ('este', 1),
 ('proceso', 1),
 ('razonamiento', 1),
 ('estructura', 1),
 ('mente', 1),
 ('y', 1),
 ('ordena', 1),
 ('ideas', 1),
 ('“', 1),
 ('te', 1),
 ('permite', 1),
 ('dividir', 1),
 ('un', 1),
 ('problema', 1),
 ('grande', 1),
 ('en', 1),
 ('problemas', 1),
 ('pequeños', 1),
 ('”', 1),
 (',', 1),
 ('explica', 1),
 ('garcía', 1),
 ('las', 2),
 ('más', 2),
 ('de', 3),
 ('la', 3),
 ('.', 4)]

In [40]:
# Utilizamos un corte de frecuencia para las stopwords.
# usamos 1 como frecuencia de corte:
stopwords = [tuple[0] for tuple in sorted_words if tuple[1] > 1]
stopwords

['las', 'más', 'de', 'la', '.']

In [41]:
# Otra opción: usar n% de palabras más frecuentes
length_cutoff = int(0.1*len(sorted_words))
stopwords = [tuple[0] for tuple in sorted_words[-length_cutoff:]]
stopwords

['más', 'de', 'la', '.']

# Jugando con la gramática

Vamos a usar diferentes paquetes para revelar la estructura gramatical de las palabras y oraciones, así como extraer ciertas partes de las oraciones.

In [42]:
# Requerimientos
!pip install inflect
!python -m spacy download en_core_web_md
!pip install textacy

Collecting en_core_web_md==2.2.5
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_md-2.2.5/en_core_web_md-2.2.5.tar.gz (96.4 MB)
[K     |████████████████████████████████| 96.4 MB 1.3 MB/s 
Building wheels for collected packages: en-core-web-md
  Building wheel for en-core-web-md (setup.py) ... [?25l[?25hdone
  Created wheel for en-core-web-md: filename=en_core_web_md-2.2.5-py3-none-any.whl size=98051302 sha256=31c780c93f41d6fa843964c6abb52749188ad72f066f22824ba0e21d4f14f7b3
  Stored in directory: /tmp/pip-ephem-wheel-cache-xgqurw5l/wheels/69/c5/b8/4f1c029d89238734311b3269762ab2ee325a42da2ce8edb997
Successfully built en-core-web-md
Installing collected packages: en-core-web-md
Successfully installed en-core-web-md-2.2.5
[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('en_core_web_md')
Collecting textacy
  Downloading textacy-0.11.0-py3-none-any.whl (200 kB)
[K     |████████████████████████████████| 20

In [43]:
# Para referencias de búsqueda
!pip install neuralcoref

Collecting neuralcoref
  Downloading neuralcoref-4.0-cp37-cp37m-manylinux1_x86_64.whl (286 kB)
[?25l[K     |█▏                              | 10 kB 22.0 MB/s eta 0:00:01[K     |██▎                             | 20 kB 28.1 MB/s eta 0:00:01[K     |███▍                            | 30 kB 30.6 MB/s eta 0:00:01[K     |████▋                           | 40 kB 32.0 MB/s eta 0:00:01[K     |█████▊                          | 51 kB 32.5 MB/s eta 0:00:01[K     |██████▉                         | 61 kB 35.1 MB/s eta 0:00:01[K     |████████                        | 71 kB 25.2 MB/s eta 0:00:01[K     |█████████▏                      | 81 kB 24.3 MB/s eta 0:00:01[K     |██████████▎                     | 92 kB 25.8 MB/s eta 0:00:01[K     |███████████▌                    | 102 kB 27.5 MB/s eta 0:00:01[K     |████████████▋                   | 112 kB 27.5 MB/s eta 0:00:01[K     |█████████████▊                  | 122 kB 27.5 MB/s eta 0:00:01[K     |██████████████▉                 | 

## Contando sustantivos (plurales y singulares)

In [44]:
# importamos los módulos necesarios
import nltk
from nltk.stem import WordNetLemmatizer
import inflect

In [45]:
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

In [46]:
# Cargamos el texto
filename = "coding.txt"
file = open(filename, "r", encoding="utf-8")
text = file.read()

In [47]:
# Creamos las funciones:

tokenizer = nltk.data.load("tokenizers/punkt/english.pickle")

def read_text_file(filename):
    file = open(filename, "r", encoding="utf-8") 
    return file.read()

def preprocess_text(text):
    text = text.replace("\n", " ")
    return text

def divide_into_sentences_nltk(text):
    sentences = tokenizer.tokenize(text)
    return sentences

def tokenize_nltk(text):
    return nltk.tokenize.word_tokenize(text)

def pos_tag_nltk(text):
    words = tokenize_nltk(text)
    words_with_pos = nltk.pos_tag(words)
    return words_with_pos

In [48]:
words_with_pos = pos_tag_nltk(text)
print(words_with_pos)

[('Put', 'VB'), ('simply', 'RB'), (',', ','), ('Coding', 'NNP'), ('is', 'VBZ'), ('the', 'DT'), ('a', 'DT'), ('method', 'NN'), ('of', 'IN'), ('communicating', 'VBG'), ('with', 'IN'), ('a', 'DT'), ('computer', 'NN'), ('.', '.'), ('It', 'PRP'), ('is', 'VBZ'), ('using', 'VBG'), ('a', 'DT'), ('language', 'NN'), ('that', 'IN'), ('a', 'DT'), ('computer', 'NN'), ('understands', 'VBZ'), ('to', 'TO'), ('give', 'VB'), ('a', 'DT'), ('computer', 'NN'), ('instructions', 'NNS'), ('in', 'IN'), ('order', 'NN'), ('to', 'TO'), ('perform', 'VB'), ('specific', 'JJ'), ('functions', 'NNS'), ('.', '.'), ('Coding', 'VBG'), ('allows', 'VBZ'), ('us', 'PRP'), ('to', 'TO'), ('create', 'VB'), ('things', 'NNS'), ('such', 'JJ'), ('as', 'IN'), ('computer', 'NN'), ('software', 'NN'), (',', ','), ('websites', 'VBZ'), (',', ','), ('apps', 'NN'), ('and', 'CC'), ('video', 'NN'), ('games', 'NNS'), ('.', '.')]


In [49]:
# Filtramos los sustantivos con la siguiente función:
def get_nouns(words_with_pos):
 noun_set = ["NN", "NNS"]
 nouns = [word for word in words_with_pos if 
 word[1] in noun_set]
 return nouns

In [50]:
# imprimimos el resultado
nouns = get_nouns(words_with_pos)
print(nouns)

[('method', 'NN'), ('computer', 'NN'), ('language', 'NN'), ('computer', 'NN'), ('computer', 'NN'), ('instructions', 'NNS'), ('order', 'NN'), ('functions', 'NNS'), ('things', 'NNS'), ('computer', 'NN'), ('software', 'NN'), ('apps', 'NN'), ('video', 'NN'), ('games', 'NNS')]


Determinamos cuáles son prulares y singulares


In [51]:
# Primera opción
def is_plural_nltk(noun_info):
 pos = noun_info[1]
 if (pos == "NNS"):
   return True
 else:
   return False

# Segunda opción
def is_plural_wn(noun):
  wnl = WordNetLemmatizer()
  lemma = wnl.lemmatize(noun, 'n')
  plural = True if noun is not lemma else False
  return plural

In [52]:
# Cambiamos de sustantivos singulares a plurales
def get_plural(singular_noun):
  p = inflect.engine()
  return p.plural(singular_noun)
# Cambiamos los sustantivos plurales a singualres
def get_singular(plural_noun):
 p = inflect.engine()
 plural = p.singular_noun(plural_noun)
 if (plural):
   return plural
 else:
   return plural_noun

In [53]:
# determinar si el sustantivo es plural
def plurals_wn(words_with_pos):
  other_nouns = []
  for noun_info in words_with_pos:
    word = noun_info[0]
    plural = is_plural_wn(word)
    if (plural):
      singular = get_singular(word)
      other_nouns.append(singular)
    else:
      plural = get_plural(word)
      other_nouns.append(plural)
  return other_nouns

In [54]:
# Cambiamos la lista
other_nouns_wn = plurals_wn(nouns)
print(nouns)
print()
print(other_nouns_wn)

[('method', 'NN'), ('computer', 'NN'), ('language', 'NN'), ('computer', 'NN'), ('computer', 'NN'), ('instructions', 'NNS'), ('order', 'NN'), ('functions', 'NNS'), ('things', 'NNS'), ('computer', 'NN'), ('software', 'NN'), ('apps', 'NN'), ('video', 'NN'), ('games', 'NNS')]

['methods', 'computers', 'languages', 'computers', 'computers', 'instruction', 'orders', 'function', 'thing', 'computers', 'softwares', 'app', 'videos', 'game']


**Probemos con español**

In [55]:
# Importamos el paquete
import spacy
import es_core_news_sm
# Cargamos el texto
filename = "codigo.txt"
file = open(filename, "r", encoding="utf-8")
text = file.read()
# Preprocesamiento del texto
text = text.replace("\n", " ")
# Iniciamos el motor Spacy
nlp = es_core_news_sm.load()
# Procesamos el texto
doc = nlp(text)
# Lista de tuplas con palabras y partes del etiquetado de voz
words = [token.text for token in doc]
pos = [token.pos_ for token in doc]
word_pos_tuples = list(zip(words, pos))




In [56]:
# imprimimos el resultado
nouns = get_nouns(word_pos_tuples)
print(nouns)

[]


## Obteniendo el análisis de dependencia

In [57]:
# Importamos spacy
import spacy

In [58]:
# Definimos una oración
sentence = 'I have seldom heard him mention her under any other name.'
# cargamos el motor de spacy
nlp = spacy.load('en_core_web_sm')
# procesamos la oración
doc = nlp(sentence)


OSError: ignored

La información de dependencias estará contenida en el objeto doc. Podemos ver las etiquetas de dependencias haciendo un bucle a través de los tokens en doc:

In [None]:
for token in doc:
 print(token.text, "\t", token.dep_, "\t",
 spacy.explain(token.dep_))

Para explorar la estructura de análisis de dependencias, podemos usar los atributos de la clase Token. Usando sus atributos ancestrales e hijos, podemos obtener los tokens de los que depende este token y los tokens que dependen de él, respectivamente. 

In [None]:
for token in doc:
 print(token.text)
 ancestors = [t.text for t in token.ancestors]
 print(ancestors)

Para ver todos los tokens secundarios, use el siguiente código:

In [None]:
for token in doc:
 print(token.text)
 children = [t.text for t in token.children]
 print(children)

También podemos ver el subárbol en el que está el token:

In [None]:
for token in doc:
 print(token.text)
 subtree = [t.text for t in token.subtree]
 print(subtree)

**Intentemos en español**

In [None]:
import es_core_news_sm
nlp = es_core_news_sm.load()
# Definimos una oración
sentence = "Los ordenadores son inútiles. Sólo pueden darte respuestas"
# cargamos el motor de spacy
nlp = spacy.load('es_core_news_sm')
# procesamos la oración
doc = nlp(sentence)

In [None]:
for token in doc:
 print(token.text, "\t", token.dep_, "\t", spacy.explain(token.dep_))

In [None]:
for token in doc:
 print(token.text)
 ancestors = [t.text for t in token.ancestors]
 print(ancestors)

In [None]:
for token in doc:
 print(token.text)
 subtree = [t.text for t in token.subtree]
 print(subtree)

## Dividir frases en cláusulas

Cuando trabajamos con texto, frecuentemente tratamos con oraciones compuestas (oraciones con dos partes que son igualmente importantes) y complejas (oraciones con una parte dependiendo de otra). A veces es útil dividir estas oraciones compuestas en sus cláusulas componentes para facilitar su procesamiento

In [None]:
# importamos el paquete
import spacy
# cargamos el motor
nlp = spacy.load('en_core_web_sm')
# definimos la oracion
sentence = "He eats cheese, but he won't eat ice cream."
# Procesamos la oración
doc = nlp(sentence)

In [None]:
# Imprimimos la estructura de la oración
for token in doc:
 ancestors = [t.text for t in token.ancestors]
 children = [t.text for t in token.children]
 print(token.text, "\t", token.i, "\t",  token.pos_, "\t", token.dep_, "\t",  ancestors, "\t", children)

Usaremos la siguiente función para encontrar el token raíz de la oración, que suele ser el verbo principal. En los casos en que hay una cláusula dependiente, es el verbo de la cláusula independiente:

In [None]:
def find_root_of_sentence(doc):
  root_token = None
  for token in doc:
    if (token.dep_ == "ROOT"):
      root_token = token
  return root_token

In [None]:
# Símbolo raíz
root_token = find_root_of_sentence(doc)

In [None]:
#  función para encontrar los otros verbos en la oración:
def find_other_verbs(doc, root_token):
  other_verbs = []
  for token in doc:
    ancestors = list(token.ancestors)
    if (token.pos_ == "VERB" and len(ancestors) == 1 and ancestors[0] == root_token):
      other_verbs.append(token)
  return other_verbs

In [None]:
# Encontramos los verbos restantes:
other_verbs = find_other_verbs(doc, root_token)

In [None]:
# función para encontrar los espacios de las fichas para cada verbo:
def get_clause_token_span_for_verb(verb, doc, all_verbs):
  first_token_index = len(doc)
  last_token_index = 0
  this_verb_children = list(verb.children)
  for child in this_verb_children:
    if (child not in all_verbs):
      if (child.i < first_token_index):
        first_token_index = child.i
      if (child.i > last_token_index):
        last_token_index = child.i
  return(first_token_index, last_token_index)

Reuniremos todos los verbos en una matriz y procesaremos cada uno usando la función precedente. Esto devolverá una tupla de índices de inicio y fin para la cláusula de cada verbo:

In [None]:
# Organizamos una matriz con la información
token_spans = [] 
all_verbs = [root_token] + other_verbs
for other_verb in all_verbs:
  (first_token_index, last_token_index) = get_clause_token_span_for_verb(other_verb, doc, all_verbs)
  token_spans.append((first_token_index, last_token_index))

Usando los índices de inicio y fin, ahora podemos armar los rangos de tokens para cada cláusula. Ordenamos la lista sentence_clauses al final para que las cláusulas estén en el orden en que aparecen en la oración:

In [None]:
sentence_clauses = []
for token_span in token_spans:
  start = token_span[0]
  end = token_span[1]
  if (start < end):
    clause = doc[start:end]
    sentence_clauses.append(clause)
sentence_clauses = sorted(sentence_clauses, key=lambda tup: tup[0])

In [None]:
# imprimimos el resultado final.
clauses_text = [clause.text for clause in sentence_clauses]
print(clauses_text)

## Extracción de trozos sustantivos

Los fragmentos sustantivos son conocidos en la lingüística como frases sustantivos. Representan sustantivos y cualquier palabra que dependa y acompañe sustantivos.

In [None]:
# Importamos paquete
import spacy
# cargamos el texto
text = read_text_file("codigo.txt")

In [None]:
# Iniciamos el motor de spacy
nlp = es_core_news_sm.load()
nlp = spacy.load('es_core_news_sm')
doc = nlp(text)

In [None]:
# Los fragmentos sustantivos están contenidos en la variable de clase doc.noun_chunks.
for noun_chunk in doc.noun_chunks:
 print(noun_chunk.text)

Algunas de las propiedades básicas de los fragmentos sustantivos son sus compensaciones de principio y fin.

In [None]:
for noun_chunk in doc.noun_chunks:
 print(noun_chunk.text, "\t", noun_chunk.start, "\t", 
 noun_chunk.end)

También podemos imprimir la frase donde pertenece el sustantivo chunk:

In [None]:
for noun_chunk in doc.noun_chunks:
 print(noun_chunk.text, "\t", noun_chunk.sent)

Al igual que una oración, cualquier fragmento sustantivo incluye una raíz, que es el token del que dependen todos los demás tokens. En una frase sustantivo, ese es el sustantivo:

In [None]:
for noun_chunk in doc.noun_chunks:
 print(noun_chunk.text, "\t", noun_chunk.root.text)

## Entidades extractoras y relaciones

Tripleta: entidad - relación - objeto

In [None]:
# Importamos paquetes
import spacy
import textacy

In [None]:
def find_root_of_sentence(doc):
    root_token = None
    for token in doc:
        if (token.dep_ == "ROOT"):
            root_token = token
    return root_token

In [None]:
# cargamos el motor
nlp = spacy.load('en_core_web_sm')

In [None]:
# definimos la oración
sentences = ["All living things are made of cells.", 
 "Cells have organelles."]

Para encontrar frases verbales, necesitaremos compilar patrones similares a expresiones regulares para la parte de las combinaciones de voz de las palabras que componen la frase verbal. Si imprimimos partes del habla de frases verbales de las dos oraciones anteriores, veremos que la parte de las secuencias del habla son AUX, VERB, ADP, y AUX

In [None]:
verb_patterns = [[{"POS":"AUX"}, {"POS":"VERB"}, {"POS":"ADP"}], [{"POS":"AUX"}]]

In [None]:
# La función contains_root comprueba si una frase verbal contiene la raíz de la frase:
def contains_root(verb_phrase, root):
  vp_start = verb_phrase.start
  vp_end = verb_phrase.end
  if (root.i >= vp_start and root.i <= vp_end):
    return True
  else:
    return False

In [None]:
# La función get_verb_phrases obtiene las frases verbales de un objeto spaCy Doc:
def get_verb_phrases(doc):
  root = find_root_of_sentence(doc)
  verb_phrases = textacy.extract.matches.token_matches(doc, verb_patterns)
  new_vps = []
  for verb_phrase in verb_phrases:
    if (contains_root(verb_phrase, root)):
      new_vps.append(verb_phrase)
  return new_vps                             

In [None]:
# La función longer_verb_phrase encuentra la frase verbal más larga:  
def longer_verb_phrase(verb_phrases):
  longest_length = 0
  longest_verb_phrase = None
  for verb_phrase in verb_phrases:
    if len(verb_phrase) > longest_length:
      longest_verb_phrase = verb_phrase
  return longest_verb_phrase                                                              

In [None]:
# La función find_noun_phrase buscará frases de sustantivo en el lado izquierdo o derecho de la frase del verbo principal:
def find_noun_phrase(verb_phrase, noun_phrases, side):
  for noun_phrase in noun_phrases:
    if (side == "left" and noun_phrase.start < verb_phrase.start):
      return noun_phrase
    elif (side == "right" and noun_phrase.start > verb_phrase.start):
      return noun_phrase

En esta función, utilizaremos las funciones anteriores para encontrar trillizos de objeto-relación en las oraciones:

In [None]:
def find_triplet(sentence):
  doc = nlp(sentence)
  verb_phrases = get_verb_phrases(doc)
  noun_phrases = doc.noun_chunks
  verb_phrase = None
  if (len(verb_phrases) > 1):
    verb_phrase = longer_verb_phrase(list(verb_phrases))
  else:
    verb_phrase = verb_phrases[0]
  left_noun_phrase = find_noun_phrase(verb_phrase, noun_phrases, "left")
  right_noun_phrase = find_noun_phrase(verb_phrase, noun_phrases, "right")
  return (left_noun_phrase, verb_phrase, right_noun_phrase)

In [None]:
# imprimimos el resultado
#for sentence in sentences:
#  (left_np, vp, right_np) = find_triplet(sentence)
#  print(left_np, "\t", vp, "\t", right_np)

## Búsqueda de referencias - resolución anáfora

Cuando trabajamos en problemas de extracción de entidades y relaciones del texto, nos enfrentamos con el texto real, y muchas de nuestras entidades podrían terminar siendo extraídas como pronombres, como ella o él. Con el fin de abordar este tema, tenemos que realizar la resolución de anafora, o el proceso de sustitución de los pronombres con sus referentes.

Revisar el archivo **anafora.py**

# Representando texto - Capturando semántica

Representar el significado de palabras, frases y oraciones en una forma que sea comprensible para las computadoras es uno de los pilares del procesamiento de la PNL. El aprendizaje automático, por ejemplo, representa cada punto de datos como un vector de tamaño fijo, y nos enfrentamos a la cuestión de cómo convertir palabras y oraciones en vectores. Casi cualquier tarea de PNL comienza representando el texto en alguna forma numérica.

In [59]:
## Requerimientos técnicos
!pip install sklearn
!pip install gensim
!pip install pickle
!pip install langdetect
!conda install pytorch torchvision cudatoolkit=10.2 -c pythorch
!pip install transformers
!pip install -U sentence-transformers
!pip install whoosh

[31mERROR: Could not find a version that satisfies the requirement pickle (from versions: none)[0m
[31mERROR: No matching distribution found for pickle[0m
Collecting langdetect
  Downloading langdetect-1.0.9.tar.gz (981 kB)
[K     |████████████████████████████████| 981 kB 28.1 MB/s 
Building wheels for collected packages: langdetect
  Building wheel for langdetect (setup.py) ... [?25l[?25hdone
  Created wheel for langdetect: filename=langdetect-1.0.9-py3-none-any.whl size=993242 sha256=1bb75c533544a62936a51f6cec17dc1868a51abce4947b0d55dee9d93504fce1
  Stored in directory: /root/.cache/pip/wheels/c5/96/8a/f90c59ed25d75e50a8c10a1b1c2d4c402e4dacfa87f3aff36a
Successfully built langdetect
Installing collected packages: langdetect
Successfully installed langdetect-1.0.9
/bin/bash: conda: command not found
Collecting transformers
  Downloading transformers-4.12.5-py3-none-any.whl (3.1 MB)
[K     |████████████████████████████████| 3.1 MB 25.6 MB/s 
[?25hCollecting tokenizers<0.11,>=0.

## Colocando documentos en una bolsa de palabras

In [60]:
# Importando los módulos necesarios
from sklearn.feature_extraction.text import CountVectorizer

In [61]:
def read_text_file(filename):
    file = open(filename, "r", encoding="utf-8") 
    return file.read()

def preprocess_text(text):
    text = text.replace("\n", " ")
    return text

def divide_into_sentences_nltk(text):
    sentences = tokenizer.tokenize(text)
    return sentences

In [65]:
# Definir la función get_sentences
def get_sentences(filename):
 text = read_text_file(filename)
 text = preprocess_text(text)
 sentences = divide_into_sentences_nltk(text)
 return sentences

In [66]:
# Función para obtener el vector y la matriz final
def create_vectorizer(sentences):
 vectorizer = CountVectorizer()
 X = vectorizer.fit_transform(sentences)
 return (vectorizer, X)

In [68]:
# Utilizamos las funciones en el texto
sentences = get_sentences("coding.txt")
(vectorizer, X) = create_vectorizer(sentences)
print(X)

  (0, 20)	1
  (0, 21)	1
  (0, 4)	1
  (0, 13)	1
  (0, 26)	1
  (0, 16)	1
  (0, 17)	1
  (0, 5)	1
  (0, 34)	1
  (0, 6)	1
  (1, 13)	1
  (1, 6)	2
  (1, 14)	1
  (1, 31)	1
  (1, 15)	1
  (1, 25)	1
  (1, 29)	1
  (1, 28)	2
  (1, 10)	1
  (1, 12)	1
  (1, 11)	1
  (1, 18)	1
  (1, 19)	1
  (1, 23)	1
  (1, 8)	1
  (2, 4)	1
  (2, 6)	1
  (2, 28)	1
  (2, 0)	1
  (2, 30)	1
  (2, 7)	1
  (2, 27)	1
  (2, 24)	1
  (2, 3)	1
  (2, 22)	1
  (2, 33)	1
  (2, 2)	1
  (2, 1)	1
  (2, 32)	1
  (2, 9)	1


In [69]:
# Imprimimos la matriz
denseX = X.todense()
print(denseX)

[[0 0 0 0 1 1 1 0 0 0 0 0 0 1 0 0 1 1 0 0 1 1 0 0 0 0 1 0 0 0 0 0 0 0 1]
 [0 0 0 0 0 0 2 0 1 0 1 1 1 1 1 1 0 0 1 1 0 0 0 1 0 1 0 0 2 1 0 1 0 0 0]
 [1 1 1 1 1 0 1 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 1 1 0 1 0 1 1 0]]


In [72]:
# Podemos ver todas las palabras en el conjunto de documentos
print(vectorizer.get_feature_names())


['allows', 'and', 'apps', 'as', 'coding', 'communicating', 'computer', 'create', 'functions', 'games', 'give', 'in', 'instructions', 'is', 'it', 'language', 'method', 'of', 'order', 'perform', 'put', 'simply', 'software', 'specific', 'such', 'that', 'the', 'things', 'to', 'understands', 'us', 'using', 'video', 'websites', 'with']




In [75]:
# Definimos una oración nueva
new_sentence = "I had seen little of Holmes lately."
new_sentence_vector = vectorizer.transform([new_sentence])

In [76]:
# Imprimimos los resultados
print(new_sentence_vector)
print(new_sentence_vector.todense())

  (0, 17)	1
[[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]]


**Hay más**

In [78]:
# Procesamos el texto
filename="coding.txt"
text = read_text_file(filename)
text = preprocess_text(text)
sentences = divide_into_sentences_nltk(text)
# Creamos la clase vectorizer.
vectorizer = CountVectorizer(stop_words='english')
# Usamos el objeto vectorizer para obtener la matriz
X = vectorizer.fit_transform(sentences)
# Imprimimos el vocabulario
print(vectorizer.get_feature_names())

['allows', 'apps', 'coding', 'communicating', 'computer', 'create', 'functions', 'games', 'instructions', 'language', 'method', 'order', 'perform', 'simply', 'software', 'specific', 'things', 'understands', 'using', 'video', 'websites']




Ahora podemos aplicar el nuevo vectorizador a una de las oraciones del conjunto original y usar la función build_analyzer para ver más claramente el análisis de la oración:

In [84]:
new_sentence = "Coding is the a method of communicating with a computer. "
new_sentence_vector = vectorizer.transform([new_sentence])
analyze = vectorizer.build_analyzer()
print(analyze(new_sentence))

['coding', 'method', 'communicating', 'computer']


In [85]:
# imprimimos el vector de la frase:
print(new_sentence_vector)

  (0, 2)	1
  (0, 3)	1
  (0, 4)	1
  (0, 10)	1
