# Intro

Los datos vienen en muchas formas diferentes: marcas de tiempo, lecturas de sensores, imágenes, etiquetas categóricas y mucho más. Pero el texto sigue siendo uno de los datos más valiosos que existen para quienes saben cómo usarlo.

En este curso sobre **Procesamiento del lenguaje natural (PNL)**, utilizará la biblioteca líder de PNL (spaCy) para realizar algunas de las tareas más importantes al trabajar con texto.

Al final, podrá utilizar spaCy para:

Procesamiento de texto básico y coincidencia de patrones
Creación de modelos de aprendizaje automático con texto
Representar texto con incrustaciones de palabras que capturan numéricamente el significado de palabras y documentos

Para aprovechar al máximo este curso, necesitará algo de experiencia con el aprendizaje automático. Si no tiene experiencia con scikit-learn, consulte [Introducción al aprendizaje automático](https://www.kaggle.com/learn/intro-to-machine-learning) y [Aprendizaje automático intermedio](https://www.kaggle.com/learn/intermediate-machine-learning) para aprender los fundamentos.

## NLP with spaCy

spaCy es la biblioteca líder para NLP y rápidamente se ha convertido en uno de los frameworks de Python más populares. La mayoría de la gente lo encuentra intuitivo y tiene una excelente [documentación](https://spacy.io/usage).

spaCy se basa en ** modelos ** que son específicos del idioma y vienen en diferentes tamaños. Puede cargar un modelo spaCy con `spacy.load`.

Por ejemplo, así es como cargaría el modelo de idioma inglés.

In [None]:
# Instalar la libreria y el diccionario en espanol
#!pip install deplacy
#!python - m spacy download es_core_news_sm

In [1]:
# install this line --> ##python3 -m spacy download en_core_web_sm

import spacy
nlp = spacy.load('en_core_web_sm')


2021-10-13 17:09:56.785862: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /home/javier/catkin_ws/devel/lib:/opt/ros/noetic/lib
2021-10-13 17:09:56.785895: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above cudart dlerror if you do not have a GPU set up on your machine.


In [19]:
print(nlp.Defaults.stop_words)

{'and', 'are', 'amongst', 'ten', 'up', 'now', 'were', "'m", 'these', 'noone', 'once', 'well', 'call', 'beyond', '‘ll', 'thus', 'onto', 'nobody', 'top', 'mine', 'six', 'made', 'could', 'again', 'next', 'serious', 'several', 'then', 'elsewhere', 'nor', 'yet', 'anything', 'thereby', 'few', 'us', 'until', 'move', 'someone', 'get', 'others', 'just', 'afterwards', 'i', 'so', 'same', 'to', 'name', 'at', 'be', 'whenever', 'ca', 'whole', 'doing', 'itself', 'cannot', 'thereupon', 'behind', 'through', 'herein', 'within', 'using', 'eleven', 'no', '’d', 'somehow', 'throughout', 'side', '’m', 'its', 'first', 'regarding', 'fifty', 'not', 'take', 'off', '’re', 'anyway', 'whither', 'why', 'for', 'toward', 'about', 'it', 'whereby', 'wherein', 'anyhow', 'himself', 'ourselves', 'before', 'his', 'indeed', 'full', 'a', 'keep', 'perhaps', 'only', 'ever', 'too', 'hereupon', '‘m', 'five', 'than', 'some', '‘re', 'seems', 'except', 'somewhere', '‘s', 'them', 'alone', 'own', 'two', 'also', 'give', 'one', 'else', 

In [20]:
len(nlp.Defaults.stop_words)


326

In [22]:
nlp.vocab['form'].is_stop


False

In [None]:
# Agregar una palabra a stop_words
#nlp.Defaults.stop_words.add('form')
# nlp.vocab['forma'].is_stop = True
# nlp.vocab['forma'].is_stop
# len(nlp.Defaults.stop_words)
#


Con el modelo cargado, puede procesar texto como este:

In [6]:
doc = nlp("Tea is healthy and calming, don't you think?. It isn't")
doc

Tea is healthy and calming, don't you think?. It isn't

Hay muchas cosas que puede hacer con el objeto `doc` que acaba de crear.

# Tokenización

Esto devuelve un objeto de documento que contiene ** tokens **. Un token es una unidad de texto en el documento, como palabras individuales y puntuación. SpaCy divide contracciones como "no" en dos símbolos, "no" y "no". Puede ver los tokens iterando a través del documento.

In [7]:
for token in doc:
    print(token)

Tea
is
healthy
and
calming
,
do
n't
you
think
?
.
It
is
n't


In [8]:
for token in doc:
  print(f'{token.pos_:{10}} {token}')


NOUN       Tea
AUX        is
ADJ        healthy
CCONJ      and
VERB       calming
PUNCT      ,
AUX        do
PART       n't
PRON       you
VERB       think
PUNCT      ?
PUNCT      .
PRON       It
AUX        is
PART       n't


In [9]:
for frase in doc.sents:
  print(f'{frase}')

Tea is healthy and calming, don't you think?.
It isn't


In [17]:
for componente in doc.noun_chunks:
  print(componente)


Tea
you
It


In [18]:
from spacy import displacy
displacy.render(doc, style='dep', options={'distance': 100})

La iteración a través de un documento le proporciona objetos token. Cada uno de estos tokens viene con información adicional. En la mayoría de los casos, los importantes son `token.lemma_` y` token.is_stop`.

# Procesamiento previo de texto

Hay algunos tipos de preprocesamiento para mejorar la forma en que modelamos con palabras. El primero es "lematizar".
El "lema" de una palabra es su forma básica. Por ejemplo, "caminar" es el lema de la palabra "caminar". Entonces, cuando lematices la palabra caminar, la convertirías en caminar.

También es común eliminar las palabras vacías. Las palabras vacías son palabras que aparecen con frecuencia en el idioma y no contienen mucha información. Las palabras vacías en inglés incluyen "the", "is", "and", "but", "not".

Con un token spaCy, `token.lemma_` devuelve el lema, mientras que` token.is_stop` devuelve un booleano `True` si el token es una palabra no válida (y` False` en caso contrario).

In [23]:
print(f"Token \t\tLemma \t\tStopword".format('Token', 'Lemma', 'Stopword'))
print("-"*40)
for token in doc:
    print(f"{str(token)}\t\t{token.lemma_}\t\t{token.is_stop}")

    ## Stopword --> palabra vacia

Token 		Lemma 		Stopword
----------------------------------------
Tea		tea		False
is		be		True
healthy		healthy		False
and		and		True
calming		calm		False
,		,		False
do		do		True
n't		n't		True
you		you		True
think		think		False
?		?		False
.		.		False
It		it		True
is		be		True
n't		n't		True


¿Por qué son importantes los lemas y la identificación de palabras vacías? Los datos de idiomas tienen mucho ruido mezclado con contenido informativo. En la oración anterior, las palabras importantes son té, saludable y calmante. Eliminar las palabras vacías podría ayudar al modelo predictivo a centrarse en palabras relevantes. Lematizar también ayuda al combinar múltiples formas de la misma palabra en una forma básica ("calmar", "calma", "calmado" cambiarían a "calmado").

Sin embargo, lematizar y eliminar palabras vacías puede hacer que sus modelos tengan un peor rendimiento. Por lo tanto, debe tratar este procesamiento previo como parte de su proceso de optimización de hiperparámetros.

# Pattern Matching
Otra tarea común de PNL es hacer coincidir tokens o frases dentro de fragmentos de texto o documentos completos. Puede hacer coincidir patrones con expresiones regulares, pero las capacidades de coincidencia de spaCy tienden a ser más fáciles de usar.

Para hacer coincidir tokens individuales, crea un Matcher. Cuando desea hacer coincidir una lista de términos, es más fácil y eficiente usar PhraseMatcher. Por ejemplo, si desea encontrar dónde aparecen los diferentes modelos de teléfonos inteligentes en algún texto, puede crear patrones para los nombres de modelos que le interesen. Primero crea el propio PhraseMatcher.

In [24]:
from spacy.matcher import PhraseMatcher
matcher = PhraseMatcher(nlp.vocab, attr='LOWER')
## diccionario nlp.vocab, minusculas LOWER

El comparador se crea utilizando el vocabulario de su modelo. Aquí estamos usando el modelo en inglés pequeño que cargó anteriormente. La configuración de attr = 'LOWER' coincidirá con las frases en el texto en minúsculas. Esto proporciona una coincidencia que no distingue entre mayúsculas y minúsculas.

A continuación, crea una lista de términos para que coincidan en el texto. El comparador de frases necesita los patrones como objetos de documento. La forma más fácil de obtenerlos es con una lista de comprensión utilizando el modelo nlp.

In [25]:
terms = ['Galaxy Note', 'iPhone 11', 'iPhone XS', 'Google Pixel']
patterns = [nlp(text) for text in terms]
##creamos lista de compresnción patterns

In [26]:
patterns

[Galaxy Note, iPhone 11, iPhone XS, Google Pixel]

In [28]:
matcher.add("TerminologyList", patterns)

Luego, crea un documento a partir del texto para buscar y usa el comparador de frases para encontrar dónde ocurren los términos en el texto.

In [14]:
# Borrowed from https://daringfireball.net/linked/2019/09/21/patel-11-pro
text_doc = nlp("Glowing review overall, and some really interesting side-by-side "
               "photography tests pitting the iPhone 11 Pro against the "
               "Galaxy Note 10 Plus and last year’s iPhone XS and Google Pixel 3.") 
matches = matcher(text_doc)
print(matches)

[(3766102292120407359, 17, 19), (3766102292120407359, 22, 24), (3766102292120407359, 30, 32), (3766102292120407359, 33, 35)]


Las coincidencias aquí son una tupla de la identificación de coincidencia y las posiciones del inicio y el final de la frase.

In [15]:
match_id, start, end = matches[0]
print(nlp.vocab.strings[match_id], text_doc[start:end])

TerminologyList iPhone 11


In [16]:
#probar con las otras posiciones de la lista
match_id, start, end = matches[3]
print(nlp.vocab.strings[match_id], text_doc[start:end])


TerminologyList Google Pixel


# Your Turn
Ahora que ha visto algunos usos de SpaCy para PNL, es su turno de probarlo **[analyze Yelp reviews](https://www.kaggle.com/kernels/fork/6061023)**.

---




*Have questions or comments? Visit the [Learn Discussion forum](https://www.kaggle.com/learn-forum/161466) to chat with other Learners.*