<a href="https://colab.research.google.com/github/AnaliaLeyez/AnaliaLeyez/blob/main/Copia_de_Semana_06_Tema_02_Spacy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# [spacy](https://spacy.io/)


Librería de Python para el procesamiento del lenguaje natural que esparticularmente rápido e intuitivo, proporciona modelos preentrenados en diferentes lenguajes, lo cual junto a una sintaxis clara hace que sea ideal para principiantes en el campo de la NLP.

Los modelos pre entrenados utilizan la aquitectura de transformers.

## Instalación

In [None]:
!pip install spacy

## Versión

In [None]:
import spacy
spacy.__version__

'3.5.2'

In [None]:
# para generar nuestro propio lenguaje
# from spacy.tokenizer import Tokenizer
# from spacy.lang.es import Spanish
# nlp_spanish = Spanish()

## [Configuración y descarga de modelos](https://spacy.io/models)

Por defecto viene configurada para trabajar en inglés por lo tanto debemos descargar o utilizar librerías de español.

En nuestro caso vamos a descargar un modelo sencillo pero podemos utilizar otros más potentes.


In [None]:
# descargo el modelo
!python -m spacy download es_core_news_sm

# importo el modelo
import spacy
nlp_es_sm = spacy.load("es_core_news_sm")

## [Tokenizador y tokens](https://www.nltk.org/api/nltk.tokenize.html)

Un tokenizador es una herramienta que se utiliza en el procesamiento del lenguaje natural para dividir un texto en palabras individuales o en frases más pequeñas llamadas tokens. El proceso de tokenización implica la separación de signos de puntuación y caracteres especiales y la separación de las palabras en un texto.

Existen varios tipos de tokenizadores, algunos dividen las palabras en sub palabras.


Algunas propiedas que son comunes a los string

| Función | Descripción |
| --- | --- |
| lower_ | Devuelve el token en minúscula |
| is_alpha | Contiene letras del alfabeto |
| is_ascii | Posee todos caracteres ASCII (128) |
| is_digit | Es un dígito |
| is_lower | Está en minúscula? |
| is_upper | Está en mayúscula? |
| is_title | Está en título o capitalizado? |
| is_punct | Es un caracter de puntuación? |
| is_left_punct | Es un caracter de puntuación izquierdo? Por ejemplo ( [ { |
| is_right_punct | Es un caracter de puntuación izquierdo? Por ejemplo ) ] } |
| is_sent_start | Está comenzando una sentencia u oración? |
| is_sent_end | Está finalizando una sentencia u oración? |
| is_space | Es un espacio o tab |
| is_bracket | Es un corchete? |
| is_quote | Es una cita? |
| is_currency | Es un simbolo de moneda? |
| like_url | Es una url? |
| like_num | Es un número? |
| like_email | Es un email? |
| is_oov | Está fuera del vocabulario del idioma? |
| is_stop | Es un stop word? |

In [None]:
texto = """La inteligencia artificial (IA), en el contexto de las ciencias de la
computación, es el conjunto de sistemas o combinación de algoritmos, cuyo
propósito es crear máquinas que imitan la inteligencia humana para realizar
tareas y pueden mejorar conforme la información que recopilan. La inteligencia
artificial no tiene como finalidad reemplazar a los humanos, sino mejorar
significativamente las capacidades y contribuciones humanas. Se hizo presente
poco después de la Segunda Guerra Mundial, y el nombre lo acuñó en 1956 el
informático John McCarthy, en la Conferencia de Dartmouth."""
# Fijense como separó las palabras, los caracteres especiales tienen su propio
# lugar en la lista, no están pegadas a las palabras.

# La función de tokenizador me devuelve algo del tipo Doc (https://spacy.io/api/doc)
# El objeto Doc contiene un array de structs TokenC. Los objetos Token y Span a
# nivel Python son vistas de esta matriz, es decir, no poseen los datos en sí.
text_doc = nlp_es_sm(texto)

In [None]:
# vamos a ver los tokens
print([t for t in text_doc])

### Propiedades de un token

#### Obteniendo sentencias u oraciones

In [None]:
# Para obtener las sentencias debemos pedirle al Doc la propiedad sents
print([ sent for sent in text_doc.sents])

#### Obteniendo la palabra y la sentencia a la que pertenece

In [None]:
# Para obtener esto, debemos recorrer el Doc y mostrar la palabra y la sentencia relacionada
# Notar que estmos mostrando una tupla donde el primer elemento es la palabra y
# el segundo elemento es la sentencia a la que pertenece esa palabra.
print([ (word, word.sent) for word in text_doc])

#### Obteniendo el id

In [None]:
# Para cada palabra se genera un id único.
# En este caso mostramos el id y la palabra relacionada
print([(word.orth, word.orth_) for word in text_doc])


#### Obeniendo el tensor

Cada palabra tiene asociado un Tensor, su representación es mediante un objeto NumPy array. Este Tensor posiciona la palabra en un espacio vectorial de n dimensiones.

In [None]:
for word in text_doc:
  print(f"{word}: {word.tensor}" )

#### Obteniendo la posición dentro de la sentencia

In [None]:
# Con la propiedad i obtenemos la posición del token dentro de la sentencia.
# Con la propiedad idx obtenemos la posición del caracter dentro de la sentencia.
# El idx me permite hacer slice del texto
print([(word, word.i, word.idx) for word in text_doc])

print()
print("Mostramos el slice según los primeros tokens:")
print("Sentencia: text_doc[0].idx - text_doc[1].idx: texto[text_doc[0].idx:text_doc[1].idx]")
print(f"{text_doc[0].idx} - {text_doc[1].idx}: {texto[text_doc[0].idx:text_doc[1].idx]}")
print()
print("Sentencia: text_doc[1].idx - text_doc[2].idx: texto[text_doc[1].idx:text_doc[2].idx]")
print(f"{text_doc[1].idx} - {text_doc[2].idx}: {texto[text_doc[1].idx:text_doc[2].idx]}")


#### Obteniendo la entidad o ner (name enetity recognition)

Identifica y clasifica nombres de entidades en un texto en categorías predefinidas, como nombres de personas, organizaciones, lugares, fechas, cantidades, entre otros.

El objetivo del NER es extraer información relevante del texto, identificando las entidades nombradas y clasificándolas según su tipo, para luego poder analizarlas y utilizarlas en diferentes aplicaciones, como la extracción de información, la recuperación de información, la traducción automática, la resumen de textos, entre otros.

Por ejemplo, si se tiene un texto que menciona el nombre "Steve Jobs", un NER identificaría que "Steve Jobs" es una entidad nombrada de tipo "persona". Si el texto también menciona el nombre de una empresa como "Apple", el NER identificaría que "Apple" es una entidad nombrada de tipo "organización".


In [None]:
# Para este modelo sencillo podemos ver que solo identifica MISC y PER
print([(word, word.ent_type_) for word in text_doc])

#### Obteniendo el lemma (lemmatizer)

Convierte las palabras en su forma base, conocida como "lema". El lema es la forma de la palabra que se encuentra en un diccionario y representa su significado principal.

El proceso de lematización es similar a la reducción de una palabra a su raíz, pero en lugar de simplemente eliminar los sufijos y prefijos, el lematizador utiliza un conocimiento más profundo del idioma para identificar la forma base correcta de una palabra en función del contexto en el que se utiliza.

Por ejemplo:

| Palabra | Lemma |
| --- | --- |
| corriendo | correr |
| corre | correr |
| cantando | cantar |
| comiendo | comer |
| gatos | gato |
| mejores | mejor |
| hablando | hablar |
| felicidad | felicidad |
| leyendo | leer |
| bailando | bailar |
| trabajadores | trabajador |

`Spacy no posee con stem o stemming, lo vamos a ver con nltk`.


In [None]:
print([(word, word.lemma_) for word in text_doc])

#### Obteniendo la normalización del token



In [None]:
print([(word, word.norm_) for word in text_doc])

#### Obteniendo el prefijo o sufijo

El prefijo viene configurado por defecto para obtener el primer caracter.

El sufijo viene configurado por defecto para obtener los últimos 3 caracter.

In [None]:
print([(word, word.prefix_, word.suffix_) for word in text_doc])

#### [Análisis sintáctico o part of speech](https://universaldependencies.org/u/pos/)



In [None]:
print([(word, word.pos_) for word in text_doc])

In [None]:
from spacy import displacy
displacy.render(text_doc, style="dep", jupyter=True, options={'distance': 90})


#### Obteniendo el idioma del token

In [None]:
print([(word, word.lang_) for word in text_doc])

#### Obteniendo la posición

La propiedad i me da la posición de la palabra dentro de la lista de tokens.

La propiedad idx me da la posición del caracter donde comienza la palabra.

In [None]:
print([(word, word.i, word.idx) for word in text_doc])

#### Obteniendo la probabilidad del sentimiento

In [None]:
print([(word, word.sentiment) for word in text_doc])

### Extensiones

Las extensiones me permite agregar, quitar, verificar o sobre escribir funciones o propiedades de un token.

#### Agregando funciones

In [None]:
# Importamos el objeto Token
from spacy.tokens import Token

# definimos uns función que me retorna True si es una preposición
def is_preposition(token: Token):
  # transforme el texto del token a lower case y verifico si está dentro de
  # la lista de presposiciones.
  # En este caso con el guión bajo "_" accedo a las extensiones
  return token.lower_ in token._.PREPOSITIONS

# Agregamos una propiedad al token que es una lista con todas la preposiciones
Token.set_extension("PREPOSITIONS", default=[
    "a", "ante", "bajo", "cabe", "con", "contra", "de", "desde", "durante",
    "en", "entre", "hacia", "hasta", "mediante", "para", "por", "según", "sin",
    "so", "sobre", "tras", "versus", "vía"])

# Agregmos una función que verifica si es una preposición
Token.set_extension("is_preposition",getter=is_preposition)

#### Utilizando extensiones

In [None]:
# t = nlp_es_sm(texto)
print(f"El token a verificar es ({text_doc[0]}): " , text_doc[0]._.is_preposition)
print(f"El token a verificar es ({text_doc[7]}): " , text_doc[7]._.is_preposition)

#### Obteniendo funciones

In [None]:
# retorna una tupla con los valores de (default, method, getter, setter)
print("Está declarada la extesión 'is_preposition': ", Token.get_extension("is_preposition"))
print("Está declarada la extesión 'PREPOSITIONS': ", Token.get_extension("PREPOSITIONS"))
try:
  print("Está declarada la extesión 'is_prepositio' (NO EXISTE): ", Token.get_extension("is_prepositio"))
except KeyError:
  print("La documentación dice que tiene que lanzar una excepción")

#### Verificando funciones

In [None]:
print("Está declarada la extesión 'is_preposition': ", Token.has_extension("is_preposition"))
print("Está declarada la extesión 'PREPOSITIONS': ", Token.has_extension("PREPOSITIONS"))

#### Quitando fundiones

In [None]:
# retorna una tupla con los valores de (default, method, getter, setter)
# Quitamos las extensiones que definimos anteriormente
print("Quitando la extensión 'is_preposition': ", Token.remove_extension("is_preposition"))
print("Quitando la extensión 'PREPOSITIONS': ", Token.remove_extension("PREPOSITIONS"))

### Funciones de un token

Tener en cuenta que trabajan de acuerdo al `análisis sintáctico`.

In [None]:
print(text_doc)

print()
print("Obtiene los vecinos. Por defecto trae 1 vecino.")
print("Sentencia: text_doc[7].nbor(1)")
print(f"El token a verificar es ({text_doc[7]}): " , text_doc[7].nbor(1))

print()
print("Trae los vecinos a la izquierda.")
print("Sentencia: list(text_doc[12].lefts)")
print(f"El token a verificar es ({text_doc[12]}): " , list(text_doc[12].lefts))

print()
print("Trae los vecinos a la derecha.")
print("Sentencia: list(text_doc[1].rights)")
print(f"El token a verificar es ({text_doc[1]}): " , list(text_doc[1].rights))

print()
print("")
print("Trae cuantos vecinos tiene a la izquierda.")
print("Sentencia: text_doc[16].n_lefts")
print(f"El token a verificar es ({text_doc[16]}): " , text_doc[16].n_lefts)

print()
print("Trae cuantos vecinos tiene a la derecha.")
print("Sentencia: text_doc[9].n_rights")
print(f"El token a verificar es ({text_doc[9]}): " , text_doc[9].n_rights)

print()
print("Contiene una secuencia de token desencadenantes.")
print("Sentencia: list(text_doc[1].subtree)")
print(f"El token a verificar es ({text_doc[1]}): " , list(text_doc[1].subtree))

print()
print("Muestra las conjunciones")
print("Sentencia: list(text_doc[60].conjuncts)")
print(f"El token a verificar es ({text_doc[60]}): " , list(text_doc[60].conjuncts))

print()
print("Muestra el vector del token.")
print("Sentencia: text_doc[0].vector")
print(f"El token a verificar es ({text_doc[0]}): " , text_doc[0].vector)

print()
print("Calcula la normalización del vector.")
print("Sentencia: text_doc[0].vector_norm")
print(f"El token a verificar es ({text_doc[0]}): " , text_doc[0].vector_norm)

## Span

Cuando hacemos un slice de un Doc obtenemos un objeto Span que posee el conjunto de token del slice.

El Span es un subconjunto de token.

Poseen la particularidad de poseer extensiones y se trabajan de la misma forma que en los tokens pero con la particularidad que el objeto a importar para modificar es `from spacy.tokens import Span`.

In [None]:
spans = text_doc[5:65]

type(spans)

### Propiedades de un Span

#### Obteniendo el tensor del span

In [None]:
print("Span original (spans): \n", spans)
print()
print("Sentencia: spans.tensor")
print("Tiene el shape: ", spans.tensor.shape)
print("Posee 60 filas (una por cada token) y 96 columnas del modelo que lo genero.")
print("Obtenemos el siguiente resultado: \n", spans.tensor)

#### Obteniendo el número del token de donde comienza

In [None]:
print("Span original (spans): \n", spans)
print()
print()
print("Sentencia: spans.start")
print("Obtenemos el siguiente resultado: ",spans.start)

#### Obteniendo el número del token de donde finaliza

In [None]:
print("Span original (spans): \n", spans)
print()
print()
print("Sentencia: spans.end")
print("Obtenemos el siguiente resultado: ",spans.end)

#### Obteniendo el número del caracter de donde comienza

In [None]:
print("Span original (spans): \n", spans)
print()
print()
print("Sentencia: spans.start_char")
print("Obtenemos el siguiente resultado: ",spans.start_char)

#### Obteniendo el número del caracter de donde finaliza

In [None]:
print("Span original (spans): \n", spans)
print()
print()
print("Sentencia: spans.end_char")
print("Obtenemos el siguiente resultado: ",spans.end_char)

#### Obteniendo el texto del span

In [None]:
print("Span original (spans): \n", spans)
print()
print("Sentencia: spans.text")
print("Obtenemos el siguiente resultado: \n",spans.text)

#### Obteniendo el lemma

In [None]:
print("Span original (spans): \n", spans)
print()
print("Sentencia: spans.lemma_")
print("Obtenemos el siguiente resultado: \n",spans.lemma_)

#### Obteniendo la probabilidad del sentimiento

In [None]:
print("Span original (spans): \n", spans)
print()
print("Sentencia: spans.sentiment")
print("Obtenemos el siguiente resultado: ",spans.sentiment)

### Funciones de un span

Tener en cuenta que trabajan de acuerdo al `análisis sintáctico`.

Estás son las funciones principales.

In [None]:
print(spans)

print()
print("Obtiene los vecinos. Por defecto trae 1 vecino.")
print("Sentencia: spans[7].nbor(1)")
print(f"El token a verificar es ({spans[7]}): " , spans[7].nbor(1))

print()
print("Trae los vecinos a la izquierda.")
print("Sentencia: list(spans[7].lefts)")
print(f"El token a verificar es ({spans[7]}): " , list(spans[7].lefts))

print()
print("Trae los vecinos a la derecha.")
print("Sentencia: list(spans[7].rights)")
print(f"El token a verificar es ({spans[7]}): " , list(spans[7].rights))

print()
print("")
print("Trae cuantos vecinos tiene a la izquierda.")
print("Sentencia: spans[7].n_lefts")
print(f"El token a verificar es ({spans[7]}): " , spans[7].n_lefts)

print()
print("Trae cuantos vecinos tiene a la derecha.")
print("Sentencia: spans[7].n_rights")
print(f"El token a verificar es ({spans[7]}): " , spans[7].n_rights)

print()
print("Contiene una secuencia de token desencadenantes.")
print("Sentencia: list(spans[7].subtree)")
print(f"El token a verificar es ({spans[7]}): " , list(spans[7].subtree))

print()
print("Muestra las conjunciones")
print("Sentencia: list(spans[30].conjuncts)")
print(f"El token a verificar es ({spans[30]}): " , list(spans[30].conjuncts))

print()
print("Muestra el vector del token.")
print("Sentencia: spans[0].vector")
print(f"El token a verificar es '{spans[0]}': " , spans[0].vector)

print()
print("Calcula la normalización del vector.")
print("Sentencia: spans[0].vector_norm")
print(f"El token a verificar es '{spans[0]}': " , spans[0].vector_norm)

## Stopwords


Las stop words, son palabras que se consideran muy comunes en un idioma en particular y, por lo tanto, no aportan un valor semántico significativo a una frase o texto. Ejemplos comunes de stop words en inglés son "de", "la", "que", "con", "muy", "ante", "eso", entre otros.

En el procesamiento de lenguaje natural, las stop words se eliminan o se ignoran para evitar que afecten el resultado de la búsqueda o el análisis. La eliminación de stop words puede ayudar a reducir la dimensionalidad del texto y mejorar la eficiencia de los algoritmos de búsqueda, ya que estas palabras no proporcionan información útil para la clasificación o la recuperación de información.

Sin embargo, la eliminación de stop words también puede tener un impacto negativo en el resultado final, especialmente si se trata de un texto corto o si las stop words son importantes en el contexto específico del texto. Por esta razón, en algunos casos puede ser necesario ajustar el conjunto de stop words o no eliminarlas por completo.

Es importante destacar que el conjunto de stop words varía según el idioma y el contexto, por lo que es necesario elegir cuidadosamente qué palabras se eliminan o se mantienen en cada caso.

In [None]:
stopwords = nlp_es_sm.Defaults.stop_words
print("En nltk teníamos: 313")
print("Existen: ", len(stopwords))
print("Estos son los stop words en español:\n", sorted(stopwords))

In [None]:
# vamos a limpiar el texto que venimos trabajando
# verificamos si la palabra no esta dentro de la lista de stopwords.
# print(" ".join([word for word in text_doc if word not in stopwords]))
print(" ".join([str(word) for word in text_doc  if str(word).lower() not in stopwords]))

## Objeto Matcher

Basándose en expresiones regulares, me permite encontrar palabras y frases a travez de los atributos de un token. Las reglas pueden referirse a anotaciones de tokens (como el texto o las etiquetas), así como a atributos léxicos como Token.is_punct.

| Forma | Tipo | Descripción |
| --- | --- | --- |
| ORTH | str | El texto literal exacto de un token. |
| TEXT | str | El texto literal exacto de un token. |
| NORM | str | La forma normalizada del texto del token. |
| LOWER | str | La forma minúscula del texto del token. |
| LENGTH | int | La longitud del texto. |
| IS_ALPHA, IS_ASCII, IS_DIGIT | bool | El texto simbólico consta de caracteres alfabéticos, caracteres ASCII, dígitos. |
| IS_LOWER, IS_UPPER, IS_TITLE | bool | El texto de la ficha está en minúsculas, mayúsculas, título. |
| IS_PUNCT, IS_SPACE, IS_STOP | bool | La ficha contiene signos de puntuación, espacios en blanco o una palabra de parada. |
| IS_SENT_START | bool | La entrada es el principio de la frase. |
| LIKE_NUM, LIKE_URL, LIKE_EMAIL | bool | El texto del token se parece a un número, URL, email. |
| SPACY | bool | El token tiene un espacio al final. |
| POS, TAG, MORPH, DEP, LEMMA, SHAPE | str | Etiqueta de pos simple y extendida, análisis morfológico, etiqueta de dependencia, lema, forma. |
| ENT_TYPE | str | La etiqueta de entidad del token. |
| ENT_IOB | str | La parte IOB de la etiqueta de entidad del token. |
| ENT_ID | str | El ID de entidad de la ficha (ent_id). |
| ENT_KB_ID | str | El ID de la base de conocimiento de la entidad del token (ent_kb_id). |
| OP | str | Operador o cuantificador para determinar la frecuencia de coincidencia con un patrón de token. |

In [None]:
words_ = [word for word in text_doc]
pos_ = [word.pos for word in text_doc]
lemmas_ = [word.lemma_ for word in text_doc]
!pip install tabulate
from tabulate import tabulate
print(tabulate([(word, word.pos_, word.lemma_) for word in text_doc], headers=["PALABRA", "POS", "LEMMA"]))

In [None]:
from spacy.matcher import Matcher
# creamos un matcher con el vocabulario del idioma
matcher = Matcher(nlp_es_sm.vocab)
# creamos la matcher de la expresión regular, en este caso
# buscamos el lemma "ser"
pattern = [{"LEMMA": "ser"}]
#agregamos el patron
matcher.add("lemma_ser", [pattern])
# ejecutamos el matcher
matches = matcher(text_doc)

for match_ in matches:
  print(f"La palabra correspondiente es '{text_doc[match_[1]:match_[2]]}'")
  print(f"El texto alrededor de la palabra es:\n", text_doc[match_[1]-5:match_[2]+5])
  print()

In [None]:
# creamos un matcher con el vocabulario del idioma
matcher = Matcher(nlp_es_sm.vocab)
# creamos la matcher de la expresión regular, en este caso
# buscamos el pos "sustantivo+conjunción+sustantivo"
pattern = [{"POS": "NOUN"},
           {"POS": "CCONJ"},
           {"POS": "NOUN"},]
#agregamos el patron
matcher.add("noun_cconj_noun", [pattern])
# ejecutamos el matcher
matches = matcher(text_doc)

for match_ in matches:
  print(f"La palabra correspondiente es '{text_doc[match_[1]:match_[2]]}'")
  print(f"El texto alrededor de la palabra es:\n", text_doc[match_[1]-5:match_[2]+5])
  print()

In [None]:
# creamos un matcher con el vocabulario del idioma
matcher = Matcher(nlp_es_sm.vocab)
# creamos la matcher de la expresión regular, en este caso
# buscamos la palabra "el"+"sustantivo"
pattern = [
    {"LOWER": "el"},
    {"POS": "NOUN"},
           ]
#agregamos el patron
matcher.add("el_noum", [pattern])
# ejecutamos el matcher
matches = matcher(text_doc)

for match_ in matches:
  print(f"La palabra correspondiente es '{text_doc[match_[1]:match_[2]]}'")
  print(f"El texto alrededor de la palabra es:\n", text_doc[match_[1]-5:match_[2]+5])
  print()

In [None]:
# creamos un matcher con el vocabulario del idioma
matcher = Matcher(nlp_es_sm.vocab)
# creamos la matcher de la expresión regular, en este caso
# buscamos algo que tenga la forma de 4 números
pattern = [{"SHAPE": "dddd"}]
#agregamos el patron
matcher.add("shape_dddd", [pattern])
# ejecutamos el matcher
matches = matcher(text_doc)

for match_ in matches:
  print(f"La palabra correspondiente es '{text_doc[match_[1]:match_[2]]}'")
  print(f"El texto alrededor de la palabra es:\n", text_doc[match_[1]-5:match_[2]+5])
  print()

## Otros objetos

Esiten otros objetos que me permite cambiar el flujo de trabajo de acuerdo a nuevas reglas impuestras por el usuario.

Por ejemplo, escribir nuevos lemmas o entidades de reconocimiento o cambios morfológicos en el reconocimiento de la oración, etc.

[Ver la documentación](https://spacy.io/api)