# Introduccion a spaCy

Spacy es una librería popular de procesamiento del lenguaje natural (PNL) en Python. Se usa para una amplia gama de tareas como la tokenización, el etiquetado de partes del discurso y el reconocimiento de entidades nombradas.

In [None]:
# Instalamos Libreria Spacy
!pip install spacy -q

In [None]:
# Descarga un modelo de lenguaje pre-entrenado en español que se utilizará con la librería spaCy
!python -m spacy download es_core_news_lg -q

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m568.0/568.0 MB[0m [31m1.2 MB/s[0m eta [36m0:00:00[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_lg')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
# Importamos Librerias
import spacy
import es_core_news_lg
from collections import Counter
from spacy import displacy

In [None]:
# Cargamos un modelo de lenguaje en español pre-entrenado en una variable
nlp = spacy.load("es_core_news_lg")


## 1 - Tokenizacion

Consiste en dividir el texto de entrada en unidades individuales llamadas tokens. Estos tokens representan las piezas fundamentales del texto, como palabras, números y signos de puntuación.

In [None]:
# Procesamos una frase con el modelo de lenguaje español de spaCy
frase = nlp(u'¿Sabes porque estoy feliz? Estoy feliz, porque estoy en Buenos Aires y estudio Ciencias de Datos e Inteligencia Artificial!')

# Para obtener los tokens de la frase
print([w.text for w in frase])

['¿', 'Sabes', 'porque', 'estoy', 'feliz', '?', 'Estoy', 'feliz', ',', 'porque', 'estoy', 'en', 'Buenos', 'Aires', 'y', 'estudio', 'Ciencias', 'de', 'Datos', 'e', 'Inteligencia', 'Artificial', '!']


In [None]:
# Calculamos las frecuencias de los tokens
freq_tokens = Counter([w.text for w in frase])
print("Los tokens son : \n")
for item in frase:
  print(f"[*] '{item}' ==> Frecuencia del token: ",freq_tokens[item.text])

Los tokens son : 

[*] '¿' ==> Frecuencia del token:  1
[*] 'Sabes' ==> Frecuencia del token:  1
[*] 'porque' ==> Frecuencia del token:  2
[*] 'estoy' ==> Frecuencia del token:  2
[*] 'feliz' ==> Frecuencia del token:  2
[*] '?' ==> Frecuencia del token:  1
[*] 'Estoy' ==> Frecuencia del token:  1
[*] 'feliz' ==> Frecuencia del token:  2
[*] ',' ==> Frecuencia del token:  1
[*] 'porque' ==> Frecuencia del token:  2
[*] 'estoy' ==> Frecuencia del token:  2
[*] 'en' ==> Frecuencia del token:  1
[*] 'Buenos' ==> Frecuencia del token:  1
[*] 'Aires' ==> Frecuencia del token:  1
[*] 'y' ==> Frecuencia del token:  1
[*] 'estudio' ==> Frecuencia del token:  1
[*] 'Ciencias' ==> Frecuencia del token:  1
[*] 'de' ==> Frecuencia del token:  1
[*] 'Datos' ==> Frecuencia del token:  1
[*] 'e' ==> Frecuencia del token:  1
[*] 'Inteligencia' ==> Frecuencia del token:  1
[*] 'Artificial' ==> Frecuencia del token:  1
[*] '!' ==> Frecuencia del token:  1


In [None]:
print("La frase contiene", len(frase), "tokens")

La frase contiene 23 tokens


In [None]:
# Mostramos como esta formada la estructura gramatical de la frase y la función de cada palabra dentro de ella.
print("Token ==> Funcion Gramatical (POS) ==> Explicacion de etiqueta\n","-"*80)
for token in frase:
  print(f"'{token.text}' ==>, {token.pos_} ==>, {spacy.explain(token.pos_)}")


Token ==> Funcion Gramatical (POS) ==> Explicacion de etiqueta
 --------------------------------------------------------------------------------
'¿' ==>, PUNCT ==>, punctuation
'Sabes' ==>, VERB ==>, verb
'porque' ==>, SCONJ ==>, subordinating conjunction
'estoy' ==>, AUX ==>, auxiliary
'feliz' ==>, ADJ ==>, adjective
'?' ==>, PUNCT ==>, punctuation
'Estoy' ==>, AUX ==>, auxiliary
'feliz' ==>, ADJ ==>, adjective
',' ==>, PUNCT ==>, punctuation
'porque' ==>, SCONJ ==>, subordinating conjunction
'estoy' ==>, VERB ==>, verb
'en' ==>, ADP ==>, adposition
'Buenos' ==>, PROPN ==>, proper noun
'Aires' ==>, PROPN ==>, proper noun
'y' ==>, CCONJ ==>, coordinating conjunction
'estudio' ==>, NOUN ==>, noun
'Ciencias' ==>, PROPN ==>, proper noun
'de' ==>, ADP ==>, adposition
'Datos' ==>, PROPN ==>, proper noun
'e' ==>, CCONJ ==>, coordinating conjunction
'Inteligencia' ==>, PROPN ==>, proper noun
'Artificial' ==>, PROPN ==>, proper noun
'!' ==>, PUNCT ==>, punctuation


## 2 - Lematización

Es el proceso de reducir una palabra a su forma base o de diccionario, conocida como lema.

La Lematización es importante para el reconocimiento de significado, ya que agrupa diferentes formas de la misma palabra bajo una única representación, simplificando el análisis.


In [None]:
print("Tokens ==> Lema\n","-"*30)
for token in frase:
  print(f"'{token.text}' ==> {token.lemma_}")


Tokens ==> Lema
 ------------------------------
'¿' ==> ¿
'Sabes' ==> saber
'porque' ==> porque
'estoy' ==> estar
'feliz' ==> feliz
'?' ==> ?
'Estoy' ==> estar
'feliz' ==> feliz
',' ==> ,
'porque' ==> porque
'estoy' ==> estar
'en' ==> en
'Buenos' ==> Buenos
'Aires' ==> Aires
'y' ==> y
'estudio' ==> estudio
'Ciencias' ==> Ciencias
'de' ==> de
'Datos' ==> Datos
'e' ==> e
'Inteligencia' ==> Inteligencia
'Artificial' ==> Artificial
'!' ==> !


## 3 - Visualizacion de Analisis de Dependencias

Muestra las relaciones de dependencia entre las palabras de la oracion que queremos analizar, y su estructura gramatical

In [None]:
displacy.render(frase, style='dep', jupyter=True, options={'distance': 100})


In [None]:
displacy.render(frase, style='ent', jupyter=True)

Observamos que identifica con "Misc" las palabras compuestas y "Buenos Aires" como localizacion