<a href="https://colab.research.google.com/github/cam2149/icesi-nlp/blob/main/Sesion1/1-spacy-basics.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# NLP Básico con Spacy

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/Ohtar10/icesi-nlp/blob/main/Sesion1/1-spacy-basics.ipynb)

## Referencias
* [NLP - Natural Language Processing With Python](https://www.udemy.com/course/nlp-natural-language-processing-with-python)

Este notebook contiene ejemplos básico de uso de la librería Spacy para procesamiento de lenguaje natural con técnicas clásicas. Esta herramienta nos servirá para familiarizarnos con los métodos clásicos.

## Preparación del entorno
Asumiendo que la librería ya se encuentra instalada, dependiendo de la tarea, necesitamos descargar un corpus, por ejemplo en el idioma ingles sería:

In [1]:
# Importa la librería pkg_resources para obtener información sobre los paquetes instalados.
import pkg_resources
# Importa la librería warnings para gestionar advertencias.
import warnings

# Ignora cualquier advertencia que pueda aparecer durante la ejecución.
warnings.filterwarnings('ignore')

# Obtiene una lista de los paquetes instalados.
installed_packages = [package.key for package in pkg_resources.working_set]
# Comprueba si 'google-colab' está en la lista de paquetes instalados para saber si se está ejecutando en Colab.
IN_COLAB = 'google-colab' in installed_packages

  import pkg_resources


In [2]:
# Verifica si se está ejecutando en Google Colab y, si es así, descarga el archivo requirements.txt e instala las dependencias.
!test '{IN_COLAB}' = 'True' && wget  https://github.com/cam2149/icesi-nlp/raw/refs/heads/main/requirements.txt && pip install -r requirements.txt

--2025-08-07 20:50:33--  https://github.com/cam2149/icesi-nlp/raw/refs/heads/main/requirements.txt
Resolving github.com (github.com)... 20.205.243.166
Connecting to github.com (github.com)|20.205.243.166|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/cam2149/icesi-nlp/refs/heads/main/requirements.txt [following]
--2025-08-07 20:50:34--  https://raw.githubusercontent.com/cam2149/icesi-nlp/refs/heads/main/requirements.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 349 [text/plain]
Saving to: ‘requirements.txt’


2025-08-07 20:50:35 (7.99 MB/s) - ‘requirements.txt’ saved [349/349]

Collecting pandas==2.1.1 (from -r requirements.txt (line 1))
  Downloading pandas-2.1.1-cp311-cp311-manylinux_2

In [3]:
# Este comando descarga e instala un modelo de lenguaje pequeño en inglés pre-entrenado de Spacy.
# 'en_core_web_sm' es el nombre del modelo.
!python -m spacy download en_core_web_sm

Collecting en-core-web-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.8.0/en_core_web_sm-3.8.0-py3-none-any.whl (12.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.8/12.8 MB[0m [31m37.2 MB/s[0m eta [36m0:00:00[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


El cual debemos luego importar:

In [1]:
# load the simplified version of the english core language
# Importa la librería spacy para procesamiento de lenguaje natural.
import spacy

# Carga el modelo de lenguaje pequeño en inglés pre-entrenado ('en_core_web_sm').
# Esto crea un objeto 'nlp' que contiene el pipeline de procesamiento de Spacy.
nlp = spacy.load('en_core_web_sm')

## Creando un documento simple
Este documento será automáticamente interpretado con spacy para el lenguaje seleccionado.

In [2]:
# Crea un objeto 'doc' procesando el texto proporcionado con el pipeline de Spacy cargado (nlp).
# El objeto 'doc' contiene una representación procesada del texto, con información sobre tokens, POS tags, dependencias, etc.
doc = nlp(u'Tesla is looking at buying U.S. startup for $6 million')

Desde aquí, podemos observar los diferentes elementos del documento.

In [3]:
# Define los nombres de las columnas para la salida.
col1 = "Token"
col2 = "POS" # Part of Speech (Parte del Discurso)
col3 = "S-dep" # Syntactic dependency (Dependencia sintáctica)

# Imprime los encabezados de las columnas con formato.
print(f"{col1:{20}}{col2:{20}}{col3:{20}}")
# Itera sobre cada token en el objeto 'doc'.
for token in doc:
    # Imprime el texto del token, su etiqueta POS y su dependencia sintáctica, con formato.
    print(f"{token.text:{20}}{token.pos_:{20}}{token.dep_}")

Token               POS                 S-dep               
Tesla               PROPN               nsubj
is                  AUX                 aux
looking             VERB                ROOT
at                  ADP                 prep
buying              VERB                pcomp
U.S.                PROPN               dobj
startup             VERB                advcl
for                 ADP                 prep
$                   SYM                 quantmod
6                   NUM                 compound
million             NUM                 pobj


Hemos impreso los tokens (palabras en este caso), la parte del contexto que representan (POS) y la dependencia semantica que dicho token tiene.

En NLP clásico hay una taxonomía especializada para cada elemento del lenguaje. Cada elemento fue producto de estudios diversos y variados con el fin de ofrecer un modelado sistemático del lenguaje. Expertos en lenguaje estuvieron involucrados en la creación de esta taxonomía.

Ahora, librerías como Spacy facilitan el procesamiento de esta taxonomía.

## Un pipeline simple de Spacy

El núcleo de Spacy es el pipeline que no es más que el procesamiento/transformación que toma el texto original y se lo somete a diversos procesos de NLP

In [4]:
# El pipeline de Spacy es una secuencia de componentes de procesamiento que se aplican al texto.
# Esta celda muestra los componentes del pipeline cargado en el objeto 'nlp'.
nlp.pipeline

[('tok2vec', <spacy.pipeline.tok2vec.Tok2Vec at 0x7a161eb95130>),
 ('tagger', <spacy.pipeline.tagger.Tagger at 0x7a15d04a7230>),
 ('parser', <spacy.pipeline.dep_parser.DependencyParser at 0x7a160ffabd80>),
 ('attribute_ruler',
  <spacy.pipeline.attributeruler.AttributeRuler at 0x7a15764d5090>),
 ('lemmatizer',
  <spacy.lang.en.lemmatizer.EnglishLemmatizer at 0x7a15764ca050>),
 ('ner', <spacy.pipeline.ner.EntityRecognizer at 0x7a160fbd8200>)]

Como podemos observar aquí, la instanciación por defecto es un pipeline compuesto por diferentes componentes que deberían ser familiares para nosotros:

* Token 2 Vec: Convertir los tokens en vectores.
* Lemmatizer: Extracción de componentes raíz de las palabras
* NER: Named entity recognition para identificar los sujetos de los documentos.

Un documento es iterable y los items pueden ser accedidos por índice.

In [6]:
#Esta celda de código demuestra cómo acceder a tokens individuales dentro de un documento procesado por Spacy utilizando su índice.
#n = 0: Inicializa una variable n con el valor 0.
#print(f"The {n}th token in the document is: {doc[n]}"): Imprime un mensaje que indica el token en la posición n del documento doc. doc[n] accede al token en el índice especificado.
#En este caso, como n es 0, imprimirá el primer token del documento. Esto ilustra que el objeto doc se puede indexar como una lista para obtener tokens específicos.
n = 0
print(f"The {n}th token in the document is: {doc[n]}")

The 0th token in the document is: Tesla


## Exploremos diferentes elementos transformados

In [8]:
from spacy.tokens.doc import Doc
import pandas as pd

def get_doc_elements(doc: Doc):
    # Esta función extrae información específica de cada token dentro de un documento de Spacy y la organiza en un DataFrame de pandas.

    # Define una lista de los nombres de los atributos de los tokens que queremos extraer.
    # Estos nombres se usarán como encabezados de columna en el DataFrame.
    elements = ["text", "lemma", "pos", "tag", "shape", "alpha", "stop"]

    # Crea una lista de listas. Cada lista interna representa un token
    # y contiene los valores de los atributos definidos en 'elements' para ese token.
    # Se itera sobre cada 'token' en el objeto 'doc'.
    # - token.text: El texto original del token.
    # - token.lemma_: La forma base o lema del token.
    # - token.pos_: La etiqueta de parte del discurso simple del token (ej. NOUN, VERB, ADJ).
    # - token.tag_: La etiqueta de parte del discurso detallada del token (ej. NNP, VBZ, VBG).
    # - token.shape_: La forma del token (patrones de mayúsculas, puntuación, dígitos).
    # - token.is_alpha: Un valor booleano que indica si el token consiste solo en caracteres alfabéticos.
    # - token.is_stop: Un valor booleano que indica si el token es una 'stop word' (palabra común que a menudo se ignora en NLP).
    rows = [ [token.text, token.lemma_, token.pos_, token.tag_, token.shape_, token.is_alpha, token.is_stop]
            for token in  doc]

    # Crea un DataFrame de pandas a partir de las filas ('rows') y columnas ('elements') definidas.
    # Esto estructura la información extraída de manera tabular, facilitando su visualización y análisis.
    return pd.DataFrame(rows, columns=elements)

In [10]:
# Llama a la función 'get_doc_elements' con el objeto 'doc' procesado por Spacy.
# La función extrae atributos de cada token y los organiza en un DataFrame de pandas.
doc_elements = get_doc_elements(doc)

# Muestra el DataFrame resultante.
# En entornos como Colab o Jupyter, la última línea de una celda que es una variable o expresión se muestra automáticamente.
doc_elements

Unnamed: 0,text,lemma,pos,tag,shape,alpha,stop
0,Tesla,Tesla,PROPN,NNP,Xxxxx,True,False
1,is,be,AUX,VBZ,xx,True,True
2,looking,look,VERB,VBG,xxxx,True,False
3,at,at,ADP,IN,xx,True,True
4,buying,buy,VERB,VBG,xxxx,True,False
5,U.S.,U.S.,PROPN,NNP,X.X.,False,False
6,startup,startup,VERB,VBD,xxxx,True,False
7,for,for,ADP,IN,xxx,True,True
8,$,$,SYM,$,$,False,False
9,6,6,NUM,CD,d,False,False


Done:

|Tag|Descrición|doc2[0].tag|
|:------|:------:|:------|
|`.text`|The original word text<!-- .element: style="text-align:left;" -->|`Tesla`|
|`.lemma_`|The base form of the word|`tesla`|
|`.pos_`|The simple part-of-speech tag|`PROPN`/`proper noun`|
|`.tag_`|The detailed part-of-speech tag|`NNP`/`noun, proper singular`|
|`.shape_`|The word shape – capitalization, punctuation, digits|`Xxxxx`|
|`.is_alpha`|Is the token an alpha character?|`True`|
|`.is_stop`|Is the token part of a stop list, i.e. the most common words of the language?|`False`|

## Objetos Span
Un span puede interpretarse como una porción de un documento, es decir, puede empezar desde alún índice hasta otro. Esto facilita el procesamiento por pedazos (chunks) en lugar el documento completo.

In [12]:
# Definition of NLP according to Wikipedia
# Define un texto de ejemplo sobre Procesamiento de Lenguaje Natural (NLP).
doc = nlp(u"Natural language processing (NLP) is a subfield of computer science, \
information engineering, and artificial intelligence concerned with the \
interactions between computers and human (natural) languages, in particular \
how to program computers to process and analyze large amounts of natural language data.\
Challenges in natural language processing frequently involve speech recognition, natural \
language understanding, and natural language generation.")

# Crea un objeto 'doc' procesando el texto con el pipeline de Spacy cargado (nlp).
# Este objeto 'doc' contiene la representación procesada del texto.

# Crea un objeto 'quote' seleccionando una porción del 'doc' original.
# La sintaxis `doc[10:30]` selecciona los tokens desde el índice 10 (inclusive) hasta el índice 30 (exclusivo).
# Un 'quote' es una vista del 'doc' y no copia los datos subyacentes.
quote = doc[10:30]

# Muestra el objeto 'quote' resultante.
# Al mostrar un objeto 'quote', Spacy imprime el texto correspondiente a esa porción del documento.
quote

computer science, information engineering, and artificial intelligence concerned with the interactions between computers and human (natural)

Observemos aquí que el slice es por los tokens y no por los caracteres individuales. Esto es muy útil ya que podemos estar seguros de no interrumpir abruptamente los tokens.

## Trabajando con oraciones
Podemos iterar sobre oraciones en los documentos, es decir, frases separadas por el punto "."

In [13]:
# Este código demuestra cómo iterar sobre las oraciones dentro de un documento procesado por Spacy.

# Crea un nuevo objeto 'doc' procesando una cadena de texto con múltiples oraciones.
# Spacy utiliza su pipeline para identificar los límites de las oraciones.
doc = nlp("This is the first sentence. This is the second sentence. And this is the last sentence.")

# Itera sobre cada oración identificada por Spacy en el objeto 'doc'.
# 'doc.sents' es un iterador que produce objetos 'Span', donde cada 'Span' representa una oración completa.
for sent in doc.sents:
    # Imprime cada objeto 'sent' (que es un Span de una oración).
    # Al imprimir un objeto Span, se muestra el texto que contiene.
    print(sent)

This is the first sentence.
This is the second sentence.
And this is the last sentence.


**Nota:** Cada punto es considerado un token, etnonces en el segundo "This" en el anterior documento está en el índice `6`, no en el `5`.

In [14]:
# Este código demuestra cómo acceder a tokens específicos por su índice en un documento de Spacy y cómo verificar si un token es el inicio de una oración.

# Imprime el token que se encuentra en el índice 5 del objeto 'doc'.
print(f"Token 5: {doc[5]}")
# Imprime el token que se encuentra en el índice 6 del objeto 'doc'.
print(f"Token 6: {doc[6]}")
# Accede al token en el índice 6 y utiliza el atributo booleano '.is_sent_start' para verificar si Spacy lo ha identificado como el inicio de una nueva oración.
print(f"Is token 6 a sentence start? {doc[6].is_sent_start}")

Token 5: .
Token 6: This
Is token 6 a sentence start? True
