## Parte 1: El Problema - El Texto es solo una "Sopa de Letras" para la Computadora

In [None]:
texto = "La CEO de ACME, Lisa Chang, viajará a México para supervisar los nuevos proyectos de energía renovable. Ella se mostró muy entusiasmada."
print(texto)

La CEO de ACME, Lisa Chang, viajará a México para supervisar los nuevos proyectos de energía renovable. Ella se mostró muy entusiasmada.


¿Cómo contamos las palabras acá?
len(texto) nos da los caracteres, no sirve. Podríamos usar texto.split(). Hagamos la prueba.

In [None]:
palabras = texto.split()
print(palabras)

['La', 'CEO', 'de', 'ACME,', 'Lisa', 'Chang,', 'viajará', 'a', 'México', 'para', 'supervisar', 'los', 'nuevos', 'proyectos', 'de', 'energía', 'renovable.', 'Ella', 'se', 'mostró', 'muy', 'entusiasmada.']


 Limitaciones (El "Porqué" necesitamos algo mejor):

- "ACME," y "Chang," tienen la coma pegada. No son palabras "limpias".
- "La" y "los" son artículos. viajará es una forma conjugada del verbo "viajar". ¿Cómo reducimos todo a su forma base para poder analizar frecuencias o temas?
- ¿Cómo sabe la máquina que "ACME" es una organización y "Lisa Chang" es una persona? Para Python, ahora mismo, son solo cadenas de texto idénticas a "proyectos".

## Parte 2: La Solución - spaCy, el Intérprete Lingüístico

In [None]:
!pip install spacy -q
!python -m spacy download es_core_news_sm -q

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m101.1 MB/s[0m eta [36m0:00:00[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
import spacy

In [None]:
# Cargar el modelo de español
nlp = spacy.load("es_core_news_sm")

# Procesar nuestro texto
doc = nlp(texto)

print(doc)

La CEO de ACME, Lisa Chang, viajará a México para supervisar los nuevos proyectos de energía renovable. Ella se mostró muy entusiasmada.


## Parte 3: Desglosando el Objeto Doc - Los Fundamentos de NLP en Acción

**Tokenización (La Unidad Mínima)**

Definición: Un token es la unidad mínima de texto con significado (una palabra, un número, un signo de puntuación).

In [None]:
for token in doc:
    print(token.text)

La
CEO
de
ACME
,
Lisa
Chang
,
viajará
a
México
para
supervisar
los
nuevos
proyectos
de
energía
renovable
.
Ella
se
mostró
muy
entusiasmada
.


**Lematización (La Raíz de la Palabra)**

Definición: El "lema" es la forma canónica o de diccionario de una palabra. Es la clave para agrupar palabras con el mismo significado.

In [None]:
print("PALABRA\t\tLEMA")
print("-------\t\t----")
for token in doc:
    # Imprimimos el texto del token y su lema
    print(f"{token.text:<15}\t{token.lemma_}")

PALABRA		LEMA
-------		----
La             	el
CEO            	CEO
de             	de
ACME           	ACME
,              	,
Lisa           	Lisa
Chang          	Chang
,              	,
viajará        	viajar
a              	a
México         	México
para           	para
supervisar     	supervisar
los            	el
nuevos         	nuevo
proyectos      	proyecto
de             	de
energía        	energía
renovable      	renovable
.              	.
Ella           	él
se             	él
mostró         	mostrar
muy            	mucho
entusiasmada   	entusiasmado
.              	.


**Part-of-Speech (POS) Tagging (El Rol Gramatical)**

Definición: Etiquetar cada palabra según su función gramatical (Sustantivo, Verbo, Adjetivo, etc.).

In [None]:
print("PALABRA\t\tPOS\t\tEXPLICACIÓN")
print("-------\t\t---\t\t-----------")
for token in doc:
    print(f"{token.text:<15}\t{token.pos_:<10}\t{spacy.explain(token.pos_)}")

PALABRA		POS		EXPLICACIÓN
-------		---		-----------
La             	DET       	determiner
CEO            	PROPN     	proper noun
de             	ADP       	adposition
ACME           	PROPN     	proper noun
,              	PUNCT     	punctuation
Lisa           	PROPN     	proper noun
Chang          	PROPN     	proper noun
,              	PUNCT     	punctuation
viajará        	VERB      	verb
a              	ADP       	adposition
México         	PROPN     	proper noun
para           	ADP       	adposition
supervisar     	VERB      	verb
los            	DET       	determiner
nuevos         	ADJ       	adjective
proyectos      	NOUN      	noun
de             	ADP       	adposition
energía        	NOUN      	noun
renovable      	ADJ       	adjective
.              	PUNCT     	punctuation
Ella           	PRON      	pronoun
se             	PRON      	pronoun
mostró         	VERB      	verb
muy            	ADV       	adverb
entusiasmada   	ADJ       	adjective
.              	PUNCT     	punctu