## Parte 1: El Problema - El Texto es solo una "Sopa de Letras" para la Computadora

In [12]:
#texto = "La CEO de ACME, Lisa Chang, viajará a México para supervisar los nuevos proyectos de energía renovable. Ella se mostró muy entusiasmada."
texto = """
La inteligencia artificial transforma radicalmente la manera en que las organizaciones analizan información.
Algoritmos complejos permiten automatizar procesos de recopilación, limpieza y visualización de datos heterogéneos.
El aprendizaje automático, una subdisciplina fundamental, utiliza modelos estadísticos para identificar patrones,
predecir comportamientos y optimizar decisiones estratégicas con eficiencia y precisión.
"""
print(texto)


La inteligencia artificial transforma radicalmente la manera en que las organizaciones analizan información. 
Algoritmos complejos permiten automatizar procesos de recopilación, limpieza y visualización de datos heterogéneos.
El aprendizaje automático, una subdisciplina fundamental, utiliza modelos estadísticos para identificar patrones, 
predecir comportamientos y optimizar decisiones estratégicas con eficiencia y precisión.



¿Cómo contamos las palabras acá?
len(texto) nos da los caracteres, no sirve. Podríamos usar texto.split(). Hagamos la prueba.

In [13]:
palabras = texto.split()# Usar texto.split() divide el texto por espacios, pero no elimina puntuación ni entiende contexto.
# Este enfoque básico no nos permite analizar con precisión nombres, verbos o entidades.
print(palabras)

#🧠 ¿Qué hace esto?
#Divide el texto por espacios. Es una tokenización básica, sin comprender contexto.

#🧱 Limitaciones:
#"ACME," y "Chang," quedan con coma incluida → errores al comparar.
#Verbos conjugados, artículos, puntuación... todo se trata como si fueran iguales.
#Python no entiende roles gramaticales ni entidades.


['La', 'inteligencia', 'artificial', 'transforma', 'radicalmente', 'la', 'manera', 'en', 'que', 'las', 'organizaciones', 'analizan', 'información.', 'Algoritmos', 'complejos', 'permiten', 'automatizar', 'procesos', 'de', 'recopilación,', 'limpieza', 'y', 'visualización', 'de', 'datos', 'heterogéneos.', 'El', 'aprendizaje', 'automático,', 'una', 'subdisciplina', 'fundamental,', 'utiliza', 'modelos', 'estadísticos', 'para', 'identificar', 'patrones,', 'predecir', 'comportamientos', 'y', 'optimizar', 'decisiones', 'estratégicas', 'con', 'eficiencia', 'y', 'precisión.']


 Limitaciones (El "Porqué" necesitamos algo mejor):

- "ACME," y "Chang," tienen la coma pegada. No son palabras "limpias".
- "La" y "los" son artículos. viajará es una forma conjugada del verbo "viajar". ¿Cómo reducimos todo a su forma base para poder analizar frecuencias o temas?
- ¿Cómo sabe la máquina que "ACME" es una organización y "Lisa Chang" es una persona? Para Python, ahora mismo, son solo cadenas de texto idénticas a "proyectos".

## Parte 2: La Solución - spaCy, el Intérprete Lingüístico

In [14]:
!pip install spacy -q
!python -m spacy download es_core_news_sm -q

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m46.6 MB/s[0m eta [36m0:00:00[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [15]:
import spacy
# spacy transforma el texto en un objeto "Doc", que contiene tokens, lemas, entidades, roles gramaticales y más.
# Este procesamiento permite trabajar con el texto de forma estructurada y lingüísticamente informada.


In [16]:
# Cargar el modelo de español
nlp = spacy.load("es_core_news_sm")#carga el modelo en español preentrenado.

# Procesar nuestro texto
doc = nlp(texto)#convierte el texto en un objeto Doc que spaCy puede analizar (tokenizar, etiquetar, lematizar, etc.)

print(doc)



La inteligencia artificial transforma radicalmente la manera en que las organizaciones analizan información. 
Algoritmos complejos permiten automatizar procesos de recopilación, limpieza y visualización de datos heterogéneos.
El aprendizaje automático, una subdisciplina fundamental, utiliza modelos estadísticos para identificar patrones, 
predecir comportamientos y optimizar decisiones estratégicas con eficiencia y precisión.



## Parte 3: Desglosando el Objeto Doc - Los Fundamentos de NLP en Acción

**Tokenización (La Unidad Mínima)**

Definición: Un token es la unidad mínima de texto con significado (una palabra, un número, un signo de puntuación).

In [17]:
for token in doc:
    print(token.text)

#¿Qué es un token? Es la unidad mínima significativa del texto: puede ser una palabra, número o puntuación.
# Cada token representa una palabra o signo de puntuación.
# spaCy hace una tokenización inteligente, separando puntuación de las palabras.




La
inteligencia
artificial
transforma
radicalmente
la
manera
en
que
las
organizaciones
analizan
información
.


Algoritmos
complejos
permiten
automatizar
procesos
de
recopilación
,
limpieza
y
visualización
de
datos
heterogéneos
.


El
aprendizaje
automático
,
una
subdisciplina
fundamental
,
utiliza
modelos
estadísticos
para
identificar
patrones
,


predecir
comportamientos
y
optimizar
decisiones
estratégicas
con
eficiencia
y
precisión
.




**Lematización (La Raíz de la Palabra)**

Definición: El "lema" es la forma canónica o de diccionario de una palabra. Es la clave para agrupar palabras con el mismo significado.

In [18]:
print("PALABRA\t\tLEMA")
print("-------\t\t----")
for token in doc:
    # Imprimimos el texto del token y su lema
    print(f"{token.text:<15}\t{token.lemma_}")

# Lematización: reduce una palabra a su forma base.
# Permite agrupar diferentes formas verbales o plurales para análisis más uniforme.
#¿Qué es un lema? Es la forma base o de diccionario de una palabra. Ej: "viajará" → "viajar"
#Muy útil para agrupar formas distintas de una palabra bajo el mismo concepto.

PALABRA		LEMA
-------		----

              	

La             	el
inteligencia   	inteligencia
artificial     	artificial
transforma     	transformar
radicalmente   	radicalmente
la             	el
manera         	manera
en             	en
que            	que
las            	el
organizaciones 	organización
analizan       	analizar
información    	información
.              	.

              	

Algoritmos     	algoritmos
complejos      	complejo
permiten       	permitir
automatizar    	automatizar
procesos       	proceso
de             	de
recopilación   	recopilación
,              	,
limpieza       	limpieza
y              	y
visualización  	visualización
de             	de
datos          	dato
heterogéneos   	heterogéneo
.              	.

              	

El             	el
aprendizaje    	aprendizaje
automático     	automático
,              	,
una            	uno
subdisciplina  	subdisciplina
fundamental    	fundamental
,              	,
utiliza        	utilizar
modelos        	mod

**Part-of-Speech (POS) Tagging (El Rol Gramatical)**

Definición: Etiquetar cada palabra según su función gramatical (Sustantivo, Verbo, Adjetivo, etc.).

In [19]:
print("PALABRA\t\tPOS\t\tEXPLICACIÓN")
print("-------\t\t---\t\t-----------")
for token in doc:
    print(f"{token.text:<15}\t{token.pos_:<10}\t{spacy.explain(token.pos_)}")

#🧠 ¿Qué es POS (Part-of-Speech)? El rol gramatical de una palabra en una oración: sustantivo, verbo, adjetivo, etc.
# POS tagging: asigna una categoría gramatical a cada palabra.
# Esto ayuda a entender la estructura sintáctica del texto.
# Ejemplo: distinguir entre "correr" como verbo o como sustantivo.


PALABRA		POS		EXPLICACIÓN
-------		---		-----------

              	SPACE     	space
La             	DET       	determiner
inteligencia   	NOUN      	noun
artificial     	ADJ       	adjective
transforma     	VERB      	verb
radicalmente   	ADV       	adverb
la             	DET       	determiner
manera         	NOUN      	noun
en             	ADP       	adposition
que            	PRON      	pronoun
las            	DET       	determiner
organizaciones 	NOUN      	noun
analizan       	VERB      	verb
información    	NOUN      	noun
.              	PUNCT     	punctuation

              	SPACE     	space
Algoritmos     	VERB      	verb
complejos      	NOUN      	noun
permiten       	VERB      	verb
automatizar    	VERB      	verb
procesos       	NOUN      	noun
de             	ADP       	adposition
recopilación   	NOUN      	noun
,              	PUNCT     	punctuation
limpieza       	NOUN      	noun
y              	CCONJ     	coordinating conjunction
visualización  	NOUN      	noun
de      