[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/danielmlow/llm_course/blob/main/propiedades_linguisticas_spacy_es.ipynb)

# Propiedades lingüísticas

- Manera tradicional: usando paquetes como Spacy (gratis, rapido, sin API Key)
- Si paquetes como Spacy no tienen estas capacidades, los LLM seguramente lo puedan resolver.


-	Tokens → palabras y signos de puntuación.

-	Lemas → forma base (“comió” → “comer”).

-	POS (parte de la oración) → sustantivo, verbo, adjetivo, etc.

-	Morfología → rasgos gramaticales (tiempo, número, género, persona).

-	Dependencias sintácticas → relaciones como sujeto, objeto, modificador.

-	Entidades nombradas → nombres propios, lugares, fechas (ej. “Madrid”).

In [1]:
# descargar models en espanol
!python -m spacy download es_core_news_sm

Collecting es-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.8.0/es_core_news_sm-3.8.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m29.3 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [2]:
import spacy

# Cargar el modelo de español
nlp = spacy.load("es_core_news_sm")

texto = "Juan comió rápidamente la manzana roja en Madrid."

doc = nlp(texto)

print("=== Tokens, Lemas, Categoría gramatical (POS), Morfología ===")
for token in doc:
    print(f"{token.text:12} | Lema: {token.lemma_:12} | POS: {token.pos_:8} | Morfología: {token.morph}")



=== Tokens, Lemas, Categoría gramatical (POS), Morfología ===
Juan         | Lema: Juan         | POS: PROPN    | Morfología: 
comió        | Lema: comer        | POS: VERB     | Morfología: Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin
rápidamente  | Lema: rápidamente  | POS: ADV      | Morfología: 
la           | Lema: el           | POS: DET      | Morfología: Definite=Def|Gender=Fem|Number=Sing|PronType=Art
manzana      | Lema: manzana      | POS: NOUN     | Morfología: Gender=Fem|Number=Sing
roja         | Lema: rojo         | POS: ADJ      | Morfología: Gender=Fem|Number=Sing
en           | Lema: en           | POS: ADP      | Morfología: 
Madrid       | Lema: Madrid       | POS: PROPN    | Morfología: 
.            | Lema: .            | POS: PUNCT    | Morfología: PunctType=Peri


Lema: Juan (los nombres propios se mantienen igual).
	-	POS: PROPN → nombre propio.
	-	Morfología: vacío, porque no lleva rasgos gramaticales como género/ número marcados explícitamente.

⸻

2. comió
	-	Lema: comer (forma base del verbo).
	-	POS: VERB → verbo.
	-	Morfología:
	-	Mood=Ind → modo indicativo.
	-	Number=Sing → singular.
	-	Person=3 → tercera persona.
	-	Tense=Past → tiempo pasado.
	-	VerbForm=Fin → forma verbal finita (conjugada).

👉 Traducción: “comió” es la forma de tercera persona singular del pasado del verbo “comer”.

⸻

3. rápidamente
	-	Lema: rápidamente.
	-	POS: ADV → adverbio.
	-	Morfología: sin rasgos adicionales (los adverbios suelen ser invariables).

⸻

4. la
	-	Lema: el.
	-	POS: DET → determinante.
	-	Morfología:
	-	Definite=Def → artículo definido.
	-	Gender=Fem → femenino.
	-	Number=Sing → singular.
	-	PronType=Art → artículo.

👉 Es el artículo definido femenino singular.

In [3]:
print("\n=== Dependency Relations ===")
for token in doc:
    print(f"{token.text:10} <--{token.dep_}-- {token.head.text}")




=== Dependency Relations ===
Juan       <--nsubj-- comió
comió      <--ROOT-- comió
rápidamente <--advmod-- comió
la         <--det-- manzana
manzana    <--obj-- comió
roja       <--amod-- manzana
en         <--case-- Madrid
Madrid     <--obl-- comió
.          <--punct-- comió


análisis de dependencias sintácticas de spaCy para la oración “Juan comió rápidamente la manzana roja en Madrid.”.
Cada línea se lee como: [palabra] ←–(relación sintáctica)– [palabra principal].

Vamos una por una:

⸻

1. Juan ←–nsubj– comió
	•	nsubj = nominal subject (sujeto nominal).
👉 Juan es el sujeto del verbo comió.

⸻

2. comió ←–ROOT– comió
	•	ROOT = la raíz de la oración, el núcleo del predicado.
👉 comió es el verbo principal y centro de la estructura.


3. rápidamente ←–advmod– comió
	•	advmod = adverbial modifier (modificador adverbial).
👉 rápidamente modifica al verbo comió, indicando la manera.

⸻

4. la ←–det– manzana
	•	det = determiner (determinante).
👉 la funciona como determinante de manzana.

⸻

5. manzana ←–obj– comió
	•	obj = object (objeto directo).
👉 manzana es el objeto directo de comió.

⸻

6. roja ←–amod– manzana
	•	amod = adjectival modifier (modificador adjetival).
👉 roja modifica al sustantivo manzana.

⸻

7. en ←–case– Madrid
	•	case = marca de caso (generalmente preposición).
👉 en introduce el complemento Madrid.

⸻

8. Madrid ←–obl– comió
	•	obl = oblique nominal (complemento circunstancial).
👉 Madrid funciona como un complemento circunstancial de lugar de comió, encabezado por la preposición en.

⸻

9. . ←–punct– comió
	•	punct = signo de puntuación.
👉 El punto final está asociado al verbo principal comió.


                comió (ROOT)
               /   |     \ 
         Juan    rápidamente   manzana
                        |        |  \
                       la      roja  .
                              
                          en → Madrid

In [4]:

print("\n=== Named Entities ===")
for ent in doc.ents:
    print(f"{ent.text:15} | Label: {ent.label_}")


=== Named Entities ===
Juan comió      | Label: PER
Madrid          | Label: LOC


- PER: Person
- Loc: location