# Tokenización de Texto en Español con Visualización

## Instalación del modelo (solo para Google Colab)

In [1]:
!pip install spacy
!python -m spacy download es_core_news_md


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m25.2[0m[39;49m -> [0m[32;49m25.3[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
/Users/oscar/Projects/ai_uni/.venv/bin/python: No module named pip


## Imports y carga del modelo

In [2]:
import spacy
from spacy import displacy
from IPython.display import HTML

In [3]:
nlp = spacy.load("es_core_news_md")

## Texto de ejemplo

In [4]:
texto = "Movistar invirtió 15M de dólares en doscientas startup de Lima en Noviembre del 2025."

In [5]:
doc = nlp(texto)

## Tokenización: Atributos de los tokens

In [6]:
for token in doc:
    print(f"{token.text:15} {token.pos_:8} {token.dep_:10} {token.lemma_}")

Movistar        PROPN    nsubj      Movistar
invirtió        VERB     ROOT       invertir
15              NUM      nummod     15
M               PROPN    obj        M
de              ADP      case       de
dólares         NOUN     nmod       dólares
en              ADP      case       en
doscientas      NUM      nummod     doscientos
startup         NOUN     obl        startup
de              ADP      case       de
Lima            PROPN    nmod       Lima
en              ADP      case       en
Noviembre       PROPN    nmod       Noviembre
del             ADP      case       del
2025            NUM      compound   2025
.               PUNCT    punct      .


## Visualización: Entidades nombradas

In [7]:
HTML(displacy.render(doc, style="ent", jupyter=False))

## Visualización: Dependencias sintácticas

In [8]:
HTML(displacy.render(doc, style="dep", jupyter=False))

## Información de las entidades

In [9]:
for ent in doc.ents:
    print(f"{ent.text:20} {ent.label_:10} {spacy.explain(ent.label_)}")

Movistar             ORG        Companies, agencies, institutions, etc.
Lima                 LOC        Non-GPE locations, mountain ranges, bodies of water
Noviembre del 2025   MISC       Miscellaneous entities, e.g. events, nationalities, products or works of art


## Ejemplo adicional: Texto empresarial

In [10]:
texto2 = "BBVA y Santander anunciaron una inversión conjunta de 50 millones de dólares en Barcelona para el desarrollo de inteligencia artificial."
doc2 = nlp(texto2)

In [11]:
HTML(displacy.render(doc2, style="ent", jupyter=False))

In [12]:
HTML(displacy.render(doc2, style="dep", jupyter=False))