In [2]:
import spacy
import pandas as pd

nlp_es = spacy.load('es_core_news_lg')

In [3]:
texto = """«Life On Mars?» es una canción del músico británico David Bowie,
publicada en diciembre de 1971 en el álbum Hunky Dory. La canción, que
posteriormente sería definida por BBC Radio 2 como «un cruce entre un
musical de Broadway y un cuadro de Salvador Dalí»,1 contó con
participación del pianista Rick Wakeman. Después de ser lanzada como
single en 1973,2 alcanzó el tercer puesto en la lista de éxitos del Reino
Unido en la cual se mantuvo durante 13 semanas. La canción volvió a entrar
en el ranking 30 años después al ser utilizada en la serie de televisión Life
on Mars. Neil McCormick, crítico musical de The Daily Telegraph, la situó
como la primera de las 100 mejores canciones de todos los tiempos."""

In [4]:
import re
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

def limpiar_texto(texto):
    if not isinstance(texto, str):
        raise ValueError("El argumento 'texto' debe ser una cadena de texto.")
    
    # Eliminar caracteres especiales y números
    texto = re.sub(r'[^a-zA-Z\s]', '', texto)
    
    # Convertir a minúsculas
    texto = texto.lower()
    
    # Tokenizar el texto
    tokens = word_tokenize(texto)
    
    # Eliminar stop words
    stop_words = set(stopwords.words('english'))
    tokens_filtrados = [word for word in tokens if word not in stop_words]
    
    # Unir tokens nuevamente en un string
    texto_limpiado = ' '.join(tokens_filtrados)
    
    return texto_limpiado

In [5]:
texto_limpio = limpiar_texto(texto)
texto_limpio

'life mars es una cancin del msico britnico david bowie publicada en diciembre de en el lbum hunky dory la cancin que posteriormente sera definida por bbc radio como un cruce entre un musical de broadway un cuadro de salvador dal cont con participacin del pianista rick wakeman despus de ser lanzada como single en alcanz el tercer puesto en la lista de xitos del reino unido en la cual se mantuvo durante semanas la cancin volvi entrar en el ranking aos despus al ser utilizada en la serie de televisin life mars neil mccormick crtico musical de daily telegraph la situ como la primera de las mejores canciones de todos los tiempos'

# Token text y Postag de cada palabra

In [7]:
import spacy

# Cargar modelo de lenguaje en español

# Realizar análisis morfológico para un artículo de ejemplo
doc = nlp_es(texto_limpio)

print("\n")
# Encontrar el sujeto y el predicado
for token in doc:
    print("Token:", token.text, "|  Análisis morfológico:", token.tag_)



Token: life |  Análisis morfológico: PROPN
Token: mars |  Análisis morfológico: PROPN
Token: es |  Análisis morfológico: AUX
Token: una |  Análisis morfológico: DET
Token: cancin |  Análisis morfológico: NOUN
Token: del |  Análisis morfológico: ADP
Token: msico |  Análisis morfológico: PROPN
Token: britnico |  Análisis morfológico: PROPN
Token: david |  Análisis morfológico: PROPN
Token: bowie |  Análisis morfológico: PROPN
Token: publicada |  Análisis morfológico: ADJ
Token: en |  Análisis morfológico: ADP
Token: diciembre |  Análisis morfológico: NOUN
Token: de |  Análisis morfológico: ADP
Token: en |  Análisis morfológico: ADP
Token: el |  Análisis morfológico: DET
Token: lbum |  Análisis morfológico: NOUN
Token: hunky |  Análisis morfológico: PROPN
Token: dory |  Análisis morfológico: PROPN
Token: la |  Análisis morfológico: DET
Token: cancin |  Análisis morfológico: NOUN
Token: que |  Análisis morfológico: PRON
Token: posteriormente |  Análisis morfológico: ADV
Token: sera |  An

# Extraccion de entidades

In [8]:
for entidad in doc.ents:
    print(f"Entidad: {entidad.text} - Tipo: {entidad.label_}")

Entidad: life mars - Tipo: ORG
Entidad: david bowie - Tipo: PER
Entidad: hunky dory - Tipo: PER
Entidad: bbc radio - Tipo: ORG
Entidad: broadway - Tipo: LOC
Entidad: salvador dal - Tipo: PER
Entidad: rick wakeman - Tipo: PER
Entidad: reino unido - Tipo: LOC
Entidad: televisin life mars neil mccormick - Tipo: MISC
Entidad: daily - Tipo: PER


In [9]:
from spacy import displacy

# Visualizar las entidades
displacy.render(doc, style="ent")