# Introducción a spaCy: Procesamiento de Lenguaje Natural

## ¿Qué es spaCy?

**spaCy** es una biblioteca de Python para procesamiento avanzado de lenguaje natural (NLP). Es rápida, eficiente y perfecta para aplicaciones de producción. Con spaCy puedes:

- Analizar texto y extraer información lingüística
- Identificar entidades nombradas (personas, lugares, organizaciones)
- Analizar la estructura gramatical de las oraciones
- Trabajar con múltiples idiomas

## Principales Estructuras de Datos en spaCy

spaCy tiene tres estructuras de datos principales:

1. **Doc**: Representa un documento de texto completo
2. **Token**: Representa una palabra individual o símbolo
3. **Span**: Representa una secuencia de tokens (como una frase o entidad)

En este ejercicio aprenderemos a:
- Procesar texto con spaCy
- Analizar tokens individuales
- Extraer información lingüística
- Identificar entidades nombradas

¡Comencemos con ejemplos prácticos usando textos sencillos! 🗣️

In [None]:
# Primero importamos spaCy
import spacy
import pandas as pd

# Verificamos la instalación de spaCy
print(f"Versión de spaCy: {spacy.__version__}")
print("¡spaCy importado correctamente! 🚀")
print()

# Nota: Si no tienes el modelo español instalado, ejecuta en terminal:
# python -m spacy download es_core_news_sm

## 1. Cargar Modelo y Crear Documento (Doc)

Un **Doc** es la estructura principal de spaCy que contiene el texto procesado con toda la información lingüística.

In [None]:
# Cargar el modelo de spaCy para español
# Si obtienes error, instala el modelo con: python -m spacy download es_core_news_sm
try:
    nlp = spacy.load("es_core_news_sm")
    print("✅ Modelo español cargado correctamente")
except OSError:
    print("❌ Error: Modelo español no encontrado.")
    print("Instala el modelo con: python -m spacy download es_core_news_sm")
    # Para este ejercicio, usaremos el modelo en inglés como alternativa
    nlp = spacy.load("en_core_web_sm")
    print("📝 Usando modelo en inglés como alternativa")

print(f"Modelo cargado: {nlp.meta['name']}")
print(f"Idioma: {nlp.meta['lang']}")

In [None]:
# Crear nuestro primer documento (Doc) con texto sencillo
texto_ejemplo = "María vive en Madrid y trabaja en Google. Le gusta leer libros de ciencia ficción."

# Procesar el texto con spaCy
doc = nlp(texto_ejemplo)

print("📄 Documento creado:")
print(f"Texto original: {doc.text}")
print(f"Tipo de objeto: {type(doc)}")
print(f"Longitud (número de tokens): {len(doc)}")
print()

# Información básica del documento
print("🔍 Información del documento:")
print(f"¿Tiene entidades nombradas? {len(doc.ents) > 0}")
print(f"Número de oraciones: {len(list(doc.sents))}")
print(f"Idioma detectado: {doc.lang_}")

## 2. Tokens - Analizando Palabras Individuales

Un **Token** representa cada palabra, signo de puntuación o elemento del texto. Cada token contiene mucha información lingüística útil.

In [None]:
# Explorar tokens individuales
print("🔤 Análisis de Tokens:")
print("Token\t\tLema\t\tPOS\t\tTipo\t\t¿Es palabra?")
print("-" * 65)

for token in doc:
    print(f"{token.text:<10}\t{token.lemma_:<10}\t{token.pos_:<8}\t{token.tag_:<10}\t{token.is_alpha}")

print()
print("📖 Explicación de las columnas:")
print("- Token: La palabra tal como aparece en el texto")
print("- Lema: La forma base de la palabra (infinitivo, singular, etc.)")
print("- POS: Parte del discurso (sustantivo, verbo, adjetivo, etc.)")
print("- Tipo: Etiqueta específica del POS")
print("- ¿Es palabra?: True si es una palabra alfabética (no puntuación)")

In [None]:
# Filtrar diferentes tipos de tokens
print("📝 Filtros de Tokens:")

# Solo palabras (sin puntuación)
palabras = [token.text for token in doc if token.is_alpha]
print(f"Solo palabras: {palabras}")

# Solo sustantivos
sustantivos = [token.text for token in doc if token.pos_ == "NOUN"]
print(f"Sustantivos: {sustantivos}")

# Solo verbos
verbos = [token.text for token in doc if token.pos_ == "VERB"]
print(f"Verbos: {verbos}")

# Palabras importantes (no stop words)
palabras_importantes = [token.text for token in doc if not token.is_stop and token.is_alpha]
print(f"Palabras importantes: {palabras_importantes}")

print()
print("🎯 Análisis específico de algunos tokens:")
for token in doc:
    if token.text in ["María", "Madrid", "Google"]:
        print(f"'{token.text}' -> Lema: {token.lemma_}, POS: {token.pos_}, ¿Stop word?: {token.is_stop}")

## 3. Entidades Nombradas (Named Entities)

Las **entidades nombradas** son elementos específicos del texto como personas, lugares, organizaciones, fechas, etc.

In [None]:
# Analizar entidades nombradas
print("🏷️ Entidades Nombradas encontradas:")
if doc.ents:
    print("Entidad\t\tTipo\t\tDescripción")
    print("-" * 50)
    for ent in doc.ents:
        print(f"{ent.text:<15}\t{ent.label_:<10}\t{spacy.explain(ent.label_)}")
else:
    print("No se encontraron entidades nombradas en este texto")

print()

# Crear un texto más rico en entidades para demostrar mejor
texto_rico = """
Juan Pérez nació el 15 de marzo de 1990 en Barcelona, España. 
Trabaja en Microsoft desde 2020 y gana 50000 euros al año. 
Su teléfono es +34 123 456 789 y su email es juan@email.com.
"""

doc_rico = nlp(texto_rico)

print("🌟 Ejemplo con texto más rico en entidades:")
print(f"Texto: {texto_rico.strip()}")
print()
print("Entidades encontradas:")
print("Entidad\t\tTipo\t\tDescripción")
print("-" * 50)
for ent in doc_rico.ents:
    print(f"{ent.text:<15}\t{ent.label_:<10}\t{spacy.explain(ent.label_) or 'Sin descripción'}")

## 4. Spans y Segmentación de Oraciones

Un **Span** es una secuencia de tokens. Las oraciones son un tipo especial de Span que spaCy identifica automáticamente.

In [None]:
# Trabajar con oraciones (sentences)
texto_oraciones = """
Hola, me llamo Ana y tengo 25 años. Vivo en Madrid con mi gato Felix. 
Me gusta cocinar pasta italiana. ¿Cuál es tu comida favorita? 
Mi restaurante preferido está en el centro de la ciudad.
"""

doc_oraciones = nlp(texto_oraciones)

print("📝 Segmentación de Oraciones:")
print(f"Número total de oraciones: {len(list(doc_oraciones.sents))}")
print()

for i, sent in enumerate(doc_oraciones.sents, 1):
    print(f"Oración {i}: {sent.text.strip()}")
    print(f"  - Tokens: {len(sent)}")
    print(f"  - Palabras: {len([token for token in sent if token.is_alpha])}")
    print()

# Crear spans personalizados
print("🎯 Trabajando con Spans personalizados:")
# Obtener las primeras 3 palabras
span_ejemplo = doc_oraciones[:3]
print(f"Span de las primeras 3 palabras: '{span_ejemplo.text}'")
print(f"Tipo: {type(span_ejemplo)}")
print(f"Tokens en el span: {[token.text for token in span_ejemplo]}")

# Span de una oración específica
primera_oracion = list(doc_oraciones.sents)[0]
print(f"Primera oración como span: '{primera_oracion.text.strip()}'")
print(f"Raíz de la oración: '{primera_oracion.root.text}' (POS: {primera_oracion.root.pos_})")

In [None]:
# Análisis de dependencias sintácticas (sintaxis básica)
print("🌳 Análisis de Dependencias Sintácticas:")
oración_simple = nlp("El gato come pescado.")

print(f"Oración: {oración_simple.text}")
print("Token\t\tDependencia\t\tJefe")
print("-" * 40)

for token in oración_simple:
    print(f"{token.text:<10}\t{token.dep_:<15}\t{token.head.text}")

print()
print("📊 Creando un DataFrame con información de tokens:")

# Crear un DataFrame con la información de los tokens
datos_tokens = []
for token in doc_oraciones:
    if token.is_alpha:  # Solo palabras, no puntuación
        datos_tokens.append({
            'palabra': token.text,
            'lema': token.lemma_,
            'pos': token.pos_,
            'es_stop_word': token.is_stop,
            'dependencia': token.dep_,
            'longitud': len(token.text)
        })

df_tokens = pd.DataFrame(datos_tokens)
print("Muestra del DataFrame de tokens:")
print(df_tokens.head(10))

## 5. ¡Tu turno! Ejercicios Prácticos 🚀

Ahora es momento de que practiques con los conceptos de spaCy. Aquí tienes algunos ejercicios:

In [None]:
# EJERCICIO 1: Analiza tu propio texto
print("📝 EJERCICIO 1 - Analiza este texto sobre deportes:")

texto_deportes = """
El Real Madrid ganó el partido por 3-1 contra el Barcelona el domingo pasado. 
Cristiano Ronaldo marcó dos goles increíbles en el Santiago Bernabéu. 
El entrenador Zinedine Zidane estaba muy contento con el resultado.
"""

# Tu código aquí: procesa el texto con spaCy
doc_deportes = nlp(texto_deportes)

print(f"Texto analizado: {doc_deportes.text}")
print()

# Responde estas preguntas:
print("❓ Preguntas para resolver:")

# A) ¿Cuántas oraciones hay?
num_oraciones = len(list(doc_deportes.sents))
print(f"A) Número de oraciones: {num_oraciones}")

# B) ¿Qué entidades nombradas encontraste?
print("B) Entidades nombradas:")
for ent in doc_deportes.ents:
    print(f"   - {ent.text} ({ent.label_})")

# C) ¿Cuáles son los verbos en el texto?
verbos = [token.text for token in doc_deportes if token.pos_ == "VERB"]
print(f"C) Verbos encontrados: {verbos}")

# D) ¿Cuántas palabras únicas hay? (sin repeticiones)
palabras_unicas = set([token.lemma_.lower() for token in doc_deportes if token.is_alpha])
print(f"D) Palabras únicas: {len(palabras_unicas)}")

In [None]:
# EJERCICIO 2: Comparar textos
print("🔄 EJERCICIO 2 - Compara estos dos textos:")

texto1 = "Me encanta la pizza italiana con pepperoni y queso."
texto2 = "Odio la comida rápida, prefiero ensaladas saludables."

doc1 = nlp(texto1)
doc2 = nlp(texto2)

print(f"Texto 1: {texto1}")
print(f"Texto 2: {texto2}")
print()

# Análisis comparativo
print("📊 Análisis comparativo:")

# Palabras importantes (sin stop words)
palabras1 = [token.lemma_ for token in doc1 if not token.is_stop and token.is_alpha]
palabras2 = [token.lemma_ for token in doc2 if not token.is_stop and token.is_alpha]

print(f"Palabras clave texto 1: {palabras1}")
print(f"Palabras clave texto 2: {palabras2}")

# ¿Tienen alguna palabra en común?
palabras_comunes = set(palabras1) & set(palabras2)
print(f"Palabras en común: {palabras_comunes if palabras_comunes else 'Ninguna'}")

# Análisis de sentimientos básico (contando palabras positivas/negativas)
palabras_positivas = ["encanta", "gusta", "prefiero", "saludables"]
palabras_negativas = ["odio", "malo", "terrible", "horrible"]

sentimiento1 = sum(1 for token in doc1 if token.lemma_ in palabras_positivas) - sum(1 for token in doc1 if token.lemma_ in palabras_negativas)
sentimiento2 = sum(1 for token in doc2 if token.lemma_ in palabras_positivas) - sum(1 for token in doc2 if token.lemma_ in palabras_negativas)

print(f"Sentimiento texto 1: {sentimiento1} (positivo si > 0)")
print(f"Sentimiento texto 2: {sentimiento2} (positivo si > 0)")

In [None]:
# EJERCICIO 3: Extractor de información automático
print("🔍 EJERCICIO 3 - Extractor de información automático")

# Función para extraer información clave de un texto
def extraer_informacion(texto):
    doc = nlp(texto)
    
    info = {
        'num_oraciones': len(list(doc.sents)),
        'num_palabras': len([token for token in doc if token.is_alpha]),
        'personas': [],
        'lugares': [],
        'organizaciones': [],
        'sustantivos': [],
        'adjetivos': []
    }
    
    # Extraer entidades nombradas
    for ent in doc.ents:
        if ent.label_ in ["PERSON", "PER"]:
            info['personas'].append(ent.text)
        elif ent.label_ in ["GPE", "LOC"]:  # GPE = Geopolitical entity, LOC = Location
            info['lugares'].append(ent.text)
        elif ent.label_ in ["ORG"]:
            info['organizaciones'].append(ent.text)
    
    # Extraer sustantivos y adjetivos importantes
    for token in doc:
        if token.pos_ == "NOUN" and not token.is_stop:
            info['sustantivos'].append(token.lemma_)
        elif token.pos_ == "ADJ" and not token.is_stop:
            info['adjetivos'].append(token.lemma_)
    
    return info

# Probar con diferentes textos
textos_prueba = [
    "Apple Inc. fue fundada por Steve Jobs en California.",
    "María viajó a París el año pasado con su hermana.",
    "El nuevo iPhone es increíblemente rápido y elegante."
]

for i, texto in enumerate(textos_prueba, 1):
    print(f"\n--- Texto {i} ---")
    print(f"Texto: {texto}")
    info = extraer_informacion(texto)
    
    for clave, valor in info.items():
        if valor:  # Solo mostrar si hay contenido
            print(f"{clave.replace('_', ' ').title()}: {valor}")

print("\n💡 ¡Tu turno! Modifica la función 'extraer_informacion' para:")
print("   - Agregar detección de fechas")
print("   - Contar palabras largas (>6 caracteres)")
print("   - Identificar el tema principal del texto")

In [None]:
# EJERCICIO 4: Espacio libre para experimentar
print("🎯 EJERCICIO 4 - Espacio libre para practicar")
print("Usa este espacio para experimentar con tus propios textos")
print()

# Ideas para practicar:
print("Ideas para experimentar:")
print("1. Analizar un texto de una noticia")
print("2. Comparar textos en diferentes idiomas")
print("3. Crear un contador de palabras más inteligente")
print("4. Hacer análisis de sentimientos básico")
print("5. Extraer información de biografías")
print()

# Ejemplo de texto para experimentar
mi_texto = """
Escribe aquí tu propio texto para analizar. 
Puede ser una noticia, una historia personal, o cualquier cosa que te interese.
¡spaCy te ayudará a extraer información valiosa!
"""

# Tu código de experimentación aquí:
# (Descomenta y modifica estas líneas)

# doc_mi_texto = nlp(mi_texto)
# print(f"Mi texto tiene {len(list(doc_mi_texto.sents))} oraciones")
# print(f"Entidades encontradas: {[(ent.text, ent.label_) for ent in doc_mi_texto.ents]}")

print("¡Adelante, experimenta con spaCy!")