# Introducci√≥n a spaCy: Procesamiento de Lenguaje Natural

## ¬øQu√© es spaCy?

**spaCy** es una biblioteca de Python para procesamiento avanzado de lenguaje natural (NLP). Es r√°pida, eficiente y perfecta para aplicaciones de producci√≥n. Con spaCy puedes:

- Analizar texto y extraer informaci√≥n ling√º√≠stica
- Identificar entidades nombradas (personas, lugares, organizaciones)
- Analizar la estructura gramatical de las oraciones
- Trabajar con m√∫ltiples idiomas

## Principales Estructuras de Datos en spaCy

spaCy tiene tres estructuras de datos principales:

1. **Doc**: Representa un documento de texto completo
2. **Token**: Representa una palabra individual o s√≠mbolo
3. **Span**: Representa una secuencia de tokens (como una frase o entidad)

En este ejercicio aprenderemos a:
- Procesar texto con spaCy
- Analizar tokens individuales
- Extraer informaci√≥n ling√º√≠stica
- Identificar entidades nombradas

¬°Comencemos con ejemplos pr√°cticos usando textos sencillos! üó£Ô∏è

In [None]:
# Primero importamos spaCy
import spacy
import pandas as pd

# Verificamos la instalaci√≥n de spaCy
print(f"Versi√≥n de spaCy: {spacy.__version__}")
print("¬°spaCy importado correctamente! üöÄ")
print()

# Nota: Si no tienes el modelo espa√±ol instalado, ejecuta en terminal:
# python -m spacy download es_core_news_sm

## 1. Cargar Modelo y Crear Documento (Doc)

Un **Doc** es la estructura principal de spaCy que contiene el texto procesado con toda la informaci√≥n ling√º√≠stica.

In [None]:
# Cargar el modelo de spaCy para espa√±ol
# Si obtienes error, instala el modelo con: python -m spacy download es_core_news_sm
try:
    nlp = spacy.load("es_core_news_sm")
    print("‚úÖ Modelo espa√±ol cargado correctamente")
except OSError:
    print("‚ùå Error: Modelo espa√±ol no encontrado.")
    print("Instala el modelo con: python -m spacy download es_core_news_sm")
    # Para este ejercicio, usaremos el modelo en ingl√©s como alternativa
    nlp = spacy.load("en_core_web_sm")
    print("üìù Usando modelo en ingl√©s como alternativa")

print(f"Modelo cargado: {nlp.meta['name']}")
print(f"Idioma: {nlp.meta['lang']}")

In [None]:
# Crear nuestro primer documento (Doc) con texto sencillo
texto_ejemplo = "Mar√≠a vive en Madrid y trabaja en Google. Le gusta leer libros de ciencia ficci√≥n."

# Procesar el texto con spaCy
doc = nlp(texto_ejemplo)

print("üìÑ Documento creado:")
print(f"Texto original: {doc.text}")
print(f"Tipo de objeto: {type(doc)}")
print(f"Longitud (n√∫mero de tokens): {len(doc)}")
print()

# Informaci√≥n b√°sica del documento
print("üîç Informaci√≥n del documento:")
print(f"¬øTiene entidades nombradas? {len(doc.ents) > 0}")
print(f"N√∫mero de oraciones: {len(list(doc.sents))}")
print(f"Idioma detectado: {doc.lang_}")

## 2. Tokens - Analizando Palabras Individuales

Un **Token** representa cada palabra, signo de puntuaci√≥n o elemento del texto. Cada token contiene mucha informaci√≥n ling√º√≠stica √∫til.

In [None]:
# Explorar tokens individuales
print("üî§ An√°lisis de Tokens:")
print("Token\t\tLema\t\tPOS\t\tTipo\t\t¬øEs palabra?")
print("-" * 65)

for token in doc:
    print(f"{token.text:<10}\t{token.lemma_:<10}\t{token.pos_:<8}\t{token.tag_:<10}\t{token.is_alpha}")

print()
print("üìñ Explicaci√≥n de las columnas:")
print("- Token: La palabra tal como aparece en el texto")
print("- Lema: La forma base de la palabra (infinitivo, singular, etc.)")
print("- POS: Parte del discurso (sustantivo, verbo, adjetivo, etc.)")
print("- Tipo: Etiqueta espec√≠fica del POS")
print("- ¬øEs palabra?: True si es una palabra alfab√©tica (no puntuaci√≥n)")

In [None]:
# Filtrar diferentes tipos de tokens
print("üìù Filtros de Tokens:")

# Solo palabras (sin puntuaci√≥n)
palabras = [token.text for token in doc if token.is_alpha]
print(f"Solo palabras: {palabras}")

# Solo sustantivos
sustantivos = [token.text for token in doc if token.pos_ == "NOUN"]
print(f"Sustantivos: {sustantivos}")

# Solo verbos
verbos = [token.text for token in doc if token.pos_ == "VERB"]
print(f"Verbos: {verbos}")

# Palabras importantes (no stop words)
palabras_importantes = [token.text for token in doc if not token.is_stop and token.is_alpha]
print(f"Palabras importantes: {palabras_importantes}")

print()
print("üéØ An√°lisis espec√≠fico de algunos tokens:")
for token in doc:
    if token.text in ["Mar√≠a", "Madrid", "Google"]:
        print(f"'{token.text}' -> Lema: {token.lemma_}, POS: {token.pos_}, ¬øStop word?: {token.is_stop}")

## 3. Entidades Nombradas (Named Entities)

Las **entidades nombradas** son elementos espec√≠ficos del texto como personas, lugares, organizaciones, fechas, etc.

In [None]:
# Analizar entidades nombradas
print("üè∑Ô∏è Entidades Nombradas encontradas:")
if doc.ents:
    print("Entidad\t\tTipo\t\tDescripci√≥n")
    print("-" * 50)
    for ent in doc.ents:
        print(f"{ent.text:<15}\t{ent.label_:<10}\t{spacy.explain(ent.label_)}")
else:
    print("No se encontraron entidades nombradas en este texto")

print()

# Crear un texto m√°s rico en entidades para demostrar mejor
texto_rico = """
Juan P√©rez naci√≥ el 15 de marzo de 1990 en Barcelona, Espa√±a. 
Trabaja en Microsoft desde 2020 y gana 50000 euros al a√±o. 
Su tel√©fono es +34 123 456 789 y su email es juan@email.com.
"""

doc_rico = nlp(texto_rico)

print("üåü Ejemplo con texto m√°s rico en entidades:")
print(f"Texto: {texto_rico.strip()}")
print()
print("Entidades encontradas:")
print("Entidad\t\tTipo\t\tDescripci√≥n")
print("-" * 50)
for ent in doc_rico.ents:
    print(f"{ent.text:<15}\t{ent.label_:<10}\t{spacy.explain(ent.label_) or 'Sin descripci√≥n'}")

## 4. Spans y Segmentaci√≥n de Oraciones

Un **Span** es una secuencia de tokens. Las oraciones son un tipo especial de Span que spaCy identifica autom√°ticamente.

In [None]:
# Trabajar con oraciones (sentences)
texto_oraciones = """
Hola, me llamo Ana y tengo 25 a√±os. Vivo en Madrid con mi gato Felix. 
Me gusta cocinar pasta italiana. ¬øCu√°l es tu comida favorita? 
Mi restaurante preferido est√° en el centro de la ciudad.
"""

doc_oraciones = nlp(texto_oraciones)

print("üìù Segmentaci√≥n de Oraciones:")
print(f"N√∫mero total de oraciones: {len(list(doc_oraciones.sents))}")
print()

for i, sent in enumerate(doc_oraciones.sents, 1):
    print(f"Oraci√≥n {i}: {sent.text.strip()}")
    print(f"  - Tokens: {len(sent)}")
    print(f"  - Palabras: {len([token for token in sent if token.is_alpha])}")
    print()

# Crear spans personalizados
print("üéØ Trabajando con Spans personalizados:")
# Obtener las primeras 3 palabras
span_ejemplo = doc_oraciones[:3]
print(f"Span de las primeras 3 palabras: '{span_ejemplo.text}'")
print(f"Tipo: {type(span_ejemplo)}")
print(f"Tokens en el span: {[token.text for token in span_ejemplo]}")

# Span de una oraci√≥n espec√≠fica
primera_oracion = list(doc_oraciones.sents)[0]
print(f"Primera oraci√≥n como span: '{primera_oracion.text.strip()}'")
print(f"Ra√≠z de la oraci√≥n: '{primera_oracion.root.text}' (POS: {primera_oracion.root.pos_})")

In [None]:
# An√°lisis de dependencias sint√°cticas (sintaxis b√°sica)
print("üå≥ An√°lisis de Dependencias Sint√°cticas:")
oraci√≥n_simple = nlp("El gato come pescado.")

print(f"Oraci√≥n: {oraci√≥n_simple.text}")
print("Token\t\tDependencia\t\tJefe")
print("-" * 40)

for token in oraci√≥n_simple:
    print(f"{token.text:<10}\t{token.dep_:<15}\t{token.head.text}")

print()
print("üìä Creando un DataFrame con informaci√≥n de tokens:")

# Crear un DataFrame con la informaci√≥n de los tokens
datos_tokens = []
for token in doc_oraciones:
    if token.is_alpha:  # Solo palabras, no puntuaci√≥n
        datos_tokens.append({
            'palabra': token.text,
            'lema': token.lemma_,
            'pos': token.pos_,
            'es_stop_word': token.is_stop,
            'dependencia': token.dep_,
            'longitud': len(token.text)
        })

df_tokens = pd.DataFrame(datos_tokens)
print("Muestra del DataFrame de tokens:")
print(df_tokens.head(10))

## 5. ¬°Tu turno! Ejercicios Pr√°cticos üöÄ

Ahora es momento de que practiques con los conceptos de spaCy. Aqu√≠ tienes algunos ejercicios:

In [None]:
# EJERCICIO 1: Analiza tu propio texto
print("üìù EJERCICIO 1 - Analiza este texto sobre deportes:")

texto_deportes = """
El Real Madrid gan√≥ el partido por 3-1 contra el Barcelona el domingo pasado. 
Cristiano Ronaldo marc√≥ dos goles incre√≠bles en el Santiago Bernab√©u. 
El entrenador Zinedine Zidane estaba muy contento con el resultado.
"""

# Tu c√≥digo aqu√≠: procesa el texto con spaCy
doc_deportes = nlp(texto_deportes)

print(f"Texto analizado: {doc_deportes.text}")
print()

# Responde estas preguntas:
print("‚ùì Preguntas para resolver:")

# A) ¬øCu√°ntas oraciones hay?
num_oraciones = len(list(doc_deportes.sents))
print(f"A) N√∫mero de oraciones: {num_oraciones}")

# B) ¬øQu√© entidades nombradas encontraste?
print("B) Entidades nombradas:")
for ent in doc_deportes.ents:
    print(f"   - {ent.text} ({ent.label_})")

# C) ¬øCu√°les son los verbos en el texto?
verbos = [token.text for token in doc_deportes if token.pos_ == "VERB"]
print(f"C) Verbos encontrados: {verbos}")

# D) ¬øCu√°ntas palabras √∫nicas hay? (sin repeticiones)
palabras_unicas = set([token.lemma_.lower() for token in doc_deportes if token.is_alpha])
print(f"D) Palabras √∫nicas: {len(palabras_unicas)}")

In [None]:
# EJERCICIO 2: Comparar textos
print("üîÑ EJERCICIO 2 - Compara estos dos textos:")

texto1 = "Me encanta la pizza italiana con pepperoni y queso."
texto2 = "Odio la comida r√°pida, prefiero ensaladas saludables."

doc1 = nlp(texto1)
doc2 = nlp(texto2)

print(f"Texto 1: {texto1}")
print(f"Texto 2: {texto2}")
print()

# An√°lisis comparativo
print("üìä An√°lisis comparativo:")

# Palabras importantes (sin stop words)
palabras1 = [token.lemma_ for token in doc1 if not token.is_stop and token.is_alpha]
palabras2 = [token.lemma_ for token in doc2 if not token.is_stop and token.is_alpha]

print(f"Palabras clave texto 1: {palabras1}")
print(f"Palabras clave texto 2: {palabras2}")

# ¬øTienen alguna palabra en com√∫n?
palabras_comunes = set(palabras1) & set(palabras2)
print(f"Palabras en com√∫n: {palabras_comunes if palabras_comunes else 'Ninguna'}")

# An√°lisis de sentimientos b√°sico (contando palabras positivas/negativas)
palabras_positivas = ["encanta", "gusta", "prefiero", "saludables"]
palabras_negativas = ["odio", "malo", "terrible", "horrible"]

sentimiento1 = sum(1 for token in doc1 if token.lemma_ in palabras_positivas) - sum(1 for token in doc1 if token.lemma_ in palabras_negativas)
sentimiento2 = sum(1 for token in doc2 if token.lemma_ in palabras_positivas) - sum(1 for token in doc2 if token.lemma_ in palabras_negativas)

print(f"Sentimiento texto 1: {sentimiento1} (positivo si > 0)")
print(f"Sentimiento texto 2: {sentimiento2} (positivo si > 0)")

In [None]:
# EJERCICIO 3: Extractor de informaci√≥n autom√°tico
print("üîç EJERCICIO 3 - Extractor de informaci√≥n autom√°tico")

# Funci√≥n para extraer informaci√≥n clave de un texto
def extraer_informacion(texto):
    doc = nlp(texto)
    
    info = {
        'num_oraciones': len(list(doc.sents)),
        'num_palabras': len([token for token in doc if token.is_alpha]),
        'personas': [],
        'lugares': [],
        'organizaciones': [],
        'sustantivos': [],
        'adjetivos': []
    }
    
    # Extraer entidades nombradas
    for ent in doc.ents:
        if ent.label_ in ["PERSON", "PER"]:
            info['personas'].append(ent.text)
        elif ent.label_ in ["GPE", "LOC"]:  # GPE = Geopolitical entity, LOC = Location
            info['lugares'].append(ent.text)
        elif ent.label_ in ["ORG"]:
            info['organizaciones'].append(ent.text)
    
    # Extraer sustantivos y adjetivos importantes
    for token in doc:
        if token.pos_ == "NOUN" and not token.is_stop:
            info['sustantivos'].append(token.lemma_)
        elif token.pos_ == "ADJ" and not token.is_stop:
            info['adjetivos'].append(token.lemma_)
    
    return info

# Probar con diferentes textos
textos_prueba = [
    "Apple Inc. fue fundada por Steve Jobs en California.",
    "Mar√≠a viaj√≥ a Par√≠s el a√±o pasado con su hermana.",
    "El nuevo iPhone es incre√≠blemente r√°pido y elegante."
]

for i, texto in enumerate(textos_prueba, 1):
    print(f"\n--- Texto {i} ---")
    print(f"Texto: {texto}")
    info = extraer_informacion(texto)
    
    for clave, valor in info.items():
        if valor:  # Solo mostrar si hay contenido
            print(f"{clave.replace('_', ' ').title()}: {valor}")

print("\nüí° ¬°Tu turno! Modifica la funci√≥n 'extraer_informacion' para:")
print("   - Agregar detecci√≥n de fechas")
print("   - Contar palabras largas (>6 caracteres)")
print("   - Identificar el tema principal del texto")

In [None]:
# EJERCICIO 4: Espacio libre para experimentar
print("üéØ EJERCICIO 4 - Espacio libre para practicar")
print("Usa este espacio para experimentar con tus propios textos")
print()

# Ideas para practicar:
print("Ideas para experimentar:")
print("1. Analizar un texto de una noticia")
print("2. Comparar textos en diferentes idiomas")
print("3. Crear un contador de palabras m√°s inteligente")
print("4. Hacer an√°lisis de sentimientos b√°sico")
print("5. Extraer informaci√≥n de biograf√≠as")
print()

# Ejemplo de texto para experimentar
mi_texto = """
Escribe aqu√≠ tu propio texto para analizar. 
Puede ser una noticia, una historia personal, o cualquier cosa que te interese.
¬°spaCy te ayudar√° a extraer informaci√≥n valiosa!
"""

# Tu c√≥digo de experimentaci√≥n aqu√≠:
# (Descomenta y modifica estas l√≠neas)

# doc_mi_texto = nlp(mi_texto)
# print(f"Mi texto tiene {len(list(doc_mi_texto.sents))} oraciones")
# print(f"Entidades encontradas: {[(ent.text, ent.label_) for ent in doc_mi_texto.ents]}")

print("¬°Adelante, experimenta con spaCy!")