# Tokenizaci√≥n y An√°lisis de Texto: Dividiendo el Discurso Hist√≥rico

```{epigraph}
"El lenguaje es el instrumento m√°s importante de la cooperaci√≥n humana. Es el medio por el cual transmitimos informaci√≥n sobre el mundo, pero, m√°s importante a√∫n, nos permite transmitir informaci√≥n sobre cosas que no existen en absoluto."

-- Yuval Noah Harari, *De animales a dioses* (2014)
```

```{admonition} Informaci√≥n del Cap√≠tulo
:class: tip

**Tiempo estimado:** 90 minutos  
**Nivel:** Intermedio  
**Prerrequisitos:** Cap√≠tulo 21 - Funciones con Par√°metros, conocimientos b√°sicos de listas y strings
```

## Objetivos de Aprendizaje

Al finalizar este cap√≠tulo, ser√°s capaz de:

1. Comprender qu√© es la **tokenizaci√≥n** y su importancia en el an√°lisis de textos hist√≥ricos
2. Utilizar la biblioteca **NLTK** para dividir textos en oraciones y palabras
3. Aplicar **stopwords** para filtrar palabras sin contenido sem√°ntico
4. Personalizar listas de stopwords seg√∫n el contexto hist√≥rico
5. Analizar discursos hist√≥ricos chilenos usando t√©cnicas de procesamiento de lenguaje natural

---

## Introducci√≥n: El Procesamiento del Lenguaje Natural en la Historia

El **Procesamiento del Lenguaje Natural** (NLP, por sus siglas en ingl√©s) es una rama de la inteligencia artificial que permite a las computadoras entender, interpretar y manipular el lenguaje humano. Para los historiadores, esta tecnolog√≠a abre posibilidades extraordinarias:

- **Analizar miles de documentos hist√≥ricos** en minutos
- **Detectar patrones** en discursos pol√≠ticos a trav√©s del tiempo
- **Comparar estilos de escritura** de diferentes √©pocas
- **Identificar temas recurrentes** en archivos hist√≥ricos

```{admonition} Nuestro documento de estudio
:class: note

En este cap√≠tulo trabajaremos con el **Discurso Inaugural de Andr√©s Bello** (1843), pronunciado en la instalaci√≥n de la Universidad de Chile. Este documento es fundamental para entender la visi√≥n educativa y cultural del Chile republicano del siglo XIX.
```

### Contexto Hist√≥rico: Andr√©s Bello y la Universidad de Chile

**Andr√©s Bello** (1781-1865) fue un humanista venezolano-chileno, considerado uno de los intelectuales m√°s importantes de Am√©rica Latina. El 17 de septiembre de 1843, pronunci√≥ el discurso inaugural de la Universidad de Chile, instituci√≥n de la cual fue su primer rector.

En su discurso, Bello defiende la importancia de las ciencias y las letras para el progreso de la naci√≥n, establece la misi√≥n de la universidad y reflexiona sobre el papel del conocimiento en la sociedad {cite}`bello1843discurso`.

---

## Preparaci√≥n del Entorno: Instalando NLTK

**NLTK** (*Natural Language Toolkit*) es la biblioteca m√°s utilizada para procesamiento de lenguaje natural en Python. Contiene herramientas para tokenizaci√≥n, an√°lisis gramatical, clasificaci√≥n de textos y mucho m√°s {cite}`bird2009nltk`.

In [1]:
# Instalaci√≥n de NLTK (ejecutar solo si no est√° instalado)
# !pip install nltk

In [2]:
# Importamos NLTK y descargamos los recursos necesarios
import nltk

# Descargamos los tokenizadores y stopwords
nltk.download('punkt')        # Para tokenizaci√≥n
nltk.download('punkt_tab')    # Recurso adicional de tokenizaci√≥n
nltk.download('stopwords')    # Lista de palabras vac√≠as

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/claudiorojas/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     /Users/claudiorojas/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/claudiorojas/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

---

## ¬øQu√© es la Tokenizaci√≥n?

La **tokenizaci√≥n** es el proceso de dividir un texto en unidades m√°s peque√±as llamadas **tokens**. Estos tokens pueden ser:

- **Oraciones**: Dividir un p√°rrafo en oraciones individuales
- **Palabras**: Dividir una oraci√≥n en palabras individuales
- **Caracteres**: Dividir una palabra en letras individuales

```{admonition} Analog√≠a hist√≥rica
:class: tip

Piensa en la tokenizaci√≥n como el trabajo de un **pale√≥grafo** que debe descifrar un manuscrito antiguo. Primero identifica los p√°rrafos, luego las oraciones, y finalmente cada palabra. Solo as√≠ puede comprender el texto completo.
```

### Tokenizaci√≥n en Oraciones: `sent_tokenize()`

La funci√≥n `sent_tokenize()` divide un texto en oraciones, reconociendo los puntos, signos de interrogaci√≥n y exclamaci√≥n como delimitadores.

In [3]:
from nltk.tokenize import sent_tokenize

# Fragmento del discurso de Andr√©s Bello
texto_bello = """
La Universidad, se√±ores, no ser√≠a digna de ocupar un lugar en nuestras instituciones 
sociales, si el cultivo de las ciencias y de las letras pudiese mirarse como peligroso 
bajo un punto de vista moral, o bajo un punto de vista pol√≠tico. La moral es la vida 
misma de la sociedad; la libertad es el est√≠mulo que da un vigor sano y una actividad 
fecunda a las instituciones sociales. ¬øA qu√© se debe este progreso de civilizaci√≥n, 
esta ansia de mejoras sociales, esta sed de libertad?
"""

# Tokenizamos en oraciones
oraciones = sent_tokenize(texto_bello, language='spanish')

print("="*60)
print("ORACIONES ENCONTRADAS EN EL TEXTO DE ANDR√âS BELLO")
print("="*60)
for i, oracion in enumerate(oraciones, 1):
    print(f"\nOraci√≥n {i}:")
    print(oracion.strip())

ORACIONES ENCONTRADAS EN EL TEXTO DE ANDR√âS BELLO

Oraci√≥n 1:
La Universidad, se√±ores, no ser√≠a digna de ocupar un lugar en nuestras instituciones 
sociales, si el cultivo de las ciencias y de las letras pudiese mirarse como peligroso 
bajo un punto de vista moral, o bajo un punto de vista pol√≠tico.

Oraci√≥n 2:
La moral es la vida 
misma de la sociedad; la libertad es el est√≠mulo que da un vigor sano y una actividad 
fecunda a las instituciones sociales.

Oraci√≥n 3:
¬øA qu√© se debe este progreso de civilizaci√≥n, 
esta ansia de mejoras sociales, esta sed de libertad?


### Tokenizaci√≥n en Palabras: `word_tokenize()`

La funci√≥n `word_tokenize()` divide un texto en palabras individuales. Tambi√©n separa los signos de puntuaci√≥n como tokens independientes.

In [4]:
from nltk.tokenize import word_tokenize

# Tomamos la primera oraci√≥n del discurso
primera_oracion = oraciones[0].strip()

# Tokenizamos en palabras
palabras = word_tokenize(primera_oracion, language='spanish')

print("Oraci√≥n original:")
print(primera_oracion)
print("\nPalabras tokenizadas:")
print(palabras)
print(f"\nTotal de tokens: {len(palabras)}")

Oraci√≥n original:
La Universidad, se√±ores, no ser√≠a digna de ocupar un lugar en nuestras instituciones 
sociales, si el cultivo de las ciencias y de las letras pudiese mirarse como peligroso 
bajo un punto de vista moral, o bajo un punto de vista pol√≠tico.

Palabras tokenizadas:
['La', 'Universidad', ',', 'se√±ores', ',', 'no', 'ser√≠a', 'digna', 'de', 'ocupar', 'un', 'lugar', 'en', 'nuestras', 'instituciones', 'sociales', ',', 'si', 'el', 'cultivo', 'de', 'las', 'ciencias', 'y', 'de', 'las', 'letras', 'pudiese', 'mirarse', 'como', 'peligroso', 'bajo', 'un', 'punto', 'de', 'vista', 'moral', ',', 'o', 'bajo', 'un', 'punto', 'de', 'vista', 'pol√≠tico', '.']

Total de tokens: 46


---

## Analizando el Discurso Completo de Andr√©s Bello

Ahora trabajaremos con un fragmento m√°s extenso del discurso inaugural para realizar un an√°lisis m√°s profundo.

In [5]:
# Fragmento extenso del Discurso Inaugural de Andr√©s Bello (1843)
discurso_bello = """
La Universidad, se√±ores, no ser√≠a digna de ocupar un lugar en nuestras instituciones 
sociales, si el cultivo de las ciencias y de las letras pudiese mirarse como peligroso 
bajo un punto de vista moral, o bajo un punto de vista pol√≠tico. La moral es la vida 
misma de la sociedad; la libertad es el est√≠mulo que da un vigor sano y una actividad 
fecunda a las instituciones sociales.

Lo sab√©is, se√±ores: todas las verdades se tocan, desde las que formulan el rumbo de 
los mundos en el pi√©lago del espacio; desde las que determinan las agencias maravillosas 
de que dependen el movimiento y la vida en el universo de la materia; desde las que 
resumen la estructura del animal, de la planta, de la masa inorg√°nica que pisamos; 
desde las que revelan los fen√≥menos √≠ntimos del alma en el teatro misterioso de la 
conciencia, hasta las que expresan las acciones y reacciones de las fuerzas pol√≠ticas.

Las ciencias y las letras, fuera de ese valor social, fuera de esta importancia que 
podemos llamar instrumental, fuera del barniz de amenidad y elegancia que dan a las 
sociedades humanas, tienen un m√©rito suyo, intr√≠nseco, en cuanto aumentan los placeres 
y goces del individuo que las cultiva y las ama; placeres exquisitos, a que no llega 
el delirio de los sentidos.

El fomento de las ciencias eclesi√°sticas, destinado a formar dignos ministros del 
culto, y en √∫ltimo resultado a proveer a los pueblos de la rep√∫blica de la competente 
educaci√≥n religiosa y moral, es el primero de estos objetos y el de mayor trascendencia.

La Universidad estudiar√° tambi√©n las especialidades de la sociedad chilena bajo el 
punto de vista econ√≥mico. La Universidad examinar√° los resultados de la estad√≠stica 
chilena, contribuir√° a formarla, y leer√° en sus guarismos la expresi√≥n de nuestros 
intereses materiales. Porque en este, como en los otros ramos, el programa de la 
Universidad es enteramente chileno: si toma prestadas a la Europa las deducciones 
de la ciencia, es para aplicarlas a Chile. Todas las sendas en que se propone dirigir 
las investigaciones de sus miembros, el estudio de sus alumnos, convergen a un centro: 
la patria.
"""

print(f"Longitud del texto: {len(discurso_bello)} caracteres")

Longitud del texto: 2140 caracteres


In [6]:
# An√°lisis b√°sico del discurso
oraciones_discurso = sent_tokenize(discurso_bello, language='spanish')
palabras_discurso = word_tokenize(discurso_bello, language='spanish')

print("="*60)
print("AN√ÅLISIS DEL DISCURSO DE ANDR√âS BELLO (1843)")
print("="*60)
print(f"\nN√∫mero de oraciones: {len(oraciones_discurso)}")
print(f"N√∫mero de tokens (palabras + puntuaci√≥n): {len(palabras_discurso)}")

# Solo palabras (sin puntuaci√≥n)
solo_palabras = [p for p in palabras_discurso if p.isalpha()]
print(f"N√∫mero de palabras (sin puntuaci√≥n): {len(solo_palabras)}")

# Promedio de palabras por oraci√≥n
promedio = len(solo_palabras) / len(oraciones_discurso)
print(f"Promedio de palabras por oraci√≥n: {promedio:.1f}")

AN√ÅLISIS DEL DISCURSO DE ANDR√âS BELLO (1843)

N√∫mero de oraciones: 9
N√∫mero de tokens (palabras + puntuaci√≥n): 399
N√∫mero de palabras (sin puntuaci√≥n): 356
Promedio de palabras por oraci√≥n: 39.6


---

## Stopwords: Filtrando el Ruido del Texto

Las **stopwords** (palabras vac√≠as) son palabras muy frecuentes que generalmente no aportan significado al an√°lisis del texto. Incluyen art√≠culos, preposiciones, pronombres y conjunciones.

```{admonition} ¬øPor qu√© eliminar stopwords?
:class: important

En un discurso hist√≥rico, palabras como "el", "la", "de", "que" aparecen constantemente pero no nos dicen nada sobre el **contenido** del discurso. Al eliminarlas, podemos enfocarnos en las palabras que realmente transmiten el mensaje del autor.
```

In [7]:
from nltk.corpus import stopwords

# Obtenemos las stopwords en espa√±ol
stop_words_es = set(stopwords.words('spanish'))

print(f"NLTK incluye {len(stop_words_es)} stopwords en espa√±ol")
print("\nEjemplos de stopwords:")
print(list(stop_words_es)[:20])

NLTK incluye 313 stopwords en espa√±ol

Ejemplos de stopwords:
['hubiesen', 'estaremos', 'estuvisteis', 'estuvieses', 'estos', 'no', 'son', 'ti', 'vuestros', 'ante', 'e', 'tendr√°s', 'fuerais', 'fuesen', 'sean', 'hab√≠an', 'nos', 'seas', 'ser√≠amos', 'fuisteis']


In [8]:
# Filtramos las stopwords del discurso de Bello
palabras_filtradas = []
for palabra in solo_palabras:
    if palabra.lower() not in stop_words_es:
        palabras_filtradas.append(palabra.lower())

print("="*60)
print("COMPARACI√ìN: CON Y SIN STOPWORDS")
print("="*60)
print(f"\nPalabras originales: {len(solo_palabras)}")
print(f"Palabras sin stopwords: {len(palabras_filtradas)}")
print(f"Stopwords eliminadas: {len(solo_palabras) - len(palabras_filtradas)}")
print(f"Porcentaje de reducci√≥n: {((len(solo_palabras) - len(palabras_filtradas)) / len(solo_palabras) * 100):.1f}%")

COMPARACI√ìN: CON Y SIN STOPWORDS

Palabras originales: 356
Palabras sin stopwords: 165
Stopwords eliminadas: 191
Porcentaje de reducci√≥n: 53.7%


In [9]:
# Encontramos las palabras m√°s frecuentes (sin stopwords)
from collections import Counter

frecuencias = Counter(palabras_filtradas)
palabras_mas_comunes = frecuencias.most_common(15)

print("="*60)
print("PALABRAS M√ÅS FRECUENTES EN EL DISCURSO DE BELLO")
print("(Sin stopwords)")
print("="*60)
for palabra, frecuencia in palabras_mas_comunes:
    print(f"  {palabra.ljust(20)} ‚Üí {frecuencia} veces")

PALABRAS M√ÅS FRECUENTES EN EL DISCURSO DE BELLO
(Sin stopwords)
  universidad          ‚Üí 4 veces
  ciencias             ‚Üí 3 veces
  bajo                 ‚Üí 3 veces
  punto                ‚Üí 3 veces
  vista                ‚Üí 3 veces
  moral                ‚Üí 3 veces
  se√±ores              ‚Üí 2 veces
  instituciones        ‚Üí 2 veces
  sociales             ‚Üí 2 veces
  si                   ‚Üí 2 veces
  letras               ‚Üí 2 veces
  vida                 ‚Üí 2 veces
  sociedad             ‚Üí 2 veces
  todas                ‚Üí 2 veces
  placeres             ‚Üí 2 veces


```{admonition} Interpretaci√≥n hist√≥rica
:class: seealso

Las palabras m√°s frecuentes revelan los **temas centrales** del discurso de Bello:
- **"universidad"**: El tema principal del discurso
- **"ciencias", "letras"**: La importancia del conocimiento
- **"sociedad", "moral"**: La funci√≥n social de la educaci√≥n
- **"Chile", "patria"**: El enfoque nacional de la instituci√≥n

Este an√°lisis cuantitativo confirma lo que sabemos cualitativamente: Bello conceb√≠a la Universidad como una instituci√≥n al servicio de Chile y su desarrollo moral y cient√≠fico.
```

---

## Personalizando las Stopwords

En muchos casos, necesitamos agregar stopwords espec√≠ficas al contexto de nuestro an√°lisis. Por ejemplo, en discursos del siglo XIX, hay palabras formales que se repiten mucho pero no aportan al an√°lisis tem√°tico.

In [10]:
# Creamos una lista personalizada de stopwords para discursos hist√≥ricos
stopwords_historicas = {
    'se√±ores',      # Forma de tratamiento com√∫n en discursos
    'bajo',         # Preposici√≥n frecuente
    'as√≠',          # Adverbio com√∫n
    'puede',        # Verbo auxiliar
    'mismo',        # Adjetivo com√∫n
    'misma',
    'todo',         # Determinante
    'toda',
    'todos',
    'todas',
    'cada',
    'sino',
    'aun',
    'aunque'
}

# Combinamos con las stopwords est√°ndar
stopwords_completas = stop_words_es.union(stopwords_historicas)
print(f"Total de stopwords (est√°ndar + hist√≥ricas): {len(stopwords_completas)}")

Total de stopwords (est√°ndar + hist√≥ricas): 325


In [11]:
# Filtramos con las stopwords personalizadas
palabras_filtradas_v2 = []
for palabra in solo_palabras:
    if palabra.lower() not in stopwords_completas:
        palabras_filtradas_v2.append(palabra.lower())

# Nuevas frecuencias
frecuencias_v2 = Counter(palabras_filtradas_v2)
palabras_comunes_v2 = frecuencias_v2.most_common(15)

print("="*60)
print("PALABRAS M√ÅS FRECUENTES (CON STOPWORDS PERSONALIZADAS)")
print("="*60)
for palabra, frecuencia in palabras_comunes_v2:
    print(f"  {palabra.ljust(20)} ‚Üí {frecuencia} veces")

PALABRAS M√ÅS FRECUENTES (CON STOPWORDS PERSONALIZADAS)
  universidad          ‚Üí 4 veces
  ciencias             ‚Üí 3 veces
  punto                ‚Üí 3 veces
  vista                ‚Üí 3 veces
  moral                ‚Üí 3 veces
  instituciones        ‚Üí 2 veces
  sociales             ‚Üí 2 veces
  si                   ‚Üí 2 veces
  letras               ‚Üí 2 veces
  vida                 ‚Üí 2 veces
  sociedad             ‚Üí 2 veces
  placeres             ‚Üí 2 veces
  chilena              ‚Üí 2 veces
  digna                ‚Üí 1 veces
  ocupar               ‚Üí 1 veces


---

## Creando una Funci√≥n de An√°lisis Reutilizable

Para facilitar el an√°lisis de otros documentos hist√≥ricos, crearemos una funci√≥n que encapsule todo el proceso.

In [12]:
def analizar_texto_historico(texto, titulo="Documento", n_palabras=15, stopwords_extra=None):
    """
    Analiza un texto hist√≥rico y muestra estad√≠sticas relevantes.
    
    Par√°metros:
    -----------
    texto : str
        El texto a analizar
    titulo : str
        Nombre del documento para mostrar en el reporte
    n_palabras : int
        N√∫mero de palabras frecuentes a mostrar
    stopwords_extra : set
        Stopwords adicionales espec√≠ficas del contexto
    
    Retorna:
    --------
    dict : Diccionario con las estad√≠sticas del an√°lisis
    """
    # Preparamos stopwords
    sw = set(stopwords.words('spanish'))
    if stopwords_extra:
        sw = sw.union(stopwords_extra)
    
    # Tokenizaci√≥n
    oraciones = sent_tokenize(texto, language='spanish')
    palabras = word_tokenize(texto, language='spanish')
    solo_palabras = [p for p in palabras if p.isalpha()]
    
    # Filtrado de stopwords
    palabras_filtradas = [p.lower() for p in solo_palabras if p.lower() not in sw]
    
    # Frecuencias
    frecuencias = Counter(palabras_filtradas)
    
    # Mostramos el reporte
    print("\n" + "="*60)
    print(f"AN√ÅLISIS DE TEXTO: {titulo.upper()}")
    print("="*60)
    print(f"\nüìä Estad√≠sticas generales:")
    print(f"   ‚Ä¢ Caracteres totales: {len(texto):,}")
    print(f"   ‚Ä¢ Oraciones: {len(oraciones)}")
    print(f"   ‚Ä¢ Palabras totales: {len(solo_palabras)}")
    print(f"   ‚Ä¢ Palabras √∫nicas: {len(set([p.lower() for p in solo_palabras]))}")
    print(f"   ‚Ä¢ Palabras sin stopwords: {len(palabras_filtradas)}")
    print(f"   ‚Ä¢ Promedio palabras/oraci√≥n: {len(solo_palabras)/len(oraciones):.1f}")
    
    print(f"\nüìù Top {n_palabras} palabras m√°s frecuentes:")
    for palabra, freq in frecuencias.most_common(n_palabras):
        barra = "‚ñà" * min(freq * 2, 20)
        print(f"   {palabra.ljust(15)} {barra} ({freq})")
    
    # Retornamos los datos para uso posterior
    return {
        'oraciones': len(oraciones),
        'palabras_totales': len(solo_palabras),
        'palabras_unicas': len(set([p.lower() for p in solo_palabras])),
        'palabras_filtradas': palabras_filtradas,
        'frecuencias': frecuencias
    }

In [13]:
# Usamos la funci√≥n con el discurso de Bello
stopwords_extra = {'se√±ores', 'bajo', 'as√≠', 'puede', 'mismo', 'misma'}

resultado = analizar_texto_historico(
    texto=discurso_bello,
    titulo="Discurso Inaugural de Andr√©s Bello (1843)",
    n_palabras=12,
    stopwords_extra=stopwords_extra
)


AN√ÅLISIS DE TEXTO: DISCURSO INAUGURAL DE ANDR√âS BELLO (1843)

üìä Estad√≠sticas generales:
   ‚Ä¢ Caracteres totales: 2,140
   ‚Ä¢ Oraciones: 9
   ‚Ä¢ Palabras totales: 356
   ‚Ä¢ Palabras √∫nicas: 178
   ‚Ä¢ Palabras sin stopwords: 159
   ‚Ä¢ Promedio palabras/oraci√≥n: 39.6

üìù Top 12 palabras m√°s frecuentes:
   universidad     ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà (4)
   ciencias        ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà (3)
   punto           ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà (3)
   vista           ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà (3)
   moral           ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà (3)
   instituciones   ‚ñà‚ñà‚ñà‚ñà (2)
   sociales        ‚ñà‚ñà‚ñà‚ñà (2)
   si              ‚ñà‚ñà‚ñà‚ñà (2)
   letras          ‚ñà‚ñà‚ñà‚ñà (2)
   vida            ‚ñà‚ñà‚ñà‚ñà (2)
   sociedad        ‚ñà‚ñà‚ñà‚ñà (2)
   todas           ‚ñà‚ñà‚ñà‚ñà (2)


---

## B√∫squeda de Frases y Contexto

Una tarea com√∫n en el an√°lisis de textos hist√≥ricos es buscar frases espec√≠ficas y mostrar su contexto.

In [14]:
def buscar_frase_contexto(texto, frase, contexto=100):
    """
    Busca una frase en el texto y muestra su contexto.
    
    Par√°metros:
    -----------
    texto : str
        El texto donde buscar
    frase : str
        La frase a buscar
    contexto : int
        N√∫mero de caracteres de contexto a mostrar
    """
    texto_lower = texto.lower()
    frase_lower = frase.lower()
    
    # Contamos ocurrencias
    ocurrencias = texto_lower.count(frase_lower)
    
    print(f"\nüîç Buscando: '{frase}'")
    print(f"   Ocurrencias encontradas: {ocurrencias}")
    
    if ocurrencias > 0:
        # Mostramos el contexto de cada ocurrencia
        pos = 0
        for i in range(ocurrencias):
            pos = texto_lower.find(frase_lower, pos)
            inicio = max(0, pos - contexto)
            fin = min(len(texto), pos + len(frase) + contexto)
            fragmento = texto[inicio:fin].replace('\n', ' ').strip()
            
            print(f"\n   Ocurrencia {i+1}:")
            print(f"   ...{fragmento}...")
            
            pos += 1
    
    return ocurrencias

In [15]:
# Buscamos frases relevantes en el discurso de Bello
buscar_frase_contexto(discurso_bello, "Universidad")
buscar_frase_contexto(discurso_bello, "ciencias")
buscar_frase_contexto(discurso_bello, "Chile")


üîç Buscando: 'Universidad'
   Ocurrencias encontradas: 4

   Ocurrencia 1:
   ...La Universidad, se√±ores, no ser√≠a digna de ocupar un lugar en nuestras instituciones  sociales, si el cultivo de l...

   Ocurrencia 2:
   ...tente  educaci√≥n religiosa y moral, es el primero de estos objetos y el de mayor trascendencia.  La Universidad estudiar√° tambi√©n las especialidades de la sociedad chilena bajo el  punto de vista econ√≥mico. La U...

   Ocurrencia 3:
   ...d estudiar√° tambi√©n las especialidades de la sociedad chilena bajo el  punto de vista econ√≥mico. La Universidad examinar√° los resultados de la estad√≠stica  chilena, contribuir√° a formarla, y leer√° en sus guarism...

   Ocurrencia 4:
   ...si√≥n de nuestros  intereses materiales. Porque en este, como en los otros ramos, el programa de la  Universidad es enteramente chileno: si toma prestadas a la Europa las deducciones  de la ciencia, es para aplic...

üîç Buscando: 'ciencias'
   Ocurrencias encontradas: 3

   Ocurre

4

---

## Actividad de Cierre

```{admonition} Instrucciones
:class: important

Realiza los siguientes ejercicios para practicar lo aprendido sobre tokenizaci√≥n y stopwords.
```

### Ejercicio 1: Analiza otro fragmento

Copia el siguiente fragmento del discurso de Bello y anal√≠zalo con la funci√≥n `analizar_texto_historico()`:

*"Yo no abogar√© jam√°s por el purismo exagerado que condena todo lo nuevo en materia de idioma; creo, por el contrario, que la multitud de ideas nuevas, que pasan diariamente del comercio literario a la circulaci√≥n general, exige voces nuevas que las representen."*

In [16]:
# Escribe tu c√≥digo aqu√≠


### Ejercicio 2: Compara idiomas

Tokeniza el siguiente texto en ingl√©s y comp√°ralo con su traducci√≥n al espa√±ol. ¬øCu√°l tiene m√°s tokens?

In [17]:
texto_ingles = "The University shall be a beacon of knowledge and progress for the nation."
texto_espanol = "La Universidad ser√° un faro de conocimiento y progreso para la naci√≥n."

# Escribe tu c√≥digo aqu√≠


### Ejercicio 3: Stopwords personalizadas

Crea tu propia lista de stopwords para analizar discursos pol√≠ticos chilenos del siglo XX. Considera palabras formales como "honorable", "distinguido", "compatriotas", etc.

In [18]:
# Escribe tu c√≥digo aqu√≠


---

## Resumen del Cap√≠tulo

| Concepto | Descripci√≥n | Funci√≥n NLTK |
|----------|-------------|-------------|
| Tokenizaci√≥n | Dividir texto en unidades menores | `sent_tokenize()`, `word_tokenize()` |
| Tokens | Unidades resultantes (oraciones, palabras) | - |
| Stopwords | Palabras sin contenido sem√°ntico | `stopwords.words('spanish')` |
| Frecuencias | Conteo de palabras | `Counter()` de collections |

```{admonition} ¬øQu√© sigue?
:class: seealso

En el siguiente cap√≠tulo aprenderemos a **leer y analizar documentos PDF** directamente desde Python, aplicando estas t√©cnicas de tokenizaci√≥n a discursos hist√≥ricos completos como el discurso inaugural de Ronald Reagan (1981).
```

---

## Referencias

- Bello, A. (1843). *Discurso pronunciado en la instalaci√≥n de la Universidad de Chile*. Santiago de Chile.
- Bird, S., Klein, E., & Loper, E. (2009). *Natural Language Processing with Python*. O'Reilly Media.
- Harari, Y. N. (2014). *De animales a dioses: Breve historia de la humanidad*. Debate.
- NLTK Project. (2024). *Natural Language Toolkit Documentation*. https://www.nltk.org/
- Universidad de Chile. (2024). *Discurso Inaugural de Andr√©s Bello*. https://uchile.cl/presentacion/historia/discurso-inaugural