# üìö Mart√≠n Fierro: B√∫squeda de Palabras con Expresiones Regulares

### **üéØ Objetivo del pr√°ctico**

La idea principal de este trabajo es amigarnos con las **expresiones regulares (regex)**. Son una herramienta s√∫per potente que nos sirve para buscar patrones en textos. Vamos a usar el `Mart√≠n Fierro` de base para aplicar estos conceptos.

-----

## **üìñ Consigna 1: Cargar el PDF y separar los p√°rrafos**

### ***üí≠ Mi explicaci√≥n***

Lo primero que tenemos que hacer es, l√≥gicamente, traer el texto del libro a nuestro entorno de trabajo. Mediante un enlace URL, lo que voy a hacer es usar una librer√≠a para "descargar" el contenido del PDF en memoria y otra para poder leerlo.

Para esto, voy a necesitar estas  librer√≠as:

  * **`requests`**: Para hacer la petici√≥n a la URL y traernos el archivo.
  * **`pdfplumber`**: Nos va a permitir abrir el archivo y extraer todo el texto.
  * **`io`**: Esta librer√≠a nos va a servir para manejar el contenido del PDF que nos bajamos como si fuera un archivo local, sin tener que guardarlo en la compu.

Una vez que tengamos todo el texto crudo del libro, el siguiente paso es separarlo en p√°rrafos. **CORRECCI√ìN IMPORTANTE**: En el Mart√≠n Fierro, los p√°rrafos son en realidad **estrofas** (sextinas de 6 versos cada una). Voy a mejorar la detecci√≥n para que identifique correctamente cada estrofa como un p√°rrafo individual, no p√°ginas completas.

### ***üíª El c√≥digo***


In [None]:
# Primero, instalamos las librer√≠as que vamos a necesitar.

!pip install requests
!pip install pdfplumber

import requests
import pdfplumber
import io
import re

Collecting pdfplumber
  Downloading pdfplumber-0.11.7-py3-none-any.whl.metadata (42 kB)
[2K     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m42.8/42.8 kB[0m [31m1.7 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting pdfminer.six==20250506 (from pdfplumber)
  Downloading pdfminer_six-20250506-py3-none-any.whl.metadata (4.2 kB)
Collecting pypdfium2>=4.18.0 (from pdfplumber)
  Downloading pypdfium2-4.30.0-py3-none-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (48 kB)
[2K     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m48.5/48.5 kB[0m [31m3.5 MB/s[0m eta [36m0:00:00[0m
Downloading pdfplumber-0.11.7-py3-none-any.whl (60 kB)
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m60.0/60.0 kB[0m [31m4.6 MB/s[0m 

In [None]:
def cargar_y_separar_parrafos_desde_url(url):
    """
    Esta funci√≥n se encarga de descargar el PDF desde una URL,
    extraer el texto, limpiarlo y separarlo en p√°rrafos (estrofas).

    CORRECCI√ìN: Ahora detecta correctamente las estrofas del Mart√≠n Fierro
    como p√°rrafos individuales, no p√°ginas completas.
    """
    print("üì• Descargando el PDF desde la URL...")
    try:
        # Hacemos la petici√≥n a la URL para obtener el contenido del PDF
        respuesta = requests.get(url)
        # Verificamos que la descarga haya sido exitosa
        respuesta.raise_for_status()
        print("‚úÖ ¬°PDF descargado con √©xito!")

        # Usamos io.BytesIO para tratar el contenido binario como un archivo
        archivo_pdf = io.BytesIO(respuesta.content)

        texto_completo = ""
        # Abrimos el PDF con pdfplumber
        with pdfplumber.open(archivo_pdf) as pdf:
            # Juntamos el texto de todas las p√°ginas
            for pagina in pdf.pages:
                texto_pagina = pagina.extract_text()
                if texto_pagina:
                    texto_completo += texto_pagina + "\n"

        print("üìù Texto extra√≠do. Limpiando y separando en estrofas...")

        # 1. Limpieza inicial: removemos los molestos "P√°gina X" del texto
        texto_limpio = re.sub(r'p√°gina \d+', '', texto_completo, flags=re.IGNORECASE)

        # 2. Removemos n√∫meros romanos de los cantos
        texto_limpio = re.sub(r'^[IVXLCDM]+\s*$', '', texto_limpio, flags=re.MULTILINE)

        # 3. Removemos l√≠neas que solo contienen n√∫meros
        texto_limpio = re.sub(r'^\d+\s*$', '', texto_limpio, flags=re.MULTILINE)

        # 4. CORRECCI√ìN PRINCIPAL: Detectar estrofas del Mart√≠n Fierro
        # El Mart√≠n Fierro est√° escrito en sextinas (estrofas de 6 versos)
        # Vamos a dividir por l√≠neas y agrupar de a 6 versos
        lineas = texto_limpio.split('\n')

        # Limpiamos l√≠neas vac√≠as y espacios extra
        lineas_limpias = []
        for linea in lineas:
            linea_limpia = linea.strip()
            # Solo agregamos l√≠neas que tengan contenido real (m√°s de 3 caracteres)
            if linea_limpia and len(linea_limpia) > 3:
                # Ignoramos l√≠neas que sean solo t√≠tulos o encabezados cortos
                if not re.match(r'^(CANTO|canto|Canto)\s+[IVXLCDM]+$', linea_limpia):
                    lineas_limpias.append(linea_limpia)

        # 5. Agrupamos las l√≠neas en estrofas
        # Detectamos estrofas por patrones de separaci√≥n
        parrafos_finales = []
        estrofa_actual = []

        for i, linea in enumerate(lineas_limpias):
            # Si la l√≠nea parece ser un verso (no muy corta, no es t√≠tulo)
            if len(linea) > 10:
                estrofa_actual.append(linea)

                # Si tenemos 6 versos o encontramos una separaci√≥n natural
                # (pr√≥xima l√≠nea muy diferente o fin de archivo)
                if len(estrofa_actual) == 6:
                    parrafos_finales.append('\n'.join(estrofa_actual))
                    estrofa_actual = []
                elif i < len(lineas_limpias) - 1:
                    # Verificamos si hay un salto natural (l√≠nea siguiente muy corta o diferente)
                    siguiente = lineas_limpias[i + 1] if i + 1 < len(lineas_limpias) else ""
                    if len(siguiente) < 10 or re.match(r'^[A-Z]{3,}', siguiente):
                        if len(estrofa_actual) >= 4:  # M√≠nimo 4 versos para considerarlo estrofa
                            parrafos_finales.append('\n'.join(estrofa_actual))
                            estrofa_actual = []

        # Si qued√≥ alguna estrofa sin procesar
        if len(estrofa_actual) >= 4:
            parrafos_finales.append('\n'.join(estrofa_actual))

        # 6. M√©todo alternativo: si no detectamos suficientes estrofas,
        # usamos separaci√≥n por doble salto de l√≠nea
        if len(parrafos_finales) < 50:  # El Mart√≠n Fierro tiene cientos de estrofas
            print("‚ö†Ô∏è Usando m√©todo alternativo de detecci√≥n de p√°rrafos...")
            # Volvemos al texto limpio y lo separamos por doble salto
            parrafos_alt = re.split(r'\n\s*\n', texto_limpio)
            parrafos_finales = []
            for p in parrafos_alt:
                p_limpio = p.strip()
                # Solo agregamos si tiene contenido sustancial (m√°s de 20 caracteres)
                if p_limpio and len(p_limpio) > 20:
                    parrafos_finales.append(p_limpio)

        print(f"‚ú® ¬°Proceso completado! Se encontraron {len(parrafos_finales)} p√°rrafos/estrofas.")
        return parrafos_finales

    except requests.exceptions.RequestException as e:
        print(f"‚ùå Ocurri√≥ un error al descargar el archivo: {e}")
        return []
    except Exception as e:
        print(f"‚ùå Ocurri√≥ un error al procesar el PDF: {e}")
        return []

# La URL del Mart√≠n Fierro
url_martin_fierro = "https://www.argentina.gob.ar/sites/default/files/hernandez_jose_-_el_gaucho_martin_fierro.pdf"

# Llamamos a la funci√≥n para obtener la lista de p√°rrafos
lista_parrafos_originales = cargar_y_separar_parrafos_desde_url(url_martin_fierro)

# Para chusmear, imprimimos algunos p√°rrafos para ver c√≥mo quedaron
if lista_parrafos_originales:
    print("\n--- üìã Ejemplo de los primeros p√°rrafos/estrofas ---")
    for i in range(min(3, len(lista_parrafos_originales))):
        print(f"\nüéµ P√°rrafo/Estrofa {i+1}:")
        print(lista_parrafos_originales[i])
        print("-" * 50)


üì• Descargando el PDF desde la URL...
‚úÖ ¬°PDF descargado con √©xito!
üìù Texto extra√≠do. Limpiando y separando en estrofas...
‚ú® ¬°Proceso completado! Se encontraron 388 p√°rrafos/estrofas.

--- üìã Ejemplo de los primeros p√°rrafos/estrofas ---

üéµ P√°rrafo/Estrofa 1:
Mart√≠n Fierro
Jos√© Hern√°ndez
Recursos de dominio p√∫blico
Jos√© Hern√°ndez
El Gaucho Mart√≠n Fierro
Jos√© Hern√°ndez (1834 - 1886)
--------------------------------------------------

üéµ P√°rrafo/Estrofa 2:
Im√°genes de dominio p√∫blico. Fuente:
http://upload.wikimedia.org/wikipedia/commons/8/8c/Jos%C3%A9_Hern%C3%A1ndez_Argentino.jpg
http://upload.wikimedia.org/wikipedia/commons/3/30/El_Gaucho_Mart%C3%ADn_Fierro_2.jpg
http://upload.wikimedia.org/wikipedia/commons/4/44/El_Gaucho_Mart%C3%ADn_Fierro_3.jpg
http://upload.wikimedia.org/wikipedia/commons/4/47/El_Gaucho_Mart%C3%ADn_Fierro_1.jpg
El Gaucho Mart√≠n Fierro
--------------------------------------------------

üéµ P√°rrafo/Estrofa 3:
Aqu√≠ me pongo a can



## **üî§ Consigna 2: Preprocesar el texto**

### ***üí≠ Mi explicaci√≥n***

Ahora, la consigna ped√≠a que pase todo a min√∫sculas. Esto es un paso clave en el preprocesamiento de texto. ¬øPor qu√©? Porque si buscamos la palabra "gaucho", queremos que la b√∫squeda encuentre "Gaucho", "GAUCHO" o "gaucho". Al estandarizar todo a min√∫sculas, nos aseguramos de que la b√∫squeda no sea sensible a may√∫sculas y min√∫sculas y no se nos escape ning√∫n resultado.

Lo que voy a hacer es: recorrer la lista de p√°rrafos que cre√© antes y a cada uno le voy a aplicar un m√©todo que lo convierte a min√∫sculas. Voy a guardar el resultado en una nueva lista para mantener los originales por las dudas.

### ***üíª El c√≥digo***


In [None]:
def preprocesar_parrafos(parrafos):
    """
    Recibe una lista de p√°rrafos y los convierte todos a min√∫sculas.
    """
    print("\nüîß Preprocesando el texto: convirtiendo todo a min√∫sculas...")
    # Usamos una "list comprehension" para hacerlo m√°s cortito y prolijo.
    # Recorre cada p√°rrafo 'p' en la lista 'parrafos' y le aplica el m√©todo .lower()
    parrafos_en_minusculas = [p.lower() for p in parrafos]
    print("‚úÖ ¬°Procesamiento terminado!")
    return parrafos_en_minusculas

# Aplicamos la funci√≥n a nuestra lista de p√°rrafos
lista_parrafos_minusculas = preprocesar_parrafos(lista_parrafos_originales)

# Verificamos el resultado con algunos p√°rrafos
if lista_parrafos_minusculas:
    print("\n--- üìã Ejemplo de p√°rrafos en min√∫sculas ---")
    for i in range(min(2, len(lista_parrafos_minusculas))):
        print(f"\nüî° P√°rrafo {i+1} (min√∫sculas):")
        print(lista_parrafos_minusculas[i])
        print("-" * 50)


üîß Preprocesando el texto: convirtiendo todo a min√∫sculas...
‚úÖ ¬°Procesamiento terminado!

--- üìã Ejemplo de p√°rrafos en min√∫sculas ---

üî° P√°rrafo 1 (min√∫sculas):
mart√≠n fierro
jos√© hern√°ndez
recursos de dominio p√∫blico
jos√© hern√°ndez
el gaucho mart√≠n fierro
jos√© hern√°ndez (1834 - 1886)
--------------------------------------------------

üî° P√°rrafo 2 (min√∫sculas):
im√°genes de dominio p√∫blico. fuente:
http://upload.wikimedia.org/wikipedia/commons/8/8c/jos%c3%a9_hern%c3%a1ndez_argentino.jpg
http://upload.wikimedia.org/wikipedia/commons/3/30/el_gaucho_mart%c3%adn_fierro_2.jpg
http://upload.wikimedia.org/wikipedia/commons/4/44/el_gaucho_mart%c3%adn_fierro_3.jpg
http://upload.wikimedia.org/wikipedia/commons/4/47/el_gaucho_mart%c3%adn_fierro_1.jpg
el gaucho mart√≠n fierro
--------------------------------------------------


## **üîç Consigna 3 y 4: B√∫squeda de palabras y creaci√≥n de una funci√≥n**

### ***üí≠ Mi explicaci√≥n***

Ahora vamos a usar **expresiones regulares** para buscar palabras dentro de los p√°rrafos que ya procesamos. La librer√≠a que se usa en Python para esto es `re`.

La idea es crear una funci√≥n que:
1. Reciba la palabra a buscar y el listado de p√°rrafos
2. Convierta la palabra a min√∫sculas
3. Use expresiones regulares para buscar en cada p√°rrafo
4. **IMPORTANTE**: Devuelva una **lista/vector** con los p√°rrafos donde aparece la palabra

### ***üíª El c√≥digo***

In [None]:
def buscar_palabra_con_regex(palabra_a_buscar, listado_de_parrafos):
    """
    Busca una palabra en una lista de p√°rrafos usando expresiones regulares.

    Args:
        palabra_a_buscar (str): La palabra o t√©rmino que se quiere encontrar.
        listado_de_parrafos (list): La lista de p√°rrafos donde buscar.

    Returns:
        list: Una LISTA/VECTOR con los p√°rrafos donde aparece dicha palabra.
              (Cumpliendo con el requisito de la consigna 4)
    """
    # Nos aseguramos de que la palabra a buscar est√© en min√∫sculas
    palabra_minusculas = palabra_a_buscar.lower()
    print(f"\nüîé Buscando la palabra '{palabra_minusculas}' en el texto...")

    # Esta es la LISTA/VECTOR que va a contener los p√°rrafos encontrados
    parrafos_encontrados = []
    contador_apariciones = 0

    # Recorremos cada p√°rrafo de la lista que nos pasaron
    for indice, parrafo in enumerate(listado_de_parrafos):
        # Usamos re.search para ver si la palabra est√° en el p√°rrafo.
        # \b es un "ancla" de regex que significa "l√≠mite de palabra".
        # Lo usamos para buscar la palabra exacta y no sub-palabras.
        if re.search(r'\b' + re.escape(palabra_minusculas) + r'\b', parrafo):
            parrafos_encontrados.append(parrafo)
            contador_apariciones += 1

    print(f"‚úÖ Se encontraron {len(parrafos_encontrados)} p√°rrafos que contienen la palabra '{palabra_minusculas}'.")

    # Retornamos la LISTA/VECTOR con los p√°rrafos donde aparece la palabra
    return parrafos_encontrados

# --- üß™ ¬°Probemos la funci√≥n! ---

# Primero, busquemos una palabra com√∫n en el Mart√≠n Fierro, como "gaucho"
palabra1 = "gaucho"
vector_parrafos_gaucho = buscar_palabra_con_regex(palabra1, lista_parrafos_minusculas)

# Imprimimos algunos de los p√°rrafos encontrados para verificar
if vector_parrafos_gaucho:
    print(f"\n--- üìö Mostrando hasta 3 p√°rrafos/estrofas con la palabra '{palabra1}' ---")
    for i, p in enumerate(vector_parrafos_gaucho[:3]):
        print(f"\nüìñ Resultado {i+1}:")
        # Para que se vea mejor, resaltamos la palabra encontrada
        p_resaltado = re.sub(
            r'(\b' + re.escape(palabra1) + r'\b)',
            r'**\1**',
            p,
            flags=re.IGNORECASE
        )
        print(p_resaltado)
        print("-" * 50)

# Ahora, probemos con otra palabra, por ejemplo, "pampa"
palabra2 = "pampa"
vector_parrafos_pampa = buscar_palabra_con_regex(palabra2, lista_parrafos_minusculas)

if vector_parrafos_pampa:
    print(f"\n--- üìö Mostrando hasta 3 p√°rrafos/estrofas con la palabra '{palabra2}' ---")
    for i, p in enumerate(vector_parrafos_pampa[:3]):
        print(f"\nüìñ Resultado {i+1}:")
        p_resaltado = re.sub(
            r'(\b' + re.escape(palabra2) + r'\b)',
            r'**\1**',
            p,
            flags=re.IGNORECASE
        )
        print(p_resaltado)
        print("-" * 50)

# Probemos con "justicia" tambi√©n
palabra3 = "justicia"
vector_parrafos_justicia = buscar_palabra_con_regex(palabra3, lista_parrafos_minusculas)

if vector_parrafos_justicia:
    print(f"\n--- üìö Mostrando hasta 2 p√°rrafos/estrofas con la palabra '{palabra3}' ---")
    for i, p in enumerate(vector_parrafos_justicia[:2]):
        print(f"\nüìñ Resultado {i+1}:")
        p_resaltado = re.sub(
            r'(\b' + re.escape(palabra3) + r'\b)',
            r'**\1**',
            p,
            flags=re.IGNORECASE
        )
        print(p_resaltado)
        print("-" * 50)

# --- üìä Resumen final ---
print("\n" + "="*60)
print("üìä RESUMEN DE LA B√öSQUEDA")
print("="*60)
print(f"Total de p√°rrafos/estrofas procesados: {len(lista_parrafos_minusculas)}")
print(f"P√°rrafos con '{palabra1}': {len(vector_parrafos_gaucho)}")
print(f"P√°rrafos con '{palabra2}': {len(vector_parrafos_pampa)}")
print(f"P√°rrafos con '{palabra3}': {len(vector_parrafos_justicia)}")
print("="*60)


üîé Buscando la palabra 'gaucho' en el texto...
‚úÖ Se encontraron 55 p√°rrafos que contienen la palabra 'gaucho'.

--- üìö Mostrando hasta 3 p√°rrafos/estrofas con la palabra 'gaucho' ---

üìñ Resultado 1:
mart√≠n fierro
jos√© hern√°ndez
recursos de dominio p√∫blico
jos√© hern√°ndez
el **gaucho** mart√≠n fierro
jos√© hern√°ndez (1834 - 1886)
--------------------------------------------------

üìñ Resultado 2:
im√°genes de dominio p√∫blico. fuente:
http://upload.wikimedia.org/wikipedia/commons/8/8c/jos%c3%a9_hern%c3%a1ndez_argentino.jpg
http://upload.wikimedia.org/wikipedia/commons/3/30/el_gaucho_mart%c3%adn_fierro_2.jpg
http://upload.wikimedia.org/wikipedia/commons/4/44/el_gaucho_mart%c3%adn_fierro_3.jpg
http://upload.wikimedia.org/wikipedia/commons/4/47/el_gaucho_mart%c3%adn_fierro_1.jpg
el **gaucho** mart√≠n fierro
--------------------------------------------------

üìñ Resultado 3:
soy **gaucho**, y enti√©ndalo
como mi lengua lo esplica:
para m√≠ la tierra es chica
y pudiera 