In [1]:
import requests
from bs4 import BeautifulSoup

In [4]:
import requests
from io import BytesIO
from pdfminer.high_level import extract_text
import time

def descargar_y_extraer_pdf(url, timeout=30):
    """
    Descarga un PDF desde una URL y extrae su texto.

    Args:
        url (str): URL del PDF
        timeout (int): Tiempo límite para la descarga en segundos

    Returns:
        str: Texto extraído del PDF, o None si hay error
    """
    try:
        print(f"Descargando PDF desde: {url}")

        # Headers para simular un navegador (algunos servidores lo requieren)
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
        }

        # Descargar con timeout
        response = requests.get(url, headers=headers, timeout=timeout)
        response.raise_for_status()

        print(f"PDF descargado exitosamente. Tamaño: {len(response.content)} bytes")

        # Convertir a BytesIO para pdfminer
        pdf_content = BytesIO(response.content)

        print("Extrayendo texto del PDF...")
        start_time = time.time()

        # Extraer texto
        text = extract_text(pdf_content)

        extraction_time = time.time() - start_time
        print(f"Texto extraído en {extraction_time:.2f} segundos")
        print(f"Longitud del texto: {len(text)} caracteres")

        return text

    except requests.exceptions.Timeout:
        print(f"Error: Tiempo de espera agotado ({timeout}s)")
        return None
    except requests.exceptions.RequestException as e:
        print(f"Error descargando el PDF: {e}")
        return None
    except Exception as e:
        print(f"Error extrayendo texto del PDF: {e}")
        return None

def limpiar_texto(texto):
    """
    Limpieza básica del texto extraído del PDF.

    Args:
        texto (str): Texto extraído

    Returns:
        str: Texto limpio
    """
    if not texto:
        return ""

    # Reemplazar múltiples espacios en blanco con uno solo
    texto = ' '.join(texto.split())

    # Eliminar caracteres de control extraños
    texto = ''.join(char for char in texto if char.isprintable() or char.isspace())

    return texto.strip()


# Uso del código
url = "https://ccpgc.usmf.md/sites/default/files/inline-files/Nonviolent%20Communication_%20A%20Language%20of%20Life_%20Life-Changing%20Tools%20for%20Healthy%20Relationships%20%28%20PDFDrive%20%29.pdf"

# Descargar y extraer
texto_completo = descargar_y_extraer_pdf(url)

if texto_completo:
    # Limpiar el texto
    texto_limpio = limpiar_texto(texto_completo)

    # Mostrar estadísticas
    print("\n" + "="*50)
    print("ESTADÍSTICAS DEL TEXTO")
    print("="*50)
    print(f"Caracteres totales: {len(texto_limpio):,}")
    print(f"Palabras aproximadas: {len(texto_limpio.split()):,}")
    print(f"Líneas aproximadas: {texto_limpio.count(chr(10)) + 1:,}")

    # Mostrar muestra del inicio
    print("\n" + "="*50)
    print("MUESTRA DEL TEXTO (primeros 500 caracteres)")
    print("="*50)
    print(texto_limpio[:500])
    print("...")

    # Opcionalmente, guardar en archivo
    guardar_archivo = input("\n¿Deseas guardar el texto en un archivo? (s/n): ").lower()
    if guardar_archivo == 's':
        nombre_archivo = "Nonviolent_Communication.txt"
        try:
            with open(nombre_archivo, 'w', encoding='utf-8') as f:
                f.write(texto_limpio)
            print(f"Texto guardado en: {nombre_archivo}")
        except Exception as e:
            print(f"Error guardando archivo: {e}")

else:
    print("No se pudo extraer el texto del PDF")

Descargando PDF desde: https://ccpgc.usmf.md/sites/default/files/inline-files/Nonviolent%20Communication_%20A%20Language%20of%20Life_%20Life-Changing%20Tools%20for%20Healthy%20Relationships%20%28%20PDFDrive%20%29.pdf
PDF descargado exitosamente. Tamaño: 1341193 bytes
Extrayendo texto del PDF...
Texto extraído en 20.84 segundos
Longitud del texto: 411858 caracteres

ESTADÍSTICAS DEL TEXTO
Caracteres totales: 385,498
Palabras aproximadas: 65,579
Líneas aproximadas: 1

MUESTRA DEL TEXTO (primeros 500 caracteres)
What People Are Saying About Nonviolent CommunicationTM: RELATIONSHIPS: “Marshall Rosenberg’s dynamic communication techniques transform potential conflicts into peaceful dialogues. You’ll learn simple tools to defuse arguments and create compassionate connections with your family, friends, and other acquaintances.” —JOHN GRAY, author, Men Are From Mars, Women Are From Venus “Nonviolent Communication can change the world. More importantly, it can change your life. I cannot recomme