#  Procesamiento Paralelo Básico

**Objetivo?:** Implementar y comparar el procesamiento secuencial vs. paralelo de los documentos del dataset 20 Newsgroups. Utilizaremos `multiprocessing` para aprovechar múltiples núcleos de CPU.

In [None]:
#pip install scikit-learn

In [None]:
import time
import multiprocessing
from sklearn.datasets import fetch_20newsgroups

In [None]:
start_time = time.time()
newsgroups_data = fetch_20newsgroups(subset='all',
                                     remove=('headers', 'footers', 'quotes')
                                     )
end_time = time.time()
print(f"Dataset cargado en {end_time - start_time:.2f} segundos.")
documents = newsgroups_data.data
num_docs = len(documents)
print(f"Número de documentos a procesar: {num_docs}")

In [None]:
def process_document_simple(text):
    word_count = 0
    if text:
        word_count = len(text.split())
        time.sleep(0.0001)
    return word_count

if num_docs > 0:
    sample_result = process_document_simple(documents[0])
    print("\nPrueba de la función de procesamiento:")
    print(f"  Palabras en el primer documento: {sample_result}")
    print(f"  Texto inicial del primer documento: '{documents[0][:100]}...'")
else:
    print("\nNo hay documentos para probar la función.")

In [None]:
print("\n--- Iniciando Procesamiento Secuencial ---")
start_seq = time.time()

sequential_results = [process_document_simple(doc) for doc in documents]

end_seq = time.time()
sequential_time = end_seq - start_seq

print("Procesamiento Secuencial COMPLETADO.")
print(f"Tiempo total: {sequential_time:.4f} segundos.")
print(f"Número de resultados obtenidos: {len(sequential_results)}")
print(f"Resultados (conteo palabras) de los primeros 5 docs: {sequential_results[:5]}")

In [None]:
print("\n--- Iniciando Procesamiento Paralelo ---")

num_processes = multiprocessing.cpu_count()
print(f"Número de procesos a utilizar: {num_processes}")

start_par = time.time()

with multiprocessing.Pool(processes=num_processes) as pool:
    parallel_results = pool.map(process_document_simple, documents)

end_par = time.time()
parallel_time = end_par - start_par

print("Procesamiento Paralelo COMPLETADO.")
print(f"Tiempo total: {parallel_time:.4f} segundos.")
print(f"Número de resultados obtenidos: {len(parallel_results)}")
print(f"Resultados (conteo palabras) de los primeros 5 docs: {parallel_results[:5]}")