# Preprocesamiento - Normalización Unicode y Minúsculas

**Objetivo:** Implementar los primeros pasos de preprocesamiento sobre un lote de documentos:
1. Normalización Unicode (NFKC).
2. Conversión a minúsculas.
Debemos finalmente verificar los resultados comparando el texto original con el procesado.

In [None]:
import sys
import os
import time
import unicodedata
from sklearn.datasets import fetch_20newsgroups

In [2]:
# Usamos la funcion generadora para dividir la lista de datos en lotes que vimos
def batch_generator(data_list, batch_size):
    """
    Generador que divide una lista de datos en lotes (batches).

    Args:
        data_list (list): La lista completa de datos a dividir.
        batch_size (int): El tamaño deseado para cada lote.

    Yields:
        list: Un lote  de datos. El último lote puede ser más pequeño.
              No produce nada si la lista de entrada está vacía o batch_size <= 0.
    """
    if not data_list or batch_size <= 0:
        print("Advertencia: La lista de datos está vacía o el tamaño de lote es inválido. No se generarán lotes.")
        return

    num_total_items = len(data_list)
    # Iteramos sobre la lista en pasos de tamaño batch_size
    for start_index in range(0, num_total_items, batch_size):
        end_index = start_index + batch_size
        batch = data_list[start_index:end_index]
        yield batch

In [3]:
start_time = time.time()
newsgroups_data = fetch_20newsgroups(subset='all',
                                     remove=('headers', 'footers', 'quotes'))
end_time = time.time()
print(f"Dataset cargado en {end_time - start_time:.2f} segundos.")

documents = newsgroups_data.data
num_docs = len(documents)
print(f"Número total de documentos: {num_docs}")

del newsgroups_data

Dataset cargado en 1.12 segundos.
Número total de documentos: 18846


In [4]:
batch_size = 32 # Usamos un tamaño de lote más pequeño para la prueba
print(f"\nObteniendo el primer lote (batch_size = {batch_size})...")

# Crear el generador y obtener el primer lote
batch_gen = batch_generator(documents, batch_size)
first_batch = next(batch_gen, None) # next() obtiene el primer elemento del generador

if first_batch:
    print(f"Primer lote obtenido con {len(first_batch)} documentos.")
else:
    print("No se pudo obtener el primer lote.")
    # Podríamos detenernos aquí si no hay datos
    first_batch = []


Obteniendo el primer lote (batch_size = 32)...
Primer lote obtenido con 32 documentos.


## Que es Unicode?
"El estándar de codificación de caracteres Unicode es un esquema de codificación de caracteres de longitud fija que incluye caracteres de casi todas las lenguas vivas del mundo" (IBM).

## Normalizacion de series Unicode

" Las series Unicode pueden ser equivalentes canónicamente o equivalentes desde el punto de vista de la compatibilidad. Si son equivalentes canónicamente, también son equivalentes desde el punto de vista de la compatibilidad. " (IBM)

Debemos tener en cuenta que "Canónicamente equivalente" significa que son representaciones diferentes pero lucen y funcionan exactamente igual (como 'é' y 'e'+'´'). "Compatibilidad equivalente" es más amplio, incluye caracteres que representan la misma idea pero pueden verse diferente o tener un formato especial (como una ligadura 'ﬁ' vs. 'f'+'i', o un número en superíndice ¹ vs. el número normal '1')

Existen varias formas de normalizacion:

* NFD (descomposición canónica de formato de normalización): Los caracteres se descomponen según su equivalencia canónica.
* NFC (composición canónica de formato de normalización): Los caracteres se descomponen y después se recomponen según su equivalencia canónica.
* NFKD (descomposición de compatibilidad de formato de normalización): Los caracteres se descomponen según su equivalencia de compatibilidad.
* Composición de compatibilidad de formato de normalización (NFKC): Los caracteres se descomponen según su equivalencia de compatibilidad y después se recomponen según su equivalencia canónica.


In [7]:
def preprocess_text_step1(text):
    if not isinstance(text, str):
        return ""

    try:
        normalized_text = unicodedata.normalize('NFKC', text) # normalizamos el texto
        lower_text = normalized_text.lower() # convertimos a minusculas

        return lower_text

    except Exception as e:
        print(f"Error: {e}")
        return ""

In [9]:
# Normalizamos el primer lote
processed_batch = [preprocess_text_step1(doc) for doc in first_batch]
num_examples_to_show = 3
print(f"\nMostrando los primeros {num_examples_to_show} ejemplos del lote:")

for i in range(min(num_examples_to_show, len(first_batch))):
    print(f"\n--- Ejemplo {i+1} ---")
    print(f"  Original ({len(first_batch[i])} chars):\n'{first_batch[i][:250]}...'")
    print(f"\n  Procesado ({len(processed_batch[i])} chars):\n'{processed_batch[i][:250]}...'")


Mostrando los primeros 3 ejemplos del lote:

--- Ejemplo 1 ---
  Original (712 chars):
'

I am sure some bashers of Pens fans are pretty confused about the lack
of any kind of posts about the recent Pens massacre of the Devils. Actually,
I am  bit puzzled too and a bit relieved. However, I am going to put an end
to non-PIttsburghers' re...'

  Procesado (712 chars):
'

i am sure some bashers of pens fans are pretty confused about the lack
of any kind of posts about the recent pens massacre of the devils. actually,
i am  bit puzzled too and a bit relieved. however, i am going to put an end
to non-pittsburghers' re...'

--- Ejemplo 2 ---
  Original (324 chars):
'My brother is in the market for a high-performance video card that supports
VESA local bus with 1-2MB RAM.  Does anyone have suggestions/ideas on:

  - Diamond Stealth Pro Local Bus

  - Orchid Farenheit 1280

  - ATI Graphics Ultra Pro

  - Any othe...'

  Procesado (324 chars):
'my brother is in the market for a high-performan