<a href="https://colab.research.google.com/github/adrianaleticiamartinez/mcd_deep_learning/blob/main/CharsParaCuentos_AdrianaMartinez.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Preprocesamiento de Texto para Generador de Cuentos con LSTM

Este notebook prepara el texto que se usa para enseñar a un modelo a crear historias para niños usando un modelo LSTM. El objetivo es transformar el texto original en letras únicas y crear los mapas necesarios para que el modelo LSTM pueda procesar secuencias de texto en forma de números.

## Objetivos del Notebook

1. **Preprocesar el texto**: Convertir el corpus de cuentos infantiles en un conjunto de caracteres únicos, y generar los diccionarios que mapean caracteres a índices enteros y viceversa.
2. **Codificar el texto**: Traducir el texto completo a una secuencia de enteros utilizando los diccionarios de mapeo generados.
3. **Guardar los datos preprocesados**: Exportar los caracteres únicos, los diccionarios de mapeo y el texto codificado para su uso posterior en el entrenamiento del modelo LSTM.

## Descripción del Proceso

### 1. **Preprocesamiento del Texto**
   - Se importa el corpus de cuentos infantiles desde un archivo de texto limpio. Este archivo contiene cuentos infantiles adecuados para el público joven y ha sido previamente limpiado para eliminar información innecesaria, como metadatos o contenido no relevante.
   - El preprocesamiento se realiza mediante la función `preprocess_text`, que convierte el texto en un conjunto de caracteres únicos y genera los diccionarios de mapeo necesarios.

### 2. **Diccionarios de Mapeo**
   - **`chars`**: Un conjunto de caracteres únicos presentes en el corpus de texto.
   - **`int2char`**: Un diccionario que mapea índices enteros a caracteres.
   - **`char2int`**: Un diccionario que mapea caracteres a índices enteros.
   - **`encoded`**: El texto completo codificado como una secuencia de enteros, donde cada entero representa un carácter del texto original.

### 3. **Carga del Corpus de Texto**
   - El corpus de cuentos infantiles se descarga de un repositorio y se carga en el notebook utilizando el siguiente comando:
     ```python
     !wget https://raw.githubusercontent.com/adrianaleticiamartinez/mcd_deep_learning/refs/heads/main/cleaned_merged_fairy_tales_without_eos.txt
     ```
   - Luego, se lee el archivo de texto utilizando el bloque `with open`, y se procesa para extraer los caracteres y generar los diccionarios correspondientes.

### 4. **Función `preprocess_text`**
   La función `preprocess_text` realiza los siguientes pasos:
   - Extrae los caracteres únicos del texto y los almacena en la variable `chars`.
   - Genera el diccionario `int2char`, que mapea índices a caracteres.
   - Genera el diccionario `char2int`, que mapea caracteres a índices.
   - Codifica el texto completo como una secuencia de enteros utilizando el diccionario `char2int`.


### 5. **Exportación de Datos**
   - Después de realizar el preprocesamiento, se exportan los caracteres únicos, los diccionarios de mapeo y el texto codificado para su uso posterior en el entrenamiento del modelo LSTM.
   - Los datos se guardan en archivos `.pkl` (pickle)

### 6. **Resultado Final**
   - **`chars60.pkl`**: Un archivo que contiene el conjunto de caracteres únicos extraídos del texto.
   - **`char2int60.pkl`**: Un diccionario que mapea cada carácter a un número entero.
   - **`int2char60.pkl`**: Un diccionario que mapea números enteros a caracteres.
   - **`encoded60.pkl`**: El texto completo codificado como una secuencia de enteros.

## Conclusión

Este notebook convierte un conjunto de historias para niños en un formato que puede ser utilizado por un modelo LSTM. El texto se convierte en una serie de números enteros y se crean diccionarios para ayudar a entrenar el modelo de manera más sencilla. Los datos procesados se guardan en archivos pickle para usarlos en futuras sesiones de entrenamiento.


In [5]:
# Importar las librerías necesarias
import numpy as np
import base64
import requests
import pickle

In [2]:
# Preprocesamiento del texto: convertir el corpus a caracteres únicos y mapearlos a índices
def preprocess_text(text):
    chars = tuple(set(text))
    int2char = dict(enumerate(chars))
    char2int = {ch: ii for ii, ch in int2char.items()}
    encoded = np.array([char2int[ch] for ch in text])
    return chars, int2char, char2int, encoded

In [3]:
!wget https://raw.githubusercontent.com/adrianaleticiamartinez/mcd_deep_learning/refs/heads/main/cleaned_merged_fairy_tales_without_eos.txt

--2024-09-27 19:41:25--  https://raw.githubusercontent.com/adrianaleticiamartinez/mcd_deep_learning/refs/heads/main/cleaned_merged_fairy_tales_without_eos.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.109.133, 185.199.111.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.109.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 20635335 (20M) [text/plain]
Saving to: ‘cleaned_merged_fairy_tales_without_eos.txt’


2024-09-27 19:41:26 (346 MB/s) - ‘cleaned_merged_fairy_tales_without_eos.txt’ saved [20635335/20635335]



In [6]:
# Cargar el dataset y preprocesarlo


with open('cleaned_merged_fairy_tales_without_eos.txt', 'r') as f:
    text = f.read()

chars, int2char, char2int, encoded = preprocess_text(text)

In [7]:


# Exportar `chars`
with open('chars60.pkl', 'wb') as f:
    pickle.dump(chars, f)

# Exportar los diccionarios de mapeo
with open('char2int60.pkl', 'wb') as f:
    pickle.dump(char2int, f)

with open('int2char60.pkl', 'wb') as f:
    pickle.dump(int2char, f)

In [8]:
with open('encoded60.pkl', 'wb') as f:
    pickle.dump(encoded, f)