<a href="https://colab.research.google.com/github/RAFS20/Natural-Language-Processing/blob/main/Modelado_de_lenguaje.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Capítulo 3: Modelado de Lenguaje

## 3.1 N-gramas y Modelos de Markov

En este capítulo, exploraremos uno de los conceptos fundamentales en el modelado de lenguaje: los N-gramas y los modelos de Markov. Estas técnicas son esenciales en el procesamiento de lenguaje natural (PNL) para comprender la estructura y la probabilidad de secuencias de palabras en un texto.

### 3.1.1 Definición de N-gramas

Los N-gramas son secuencias de N palabras consecutivas tomadas de un corpus de texto. Por ejemplo, un 2-grama (también conocido como bigrama) sería una secuencia de dos palabras, mientras que un 3-grama (trigrama) sería una secuencia de tres palabras, y así sucesivamente. Los N-gramas se utilizan para modelar la probabilidad de ocurrencia de una palabra dada su historia (las N-1 palabras anteriores en la secuencia).

#### Ejemplo:

Consideremos el siguiente texto de ejemplo:

```
El gato está sobre la mesa.
```

Los 2-gramas en este texto serían:

- "El gato"
- "gato está"
- "está sobre"
- "sobre la"
- "la mesa"

### 3.1.2 Aplicaciones de N-gramas

Los N-gramas tienen diversas aplicaciones en PNL, incluyendo:

1. **Predicción de palabras:** Los N-gramas se utilizan para predecir la siguiente palabra en una secuencia de texto dada su historia.
2. **Modelado de lenguaje:** Los N-gramas se utilizan para construir modelos de lenguaje que estiman la probabilidad de ocurrencia de una palabra en función de su contexto.
3. **Corrección ortográfica:** Los N-gramas se utilizan en sistemas de corrección ortográfica para sugerir correcciones basadas en secuencias de palabras comunes.
4. **Análisis de texto:** Los N-gramas se utilizan para identificar patrones y tendencias en grandes volúmenes de texto.

### 3.1.3 Modelos de Markov

Los modelos de Markov son procesos estocásticos que modelan la probabilidad de transición entre estados discretos en función del estado actual. En el contexto del modelado de lenguaje, los modelos de Markov se utilizan para modelar la probabilidad de transición entre palabras en una secuencia de texto.

#### Matemáticas detrás de los Modelos de Markov

Un modelo de Markov de primer orden (también conocido como modelo de Markov de orden 1 o modelo de Markov unigrama) asume que la probabilidad de transición entre estados (en este caso, palabras) depende únicamente del estado actual. Matemáticamente, esto se expresa como:

$P(w_t | w_{t-1})$

Donde:
- $w_t$ es la palabra en el tiempo t.
- $w_{t-1}$ es la palabra en el tiempo t-1.

En un modelo de Markov de segundo orden (modelo de Markov bigrama), la probabilidad de transición depende de las dos palabras anteriores, y así sucesivamente para modelos de orden superior.

#### Ejemplo de Modelos de Markov

Consideremos el siguiente texto de ejemplo:

```
El gato está sobre la mesa.
```

Para construir un modelo de Markov de primer orden basado en este texto, calculamos las probabilidades de transición entre palabras consecutivas:

```
|       | El   | gato | está | sobre | la   | mesa |
|-------|------|------|------|-------|------|------|
| El    | 0    | 1.0  | 0    | 0     | 0    | 0    |
| gato  | 0    | 0    | 1.0  | 0     | 0    | 0    |
| está  | 0    | 0    | 0    | 1.0   | 0    | 0    |
| sobre | 0    | 0    | 0    | 0     | 1.0  | 0    |
| la    | 0    | 0    | 0    | 0     | 0    | 1.0  |
| mesa  | 0    | 0    | 0    | 0     | 0    | 0    |
```

En este modelo de Markov, cada fila representa la palabra actual y cada columna representa la siguiente palabra. Por ejemplo, la celda en la fila "gato" y la columna "está" tiene un valor de 1.0, lo que indica que la palabra "está" sigue a "gato" en el texto de ejemplo con una probabilidad del 100%.

### 3.1.4 Aplicaciones de los Modelos de Markov

Los modelos de Markov tienen diversas aplicaciones en PNL, incluyendo:

1. **Generación de texto:** Los modelos de Markov se utilizan para generar texto artificialmente que imita el estilo y la estructura del texto de entrenamiento.
2. **Corrección gramatical:** Los modelos de Markov se utilizan en sistemas de corrección gramatical para identificar y corregir errores gramaticales en el texto.
3. **Traducción automática:** Los modelos de Markov se utilizan en sistemas de traducción automática para modelar la probabilidad de transición entre palabras en diferentes idiomas.
4. **Análisis de sentimiento:** Los modelos de Markov se utilizan en análisis de sentimiento para modelar la probabilidad de transición entre palabras asociadas con diferentes sentimientos.



In [None]:
import random
from collections import defaultdict

# Corpus de texto simulado
corpus = """
El gato está sobre la mesa.
El perro está debajo de la mesa.
El pájaro está volando sobre la casa.
"""

# Función para tokenizar el texto en palabras
def tokenize_text(text):
    return text.split()

# Función para generar N-gramas
def generate_ngrams(tokens, n):
    ngrams = []
    for i in range(len(tokens) - n + 1):
        ngram = tuple(tokens[i:i+n])
        ngrams.append(ngram)
    return ngrams

# Función para construir un modelo de Markov
def build_markov_model(tokens, order):
    markov_model = defaultdict(list)
    for i in range(len(tokens) - order):
        history = tuple(tokens[i:i+order])
        next_word = tokens[i+order]
        markov_model[history].append(next_word)
    return markov_model

# Tokenizamos el corpus
tokenized_corpus = tokenize_text(corpus)

# Generamos 2-gramas y 3-gramas
bigrams = generate_ngrams(tokenized_corpus, 2)
trigrams = generate_ngrams(tokenized_corpus, 3)

# Construimos modelos de Markov de primer y segundo orden
markov_model_order_1 = build_markov_model(tokenized_corpus, 1)
markov_model_order_2 = build_markov_model(tokenized_corpus, 2)

# Función para generar texto simulado utilizando un modelo de Markov
def generate_text(markov_model, seed=None, max_length=100):
    if seed is None:
        seed = random.choice(list(markov_model.keys()))
    current_state = seed
    generated_text = list(seed)

    while len(generated_text) < max_length:
        next_word_candidates = markov_model[current_state]
        if not next_word_candidates:
            break
        next_word = random.choice(next_word_candidates)
        generated_text.append(next_word)
        current_state = tuple(generated_text[-len(current_state):])

    return ' '.join(generated_text)

# Generamos texto simulado utilizando los modelos de Markov
print("Texto simulado con modelo de Markov de primer orden:")
print(generate_text(markov_model_order_1))

print("\nTexto simulado con modelo de Markov de segundo orden:")
print(generate_text(markov_model_order_2))


Texto simulado con modelo de Markov de primer orden:
gato está debajo de la casa.

Texto simulado con modelo de Markov de segundo orden:
de la mesa. El pájaro está volando sobre la mesa. El pájaro está volando sobre la casa.


### 3.2 Modelos de Lenguaje Neuronales

Los modelos de lenguaje neuronales son fundamentales en el procesamiento de lenguaje natural (PNL), aprovechando técnicas de aprendizaje profundo para entender y generar texto de manera efectiva. Vamos a profundizar en cómo funcionan estos modelos, destacando las fórmulas matemáticas clave.

#### 3.2.1 Representación Vectorial de Palabras

Una parte esencial de los modelos de lenguaje neuronales es la representación de palabras. Una de las técnicas más comunes es la **incrustación de palabras** (word embedding), que mapea palabras a vectores densos en un espacio vectorial. Esto se puede expresar matemáticamente como:

$$
\text{word\_embedding}: \text{Palabra} \rightarrow \mathbb{R}^d
$$

donde $d$ es la dimensión del espacio vectorial de incrustación.

#### 3.2.2 Modelado de Secuencias

Los modelos de lenguaje neuronales también deben modelar secuencias de palabras. Una arquitectura común para esto es la red neuronal recurrente (RNN), que procesa secuencias de entrada paso a paso. La salida de cada paso temporal se utiliza como entrada para el siguiente. Esto se puede expresar matemáticamente como:

$$
h_t = \text{RNN}(h_{t-1}, x_t)
$$

donde:
- $h_t$ es el estado oculto en el tiempo $t$,
- $x_t$ es la entrada en el tiempo $t$.

#### 3.2.3 Modelos de Lenguaje Neuronales

Los modelos de lenguaje neuronales utilizan representaciones vectoriales de palabras y modelos de secuencias para predecir la probabilidad de una palabra dada su historia. Esto se puede expresar con la regla de la cadena y el modelo generativo:

$$
P(w_1, w_2, ..., w_n) = \prod_{t=1}^{n} P(w_t | w_1, w_2, ..., w_{t-1})
$$

donde $w_t$ es la palabra en el tiempo $t$.

### 3.2.4 Implementación Práctica

Para implementar un modelo de lenguaje neuronal, necesitamos definir la arquitectura de la red y la función de pérdida. La función de pérdida más común para modelos de lenguaje es la entropía cruzada. Para entrenar el modelo, utilizamos un algoritmo de optimización como el descenso de gradiente estocástico (SGD).

El objetivo durante el entrenamiento es minimizar la pérdida del modelo, que es la discrepancia entre las predicciones del modelo y los objetivos reales. Esto se puede expresar matemáticamente como:

$$
\text{Pérdida} = -\frac{1}{N}\sum_{i=1}^{N} \sum_{j=1}^{M} y_{ij} \log(p_{ij})
$$

donde:
- $N$ es el número total de ejemplos de entrenamiento,
- $M$ es el tamaño del vocabulario,
- $y_{ij}$ es 1 si la palabra $j$ es el siguiente token en el ejemplo $i$, de lo contrario 0,
- $p_{ij}$ es la probabilidad predicha de que la palabra $j$ sea el siguiente token en el ejemplo $i$.


### 3.2 Modelos de Lenguaje Neuronales con LSTM

En esta sección, nos centraremos en un tipo específico de red neuronal recurrente (RNN) llamada Memoria a Corto y Largo Plazo (LSTM), utilizada ampliamente en modelos de lenguaje neuronales debido a su capacidad para capturar dependencias a largo plazo en secuencias de texto.

#### 3.2.1 Introducción a las LSTM

Las LSTM son un tipo de RNN diseñadas para superar el problema de desvanecimiento del gradiente (vanishing gradient) que afecta a las RNN tradicionales. Este problema surge cuando se propagan los gradientes a través de muchas capas temporales durante el entrenamiento y se vuelven muy pequeños, lo que dificulta el aprendizaje de dependencias a largo plazo.

#### 3.2.2 Arquitectura de una Celda LSTM

Una celda LSTM consta de varias puertas (gates) que controlan el flujo de información dentro de la celda. Estas puertas incluyen:

- **Puerta de Olvido (Forget Gate):** Decide qué información olvidar del estado de celda anterior.
- **Puerta de Entrada (Input Gate):** Decide qué nueva información almacenar en el estado de celda.
- **Puerta de Salida (Output Gate):** Decide qué parte del estado de celda actual se convertirá en la salida.

La arquitectura de una celda LSTM se puede expresar matemáticamente como:

$$
\begin{align*}
f_t &= \sigma(W_f \cdot [h_{t-1}, x_t] + b_f) \\
i_t &= \sigma(W_i \cdot [h_{t-1}, x_t] + b_i) \\
\tilde{C}_t &= \tanh(W_C \cdot [h_{t-1}, x_t] + b_C) \\
C_t &= f_t \odot C_{t-1} + i_t \odot \tilde{C}_t \\
o_t &= \sigma(W_o \cdot [h_{t-1}, x_t] + b_o) \\
h_t &= o_t \odot \tanh(C_t)
\end{align*}
$$

donde:
- $f_t$ es el vector de activación de la puerta de olvido en el tiempo $t$,
- $i_t$ es el vector de activación de la puerta de entrada en el tiempo $t$,
- $\tilde{C}_t$ es el vector de activación de la celda de estado candidato en el tiempo $t$,
- $C_t$ es el vector de estado de celda en el tiempo $t$,
- $o_t$ es el vector de activación de la puerta de salida en el tiempo $t$,
- $h_t$ es el vector de salida en el tiempo $t$,
- $W_f, W_i, W_C, W_o$ son matrices de pesos,
- $b_f, b_i, b_C, b_o$ son vectores de sesgo,
- $\sigma$ es la función de activación sigmoide,
- $\odot$ representa la multiplicación elemento por elemento.

#### 3.2.3 Aplicación en Modelos de Lenguaje Neuronales

En el contexto de modelos de lenguaje neuronales, las LSTM se utilizan para modelar secuencias de palabras y capturar dependencias a largo plazo en el texto. La entrada a una LSTM en un modelo de lenguaje es típicamente una secuencia de incrustaciones de palabras. La LSTM procesa secuencialmente estas incrustaciones de palabras y genera una distribución de probabilidad sobre las palabras del vocabulario en cada paso de tiempo.

La arquitectura general de un modelo de lenguaje neuronal con LSTM se puede visualizar de la siguiente manera:

$$
\text{Palabra}_1 \rightarrow \text{Embedding} \rightarrow \text{LSTM} \rightarrow \text{...} \rightarrow \text{Palabra}_n
$$

In [None]:
import numpy as np
import tensorflow as tf
from tensorflow.keras.layers import Embedding, LSTM, Dense
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.preprocessing.text import Tokenizer

# Corpus de texto simulado
corpus = [
    "el gato está sobre la mesa",
    "el perro está debajo de la mesa",
    "el pájaro está volando sobre la casa"
]

# Tokenización del texto
tokenizer = Tokenizer()
tokenizer.fit_on_texts(corpus)
total_words = len(tokenizer.word_index) + 1

# Creación de secuencias de entrada y salida
input_sequences = []
for line in corpus:
    token_list = tokenizer.texts_to_sequences([line])[0]
    for i in range(1, len(token_list)):
        n_gram_sequence = token_list[:i+1]
        input_sequences.append(n_gram_sequence)

# Padding de secuencias
max_sequence_len = max([len(x) for x in input_sequences])
input_sequences = np.array(pad_sequences(input_sequences, maxlen=max_sequence_len, padding='pre'))

# Creación de datos de entrada y salida
xs, labels = input_sequences[:,:-1],input_sequences[:,-1]
ys = tf.keras.utils.to_categorical(labels, num_classes=total_words)

# Definición del modelo de lenguaje neuronal
model = tf.keras.Sequential([
    Embedding(total_words, 100, input_length=max_sequence_len-1),
    LSTM(150),
    Dense(total_words, activation='softmax')
])

# Compilación del modelo
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

# Entrenamiento del modelo
history = model.fit(xs, ys, epochs=100, verbose=1)

# Función para generar texto a partir del modelo entrenado
def generate_text(seed_text, next_words, model, max_sequence_len):
    for _ in range(next_words):
        token_list = tokenizer.texts_to_sequences([seed_text])[0]
        token_list = pad_sequences([token_list], maxlen=max_sequence_len, padding='pre')  # Corrección aquí
        predicted = np.argmax(model.predict(token_list), axis=-1)
        output_word = ""
        for word, index in tokenizer.word_index.items():
            if index == predicted:
                output_word = word
                break
        seed_text += " " + output_word
    return seed_text

# Generación de texto simulado
print(generate_text("el gato", 5, model, max_sequence_len-1))


Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

# Capítulo 3: Modelos de Lenguaje Basados en Transformadores

En este capítulo, exploraremos los modelos de lenguaje basados en transformadores, una innovadora arquitectura que ha revolucionado el campo del procesamiento del lenguaje natural (PNL). Comenzaremos explicando los fundamentos teóricos detrás de los transformadores y cómo funcionan en el contexto de los modelos de lenguaje. Luego, presentaremos ejemplos prácticos de implementación en Python utilizando la biblioteca TensorFlow.

## 3.3 Fundamentos de los Transformadores

Los transformadores son una arquitectura de red neuronal que se basa en el mecanismo de atención para procesar secuencias de datos. La atención permite a la red enfocarse en partes específicas de la entrada, lo que la hace especialmente efectiva para tareas que involucran secuencias largas, como la traducción automática y la generación de texto.

### 3.3.1 Mecanismo de Atención

El mecanismo de atención permite que el modelo asigne diferentes pesos a diferentes partes de la entrada, centrándose en las partes más relevantes para la tarea en cuestión. Matemáticamente, la atención se calcula mediante una combinación lineal de los vectores de consulta, clave y valor, seguida de una función de activación softmax. Esto se puede expresar como:

$$
\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
$$

donde:
- $Q$, $K$ y $V$ son matrices de consulta, clave y valor, respectivamente,
- $d_k$ es la dimensión de las matrices de clave.

### 3.3.2 Transformador

La arquitectura del transformador se basa en el uso repetido de bloques de atención, llamados capas de atención, que permiten capturar relaciones de dependencia a largo plazo en las secuencias de entrada. Estas capas de atención están interconectadas mediante conexiones residuales y normalización por capa.

#### 3.3.2.1 Bloque de Atención

Cada bloque de atención en un transformador consta de múltiples cabezas de atención, que permiten al modelo capturar diferentes representaciones de la entrada en paralelo. La salida de cada cabeza de atención se concatena y se proyecta linealmente para producir la salida final del bloque. Matemáticamente, la salida de un bloque de atención se calcula como:

$$
\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, ..., \text{head}_h)W^O
$$

donde:
- $\text{head}_i = \text{Attention}(QW^Q_i, KW^K_i, VW^V_i)$ es la salida de la $i$-ésima cabeza de atención,
- $W^Q_i$, $W^K_i$ y $W^V_i$ son matrices de pesos para la $i$-ésima cabeza de atención,
- $W^O$ es la matriz de proyección para combinar las salidas de todas las cabezas de atención.

#### 3.3.2.2 Capa de Normalización y Conexión Residual

Cada bloque de atención en un transformador está seguido por una capa de normalización y una conexión residual. La capa de normalización ayuda a estabilizar el entrenamiento, y la conexión residual permite que el gradiente se propague más fácilmente a través de las capas. Matemáticamente, esto se puede expresar como:

$$
\text{Output} = \text{LayerNorm}(X + \text{MultiHead}(Q, K, V))
$$

donde:
- $X$ es la entrada al bloque de atención,
- $\text{LayerNorm}$ es la capa de normalización.

### 3.3.3 Modelo de Lenguaje Basado en Transformadores

Un modelo de lenguaje basado en transformadores utiliza la arquitectura de transformador para modelar secuencias de texto y predecir la probabilidad de la siguiente palabra en una secuencia dada una historia de palabras anteriores. La entrada a un transformador es típicamente una secuencia de incrustaciones de palabras, y la salida es una distribución de probabilidad sobre las palabras del vocabulario.

In [None]:
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.layers import Input, Embedding, Masking, LSTM, Dense, Dropout
from tensorflow.keras.models import Model

# Corpus de texto simulado
corpus = """
El gato está sobre la mesa.
El perro está debajo de la mesa.
El pájaro está volando sobre la casa.
"""

# Tokenizar el corpus
tokenizer = Tokenizer()
tokenizer.fit_on_texts([corpus])
total_words = len(tokenizer.word_index) + 1

# Crear secuencias de entrada y salida
input_sequences = []
for line in corpus.split('\n'):
    token_list = tokenizer.texts_to_sequences([line])[0]
    for i in range(1, len(token_list)):
        n_gram_sequence = token_list[:i+1]
        input_sequences.append(n_gram_sequence)

# Pad sequences
max_sequence_len = max([len(x) for x in input_sequences])
input_sequences = pad_sequences(input_sequences, maxlen=max_sequence_len, padding='pre')

# Crear datos de entrada y salida
X = input_sequences[:, :-1]
y = input_sequences[:, -1]

# Convertir la salida a one-hot encoding
y = tf.keras.utils.to_categorical(y, num_classes=total_words)

# Definir el modelo
input_layer = Input(shape=(max_sequence_len - 1,))
embedding_layer = Embedding(total_words, 100)(input_layer)
masking_layer = Masking(mask_value=0.0)(embedding_layer)  # Masking para manejar secuencias de longitud variable
lstm_layer = LSTM(150)(masking_layer)
dropout_layer = Dropout(0.2)(lstm_layer)
output_layer = Dense(total_words, activation='softmax')(dropout_layer)

model = Model(inputs=input_layer, outputs=output_layer)

# Compilar el modelo
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

# Entrenar el modelo
model.fit(X, y, epochs=100, verbose=1)

# Función para predecir la siguiente palabra
def generate_text(seed_text, next_words):
    for _ in range(next_words):
        token_list = tokenizer.texts_to_sequences([seed_text])[0]
        token_list = pad_sequences([token_list], maxlen=max_sequence_len-1, padding='pre')
        predicted_probs = model.predict(token_list, verbose=0)[0]
        predicted_index = tf.argmax(predicted_probs, axis=-1).numpy()
        output_word = ""
        for word, index in tokenizer.word_index.items():
            if index == predicted_index:
                output_word = word
                break
        seed_text += " " + output_word
    return seed_text

# Generar texto
generated_text = generate_text("El gato", 5)
print(generated_text)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78