# Cargamos algunas librerias que vamos a utilizar luego

In [None]:
import pandas as pd
import numpy as np
import tensorflow as tf

from src.utils import load_dataset, split_data, DataLoader
from src.text import standardize_method

# Indice orden:

- (1) Presentación de oportunidad. (Cubiertos en la sesion de metodologia)
- (2) Medición del posible impacto. (Cubiertos en la sesion de metodologia)
- (3) Criterios de éxito:
    - 3.a Métricas del modelo
    - 3.b Métricas de negocio (Cubiertos en la sesion de metodologia)
- (4) Recolección de datos y prueba de hipótesis (Partimos de datos)
- (5) Exploración de los datos. 
- (6) Modelo de base.
- (7) Prototipado.
- (8) Encontrado la arquitectura -> búsqueda de hiper-parámetros -> Entrenamiento. (Por ahora fuera del alcance)
- (9) Despliegue en producción. (Por ahora fuera del alcance)
- (10) Monitoreo. (Por ahora fuera del alcance)
- (11) A/B testing. (Por ahora fuera del alcance)
- (12) Concluciones con respecto a los criterios de exito -> reunion con stakeholders. (Por ahora fuera del alcance)


# Cargamos los datos

In [None]:
dataset = load_dataset("../datasets/awzm_products.jsonl.gz")

In [None]:
dataset.info()

# (3) Criterios de éxito

# Balance

Sabemos que el problema se puede clasificar como un problema de multiclass donde un producto puede pertenecer a un numero de clases

Es nuestro dataset balanceado?

In [None]:
main_categories = dataset.main_cat.unique()

In [None]:
main_cat_count_df = dataset.groupby(by="main_cat").main_cat.count().reset_index(name="count").sort_values(by="count", ascending=True)

main_cat_count_df

In [None]:
main_categories_count = dataset.main_cat.unique().shape[0]

equal_representation_count = int(dataset.shape[0]/main_categories_count)

print(f"Tenemos : {main_categories_count} Si estruviera balanceado esperariamos ver {equal_representation_count} samples por categoria")

## Porcentaje de representacion con respecto a lo esperado

In [None]:
main_cat_count_df["%"] = main_cat_count_df["count"]/equal_representation_count
main_cat_count_df["diferencia%"] = main_cat_count_df[["%"]]-1

main_cat_count_df.sort_values(by="diferencia%", ascending=True)

## 3. Metricas de exito sobre el rendimiento del modelo:

Sabemos que no se encuentra balanceado con lo cual tenemos que tomar una metrica de evaluación que tenga encuenta ese desbalance en este caso vamos utilizar ***F1 Score weighted*** para evaluar los modelos.

## 3b. Como metrica de negocio:
Nos interesa entender el costo de las desiciones que toma el modelo. Y cuanto tiempo estamos reduciendo.

```Omitimos los pasos 4 y 5 ya que el dataset lo tenemos listo para entrenar.```

## (5) Exploración de los datos.

En principio no vamos a tener mucho tiempo para esta parte pero sepan que es donde vemos que features podemos usar y cual seria la mejor forma de procesarlas para que el modelo las pueda usar.

Vamos a partir de que el titulo es nuestro primer candidato por varias razones:
- Es un campo obligatorio
- Cumple el fin de resumir y expresar al mismo tiempo la mayor cantidad de informacion posible sobre el producto

# (6) Modelo base (baseline)

### Split de los datos:

Primero vamos a separa los datos que tenemos utilizando una division de 98% training /1% validacion y /1% testing

In [None]:
(X_train, Y_train), (X_val, Y_val), (X_test, Y_test) = split_data(dataset=dataset)

## Instrucciones

Aqui pueden idear el baseline que deseen, puede ser algo completamente random, pueden predecir siempre una clase quizas la mas representada por ejemplo o algun otro que se les ocurra.
El punto importante es tener algo sobre lo cual comparar el resultado del primer modelo que va a ser el mas sensillo pero que aun asi deberia superar ampliamente al baseline

Esta prueba de como funciona un baseline lo vamos a hacer sobre Y_val para poder comprar luego con nuestro modelo sobre el mismo set de datos.

In [None]:
# recueden de no pisar el contenido de Y_val
import copy

# aqui van las predicciones de ustedes que pueden ser puro random o alguna clase en particular.
test_labels_copy = #

# np.random.shuffle(test_labels_copy)

# Calculamos los aciertos
match_labels = Y_val == test_labels_copy

In [None]:
from sklearn.metrics import classification_report

print(classification_report(Y_val, test_labels_copy, output_dict=False))

El numero que nos interesa es el que se encuentra en "weighted avg" y "f1-score"

# (7) prototipado

## Para realizar el prototipo tenemos que recordar algunas cosas

Es un problema de clasificación múltiple con lo cual es no nos dice que tipo de funcion de costo debemos usar y en segundo lugar la métrica a superar es la del modelo base en principio.
En caso de que no podamos superar esa metrica, debemos volver a las hipotesis y replantear el prototipo, quizas necesitemos otra arquitectura o un modelo mas grande.


En principio vamos a utilizar lo mas simple posible que es un modelo con un proceso de **multi_one_hot**. Pueden probar otro modelo u otro preproceso como tf-idf por ejemplo.

## pre Preproceso

Vamos a elimiar del titulo los emojis si es que hay y signos de puntuación ademas de reemplazar los numeros por un token que indica que hay un numero en ese lugar.

Para ello vamos a utilizar el **DataLoader** que nos va a proporcionar los sets de entrenamiento, validacion y testing.

En principio vamos a utilizar un vocabulario de 10000 tokens con un bache de 1024. Pueden modificarlo ampliar/reducir tanto el vocabulario como el batch_size, este ultimo va a determinar cuantos
samples se utilzan para entrenar en forma simultanea, si reciben un error de OOM pueden reducir. Si en cambio notan que su GPU no se encuentra con mucha carga pueden ampliarlo.

In [None]:
data_loader = DataLoader(vocab_size=10000, classes=22, batch_size=1024)

data = data_loader.build_datasets("../datasets/awzm_products.jsonl.gz")

train_dataset = data["train"]
val_dataset = data["validation"]
test_dataset = data["test"]

 # Prototipo

 En un principio pueden elegir el modelo que quieran con las capas, unidades y activaciones que deseen

In [None]:
model = tf.keras.Sequential([
    # Espacio para agregar las capas que crean necesarias
    # recuerden que si o si tienen que terminar con una salida de una funcion de densidad de probabilidad (softmax)
])

Para hacer el entrenamiento mas rapido y eficiente pueden usar los siguientes callbacks

In [None]:
early_stop = tf.keras.callbacks.EarlyStopping(monitor="val_loss", patience=3)

model_checkpoint = tf.keras.callbacks.ModelCheckpoint(filepath="temporal_checkpoint",
                                                      save_weights_only=True,
                                                      save_only_best=True,
                                                      verbose=1)

In [None]:
model.compile(
  # Tienen que definir una loss function
  loss=tf.keras.losses.categorical_crossentropy,
  # puden usar el optimizer que deseen
  optimizer=#
  # la metrica va a ser F1-score weighted por lo que encontramos sobre el desbalance de las clases
  metrics=[tf.keras.metrics.F1Score(average="weighted", threshold=None, name='f1_score', dtype=None)]
)

## Hora de entrenar

Si todo salio bien ahora van a poder entrenar un modelo!

In [None]:
model.fit(
    train_dataset,
    validation_data=val_dataset,
    epochs=500,
    callbacks=[model_checkpoint, early_stop]
)

# Agregamos la capa de vectorizacion al modelo final

El data_loader tiene una capa de vetorizacion, que usamos para crear el dataset previamente y preprocesar los datos.
Ahora necesitamos esa capa para el modelo final.

In [None]:
MODEL_PATH="model_repositories"
MODEL_VERSION="1"

In [None]:
model.summary()

In [None]:
data_loader.text_vectorizer

In [None]:
data_loader.text_vectorizer(["ps5", "tv lg c2 with cover"])

In [None]:
layers = []
layers.append(data_loader.text_vectorizer)

for layer in model.layers:
    layers.append(layer)

final_model = tf.keras.Sequential([tf.keras.Input(shape=(),dtype="string")]+layers)

In [None]:
final_model.summary()

# Inspeccion del modelo

In [None]:
final_model.summary()

# Salvamos el modelo

In [None]:
tf.saved_model.save(final_model, f"{MODEL_PATH}/{MODEL_VERSION}")

# Revisamos que este bien

In [None]:
from src.text import translate_table

reconstructed_model = tf.saved_model.load(f"{MODEL_PATH}/{MODEL_VERSION}")

In [None]:
from src.text import classes_table

classes_table.lookup(tf.constant(["Tools & Home Improvement"]))

In [None]:
translate_table.lookup(tf.constant([11]))

### Revisamos que nos de el mismo resultado

In [None]:
tf.argmax(reconstructed_model(tf.constant(["Nintendo 64 cartridge"]), training=False), axis=1).numpy()

In [None]:
translate_table.lookup(tf.constant([tf.argmax(reconstructed_model(tf.constant(["Nintendo 64 cartridge"]), training=False), axis=1).numpy()]))

In [None]:
translate_table.lookup(tf.constant([tf.argmax(reconstructed_model(tf.constant(["Nintendo 64 cartridge"]), training=False), axis=1).numpy()]))

# Armado de docker

## (1) Creen un archivo que se llame dockerfile en esta carpeta notebooks
Lo pueden hacer desde el editor o ejecutar en la siguiente celda:
```
    ! touch dockerfile
```

## (2) Copien esto en el dockerfile
```
    FROM tensorflow/serving:2.13.0
    COPY model_repositories /models/category_classifier
    ENV MODEL_NAME=category_classifier
```
Estamos indicando que vamos a usar la imagen 2.13.0 de tensorflow/serving
Copiamos el modelo a /models/category_classifier en la imagen de docker
Seteamos la variable MODEL_NAME a category_classifier

## (3) Ahora procedemos a hacer un build del docker file con:
```
    build -t <nombre docker> .
```
Aqui si usamos nuestro <nombre de usuario>/nombre_imagen podemos luego con push subirlo a docker hub

## (4) Ejecutarlo:
```
    docker run -t --rm -p 8501:8501 <nombre docker>
```

## (5) probarlo con curl o con el script en usage_api_example.py

```
    curl -H "Content-Type: application/json" --data '{"instances":["nintendo 64"]}' -X POST http://localhost:8501/v1/models/category_classifer:predict
```

In [None]:
!touch dockerfile

In [None]:
!python usage_api_example.py

# Optimizacion con Tflite

In [None]:
import tensorflow as tf
import pickle


class TFLiteModel(tf.Module):
    def __init__(self, model):
        super(TFLiteModel, self).__init__()
        self.model = model

    @tf.function(input_signature=[tf.TensorSpec(shape=[None], dtype="string", name='inputs')])
    def __call__(self, inputs, training=False):
        logits = self.model(inputs, training=False)
        # postprocesamiento de salida
        return {"outputs": logits}

In [None]:
tflitemodel_base = TFLiteModel(final_model)

In [None]:
keras_model_converter = tf.lite.TFLiteConverter.from_keras_model(tflitemodel_base)
keras_model_converter.target_spec.supported_ops = [tf.lite.OpsSet.TFLITE_BUILTINS, tf.lite.OpsSet.SELECT_TF_OPS]
keras_model_converter.allow_custom_ops = True
keras_model_converter.optimizations = [tf.lite.Optimize.DEFAULT]

tflite_model = keras_model_converter.convert()

In [None]:
import json
import shutil
import os

shutil.rmtree(f"{MODEL_PATH}"+os.sep+str(MODEL_VERSION))
os.mkdir(f"{MODEL_PATH}"+os.sep+str(MODEL_VERSION))

with open(f"{MODEL_PATH}"+os.sep+str(MODEL_VERSION)+os.sep+"model.tflite", "wb") as f:    
    f.write(tflite_model)

In [None]:
REQUIRED_SIGNATURE = "serving_default"
REQUIRED_OUTPUT = "outputs"

interpreter = tf.lite.Interpreter(f"{MODEL_PATH}"+os.sep+str(MODEL_VERSION)+os.sep+"model.tflite")

found_signatures = list(interpreter.get_signature_list().keys())

if REQUIRED_SIGNATURE not in found_signatures:
    raise KernelEvalException('Required input signature not found.')

prediction_fn = interpreter.get_signature_runner(REQUIRED_SIGNATURE)

source_element = np.array(["Nintendo 64 cartige", "pc escritorio"])

output = prediction_fn(inputs=source_element)

print(output)

## Volver a crear el docker
```
    build -t <nombre docker> .
```


### Ejecutarlo:
```
    docker run -t --rm -p 8501:8501 <nombre docker> --prefer_tflite_model=true
```

Necesitamos para este caso agregar --prefer_tflite_model=true