<a href="https://colab.research.google.com/github/jumafernandez/clasificacion_correos/blob/main/notebooks/jcc/01-BERT_beto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Modelo a evaluar JCC: BERT

En esta notebook se presentan los experimentos sobre la estrategia de representación y técnica de aprendizaje *avanzada* utilizada para las JCC de  la Universidad Nacional de La Plata.

Para ello vamos a tomar el texto de la consulta de los correos y aplicar BERT con el modelo pre-entrenado en español (BETO - Departamento de Computación de la Universidad de Chile).


# Instalación de la librería *simpletransformers*

In [1]:
%%capture

!pip install simpletransformers

# Elección de un modelo monolenguaje pre-entrenado

La librería *simpletransformers* se basa en la librería *Transformers* de HuggingFace. Esto permite utilizar todos los modelos pre-entrenados disponibles en la [Transformers library](https://huggingface.co/transformers/pretrained_models.html) que son provistos por toda la comunidad de desarrolladores. Para ver cuales son los modelos disponibles, se puede ingresar a [https://huggingface.co/models](https://huggingface.co/models).

En nuestro caso, vamos a utilizar el modelo `dccuchile/bert-base-spanish-wwm-cased`. Este modelo está pre-entrenado por un equipo de investigadores del Departamento de Computación de la Universidad de Chile.

# Carga del dataset con los correos

In [2]:
# Cargamos el archivo con las consultas que está en Github
from os import path

# En caso que no esté el archivo en Colab lo traigo
if not(path.exists('03-Correos_variables_estaticas.csv')):
  !wget https://raw.githubusercontent.com/jumafernandez/clasificacion_correos/main/data/03-Correos_variables_estaticas.csv

In [3]:
# Leemos el archivo en un dataframe
import pandas as pd

# Cargamos los datos
df = pd.read_csv('03-Correos_variables_estaticas.csv', delimiter="|")

# Seleccionamos solo la consulta y la clase
df = df[["Consulta", "Clase"]]
df.head()

Unnamed: 0,Consulta,Clase
0,"hola quiero anotarme a las materias ,para el s...",Vacunas Enfermería
1,hola buenos días! quería saber cuando voy a po...,Vacunas Enfermería
2,hola quisiera saber si en la consulta de situa...,Situación Académica
3,buenas noches. en mi situacion academica apare...,Situación Académica
4,"hola, quisiera obtener mi promedio o saber co...",Situación Académica


In [4]:
# Definición de la cantidad de clases (el resto se agrupa en OTRAS CONSULTAS)
CANTIDAD_CLASES = 4

In [5]:
# Transformamos todas las Clases minoritarias (Puedo ir variando la cantidad de clases que derivo a la Clase "Otras Consultas")
clases = df.Clase.value_counts()
clases_minoritarias = clases.iloc[CANTIDAD_CLASES-1:].keys().to_list()
df.Clase[df['Clase'].isin(clases_minoritarias)] = "Otras Consultas"

# Se numeriza la clase
from sklearn import preprocessing
le = preprocessing.LabelEncoder()
df['Clase']=le.fit_transform(df['Clase'])

# Me guardo las etiquetas de las clases (numerizadas)
class_list=le.classes_

# Clases balanceadas
df.head()

Unnamed: 0,Consulta,Clase
0,"hola quiero anotarme a las materias ,para el s...",2
1,hola buenos días! quería saber cuando voy a po...,2
2,hola quisiera saber si en la consulta de situa...,2
3,buenas noches. en mi situacion academica apare...,2
4,"hola, quisiera obtener mi promedio o saber co...",2


In [6]:
# Clases balanceadas
df.Clase.value_counts()

2    399
0    240
1    232
3    129
Name: Clase, dtype: int64

In [7]:
df.columns = ['text', 'labels']

# Separación en train/test del dataset

In [8]:
from sklearn.model_selection import train_test_split

train_df, test_df = train_test_split(df, test_size=0.10)

print('train shape: ',train_df.shape)
print('test shape: ',test_df.shape)

train shape:  (900, 2)
test shape:  (100, 2)


# Carga de BETO, el modelo pre-entrenado por el *dccuchile*

In [9]:
from simpletransformers.classification import ClassificationModel

# Cantidad de epochs
epochs = 4

# Definimos los hiperparámetros
train_args = {
   'model_type':  'bert',
   'model_name': 'dccuchile/bert-base-spanish-wwm-cased',
   'output_dir': 'outputs/',
   'cache_dir': 'cache/',
   'fp16': True,
   'fp16_opt_level': 'O1',
   'max_seq_length': 200,
   'train_batch_size': 110,
   'eval_batch_size': 8,
   'gradient_accumulation_steps': 1,
   'num_train_epochs': epochs,
   'weight_decay': 0,
   'learning_rate': 4e-5,
   'adam_epsilon': 1e-8,
   'warmup_ratio': 0.06,
   'warmup_steps': 0,
   'max_grad_norm': 1.0,
   'logging_steps': 50,
   'evaluate_during_training': False,
   'save_steps': 2000,
   'eval_all_checkpoints': True,
   'use_tensorboard': True,
   'overwrite_output_dir': True,
   'reprocess_input_data': False,
}

#train_args ={"reprocess_input_data": True,
#             "overwrite_output_dir": True,
#             "fp16":False,
#             "num_train_epochs": 6}

# Creamos el ClassificationModel
model = ClassificationModel(
    'bert', 'dccuchile/bert-base-spanish-wwm-cased',
    num_labels=CANTIDAD_CLASES,
    args=train_args
)

Some weights of the model checkpoint at dccuchile/bert-base-spanish-wwm-cased were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForSequenceClassification were not initialized from the model checkpoint at dccuchile/bert-base-spanish-wwm-cased a

In [10]:
model.args

ClassificationArgs(adam_epsilon=1e-08, best_model_dir='outputs/best_model', cache_dir='cache/', config={}, cosine_schedule_num_cycles=0.5, custom_layer_parameters=[], custom_parameter_groups=[], dataloader_num_workers=0, do_lower_case=False, dynamic_quantize=False, early_stopping_consider_epochs=False, early_stopping_delta=0, early_stopping_metric='eval_loss', early_stopping_metric_minimize=True, early_stopping_patience=3, encoding=None, adafactor_eps=(1e-30, 0.001), adafactor_clip_threshold=1.0, adafactor_decay_rate=-0.8, adafactor_beta1=None, adafactor_scale_parameter=True, adafactor_relative_step=True, adafactor_warmup_init=True, eval_batch_size=8, evaluate_during_training=False, evaluate_during_training_silent=True, evaluate_during_training_steps=2000, evaluate_during_training_verbose=False, evaluate_each_epoch=True, fp16=True, gradient_accumulation_steps=1, learning_rate=4e-05, local_rank=-1, logging_steps=50, manual_seed=None, max_grad_norm=1.0, max_seq_length=200, model_name='dc

# Entrenamiento del modelo con el dataset

In [11]:
# Entrenamos el modelo
model.train_model(train_df)

Epoch:   0%|          | 0/4 [00:00<?, ?it/s]

Running Epoch 0 of 4:   0%|          | 0/113 [00:00<?, ?it/s]



Running Epoch 1 of 4:   0%|          | 0/113 [00:00<?, ?it/s]

Running Epoch 2 of 4:   0%|          | 0/113 [00:00<?, ?it/s]

Running Epoch 3 of 4:   0%|          | 0/113 [00:00<?, ?it/s]

(452, 0.3969963309607485)

In [12]:
from sklearn.metrics import f1_score, accuracy_score


def f1_multiclass(labels, preds):
    return f1_score(labels, preds, average='micro')
    
result, model_outputs, wrong_predictions = model.eval_model(test_df, f1=f1_multiclass, acc=accuracy_score)

result

Running Evaluation:   0%|          | 0/13 [00:00<?, ?it/s]

{'acc': 0.98,
 'eval_loss': 0.09932298236526549,
 'f1': 0.98,
 'mcc': 0.9707246013563626}

# Prueba del modelo con un ejemplo real

In [17]:
test_correo = "no tengo dinero para viajar"

predictions, raw_outputs = model.predict([test_correo])

print(class_list[predictions[0]])

  0%|          | 0/1 [00:00<?, ?it/s]

Boleto Universitario


# Persistencia y carga del modelo

Se guarda el modelo en */outputs* y luego se carga

In [14]:
EJECUCION_PERSISTENCIA = 0

if EJECUCION_PERSISTENCIA:
  import os
  import tarfile

  def save_model(model_path='',file_name=''):
    files = [files for root, dirs, files in os.walk(model_path)][0]
    with tarfile.open(file_name+ '.tar.gz', 'w:gz') as f:
      for file in files:
        f.add(f'{model_path}/{file}')

  # Se guarda
  save_model('outputs','prueba_clasificador_correos')

  # RELOADED
  # Se descomprime para cargarse
  !tar -zxvf ./prueba_clasificador_correos.tar.gz
  !rm -rf outputs

  import os
  import tarfile

  def unpack_model(model_name=''): 
    tar = tarfile.open(f"{model_name}.tar.gz", "r:gz")
    tar.extractall()
    tar.close()

  unpack_model('prueba_clasificador_correos')

  # Se carga el modelo propio
  from simpletransformers.classification import ClassificationModel

  # Se definen los hiperparámetros
  train_args ={"reprocess_input_data": True,
              "overwrite_output_dir": True,
              "fp16":False,
              "num_train_epochs": 4}

  # Se crea el ClassificationModel
  model = ClassificationModel(
      "bert", "outputs/",
      num_labels=CANTIDAD_CLASES,
      args=train_args
  )
  from sklearn.metrics import f1_score, accuracy_score

  def f1_multiclass(labels, preds):
      return f1_score(labels, preds, average='micro')
      
  result, model_outputs, wrong_predictions = model.eval_model(test_df, f1=f1_multiclass, acc=accuracy_score)

  result

# Referencias
- https://towardsdatascience.com/bert-text-classification-in-a-different-language-6af54930f9cb
- https://medium.com/dair-ai/beto-spanish-bert-420e4860d2c6