<a href="https://colab.research.google.com/github/jumafernandez/clasificacion_correos/blob/main/notebooks/jaiio/03-modelos/01-SVM.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Combinaciones de estrategias de etiquetado + SVM

En esta notebook se presentan los experimentos a partir de los datos etiquetados manualmente junto con los automáticos a partir de las features extraidas del train dataset con todas las combinaciones de estrategias de selección de características + las combinaciones de estrategias de representación de documentos (pesados binario y tf-idf, 3-4-gramas de caracteres y 1-2-gramas de palabras) + la construcción de un clasificador con SVM (máquinas vector soporte).

## 0. Configuración de la ejecución

A continuación se genera la configuración de las estrategias que integrarán el sistema de votación para la obtención de instancias:

In [47]:
# Posibilidades : lr, ss3, tfidf
# Combinaciones:
# lr-ss3
# lr-tfidf
# ss3-tfidf
# lr-ss3-tfidf
estrategias_feature_extraction = ['tfidf', 'ss3', 'lr']

# Se define si se incorporan las instancias definidas manualmente
ETIQUETADO_MANUAL = False

# Para el sistema de votación queda fija la cantidad de instancias
CANTIDAD_INSTANCIAS = 200
BOOSTING = False

# Defino una lista con los esquemas de representación y la cantidad de tokens
estrategias_representacion = ['BINARIO', 'TFIDF', '3-4-NGRAM-CHARS', '1-2-NGRAM-WORDS']
ATRIBUTOS_DINAMICOS = 3000

# Defino la técnica de ML
tecnica = 'SVM'

Se definen algunas características fijas:

In [48]:
# El archivo de test y el train con etiquetado manual es siempre el mismo
TRAIN_FILE_MANUAL = 'correos-train-jaiio-80.csv'
TEST_FILE = 'correos-test-jaiio-20.csv'
atributos_df = ['consulta', 'dia_semana', 'semana_del_mes', 'mes', 'cuatrimestre',
                  'anio', 'hora_discretizada', 'dni_discretizado', 'legajo_discretizado',
                  'posee_legajo', 'posee_telefono', 'carrera_valor', 'proveedor_correo',
                  'cantidad_caracteres', 'proporcion_mayusculas', 'proporcion_letras',
                  'cantidad_tildes', 'cantidad_palabras', 'cantidad_palabras_cortas',
                  'proporcion_palabras_distintas', 'frecuencia_signos_puntuacion',
                  'cantidad_oraciones', 'utiliza_codigo_asignatura', 'score']

Y se generan los datos en función de la cantidad de estrategias a utilizar:

In [49]:
# Se genera el nombre del archivo de instancias a ejecutar en función de las estrategias

# En caso que se realice el ensamble entre las n estrategias
if len(estrategias_feature_extraction)>=1:
  if BOOSTING:
    TRAIN_FILE_E0 = f'dataset-{estrategias_feature_extraction[0]}-200-boosting-prep.csv'
  else:
    TRAIN_FILE_E0 = f'dataset-{estrategias_feature_extraction[0]}-200-prep.csv'
  texto = f'Los dataset a utilizar son: \n\t{TRAIN_FILE_E0}'
  # Se define el if para que ante reiteradas ejecuciones de la notebook no se vuelva a insertar
  if 'clase_e0' not in atributos_df:
    atributos_df.append('clase_e0')

if len(estrategias_feature_extraction)>=2:
  if BOOSTING:
    TRAIN_FILE_E1 = f'dataset-{estrategias_feature_extraction[1]}-200-boosting-prep.csv'
  else:
    TRAIN_FILE_E1 = f'dataset-{estrategias_feature_extraction[1]}-200-prep.csv'
  texto = texto + f'\n\t{TRAIN_FILE_E1}'
  # Se define el if para que ante reiteradas ejecuciones de la notebook no se vuelva a insertar
  if 'clase_e1' not in atributos_df:
    atributos_df.append('clase_e1')

# En caso que se realice el ensamble entre las 3 estrategias
if len(estrategias_feature_extraction)==3:
  if BOOSTING:
    TRAIN_FILE_E2 = f'dataset-{estrategias_feature_extraction[2]}-200-boosting-prep.csv'
  else:
    TRAIN_FILE_E2 = f'dataset-{estrategias_feature_extraction[2]}-200-prep.csv'

  texto = texto + f'\n\t{TRAIN_FILE_E2}' 
  # Se define el if para que ante reiteradas ejecuciones de la notebook no se vuelva a insertar
  if 'clase_e2' not in atributos_df:
    atributos_df.append('clase_e2')

if len(estrategias_feature_extraction)>=1:
  print(texto)

Los dataset a utilizar son: 
	dataset-tfidf-200-prep.csv
	dataset-ss3-200-prep.csv
	dataset-lr-200-prep.csv


## 1. Instalación y Carga de librerías y funciones útiles

### 1.1 Instalación de librerías

Se instalan las librerías que no están en el entorno de Google Colab:

In [50]:
# Se instala gensim que es el que tiene el modelo Word2Vec
!pip install requests
!pip install wget



### 1.2 Funciones útiles

Se cargan funciones útiles desde el repo https://github.com/jumafernandez/clasificacion_correos para la carga y balanceo del dataset.

In [51]:
import requests

# Se hace el request del raw del script python
url = 'https://raw.githubusercontent.com/jumafernandez/clasificacion_correos/main/scripts/funciones_dataset.py'
r = requests.get(url)

# Se guarda en el working directory
with open('funciones_dataset.py', 'w') as f:
    f.write(r.text)

# Se importan las funciones a utilizar
from funciones_dataset import get_clases, cargar_dataset, consolidar_df, generar_train_test_set

También se carga la función para preprocesar el texto que se usó en los otros modelos desde el repo: https://github.com/jumafernandez/clasificacion_correos.

In [52]:
import requests

# Se hace el request del raw del script python
url = 'https://raw.githubusercontent.com/jumafernandez/clasificacion_correos/main/scripts/funciones_preprocesamiento.py'
r = requests.get(url)

# Se guarda en el working directory
with open('funciones_preprocesamiento.py', 'w') as f:
    f.write(r.text)

# Se importan las funciones a utilizar
from funciones_preprocesamiento import preprocesar_correos

### 1.2.1. Carga de librerías de procesamiento de texto

Se cargan en memoria dos funciones: _grid_search_por_estrategia_representacion_ que va a iterar ajustando los hiperparámetros para las técnica de __SVM__ y _representacion_documentos_ que genera representaciones para las _features textuales_:

In [53]:
import requests

# Se hace el request del raw del script python
url = 'https://raw.githubusercontent.com/jumafernandez/clasificacion_correos/main/scripts/funciones_clasificacion_texto.py'
r = requests.get(url)

# Se guarda en el working directory
with open('funciones_clasificacion_texto.py', 'w') as f:
    f.write(r.text)

# Se importan las funciones a utilizar
from funciones_clasificacion_texto import gridsearch_por_estrategia_representacion, representacion_documentos, gridsearch_por_tecnica

### 1.3. Carga de datos

Cargo la librería warnings para no mostrar las advertencias, pandas para el manejo de df y os para verificar la existencia de los archivos en la carga de datos. Además, cargo en memoria la URL de base de los datasets y una lista de las etiquetas de las distintas clases:

In [54]:
import warnings
import pandas as pd
from os import path
warnings.filterwarnings("ignore")

# Constantes con los datos
DS_DIR = 'https://raw.githubusercontent.com/jumafernandez/clasificacion_correos/main/data/50jaiio/consolidados/'

# Defino las clases y la cantidad a utilizar
etiquetas = get_clases()
CANTIDAD_CLASES = len(etiquetas)

Se cargan los dataframe en memoria con el preprocesamiento de los datos:
- Instancias LR,
- Instancias SS3,
- Instancias TFIDF.
- Instancias etiquetadas manualmente.


In [55]:
if len(estrategias_feature_extraction)>=1:
  # Chequeo sobre si los archivos están en el working directory
  download_files = not(path.exists(TRAIN_FILE_E0))

  df_e0, test_df, etiquetas = cargar_dataset(DS_DIR, TRAIN_FILE_E0, TEST_FILE, download_files, 'clase', etiquetas, CANTIDAD_CLASES, 'Otras Consultas')

  # Se ejecuta el preprocesamiento de correos sobre el campo Consulta de train y test
  df_e0['consulta'] = pd.Series(preprocesar_correos(df_e0['consulta']))
  test_df['consulta'] = pd.Series(preprocesar_correos(test_df['consulta']))

  # Muestro salida por consola
  print('Existen {} clases: {}.'.format(len(df_e0.clase.unique()), df_e0.clase.unique()))

  # Me quedo con las N cantidad de instancias con mayor score por clase
  if CANTIDAD_INSTANCIAS<200:
    df_e0 = df_e0.sort_values(['clase','score'], ascending=False).groupby('clase').head(CANTIDAD_INSTANCIAS).reset_index(drop=True)
    df_e0 = df_e0.sample(frac = 1)



El conjunto de entrenamiento tiene la dimensión: (3200, 25)
El conjunto de testeo tiene la dimensión: (200, 24)
Existen 16 clases: ['Boleto Universitario' 'Cambio de Carrera' 'Cambio de Comisión'
 'Consulta por Equivalencias' 'Consulta por Legajo'
 'Consulta sobre Título Universitario' 'Cursadas' 'Datos Personales'
 'Exámenes' 'Ingreso a la Universidad' 'Pedido de Certificados'
 'Problemas con la Clave' 'Reincorporación' 'Requisitos de Ingreso'
 'Simultaneidad de Carreras' 'Situación Académica'].


Solo en el caso que decida hacer el sistema de votación entre al menos 2 estrategias inicializo la segunda:

In [56]:
if len(estrategias_feature_extraction)>=2:
  # Chequeo sobre si los archivos están en el working directory
  download_files = not(path.exists(TRAIN_FILE_E1))

  df_e1, test_df_e1, etiquetas = cargar_dataset(DS_DIR, TRAIN_FILE_E1, TEST_FILE, download_files, 'clase', etiquetas, CANTIDAD_CLASES, 'Otras Consultas')

  # Se ejecuta el preprocesamiento de correos sobre el campo consulta
  df_e1['consulta'] = pd.Series(preprocesar_correos(df_e1['consulta']))

  # Muestro salida por consola
  print('Existen {} clases: {}.'.format(len(df_e1.clase.unique()), df_e1.clase.unique()))

  # Me quedo con las N cantidad de instancias con mayor score por clase
  if CANTIDAD_INSTANCIAS<200:
    df_e1 = df_e1.sort_values(['clase','score'], ascending=False).groupby('clase').head(CANTIDAD_INSTANCIAS).reset_index(drop=True)
    df_e1 = df_e1.sample(frac = 1)



El conjunto de entrenamiento tiene la dimensión: (3200, 25)
El conjunto de testeo tiene la dimensión: (200, 24)
Existen 16 clases: ['Boleto Universitario' 'Cambio de Carrera' 'Cambio de Comisión'
 'Consulta por Equivalencias' 'Consulta por Legajo'
 'Consulta sobre Título Universitario' 'Cursadas' 'Datos Personales'
 'Exámenes' 'Ingreso a la Universidad' 'Pedido de Certificados'
 'Problemas con la Clave' 'Reincorporación' 'Requisitos de Ingreso'
 'Simultaneidad de Carreras' 'Situación Académica'].


Solo en el caso que decida hacer el sistema de votación entre las 3 estrategias inicializo la tercera:

In [57]:
if len(estrategias_feature_extraction)>=3:
  # Chequeo sobre si los archivos están en el working directory
  download_files = not(path.exists(TRAIN_FILE_E2))

  df_e2, test_df_e2, etiquetas = cargar_dataset(DS_DIR, TRAIN_FILE_E2, TEST_FILE, download_files, 'clase', etiquetas, CANTIDAD_CLASES, 'Otras Consultas')

  # Se ejecuta el preprocesamiento de correos sobre el campo consulta
  df_e2['consulta'] = pd.Series(preprocesar_correos(df_e2['consulta']))

  # Muestro salida por consola
  print('Existen {} clases: {}.'.format(len(df_e2.clase.unique()), df_e2.clase.unique()))

  # Me quedo con las N cantidad de instancias con mayor score por clase
  if CANTIDAD_INSTANCIAS<200:
    df_e2 = df_e2.sort_values(['clase','score'], ascending=False).groupby('clase').head(CANTIDAD_INSTANCIAS).reset_index(drop=True)
    df_e2 = df_e2.sample(frac = 1)



El conjunto de entrenamiento tiene la dimensión: (3200, 25)
El conjunto de testeo tiene la dimensión: (200, 24)
Existen 16 clases: ['Boleto Universitario' 'Cambio de Carrera' 'Cambio de Comisión'
 'Consulta por Equivalencias' 'Consulta por Legajo'
 'Consulta sobre Título Universitario' 'Cursadas' 'Datos Personales'
 'Exámenes' 'Ingreso a la Universidad' 'Pedido de Certificados'
 'Problemas con la Clave' 'Reincorporación' 'Requisitos de Ingreso'
 'Simultaneidad de Carreras' 'Situación Académica'].


Verifico si voy a acumular los datos etiquetados manualmente a los de etiquetado no supervisado y en caso afirmativo los cargo en memoria:

In [58]:
if ETIQUETADO_MANUAL:
 
  # Chequeo sobre si los archivos están en el working directory
  download_files = not(path.exists(TRAIN_FILE_MANUAL))

  train_df_manual, test_df, etiquetas = cargar_dataset(DS_DIR, TRAIN_FILE_MANUAL, TEST_FILE, download_files, 'clase', etiquetas, CANTIDAD_CLASES, 'Otras Consultas')

  # Se ejecuta el preprocesamiento de correos sobre el campo Consulta de train y test
  train_df_manual['consulta'] = pd.Series(preprocesar_correos(train_df_manual['consulta']))

  # Muestro salida por consola
  print('Existen {} clases: {}.'.format(len(train_df_manual.clase.unique()), train_df_manual.clase.unique()))

### 1.4 Sistema de votación entre estrategias de _feature extraction_

En primer lugar, se joinea mediante el texto de la consulta las estrategias encaradas (según sean dos o tres):

In [59]:
import pandas as pd

# Si se utiliza sólo 1 estrategia, se inicializa el df_join con solo esa
if len(estrategias_feature_extraction)==1:
  df_join = df_e0

# Si se utilizan al menos 2 estrategias, se incorpora también la 2da
if len(estrategias_feature_extraction)>=2:
  df_join = pd.merge(df_e0, df_e1, on='consulta', how='left', suffixes=(None, "_x"))

# Si están las 3 estrategias, se incorpora también la 3era
if len(estrategias_feature_extraction)==3:
  df_join = pd.merge(df_join, df_e2, on='consulta', how='left', suffixes=(None, "_y"))

Borro las instancias con faltantes y verifico el resultado la dimensionalidad del df:

In [60]:
if 'df_join' in globals():
  df_join = df_join.dropna()
  
  print(df_join.shape)

  print(df_join.head())

(2357, 73)
                                            consulta  ...               clase_y
0  hola hice hace mes tramite online boleto estud...  ...  Boleto Universitario
1  hola pagina dice asignado boleto estudiantil p...  ...  Boleto Universitario
2  hace casi mes hice tramite sube cargan meses c...  ...  Boleto Universitario
3  hola tal buenos dias queria consultar benefici...  ...  Boleto Universitario
6  hola buenos dias comunicaba tema boleto estudi...  ...  Boleto Universitario

[5 rows x 73 columns]


Renombro las clases en función de las estrategias y me quedo sólo con las instancias en que la clase coincide:

In [61]:
if len(estrategias_feature_extraction)==3:
  df_join.rename(columns={'clase_x': 'clase_e0', 'clase_y': 'clase_e1', 'clase': 'clase_e2'}, inplace=True)
  df_join['match_clase'] = ((df_join['clase_e0'] == df_join['clase_e1']) & (df_join['clase_e1'] == df_join['clase_e2']))
elif len(estrategias_feature_extraction)==2:
  df_join.rename(columns={'clase': 'clase_e0', 'clase_x': 'clase_e1'}, inplace=True)
  df_join['match_clase'] = df_join['clase_e0'] == df_join['clase_e1']
elif len(estrategias_feature_extraction)==1:
  df_join.rename(columns={'clase': 'clase_e0'}, inplace=True)
  # Esto se hace por compatibilidad con las otras alternativas (2 y 3 estrategias)
  df_join['match_clase'] = df_join['clase_e0'] == df_join['clase_e0']

if 'df_join' in globals():
  # Me quedo sólo con las instancias en que la clase coincide
  train_df_join = df_join.query('match_clase == True').reset_index()

  train_df_join.shape

Me quedo solo con los atributos que me interesan (elimino duplicados):

In [62]:
if 'df_join' in globals():
  train_df_join = train_df_join[atributos_df]

  train_df_join.columns

Me quedo sólo con una columna de clase dado que son las 3 iguales:

In [63]:
if 'df_join' in globals():
  # Tomo una clase al azar, dado que coinciden las 3
  train_df_join.rename(columns={'clase_e0': 'clase'}, inplace=True)

  # Elimino las columnas que no necesito
  if len(estrategias_feature_extraction)>=2:
    train_df_join.drop(['clase_e1'], inplace=True, axis=1)

  if len(estrategias_feature_extraction)==3:
    train_df_join.drop(['clase_e2'], inplace=True, axis=1)

  train_df_join.shape

Me guardo la columna del score de Elasticsearch para no generar incompatibilidades:

In [64]:
if 'df_join' in globals():
  score = train_df_join['score']
  train_df_join.drop('score', inplace=True, axis=1)

In [65]:
if len(estrategias_feature_extraction)>=1:
  if ETIQUETADO_MANUAL:
    train_df = pd.concat([train_df_manual, train_df_join], axis=0).reset_index(drop=True)
  else:
    train_df = train_df_join
else:
  train_df = train_df_manual

Muestro el dataframe resultante:

In [66]:
# pd.set_option('display.max_colwidth', None)
# pd.set_option('display.max_rows', None)
train_df.head()

Unnamed: 0,consulta,dia_semana,semana_del_mes,mes,cuatrimestre,anio,hora_discretizada,dni_discretizado,legajo_discretizado,posee_legajo,posee_telefono,carrera_valor,proveedor_correo,cantidad_caracteres,proporcion_mayusculas,proporcion_letras,cantidad_tildes,cantidad_palabras,cantidad_palabras_cortas,proporcion_palabras_distintas,frecuencia_signos_puntuacion,cantidad_oraciones,utiliza_codigo_asignatura,clase
0,hola hice hace mes tramite online boleto estud...,4,1,5,1,2019,1,8,4,1,1,3,13,237,0.0,0.797468,1,43,25,0.837209,0.021097,2,0,Boleto Universitario
1,hola pagina dice asignado boleto estudiantil p...,1,3,10,2,2019,3,7,4,1,0,3,13,207,0.0,0.816425,2,35,17,0.885714,0.019324,1,0,Boleto Universitario
2,hace casi mes hice tramite sube cargan meses c...,0,5,7,1,2018,3,8,4,1,1,3,13,299,0.0,0.799331,0,56,33,0.785714,0.016722,3,0,Boleto Universitario
3,hola tal buenos dias queria consultar benefici...,4,2,7,1,2018,0,8,4,1,1,43,13,425,0.0,0.8,3,75,38,0.773333,0.025882,7,0,Boleto Universitario
4,hola buenos dias comunicaba tema boleto estudi...,1,4,4,1,2019,0,6,4,1,1,5,13,265,0.0,0.803774,1,49,30,0.897959,0.015094,1,0,Boleto Universitario


In [67]:
X_train, y_train, X_test, y_test = generar_train_test_set(train_df, test_df, '3-4-NGRAM-CHARS', MAX_TKS=ATRIBUTOS_DINAMICOS)

Estrategia de representación: 3-4-NGRAM-CHARS


In [68]:
X_train.shape

(993, 3022)

## 2. SVM

### 2.1 Modelo general (clasificación en las 16 clases)

En primer lugar se trabaja con un único clasificador que clasifica y testea las instancias en las 16 clases posibles.

#### 2.1.1 Definición del espacio de búsqueda

Se define el espacio de búsqueda para el ajuste de hiperparámetros del modelo:

In [23]:
# Defino los parámetros para GridSearchCV
params_svm = {'SVM__C': [0.1, 1, 10], 
              'SVM__gamma': [0.01, 0.1, 1],
              'SVM__class_weight': [None, 'balanced'],
              'SVM__kernel': ['rbf', 'linear', 'sigmoid'],
              'SVM__probability': [False]
              }

Se ejecuta el ajuste de hiperparámetros para cada estrategia de representación en función del espacio de búsqueda:

In [24]:
modelos_grid = []
representacion_grid = []
metricas_grid = []
NO_CORRIDA = True

# Modulo para la hora (a efectos de calcular los tiempos de ejecución)
import time

if NO_CORRIDA:
  # Se hace una búsqueda grid por estrategia de representación
  for estrategia in estrategias_representacion:
    
    # Generamos los datos de train y test por estrategia
    X_train, y_train, X_test, y_test = generar_train_test_set(train_df, test_df, estrategia, MAX_TKS=ATRIBUTOS_DINAMICOS)

    # Se imprime la hora del servidor
    hora_servidor = time.strftime('%H:%M:%S', time.localtime())
    print(f'Hora de inicio de la búsqueda grid: {hora_servidor}.')

    # Llamo a la función que realiza el gridsearch por estrategia  
    clf_grid, metrics_grid = gridsearch_por_tecnica(X_train, y_train, X_test, y_test, tecnica, params_svm)

    # Guardamos el mejor modelo para cada estrategia de representación
    modelos_grid.append(clf_grid)
    representacion_grid.append(estrategia)
    metricas_grid.append(metrics_grid)

Estrategia de representación: BINARIO
Hora de inicio de la búsqueda grid: 15:24:13.
Fitting 5 folds for each of 54 candidates, totalling 270 fits


[Parallel(n_jobs=-1)]: Using backend LokyBackend with 2 concurrent workers.
[Parallel(n_jobs=-1)]: Done  28 tasks      | elapsed:   38.5s


KeyboardInterrupt: ignored

A partir de los mejores hiperparámetros encontrados para cada estrategia de representación de correos, se busca cual es la estrategia que generó el mayor _accuracy_ (medida totalmente arbitraria):

In [None]:
max_accuracy = 0
for i in range(1, len(metricas_grid)):
  if metricas_grid[i]['accuracy'] > metricas_grid[max_accuracy]['accuracy']:
    max_accuracy = i

representacion_max = representacion_grid[max_accuracy]

# Se le quita el prefijo asignado a los parametricos para la búsqueda grid
params_max = params = {x.replace("SVM__", ""): v for x, v in modelos_grid[max_accuracy].best_params_.items()}

# Se guardan las métricas y el modelo "ganador"
metricas_max = metricas_grid[max_accuracy]
clf_max = modelos_grid[max_accuracy]

print(f'Sistema de generación de instancias: {estrategias_feature_extraction}', sep="")
if ACUMULATIVO:
  print(f'Las instancias se ACUMULAN a las etiquetadas manualmente')
else:
  print(f'Las instancias NO SE ACUMULAN a las etiquetadas manualmente')

print(f'El modelo más eficaz es {tecnica} con la estrategia de representación {representacion_max} y los parámetros:\n {params_max}')
print(f'El modelo brinda las siguientes métricas de selección:\n {metricas_max}')

#### 2.1.2 Modelo generado

En función de los mejores hiperparámetros y estrategia de representación encontrados con la búsqueda Grid, ajusto el modelo para obtener las métricas.

En primer lugar genero los datos de train y test con la estrategia de representación ganadora:

In [None]:
X_train, y_train, X_test, y_test = generar_train_test_set(train_df, test_df, representacion_max, MAX_TKS=ATRIBUTOS_DINAMICOS)

__[VARIANTE]__ Se entrena el modelo con los mejores hiperparámetros encontrados:

In [None]:
# from sklearn.svm import SVC
# clf = SVC(**params_max)

# Entreno el modelo con los parámetros
# clf.fit(X_train, y_train)

Se predicen las instancias de testeo:

In [None]:
y_pred = clf_max.predict(X_test)

#### 2.1.3 Métricas de selección

In [None]:
from sklearn import metrics #Importar el módulo metrics de scikit-learn

# Vamos a testear el modelo
print("Accuracy:",metrics.accuracy_score(y_test, y_pred))

# Vemos un reporte de clasificación de varias métricas
print(metrics.classification_report(y_test, y_pred))

Se genera la matriz de confusión del modelo:

In [None]:
import numpy as np
import seaborn as sns; sns.set()
import matplotlib.pyplot as plt

mat = metrics.confusion_matrix(y_test, y_pred)

sns.heatmap(mat, square=True, annot=True, fmt='d', cbar=False,
            xticklabels=etiquetas, yticklabels=etiquetas)

plt.xlabel('Observada')
plt.ylabel('Predicha');

### 3. Análisis del error

A continuación se intenta entender la baja de _accuracy_ para el etiquetado a partir de TF-IDF.

Para ello, se genera el dataset de train con: <br/>
| consulta | clase | score |

In [None]:
df_train_e = train_df[['consulta', 'clase']]
df_train_e['score'] = score

Genero un dataframe con los scores promedios por clase, el accuracy por clase y el _count_:

In [None]:
df_error = df_train_e.groupby(['clase']).mean().reset_index()
# Accuracy por clase
avg_class = mat.diagonal()/mat.sum(axis=1)
df_error['accuracy'] = pd.Series(avg_class)

df_error['count'] = mat.sum(axis=1)

df_error
df_error

In [None]:
import seaborn as sns
sns.set_theme(style="ticks")

sns.scatterplot(data=df_error, x="score", y="accuracy", hue="count", size="count")

## Referencias
- https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html
- https://medium.com/analytics-vidhya/ml-pipelines-using-scikit-learn-and-gridsearchcv-fe605a7f9e05