# Train

In [1]:
import pandas as pd
df = pd.read_csv('AnnotatedFewShotData.csv')
df.rename(columns={'Label':'label_text', 'Text':'text'}, inplace=True)
labels = ['Macroeconomía','Sostenibilidad','Innovación','Regulaciones','Alianza','Reputación','Descartable']
labels_map = {}
for i, l in enumerate(labels):
    labels_map[l]=i

df['label'] = df.label_text.replace(labels_map)
df.to_csv('AnnotatedFewShotDataset.csv', index=False)

In [2]:
from datasets import load_dataset
from sentence_transformers.losses import CosineSimilarityLoss
from setfit import SetFitModel, SetFitTrainer
dataset = load_dataset("csv", data_files="AnnotatedFewShotDataset.csv")
train_ds = dataset["train"]

# Load SetFit model from Hub
model = SetFitModel.from_pretrained("sentence-transformers/paraphrase-multilingual-mpnet-base-v2")

# Create trainer
trainer = SetFitTrainer(
    model=model,
    train_dataset=train_ds,
#     eval_dataset=test_ds,
    loss_class=CosineSimilarityLoss,
    batch_size=8,
    num_iterations=20, # Number of text pairs to generate for contrastive learning
    num_epochs=1 # Number of epochs to use for contrastive learning
)
# Train and evaluate!
trainer.train()
# metrics = trainer.evaluate()

Downloading and preparing dataset csv/default to /root/.cache/huggingface/datasets/csv/default-9fcaae847b4c335c/0.0.0/51cce309a08df9c4d82ffd9363bbe090bf173197fc01a71b034e8594995a1a58...


Downloading data files:   0%|          | 0/1 [00:00<?, ?it/s]

Extracting data files:   0%|          | 0/1 [00:00<?, ?it/s]

0 tables [00:00, ? tables/s]

Dataset csv downloaded and prepared to /root/.cache/huggingface/datasets/csv/default-9fcaae847b4c335c/0.0.0/51cce309a08df9c4d82ffd9363bbe090bf173197fc01a71b034e8594995a1a58. Subsequent calls will reuse this data.


  0%|          | 0/1 [00:00<?, ?it/s]

Downloading:   0%|          | 0.00/723 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/690 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/190 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/3.77k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/723 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/122 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.11G [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/239 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/402 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/229 [00:00<?, ?B/s]

model_head.pkl not found on HuggingFace Hub, initialising classification head with random weights. You should TRAIN this model on a downstream task to use it for predictions and inference.
***** Running training *****
  Num examples = 1160
  Num epochs = 1
  Total optimization steps = 145
  Total train batch size = 8


Epoch:   0%|          | 0/1 [00:00<?, ?it/s]

Iteration:   0%|          | 0/145 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

## Evaluate the models

In [3]:
# On training data
preds = model(df.text.values)
df['preds'] = preds
df

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Unnamed: 0,Title,text,label_text,label,preds
0,Precio dolar hoy: la cotizacion de la divisa a...,"Este martes, 2 de agosto, el dolar alcanzo un ...",Macroeconomía,0,0
1,Es cierto: El presidente Gustavo Petro quiere ...,No hay nada mas permanente que lo temporal y a...,Regulaciones,3,3
2,Gustavo Petro: ?Que dice el informe final de s...,El equipo de empalme del gobierno del presiden...,Regulaciones,3,3
3,Cuanto cuesta y como enviar dinero de Estados ...,?Buscas opciones para el envio de dinero de Es...,Regulaciones,3,3
4,?Cuanto cuesta hacer mercado en Venezuela? Est...,El precio de los alimentos sube y baja con fre...,Macroeconomía,0,0
5,El unicornio Clara logra financiamiento de 150...,Nos permite continuar con esta trayectoria de ...,Innovación,2,2
6,Citibanamex atraeria ofertas para su venta de ...,Bloomberg -- La unidad mexicana de Citigroup I...,Alianza,4,4
7,Opdenergy cierra con BBVA y el BEI una financi...,La operacion se engloba en el marco de la fina...,Sostenibilidad,1,1
8,"Investigacion, industria y talento se fusionan...",Para iniciar una estrategia basada en tecnolog...,Innovación,2,2
9,World Finance reconoce a Garanti BBVA como 'Me...,"Con un total de 21,5 millones de clientes, 12,...",Reputación,5,5


In [5]:
#Accuracy
import numpy as np
np.mean(df.preds == df.label)

1.0

# Infer

In [6]:
import pandas as pd
news_df = pd.read_csv('../input/dataton-2022/noticias.csv')
news_df['text'] = news_df.news_title + '. ' + news_df.news_text_content

news_df['preds'] = model(news_df.text.values)

Batches:   0%|          | 0/731 [00:00<?, ?it/s]

In [8]:
labels_map_inverse = {}
for i, l in enumerate(labels):
    labels_map_inverse[i]=l
news_df['Categoría'] = news_df['preds'].replace(labels_map_inverse)

news_df.head()

Unnamed: 0,news_id,news_url_absolute,news_init_date,news_final_date,news_title,news_text_content,text,preds,Categoría
0,news10006,https://www.bluradio.com/economia/precio-dolar...,2022-07-30,2022-08-14,Precio dolar hoy: la cotizacion de la divisa a...,"Este martes, 2 de agosto, el dolar alcanzo un ...",Precio dolar hoy: la cotizacion de la divisa a...,0,Macroeconomía
1,news10011,https://www.semana.com/economia/macroeconomia/...,2022-07-30,2022-08-14,Es cierto: El presidente Gustavo Petro quiere ...,No hay nada mas permanente que lo temporal y a...,Es cierto: El presidente Gustavo Petro quiere ...,3,Regulaciones
2,news10015,https://elcomercio.pe/respuestas/que/gustavo-p...,2022-07-30,2022-08-14,Gustavo Petro: ?Que dice el informe final de s...,El equipo de empalme del gobierno del presiden...,Gustavo Petro: ?Que dice el informe final de s...,3,Regulaciones
3,news10028,https://www.lanacion.com.ar/estados-unidos/cua...,2022-07-30,2022-08-14,Cuanto cuesta y como enviar dinero de Estados ...,?Buscas opciones para el envio de dinero de Es...,Cuanto cuesta y como enviar dinero de Estados ...,3,Regulaciones
4,news10029,https://www.lanacion.com.ar/estados-unidos/com...,2022-07-30,2022-08-14,Como enviar dinero de Estados Unidos a otros p...,?Buscas opciones para el envio de dinero de Es...,Como enviar dinero de Estados Unidos a otros p...,3,Regulaciones


In [9]:
news_df.to_csv('categorización.csv', index=False)