In [9]:
from tqdm import tqdm
import torch
import json
from transformers import AutoTokenizer, AutoModelForCausalLM

# Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("baiges/CatGPT")
model = AutoModelForCausalLM.from_pretrained("baiges/CatGPT")

# Define the device (GPU if available, otherwise CPU)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

# Load the Hellaswag dataset translated to Catalan
with open("../data/ca_hellaswag.json", 'r') as f:
    dataset = json.load(f)

# Define the evaluation function
def evaluate_model(model, tokenizer, dataset, device):
    total_correct = 0
    total_items = 0

    # Iterate over each entry in the dataset
    for i, item in tqdm(enumerate(dataset)):
        context = item['ctx']  # Get the context
        endings = item['endings']  # Get the possible endings
        correct_ending_idx = int(item['label'])  # Index of the correct ending

        # Tokenize the context and move it to the device
        context_input = tokenizer(context, return_tensors="pt").input_ids.to(device)

        avg_loss_values = []
        for ending in endings:
            # Tokenize the ending and move it to the device
            ending_input = tokenizer(ending, return_tensors="pt").input_ids.to(device)
            # Concatenate the context with each ending
            input_ids = torch.cat([context_input, ending_input[:, 1:]], dim=-1).to(device)

            # Calculate the loss only over the ending part
            with torch.no_grad():
                outputs = model(input_ids)
                logits = outputs.logits[:, -ending_input.size(1):, :]  # Get logits corresponding to the ending
                loss_fct = torch.nn.CrossEntropyLoss(reduction='none')
                shift_logits = logits[:, :-1, :].contiguous()
                shift_labels = ending_input[:, 1:].contiguous()
                loss = loss_fct(shift_logits.view(-1, shift_logits.size(-1)), shift_labels.view(-1))
                avg_loss = loss.mean().item()  # Calculate the average loss per token
                avg_loss_values.append(avg_loss)

        # Find the ending with the lowest average loss per token
        predicted_idx = torch.argmin(torch.tensor(avg_loss_values)).item()

        # Check if the prediction is correct and update the counters
        is_correct = predicted_idx == correct_ending_idx
        if is_correct:
            total_correct += 1
        total_items += 1

        # Calculate the accuracy for this specific item
        item_accuracy = total_correct / total_items

        # Print context, prediction, correctness, and accuracy for this item
        print(f"Context: {context}")
        print(f"Predicted Ending: {endings[predicted_idx]}")
        print(f"Correct Ending: {endings[correct_ending_idx]}")
        print(f"Is Correct: {'Yes' if is_correct else 'No'}")
        print(f"Accuracy so far: {item_accuracy:.4f}\n")

    # Calculate the overall accuracy
    accuracy = total_correct / total_items
    return accuracy

# Perform the evaluation
accuracy = evaluate_model(model, tokenizer, dataset, device)
print(f"Final Accuracy: {accuracy:.4f}")

1it [00:00,  1.59it/s]

Context: [header] Com actualitzar el teu armari de moda amb llaços [title] Busca blusons que tinguin un llaç en algun lloc de forma natural. [step] Aquesta és l'opció més fàcil per als tops, ja que no has de preocupar-te per crear un llaç que coincideixi amb el color i la mida del teu top. [title] Considera una blusa amb un estampat de llaços.
Predicted Ending: [step] En lloc d'un llaç real, una blusa amb un estampat de llaços té un patró de llaços imprès. Això introdueix el llaç al teu armari d'una manera unidimensional.
Correct Ending: [step] En lloc d'un llaç real, una blusa amb un estampat de llaços té un patró de llaços imprès. Això introdueix el llaç al teu armari d'una manera unidimensional.
Is Correct: Yes
Accuracy so far: 1.0000



2it [00:01,  1.89it/s]

Context: [header] Com evitar que el teu fill o filla esgranqui les dents [title] Entén que l'estrès pot causar bruxisme. [step] Esgranquejar les dents pot ser un signe que el teu fill o filla està estressat o ansios sobre alguna cosa. Ajudar el teu fill o filla a relaxar-se pot ser la clau per aconseguir que deixi de rascar les dents.
Predicted Ending: [title] Crea una rutina tranquil·la abans d'anar a dormir per al teu fill o filla. [step] Com s'ha esmentat en el pas anterior, esgranquejar les dents pot ser un signe que el teu fill o filla està estressat.
Correct Ending: [title] Crea una rutina tranquil·la abans d'anar a dormir per al teu fill o filla. [step] Com s'ha esmentat en el pas anterior, esgranquejar les dents pot ser un signe que el teu fill o filla està estressat.
Is Correct: Yes
Accuracy so far: 1.0000



3it [00:01,  2.12it/s]

Context: [header] Com involucrar als teus fills en la selecció d'un gos [title] Planteja la possibilitat de tenir un gos. [step] Per als nens, la idea de tenir un gos serà molt emocionant. Planteja la qüestió amb els teus fills quan tinguin temps per emocionar-se, formular preguntes i en general flipar.
Predicted Ending: Deixa clar als teus fills que la idea de tenir un gos no és un mite complet. [substeps] En lloc de dir "si no us podeu permetre un gos, però encara esteu disposats a provar-ne un, per què no ho proveu?", fes saber als teus fills que la idea d'un gos és emocionant.
Correct Ending: Podries dir "Estem pensant en tenir un gos. Què en penses d'aquesta idea?" [substeps] Durant aquesta conversa inicial, hauries de parlar del que hauran de fer els teus fills per cuidar del gos si decideixen tenir-ne un.
Is Correct: No
Accuracy so far: 0.6667



4it [00:01,  2.58it/s]

Context: El noiet surt corrent en diagonal i aconsegueix saltar d'esquena per sobre la barra de sis peus i la salta. després
Predicted Ending: , el noiet aconsegueix fer quatre voltes més una altra vegada.
Correct Ending: , més esportistes apareixen i fan el mateix salt i salten la barra sense rascar.
Is Correct: No
Accuracy so far: 0.5000



5it [00:02,  2.67it/s]

Context: [header] Com ser despreocupat [title] Separa el temps de treball del temps de diversió. [step] La vida no ha de ser una tasca. Si vols aprendre a ser més despreocupat en la teva vida diària, és important dedicar temps a la diversió i mantenir-lo.
Predicted Ending: La majoria de la gent planifica el seu dia al voltant de la feina o l'escola. És inevitable per a la majoria de nosaltres.
Correct Ending: La majoria de la gent planifica el seu dia al voltant de la feina o l'escola. És inevitable per a la majoria de nosaltres.
Is Correct: Yes
Accuracy so far: 0.6000



6it [00:02,  2.66it/s]

Context: [header] Com fer un llaç de regal multicapa [title] Talli una llarga peça de cinta que coincideixi amb el paper d'embolicar. [step] Ha de ser prou llarga per envoltar el regal i tenir una mica d'excés. [title] Lliga la cinta al voltant del regal.
Predicted Ending: [step] Repeteix els passos a i d com s'ha discutit anteriorment. [title] Enganxa el llaç al paper d'embolicar.
Correct Ending: [title] Escurça les puntes soltes en angle. [step] Ambdues puntes haurien de tenir aproximadament la mateixa llargada.
Is Correct: No
Accuracy so far: 0.5000



7it [00:02,  2.81it/s]

Context: [header] Com netejar els pèsols de neu [title] Trieu pèsols sans. [step] Un pèsol de neu madur pot tenir fins a 3 polzades de longitud. Trieu aqueixos que tinguin la pell llisa, no arrugada.
Predicted Ending: Haurien de tenir una pell de color verd sòlid sense cap esquerda. Les vagines haurien de ser prou planes, indicant que els pèsols són petitons.
Correct Ending: Haurien de tenir una pell de color verd sòlid sense cap esquerda. Les vagines haurien de ser prou planes, indicant que els pèsols són petitons.
Is Correct: Yes
Accuracy so far: 0.5714



8it [00:03,  2.73it/s]

Context: [header] Com arreglar el arròs xop [title] Deixa evaporar l'aigua si hi ha aigua a la paella. [step] Treu la tapa de la paella per deixar escapar el vapor. Baixa la temperatura i continua cuinant l'arròs durant uns 5 minuts.
Predicted Ending: [substeps] També pots afegir 3-5 gotes d'oli de te de l'arbre o d'arrel de mandioca en aquest punt per ajudar a cuinar l'arròs més ràpidament. Assegura't de posar suficient oli per cobrir el fons de la paella.
Correct Ending: Així, l'aigua hauria quedat evaporada a la fi. [title] Escorre l'aigua sobrant amb un colador de malla fina.
Is Correct: No
Accuracy so far: 0.5000



9it [00:03,  3.15it/s]

Context: Un jove filtra sorra a la mà. El vídeo es reprèn mostrant els cavalls i el camell caminant enrere. el camell
Predicted Ending: tira del noi cap endavant, però no pot controlar el camell.
Correct Ending: s'asseu i la gent s'aixeca del seu dors.
Is Correct: No
Accuracy so far: 0.4444



11it [00:03,  3.53it/s]

Context: [header] Com evitar que el teu fill petit mossegui [title] Sàpiga que mossegar és normal. [step] El teu fill petit mossega per comunicar-se amb tú. Has de detectar el que el teu fill petit intenta dir-te i fer ajustaments.
Predicted Ending: [substeps] Utilitza el reforç positiu per animar el teu fill petit a no mossegar. No li toquis, no el colpegis, no li estiris la cua, ni burlis-te o critiquis la conducta del teu fill petit.
Correct Ending: Tot i que mossegar és normal, no és acceptable. Les raons típiques per mossegar inclouen: [substeps] Expressar una necessitat o sentir com ara ràbia, frustració, alegria o excitació estar aclaparat per l'entorn estar cansat estar sortint les dents experimentar copiar altres nens buscar atenció [title] Determina perquè el teu fill petit mossega.
Is Correct: No
Accuracy so far: 0.4000

Context: Un home camina cap a un camp davant d'una multitud, sosté una bola pesada en l'aire. ell
Predicted Ending: gira, llavors llença la pilota tan lluny

12it [00:04,  3.27it/s]

Context: [header] Com estilitzar un vestit de color caqui [title] Trieu un vestit basant-vos en el temps. [step] El caqui es pot portar tant en mesos càlids com freds. Quan seleccioneu un vestit de color caqui per portar, tingueu en compte el temps.
Predicted Ending: Trieu un vestit que no sigui massa càlid o massa fred per a l'ocasió. [substeps] Per als mesos freds, proveu un vestit tejat de color caqui.
Correct Ending: Trieu un vestit que no sigui massa càlid o massa fred per a l'ocasió. [substeps] Per als mesos freds, proveu un vestit tejat de color caqui.
Is Correct: Yes
Accuracy so far: 0.5000



13it [00:04,  2.53it/s]

Context: [header] Com alleujar els gasos en els bebès [title] Reconèixer els símptomes dels gasos. [step] Encara que no hi ha evidència d'una connexió entre el cólic o el plor excessiu i els gasos, algunes persones poden relacionar les dues condicions. Identificar els signes dels gasos pot ajudar-vos a donar ràpidament comoditat al vostre nadó.
Predicted Ending: Símptomes específics dels gasos inclouen: [substeps] Tendència a orinar, ronyó inflamat, dificultat per respirar, canvis en el fetus. Això pot incloure vòmits, diarrea, obstipació, inflor abdominal o dolor de panxa, mal de caps.
Correct Ending: Els símptomes dels gasos inclouen: [substeps] Estirar les cames,  tancar els punys, remugar com si es trobés incòmode, plorar molt, fer pets, eructar. [title] Fer exercicis de bicicleta amb el bebè. [step] Si el vostre nadó sembla tenir gasos, poseu el nadó de costat a sobre una superfície estable.
Is Correct: No
Accuracy so far: 0.4615



14it [00:05,  2.20it/s]

Context: [header] Com netejar els utensilis de cuina de silicona [title] Ompliu l'aixeta amb sabó i aigua. [step] Taponeu el fregador de la cuina i ompliu-lo amb aigua molt calenta, si pot ser a la temperatura que pugueu tolerar. Afegeixi unes gotes de sabó lleuger desengreixant i remeneu-ho perquè l'aigua faci bombolles.
Predicted Ending: El sabó desengreixant està dissenyat per combatre taques difícils de netejar, com els que s'adhereixen als utensilis de cuina de silicona. [substeps] Assegureu-vos que feu servir aigua molt calenta.
Correct Ending: El sabó desengreixant està dissenyat per combatre taques difícils de netejar, com els que s'adhereixen als utensilis de cuina de silicona. [substeps] Assegureu-vos que feu servir aigua molt calenta.
Is Correct: Yes
Accuracy so far: 0.5000



15it [00:05,  2.62it/s]

Context: Ell està subjectant un nou tub per una roda. Agafa una bomba d'aire i la connecta a la roda. ell
Predicted Ending: agafo la bomba de calor i la connecto al tub de cautxú.
Correct Ending: inflo la roda amb aire.
Is Correct: No
Accuracy so far: 0.4667



16it [00:05,  2.94it/s]

Context: Un home està al gimnàs amb roba esportiva, es flexiona per agafar una pesa per sobre del cap i la deixa caure de nou. ell
Predicted Ending: la torna a alçar per sobre del cap i la deixa caure novament mentre s'allibera cap a dalt i la torna a agafar.
Correct Ending: camina cap enrere per estirar-se abans de tornar a fer l'exercici amb més pes.
Is Correct: No
Accuracy so far: 0.4375



17it [00:06,  2.76it/s]

Context: [header] Com vestir-se quan ets docent [title] Descobreix si l'escola té un codi de vestimenta establert. [step] Algunes escoles tenen un codi de vestimenta estandarditzat per als docents que defineix el que pots i el que no pots portar. Parla amb el director o amb un administrador escolar per obtenir una còpia del codi de vestimenta oficial per a docents.
Predicted Ending: [substeps] Encara que no hi hagi un codi de vestimenta oficial, la majoria d'escoles proporcionen una llista de suggeriments per als docents sobre el que és apropiat i inapropiat de portar. [title] Inverteix en peces bàsiques com pantalons de vestir còmodes i americanes.
Correct Ending: [substeps] Encara que no hi hagi un codi de vestimenta oficial, la majoria d'escoles proporcionen una llista de suggeriments per als docents sobre el que és apropiat i inapropiat de portar. [title] Inverteix en peces bàsiques com pantalons de vestir còmodes i americanes.
Is Correct: Yes
Accuracy so far: 0.4706



18it [00:06,  2.82it/s]

Context: [header] Com llogar els vestits de damas d'honor [title] Determineu el vostre pressupost. [step] Abans de llogar un vestit de dama d'honor, penseu en el vostre pressupost personal. Si la festa de casament paga els vestits, haurien de ser capaços de donar-vos una idea aproximada de quant gastar.
Predicted Ending: Si pagueu el vestit vosaltres mateixes, penseu en el vostre pressupost personal. [substeps] Penseu en quants ingressos i despeses teniu cada mes i quant sou disponible teniu.
Correct Ending: Si pagueu el vestit vosaltres mateixes, penseu en el vostre pressupost personal. [substeps] Penseu en quants ingressos i despeses teniu cada mes i quant sou disponible teniu.
Is Correct: Yes
Accuracy so far: 0.5000



19it [00:07,  2.73it/s]

Context: [header] Com vestir el teu nadó a la primavera [title] Escull roba en la qual el teu nadó es trobi còmode. [step] Assegura't que el teu nadó es trobi còmode quan el vesteixis per a la primavera. Els dies de primavera són més llargs i solen alternar entre fred, calor i pluja.
Predicted Ending: És millor comprar conjunts d'abric adequats per l'hivern per al teu nadó al començament de la primavera. [substeps] Al igual que el temps pot ser càlid durant els mesos d'hivern, també hi pot haver fluctuacions de temperatura durant la primavera.
Correct Ending: [substeps] Assegurar-te de consultar el pronòstic del temps et ajudarà a decidir el millor aspecte per vestir el teu nadó. Assegura't que la roba sigui lleugera i fresca, però que alhora pugui protegir el teu nadó de l'exposició directa al sol quan sigui a l'exterior.
Is Correct: No
Accuracy so far: 0.4737



20it [00:07,  2.65it/s]

Context: [header] Com dir al teu nòvio la veritat sobre com et sents després de mesos de mentides [title] Admet la mentida a tu mateix primer. [step] Abans de poder admetre les teves mentides al teu nòvio, les has de reconèixer per tu mateix. A vegades, pots repetir una mentida una i altra vegada fins al punt que comencis a creure-la.
Predicted Ending: Donar-te una mica d'espai i escoltar el que hauries de dir és beneficiós. [title] Decideix si vols demanar perdó al teu nòvio.
Correct Ending: Per trencar aquest cicle, has d'admetre que hi ha un problema. [substeps] Digues-ho en veu alta a tu mateix: "he estat deshonest amb en Matt durant molt temps ara.
Is Correct: No
Accuracy so far: 0.4500



21it [00:07,  2.42it/s]

Context: [header] Com derivar la fórmula de diferència de cosinus [title] Dibuixa la teva circumferència i etiqueta-la segons sigui necessari. [title] Marca l'origen com a punt z amb el par ordenat (0,0). [title] Marca els 0 graus com a punt y amb el par ordenat (1,0).
Predicted Ending: [title] Nomena l'equació de cosinus científicament integrada en la fórmula i utilitza les altres cel·les juntament amb la línia per determinar quina quantitat de distància és dividida. [title] Pinta l'equació de cosinus en 360 graus c/180 graus f (= k420).
Correct Ending: [title] Dibuixa un angle especial des de la circumferència i etiqueta'l com angle a. [step] Això ens dóna el punt x, que té el par ordenat (cosa, sina).
Is Correct: No
Accuracy so far: 0.4286



22it [00:08,  2.86it/s]

Context: Una persona politja un mocador amb un dit embolicat. llavors
Predicted Ending: , la persona treu el taló del mocador i el politja.
Correct Ending: , la persona agafa pasta de politjar i aigua per politjar el mocador.
Is Correct: No
Accuracy so far: 0.4091



23it [00:08,  2.82it/s]

Context: [header] Com portar pantalons de cigarreta [title] Escolliu una parella que caigui just sobre el turmell. [step] L'element destacat dels pantalons de cigarreta és la zona inferior de la vora. Assegureu-vos que obteniu una parella de pantalons que tingui la longitud adequada.
Predicted Ending: Podeu trobar pantalons de cigarreta a la majoria de botigues. [substeps] La zona inferior de la vora és la zona que s'enganxa fortament quan es fa foc.
Correct Ending: La part inferior de cada cama de pantaló hauria de caure just al damunt del turmell, ni massa llarg ni massa curt. [substeps] Si els vostres pantalons de cigarreta són massa llargs però per la resta s'ajusten bé, proveu d'ajustar-ne la vora.
Is Correct: No
Accuracy so far: 0.3913



24it [00:08,  2.68it/s]

Context: [header] Com guanyar recompenses de combustible [title] Investigueu programes de recompenses de combustible. [step] Moltes gasolineres diferents, supermercats i companyies de targetes de crèdit tenen programes de recompenses de combustible. Cerqueu programes a través d'internet a la vostra zona.
Predicted Ending: Cerqueu programes que siguin més convenients per a vosaltres, com ara un a través del supermercat o la gasolinera que visiteu més sovint, o un programa a través d'una targeta de crèdit que ja tingueu. [substeps] Llegiu atentament les condicions per saber com s'obtenen les recompenses, quin és el descompte màxim, quan caduquen les recompenses, i així successivament.
Correct Ending: Cerqueu programes que siguin més convenients per a vosaltres, com ara un a través del supermercat o la gasolinera que visiteu més sovint, o un programa a través d'una targeta de crèdit que ja tingueu. [substeps] Llegiu atentament les condicions per saber com s'obtenen les recompenses, quin é




KeyboardInterrupt: 