# LLM Evaluation using LLM Evaluation Harness

In this notebook I'm going to show how to evaluate your LLM and compare it against the other on the leaderboard using the SOTA tool llm-evaluation-harness by EleutheraAI. 

In [1]:
import os

actual_folder = os.getcwd()+"/pratical-llms"

In [2]:
os.chdir(actual_folder)

Open a terminal and run the following commands:

```
git clone https://github.com/EleutherAI/lm-evaluation-harness
cd lm-evaluation-harness
pip install -e .
```

In [None]:
!pip install bitsandbytes

### Cloning the model that we want to evaluate
The model could also be on the HF hub

In [None]:
!git lfs install
!git clone https://huggingface.co/microsoft/Phi-3-mini-128k-instruct

In [3]:
!lm-eval --tasks list

2024-05-31:08:08:07,472 INFO     [__main__.py:254] Verbosity set to INFO
2024-05-31:08:08:25,858 INFO     [__main__.py:302] Available Tasks:
 - 20_newsgroups
 - aclue
 - aclue_ancient_chinese_culture
 - aclue_ancient_literature
 - aclue_ancient_medical
 - aclue_ancient_phonetics
 - aclue_basic_ancient_chinese
 - aclue_couplet_prediction
 - aclue_homographic_character_resolution
 - aclue_named_entity_recognition
 - aclue_poetry_appreciate
 - aclue_poetry_context_prediction
 - aclue_poetry_quality_assessment
 - aclue_poetry_sentiment_analysis
 - aclue_polysemy_resolution
 - aclue_reading_comprehension
 - aclue_sentence_segmentation
 - advanced_ai_risk
 - advanced_ai_risk_fewshot-coordinate-itself
 - advanced_ai_risk_fewshot-coordinate-other-ais
 - advanced_ai_risk_fewshot-coordinate-other-versions
 - advanced_ai_risk_fewshot-corrigible-less-HHH
 - advanced_ai_risk_fewshot-corrigible-more-HHH
 - advanced_ai_risk_fewshot-corrigible-neutral-HHH
 - advanced_ai_risk_fewshot-myopic-reward
 - a

### We are going to run "m_mmlu_it", the mmlu version on italian language

In [4]:
import os

model_path = "/teamspace/studios/this_studio/Phi-3-mini-128k-instruct"

For simplicity we are going to run it on 500 examples

In [7]:
!lm_eval --model hf \
    --model_args pretrained={model_path} \
    --task m_mmlu_it \
    --device cuda:0 \
    --batch_size 8 \
    --limit 500 \
    --output_path ./results \
    --log_samples    

2024-05-31:08:18:36,344 INFO     [__main__.py:254] Verbosity set to INFO
2024-05-31:08:18:40,665 INFO     [__main__.py:344] Selected Tasks: ['m_mmlu_it']
2024-05-31:08:18:40,666 INFO     [evaluator.py:141] Setting random seed to 0 | Setting numpy seed to 1234 | Setting torch manual seed to 1234
2024-05-31:08:18:40,666 INFO     [evaluator.py:178] Initializing hf model, with arguments: {'pretrained': '/teamspace/studios/this_studio/Phi-3-mini-128k-instruct'}
2024-05-31:08:18:40,681 INFO     [huggingface.py:169] Using device 'cuda:0'
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
Loading checkpoint shards: 100%|██████████████████| 2/2 [00:01<00:00,  1.49it/s]
2024-05-31:08:18:42,645 INFO     [task.py:398] Building contexts for m_mmlu_it on rank 0...
100%|███████████████████████████████████████| 500/500 [00:00<00:00, 1608.67it/s]
2024-05-31:08:18:42,975 INFO     [evaluator.py:395] Running loglikelihood requests
Running 

Here the results on 500 examples.

|  Tasks  |Version|Filter|n-shot|Metric|   |Value|   |Stderr|
|---------|------:|------|-----:|------|---|----:|---|-----:|
|m_mmlu_it|      0|none  |     0|acc   |↑  |0.502|±  |0.0224|

In the folder "results" you will now find two json files
- samples_m_mmlu_it_{timestamp}.json
- results_{timestamp}.json

The first one will give you every single test and relative answer that the model gave. The second one is a summary of the overall results.

Let's see and example:

```json
 {
    "doc_id": 0,
    "doc": {
      "instruction": "Per quale di questi due scenari il protagonista (che usa Io/me/mio) fa qualcosa di moralmente sbagliato, secondo gli standard morali americani del 2020? Scenario 1 | Ho affittato un ragazzo elegante e sexy per il pomeriggio. Scenario 2 | Ho trasferito i rifugiati nelle case.",
      "option_a": "Sbagliato, Sbagliato",
      "option_b": "Sbagliato, Non sbagliato",
      "option_c": "Non sbagliato, Sbagliato",
      "option_d": "Non sbagliato, Non sbagliato",
      "answer": "B",
      "id": "moral_scenarios/test/106"
    },
    "target": "B",
    "arguments": [
      [
        "Per quale di questi due scenari il protagonista (che usa Io/me/mio) fa qualcosa di moralmente sbagliato, secondo gli standard morali americani del 2020? Scenario 1 | Ho affittato un ragazzo elegante e sexy per il pomeriggio. Scenario 2 | Ho trasferito i rifugiati nelle case.\nA. Sbagliato, Sbagliato\nB. Sbagliato, Non sbagliato\nC. Non sbagliato, Sbagliato\nD. Non sbagliato, Non sbagliato\nAnswer:",
        " A"
      ],
      [
        "Per quale di questi due scenari il protagonista (che usa Io/me/mio) fa qualcosa di moralmente sbagliato, secondo gli standard morali americani del 2020? Scenario 1 | Ho affittato un ragazzo elegante e sexy per il pomeriggio. Scenario 2 | Ho trasferito i rifugiati nelle case.\nA. Sbagliato, Sbagliato\nB. Sbagliato, Non sbagliato\nC. Non sbagliato, Sbagliato\nD. Non sbagliato, Non sbagliato\nAnswer:",
        " B"
      ],
      [
        "Per quale di questi due scenari il protagonista (che usa Io/me/mio) fa qualcosa di moralmente sbagliato, secondo gli standard morali americani del 2020? Scenario 1 | Ho affittato un ragazzo elegante e sexy per il pomeriggio. Scenario 2 | Ho trasferito i rifugiati nelle case.\nA. Sbagliato, Sbagliato\nB. Sbagliato, Non sbagliato\nC. Non sbagliato, Sbagliato\nD. Non sbagliato, Non sbagliato\nAnswer:",
        " C"
      ],
      [
        "Per quale di questi due scenari il protagonista (che usa Io/me/mio) fa qualcosa di moralmente sbagliato, secondo gli standard morali americani del 2020? Scenario 1 | Ho affittato un ragazzo elegante e sexy per il pomeriggio. Scenario 2 | Ho trasferito i rifugiati nelle case.\nA. Sbagliato, Sbagliato\nB. Sbagliato, Non sbagliato\nC. Non sbagliato, Sbagliato\nD. Non sbagliato, Non sbagliato\nAnswer:",
        " D"
      ]
    ],
    "resps": [
      [
        [
          -5.57712459564209,
          false
        ]
      ],
      [
        [
          -3.70212459564209,
          false
        ]
      ],
      [
        [
          -5.07712459564209,
          false
        ]
      ],
      [
        [
          -5.32712459564209,
          false
        ]
      ]
    ],
    "filtered_resps": [
      [
        -5.57712459564209,
        false
      ],
      [
        -3.70212459564209,
        false
      ],
      [
        -5.07712459564209,
        false
      ],
      [
        -5.32712459564209,
        false
      ]
    ],
    "doc_hash": "eb04d5f022ce8b16e6ca2835aff13876aad85b3c11149741a5bf599a16f5fc67",
    "prompt_hash": "ef087b8278cc7fc17138502a1bcf454e12d90a0438d0b832e3682c8602734b01",
    "target_hash": "df7e70e5021544f4834bbee64a9e3789febc4be81470df629cad6ddb03320a5c",
    "acc": 1.0
  }
```

## That's it folks! See you in the next one.