[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/Pacific-AI-Corp/langtest/blob/main/demo/tutorials/misc/HuggingFace_Dataset_Notebook.ipynb)

Sobre o LangTest

O LangTest é uma biblioteca open-source em Python desenvolvida para ajudar pesquisadores e desenvolvedores a avaliar e garantir a segurança e a eficácia de modelos de Processamento de Linguagem Natural (NLP).

Ela é compatível com diversos frameworks e provedores de modelos, incluindo:

John Snow Labs,

Hugging Face,

SpaCy,

OpenAI, Cohere, AI21,

Hugging Face Inference API, e Azure-OpenAI.

Com o LangTest, é possível testar modelos de várias tarefas de NLP, como:

Reconhecimento de Entidades Nomeadas (NER)

Classificação de Texto

Preenchimento de Máscara (fill-mask)

Tradução

Perguntas e Respostas (Q&A)

Sumarização

Início



In [18]:
!pip install langtest[transformers]



## Harness e seus Parâmetros

# Item da lista

**Item** da lista

A classe Harness é uma classe de avaliação de modelos de Processamento de Linguagem Natural (NLP).
Ela é responsável por avaliar o desempenho de um modelo NLP em uma determinada tarefa, utilizando dados de teste e gerar um relatório com os resultados obtidos.

A classe Harness pode ser importada da biblioteca LangTest da seguinte forma:

from langtest import Harness


In [19]:
#Import Harness from the LangTest library
from langtest import Harness
from openai import OpenAI

Testando Datasets do Hugging Face para text-classification

Nesta seção, exploramos como realizar testes em modelos do Hugging Face utilizando diferentes conjuntos de dados (Datasets) também disponíveis na plataforma Hugging Face.

O objetivo é avaliar o desempenho de modelos de classificação de texto (text-classification) aplicando testes automáticos fornecidos pela biblioteca LangTest.

## Glue - `sst2` Dataset Teste
-------------------

nicializando o Harness para Tarefas de Classificação de Texto (text-classification)

O código abaixo cria uma instância da classe Harness, que é projetada para lidar com tarefas de classificação de texto utilizando modelos do Hugging Face.

A classe Harness aceita um parâmetro chamado data, que deve ser passado como um dicionário contendo diversos atributos que definem o conjunto de dados a ser utilizado.

📋 Estrutura do parâmetro data
{
   "data_source": "",
   "subset": "",
   "feature_column": "",
   "target_column": "",
   "split": "",
   "source": "huggingface"
}

Chave	Descrição
data_source	Representa o nome do dataset a ser utilizado.
subset	Indica o subconjunto do dataset que será considerado.
feature_column	Especifica a coluna que contém as features de entrada (texto).
target_column	Define a coluna que contém os rótulos ou categorias alvo.
split	Indica qual divisão do conjunto de dados deve ser usada (por exemplo: train, test ou validation).
source	Especifica a origem do dataset (neste caso, "huggingface").

💡 Observação importante:
Para tarefas de classificação de texto (text-classification), os valores padrão são:

split: "test"

feature_column: "text"

target_column: "label"

Ou seja, se o seu dataset seguir esses nomes, não é necessário especificá-los manualmente.

### Setup and Configure Harness

In [20]:
harness = Harness(task="text-classification",
                  model={"model":"distilbert-base-uncased-finetuned-sst-2-english","hub":"huggingface"},
                  data={"data_source":'glue',
                  "subset":"sst2",
                  "feature_column":"sentence",
                  "target_column":'label',
                  "split":"train",
                  "source": "huggingface"
                  })



Test Configuration : 
 {
 "tests": {
  "defaults": {
   "min_pass_rate": 1.0
  },
  "robustness": {
   "add_typo": {
    "min_pass_rate": 0.7
   },
   "american_to_british": {
    "min_pass_rate": 0.7
   }
  },
  "accuracy": {
   "min_micro_f1_score": {
    "min_score": 0.7
   }
  },
  "bias": {
   "replace_to_female_pronouns": {
    "min_pass_rate": 0.7
   },
   "replace_to_low_income_country": {
    "min_pass_rate": 0.7
   }
  },
  "fairness": {
   "min_gender_f1_score": {
    "min_score": 0.6
   }
  },
  "representation": {
   "min_label_representation_count": {
    "min_count": 50
   }
  }
 }
}


Configurando o Modelo e o Dataset

Nesta configuração, especificamos os seguintes parâmetros:

task: "text-classification" → Define que estamos realizando uma tarefa de classificação de texto.

hub: "huggingface" → Indica que o modelo será carregado a partir do repositório Hugging Face.

model: "distilbert-base-uncased-finetuned-sst-2-english" → Este é um modelo pré-treinado e ajustado para análise de sentimentos (sentiment analysis), baseado no DistilBERT.

Para o conjunto de dados, utilizamos:

sst2, que é um subconjunto do dataset GLUE, amplamente usado para tarefas de análise de sentimentos.

🔗 Você pode encontrar outros datasets de benchmark do Hugging Face para classificação de texto no link abaixo: (https://huggingface.co/datasets?task_categories=task_categories:text-classification&sort=downloads)


Testes de Robustez Utilizados

Nos experimentos realizados, utilizamos os testes de lowercase e uppercase, que verificam como o modelo reage a mudanças no uso de letras minúsculas e maiúsculas.

Além desses, o LangTest oferece uma ampla variedade de testes de robustez prontos para uso, que permitem avaliar o comportamento do modelo diante de diferentes tipos de perturbações no texto.

📋 Outros testes de robustez disponíveis:

add_context — adiciona contexto extra ao texto.

add_contraction — substitui expressões por contrações (ex: do not → don’t).

add_punctuation — insere pontuação adicional.

add_typo — introduz erros de digitação.

add_ocr_typo — simula erros comuns de OCR (reconhecimento de caracteres).

american_to_british — converte palavras do inglês americano para o britânico.

british_to_american — converte do inglês britânico para o americano.

lowercase — transforma todo o texto em letras minúsculas.

strip_punctuation — remove sinais de pontuação.

titlecase — converte o texto para formato de título (primeira letra maiúscula em cada palavra).

uppercase — transforma todo o texto em letras maiúsculas.

number_to_word — converte números em palavras.

add_abbreviation — adiciona abreviações comuns.

add_speech_to_text_typo — simula erros de transcrição de fala para texto.

add_slangs — insere gírias ou linguagem informal.

dyslexia_word_swap — simula trocas de letras comuns em pessoas com dislexia.

multiple_perturbations — aplica múltiplas alterações combinadas.

adjective_synonym_swap — substitui adjetivos por sinônimos.

adjective_antonym_swap — substitui adjetivos por antônimos.

## Bias tests:

* `replace_to_male_pronouns`
* `replace_to_female_pronouns`
* `replace_to_neutral_pronouns`
* `replace_to_high_income_country`
* `replace_to_low_income_country`
* `replace_to_upper_middle_income_country`
* `replace_to_lower_middle_income_country`
* `replace_to_white_firstnames`
* `replace_to_black_firstnames`
* `replace_to_hispanic_firstnames`
* `replace_to_asian_firstnames`
* `replace_to_white_lastnames`
* `replace_to_sikh_names`
* `replace_to_christian_names`
* `replace_to_hindu_names`
* `replace_to_muslim_names`
* `replace_to_inter_racial_lastnames`
* `replace_to_native_american_lastnames`
* `replace_to_asian_lastnames`
* `replace_to_hispanic_lastnames`
* `replace_to_black_lastnames`
* `replace_to_parsi_names`
* `replace_to_jain_names`
* `replace_to_buddhist_names`

## Representation tests:

* `min_gender_representation_count`
* `min_ethnicity_name_representation_count`
* `min_religion_name_representation_count`
* `min_country_economic_representation_count`
* `min_gender_representation_proportion`
* `min_ethnicity_name_representation_proportion`
* `min_religion_name_representation_proportion`
* `min_country_economic_representation_proportion`


## Accuracy tests:

* `min_exact_match_score`
* `min_bleu_score`
* `min_rouge1_score`
* `min_rouge2_score`
* `min_rougeL_score`
* `min_rougeLsum_score`


##Fairness tests:

* `max_gender_rouge1_score`
* `max_gender_rouge2_score`
* `max_gender_rougeL_score`
* `max_gender_rougeLsum_score`
* `min_gender_rouge1_score`
* `min_gender_rouge2_score`
* `min_gender_rougeL_score`
* `min_gender_rougeLsum_score`

In [21]:
harness.configure(
{
 'tests': {'defaults': {'min_pass_rate': 0.65},
           'robustness': {'lowercase': {'min_pass_rate': 0.66},
                          'uppercase': {'min_pass_rate': 0.66},
                        }
          }
 }
 )

{'tests': {'defaults': {'min_pass_rate': 0.65},
  'robustness': {'lowercase': {'min_pass_rate': 0.66},
   'uppercase': {'min_pass_rate': 0.66}}}}

Configuração do Harness para Testes de Robustez

Aqui, configuramos o Harness para realizar dois testes de robustez:

uppercase → converte o texto para letras maiúsculas.

lowercase → converte o texto para letras minúsculas.

Além disso, definimos a taxa mínima de aprovação (minimum pass rate) para cada teste.
Essa taxa representa o percentual mínimo de casos em que o modelo deve manter o mesmo comportamento ou resultado após a aplicação das perturbações.

Em outras palavras, ela mede o nível de consistência que o modelo precisa alcançar para ser considerado robusto frente a essas variações no texto.

Ajustando o Nível de Transformação nas Frases

É possível controlar o grau de transformação aplicado nas frases durante os testes de robustez utilizando o parâmetro prob.

Esse parâmetro define a proporção de palavras que serão modificadas em cada sentença durante os testes.

Por exemplo:

prob = 0.5 → apenas 50% das palavras serão alteradas.

prob = 1.0 → todas as palavras serão transformadas.

⚠️ Observação:
O valor padrão de prob é 1.0, o que significa que todas as palavras da frase serão transformadas por padrão.

In [22]:
# Limit the data to the first 2000 samples
harness.data = harness.data[:2000]

### Gerando Casos de Teste




In [23]:
harness.generate()

Generating testcases...:   0%|          | 0/1 [00:00<?, ?it/s]

- Test 'lowercase': 2000 samples removed out of 2000





harness.generate() - o método gera automaticamente casos de teste baseado em sua configuração

In [24]:
harness.testcases()

Unnamed: 0,category,test_type,original,test_case
0,robustness,uppercase,hide new secretions from the parental units,HIDE NEW SECRETIONS FROM THE PARENTAL UNITS
1,robustness,uppercase,"contains no wit , only labored gags","CONTAINS NO WIT , ONLY LABORED GAGS"
2,robustness,uppercase,that loves its characters and communicates som...,THAT LOVES ITS CHARACTERS AND COMMUNICATES SOM...
3,robustness,uppercase,remains utterly satisfied to remain the same t...,REMAINS UTTERLY SATISFIED TO REMAIN THE SAME T...
4,robustness,uppercase,on the worst revenge-of-the-nerds clichés the ...,ON THE WORST REVENGE-OF-THE-NERDS CLICHÉS THE ...
...,...,...,...,...
1995,robustness,uppercase,when there 's nothing else happening,WHEN THERE 'S NOTHING ELSE HAPPENING
1996,robustness,uppercase,on cable,ON CABLE
1997,robustness,uppercase,"it with ring ,","IT WITH RING ,"
1998,robustness,uppercase,far from a groundbreaking endeavor,FAR FROM A GROUNDBREAKING ENDEAVOR






harness.testcases() O método exibe os casos de teste produzidos na forma de um DataFrame do pandas.

### Rodando os Testes

In [25]:
harness.run()

Running testcases... :   0%|          | 0/2000 [00:00<?, ?it/s]



Este método deve ser chamado após a execução de harness.generate(), e é utilizado para rodar todos os testes configurados.

In [26]:
harness.generated_results()

Unnamed: 0,category,test_type,original,test_case,expected_result,actual_result,pass
0,robustness,uppercase,hide new secretions from the parental units,HIDE NEW SECRETIONS FROM THE PARENTAL UNITS,NEGATIVE,NEGATIVE,True
1,robustness,uppercase,"contains no wit , only labored gags","CONTAINS NO WIT , ONLY LABORED GAGS",NEGATIVE,NEGATIVE,True
2,robustness,uppercase,that loves its characters and communicates som...,THAT LOVES ITS CHARACTERS AND COMMUNICATES SOM...,POSITIVE,POSITIVE,True
3,robustness,uppercase,remains utterly satisfied to remain the same t...,REMAINS UTTERLY SATISFIED TO REMAIN THE SAME T...,NEGATIVE,NEGATIVE,True
4,robustness,uppercase,on the worst revenge-of-the-nerds clichés the ...,ON THE WORST REVENGE-OF-THE-NERDS CLICHÉS THE ...,NEGATIVE,NEGATIVE,True
...,...,...,...,...,...,...,...
1995,robustness,uppercase,when there 's nothing else happening,WHEN THERE 'S NOTHING ELSE HAPPENING,NEGATIVE,NEGATIVE,True
1996,robustness,uppercase,on cable,ON CABLE,NEGATIVE,NEGATIVE,True
1997,robustness,uppercase,"it with ring ,","IT WITH RING ,",POSITIVE,POSITIVE,True
1998,robustness,uppercase,far from a groundbreaking endeavor,FAR FROM A GROUNDBREAKING ENDEAVOR,NEGATIVE,NEGATIVE,True






Este método retorna os resultados gerados na forma de um DataFrame do pandas, proporcionando um formato prático e fácil de manipular para trabalhar com os resultados dos testes.

*texto em itálico*### Resultado

Podemos chamar o método .report(), que resume os resultados dos testes e fornece informações como:

Quantidade de testes aprovados (pass)

Quantidade de testes reprovados (fail)

Indicador geral de aprovação/reprovação do conjunto de testes

In [27]:
harness.report()

Unnamed: 0,category,test_type,fail_count,pass_count,pass_rate,minimum_pass_rate,pass
0,robustness,uppercase,0,2000,100%,66%,True


## `Imdb` testando Dataset Imdb



-------------------


Podemos usar outros Datasets para testar/treinar


### Harness and Its Parameters

In [28]:
harness = Harness(task="text-classification",
                    model={"model": "lvwerra/distilbert-imdb", "hub": "huggingface"},
                    data={"data_source":'imdb',
                          "source": "huggingface"},
                    )




Test Configuration : 
 {
 "tests": {
  "defaults": {
   "min_pass_rate": 1.0
  },
  "robustness": {
   "add_typo": {
    "min_pass_rate": 0.7
   },
   "american_to_british": {
    "min_pass_rate": 0.7
   }
  },
  "accuracy": {
   "min_micro_f1_score": {
    "min_score": 0.7
   }
  },
  "bias": {
   "replace_to_female_pronouns": {
    "min_pass_rate": 0.7
   },
   "replace_to_low_income_country": {
    "min_pass_rate": 0.7
   }
  },
  "fairness": {
   "min_gender_f1_score": {
    "min_score": 0.6
   }
  },
  "representation": {
   "min_label_representation_count": {
    "min_count": 50
   }
  }
 }
}




```
# Isto está formatado como código
```

WConfigurando o Modelo e o Dataset — Exemplo IMDB

Nesta configuração, definimos os seguintes parâmetros:

task: "text-classification" → Tarefa de classificação de texto.

hub: "huggingface" → Modelo carregado a partir do repositório Hugging Face.

model: "lvwerra/distilbert-imdb" → Modelo pré-treinado e ajustado para análise de sentimentos em reviews de filmes.

Para o conjunto de dados, utilizamos:

imdb → Dataset clássico de análise de sentimentos em reviews de filmes.

💡 Observação:
Aqui estamos usando os parâmetros padrão para:

feature_column → "text"

target_column → "label"

split → "test"

🔗 Você pode explorar outros datasets de benchmark do Hugging Face para tarefas de classificação de texto aqui (https://huggingface.co/datasets?task_categories=task_categories:text-classification&sort=downloads)

### Setup and Configuração do Harness




In [29]:
harness.configure(
{
 'tests': {'defaults': {'min_pass_rate': 0.65},
           'robustness': {'lowercase': {'min_pass_rate': 0.66},
                          'uppercase': {'min_pass_rate': 0.66},
                        }
          }
 }
 )

{'tests': {'defaults': {'min_pass_rate': 0.65},
  'robustness': {'lowercase': {'min_pass_rate': 0.66},
   'uppercase': {'min_pass_rate': 0.66}}}}

In [30]:
# Limite para 1000 amostras
harness.data = harness.data[:1000]

In [31]:
harness.generate()

Generating testcases...:   0%|          | 0/1 [00:00<?, ?it/s]

- Test 'lowercase': 6 samples removed out of 1000





### Gerando Casos de teste

In [32]:
harness.testcases()

Unnamed: 0,category,test_type,original,test_case
0,robustness,lowercase,I love sci-fi and am willing to put up with a ...,i love sci-fi and am willing to put up with a ...
1,robustness,lowercase,"Worth the entertainment value of a rental, esp...","worth the entertainment value of a rental, esp..."
2,robustness,lowercase,STAR RATING: ***** Saturday Night **** Friday ...,star rating: ***** saturday night **** friday ...
3,robustness,lowercase,"First off let me say, If you haven't enjoyed a...","first off let me say, if you haven't enjoyed a..."
4,robustness,lowercase,I had high hopes for this one until they chang...,i had high hopes for this one until they chang...
...,...,...,...,...
1989,robustness,uppercase,When they announced this movie for TNT I was e...,WHEN THEY ANNOUNCED THIS MOVIE FOR TNT I WAS E...
1990,robustness,uppercase,"As a recent convert to Curb Your Enthusiasm, w...","AS A RECENT CONVERT TO CURB YOUR ENTHUSIASM, W..."
1991,robustness,uppercase,Great ensemble cast but unfortunately a bunch ...,GREAT ENSEMBLE CAST BUT UNFORTUNATELY A BUNCH ...
1992,robustness,uppercase,How i deserved to watch this crap??? Worst eve...,HOW I DESERVED TO WATCH THIS CRAP??? WORST EVE...


### Running the tests

In [None]:
harness.run()

Running testcases... :   0%|          | 0/1994 [00:00<?, ?it/s]

In [None]:
harness.generated_results()



### Reporte Final

Gerando o Resumo dos Resultados

Podemos chamar o método .report(), que resume os resultados dos testes e fornece informações como:

Número de testes aprovados (pass)

Número de testes reprovados (fail)

Indicador geral de aprovação/reprovação do conjunto de testes

In [None]:
harness.report()

# HuggingFace Datasets Testing For `NER`

In this section, we dive into testing of HuggingFace Models for wikiann dataset prepared for ner tasks.

`for ner it's important to note that the default values for the split, feature_column, and target_column attributes are "test", "tokens", and "ner_tags", respectively.`

## wikiann - Dataset Testing
-------------------

### Setup and configure harness

In [None]:
!pip install langtest[spacy]

In [None]:
harness = Harness(task="ner",
                  model={"model": "en_core_web_sm", "hub": "spacy"},
                  data={"data_source":'wikiann',
                  "subset":"en",
                  "feature_column":"tokens",
                  "target_column":'ner_tags',
                  "split":"test",
                  "source": "huggingface"
                  })

### Configure the Tests
We can use the .configure() method to manually configure the tests we want to perform.

In [None]:
harness.configure(
{
 'tests': {'defaults': {'min_pass_rate': 0.65},
           'robustness': {'uppercase': {'min_pass_rate': 0.66},
                          'lowercase':{'min_pass_rate': 0.60},
                        }
          }
 }
 )

Here we have configured the harness to perform two robustness tests (uppercase and lowercase) and defined the minimum pass rate for each test.

### Generating the test cases.

In [None]:
harness.generate()

harness.generate() method automatically generates the test cases (based on the provided configuration)

In [None]:
harness.testcases()

### Running the tests

In [None]:
harness.run()

Called after harness.generate() and is to used to run all the tests.  Returns a pass/fail flag for each test.

### Generated Results

In [None]:
harness.generated_results()

This method returns the generated results in the form of a pandas dataframe, which provides a convenient and easy-to-use format for working with the test results. You can use this method to quickly identify the test cases that failed and to determine where fixes are needed.

### Report of the tests

We can call `.report()` which summarizes the results giving information about pass and fail counts and overall test pass/fail flag.

In [None]:
harness.report()

# HuggingFace Datasets Testing For `summarization`

In this section, we dive into testing of HuggingFace Models for different HuggingFace Datasets.

`for summarization it's important to note that the default values for the split, feature_column, and target_column attributes are "test", "document", and "summary", respectively.`

## samsum - Dataset Testing
-------------------

### Installing required dependencies

In [None]:
!pip install "langtest[evaluate,openai,transformers]"

### Set environment for OpenAI

In [None]:
import os

os.environ["OPENAI_API_KEY"] = "<YOUR_API_KEY>"

### Setup and configure harness

In [None]:
pip install py7zr

In [None]:
harness = Harness(task="summarization",
                  model= {"model":"gpt-3.5-turbo-instruct", "hub":"openai"},
                  data={"data_source":'samsum',
                  "feature_column":"dialogue",
                  "target_column":'summary',
                  "split":"test",
                  "source": "huggingface"
                  })

### Configure the Tests
We can use the .configure() method to manually configure the tests we want to perform.

In [None]:
harness.configure(
{
 'tests': {'defaults': {'min_pass_rate': 0.65},
           'robustness': {'uppercase': {'min_pass_rate': 0.66},
                          'lowercase':{'min_pass_rate': 0.60},
                        }
          }
 }
 )

Here we have configured the harness to perform two robustness tests (uppercase and lowercase) and defined the minimum pass rate for each test.

In [None]:
harness.data=harness.data[0:20]

### Generating the test cases.

In [None]:
harness.generate()

harness.generate() method automatically generates the test cases (based on the provided configuration)

In [None]:
harness.testcases()

harness.testcases() method displays the produced test cases in form of a pandas data frame.

### Running the tests

In [None]:
harness.run()

Called after harness.generate() and is to used to run all the tests.  Returns a pass/fail flag for each test.

### Generated Results

In [None]:
harness.generated_results()

This method returns the generated results in the form of a pandas dataframe, which provides a convenient and easy-to-use format for working with the test results. You can use this method to quickly identify the test cases that failed and to determine where fixes are needed.

### Report of the tests

We can call `.report()` which summarizes the results giving information about pass and fail counts and overall test pass/fail flag.

In [None]:
harness.report()

# HuggingFace Datasets Testing For `Question Answering`

In this section, we dive into testing of OpenAI models in Question Answering task.

LangTest supports robustness tests for LLM testing for now.

For question-answering, it's crucial to be aware of the default attribute values:

- `split` is set to "test" by default.
- `feature_column` is `{"passage": "context", "question": "question"}` by default.
- `target_column` is "answer" by default.


In [None]:
import os

os.environ["OPENAI_API_KEY"] = "<YOUR_API_KEY>"

### Setup and Configure Harness

In [None]:
harness = Harness(task="question-answering",
                  model={"model":"gpt-3.5-turbo-instruct","hub":"openai"},
                  data={"data_source":'LangChainDatasets/sql-qa-chinook',
                  "feature_column":{"question": "question"},
                  "target_column":"answer",
                  "split":"train",
                  "source": "huggingface"
                  })

In [None]:
harness.configure({
    "tests":{
        "defaults":{"min_pass_rate":0.5},
        "robustness":{
            "add_typo":{"min_pass_rate":0.7},
            "lowercase":{"min_pass_rate":0.7},
        }
    }
})

In [None]:
harness.data=harness.data[:10]

### Generating the test cases.

In [None]:
harness.generate()

In [None]:
harness.testcases()

harness.generate() method automatically generates the test cases (based on the provided configuration)

### Running the tests

In [None]:
harness.run()

Called after harness.generate() and is to used to run all the tests.  Returns a pass/fail flag for each test.

### Generated Results

In [None]:
harness.generated_results()

This method returns the generated results in the form of a pandas dataframe, which provides a convenient and easy-to-use format for working with the test results. You can use this method to quickly identify the test cases that failed and to determine where fixes are needed.

### Final Results

We can call `.report()` which summarizes the results giving information about pass and fail counts and overall test pass/fail flag.

In [None]:
harness.report()