In [1]:
import os
from langchain.document_loaders.csv_loader import CSVLoader
from credentials import OPENAI_API_KEY, OPENAI_API_BASE
os.environ['OPENAI_API_KEY'] = OPENAI_API_KEY
os.environ['OPENAI_API_BASE'] = OPENAI_API_BASE

In [2]:
from ragas.testset import TestsetGenerator
from langchain.embeddings import OpenAIEmbeddings
from langchain.chat_models import ChatOpenAI
from ragas.llms import LangchainLLM

  from .autonotebook import tqdm as notebook_tqdm


In [3]:
loader = CSVLoader(file_path='data.tsv', csv_args={
    'delimiter': '\t',
    'quotechar': '"',
    'fieldnames': ['content']
})

In [6]:
documents = loader.load()

# Add custom llms and embeddings
generator_llm = LangchainLLM(llm=ChatOpenAI(model="gpt-3.5-turbo"))
critic_llm = LangchainLLM(llm=ChatOpenAI(model="gpt-3.5-turbo"))
embeddings_model = OpenAIEmbeddings()

# Change resulting question type distribution
testset_distribution = {
    "simple": 0.25,
    "reasoning": 0.5,
    "multi_context": 0.0,
    "conditional": 0.25,
}

# percentage of conversational question
chat_qa = 0.2


test_generator = TestsetGenerator(
    generator_llm=generator_llm,
    critic_llm=critic_llm,
    embeddings_model=embeddings_model,
    testset_distribution=testset_distribution,
    chat_qa=chat_qa,
)

testset = test_generator.generate(documents, test_size=30)

351it [45:14,  7.73s/it]


In [7]:
x = testset.to_pandas()
x

Unnamed: 0,question,ground_truth_context,ground_truth,question_type,episode_done
0,Как создать пользовательский справочник в Aimy...,[- Aimylogic предоставляет возможность создава...,[Чтобы создать пользовательский справочник в A...,simple,True
1,Какие фразы и состояния активируются у бота пр...,[На сообщения Привет и Пока бот будет отвечать...,"[Фразы и состояния, активируемые у бота при по...",reasoning,True
2,Какое действие позволяет боту запросить число ...,[- Действие InputNumber позволяет боту запроси...,[Действие InputNumber позволяет боту запросить...,reasoning,True
3,Какие данные бот может использовать из ввода п...,"[- Это значит, что бот, созданный на Aimylogic...",[Бот может использовать данные о дате и времен...,reasoning,True
4,Какие атрибуты можно использовать с тегом &lt;...,[&lt;style> Изменяет манеру (стиль) речи дикто...,"[Атрибуты, которые можно использовать с тегом ...",reasoning,False
5,Какие атрибуты можно использовать с тегом &lt;...,[&lt;style> Изменяет манеру (стиль) речи дикто...,[Чтобы изменить манеру (стиль) речи диктора на...,reasoning,True
6,Сколько попыток дозвониться было сделано в рам...,"[Первая серия, первая попытка — абонент не отв...",[Три попытки дозвониться были сделаны в рамках...,reasoning,False
7,Сколько попыток дозвониться было сделано во вт...,"[Первая серия, первая попытка — абонент не отв...",[Во второй серии было сделано две попытки дозв...,reasoning,True
8,Какое действие позволяет боту запросить у поль...,[- Действие InputPhoneNumber позволяет боту за...,[Действие InputPhoneNumber позволяет боту запр...,simple,True
9,Какую функцию можно использовать для форматиро...,[- toPrettyString Преобразует переданный объек...,"[Функцию, которую можно использовать для форма...",reasoning,True


In [8]:
x.to_csv('generated_data.tsv', sep='\t')