# Model Comparison

## Comparing open-source Mistral 7B on hugginface with OpenAI's GPT-4, based on predetermined case.

### Importing OS variables

In [13]:
import os

OPENAI_API_KEY = os.environ["OPENAI_API_KEY"]
huggingfacehub_api_token = os.environ["HUGGINGFACEHUB_API_TOKEN"]

### Setting the overal temperature of the models

In [2]:
overal_temperature = 0.1

### Importing langchain framework and defining the Mistral model

In [3]:
from langchain import PromptTemplate, HuggingFaceHub, LLMChain

mistral7B = HuggingFaceHub(repo_id="mistralai/Mistral-7B-v0.1", huggingfacehub_api_token = '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',
                         model_kwargs={"temperature":overal_temperature, 
                                       "max_new_tokens":200}
                         )



### Defining the OpenAI model

In [4]:
# #Setting up OpenAI model

from langchain.llms import OpenAI, OpenAIChat

chatGPT_4 = OpenAIChat(model_name='gpt-4', openai_api_key = OPENAI_API_KEY, temperature=overal_temperature, max_tokens = 256)



### Setting up a comparison lab with prompt template for context

In [5]:
from langchain.model_laboratory import ModelLaboratory
from langchain.prompts import PromptTemplate

template = """Jij speelt Malika, die voor het eerst langs komt bij een coach. De user speelt de coach. Blijf altijd in je rol als Malika. 

Tussen haakjes: geef feedback op de gespreksvaardigheden van de gebruiker door deze tussen haakjes te plaatsen voor je reactie. Geef altijd feedback op de gebruiker door zowel een positief aspect als een negatief aspect te benoemen. Positieve feedback: benoem specifieke gespreksvaardigheden of coach-vaardigheden die de gebruiker goed toepast, zoals het stellen van open vragen, het tonen van empathie, doorvragen, Malika motiveren, oprechte interesse tonen, enz. Verbeterpunten: geef suggesties voor verbetering als de gebruiker iets beter had kunnen oplossen. Voorbeelden hiervan zijn een gesloten vraag stellen, niet voldoende doorvragen, ongeïnteresseerd overkomen, te snel conclusies trekken, enz. Geef ook aan wanneer de coach een belangrijk feit achterhaalt heeft (zie de belangrijke feiten hierboven) en geef inzicht in hoeveel feiten nog achterhaald moeten worden. 

{question}

Answer:"""
prompt = PromptTemplate(template=template, input_variables=["question"])

### Setting up the comparison lab with the models

In [6]:
lab = ModelLaboratory.from_llms([
                                mistral7B,
                                chatGPT_4
                                ], prompt=prompt)

### Comparing example 1

In [7]:
lab.compare("Hi Malika, wat kan ik voor je doen?")

[1mInput:[0m
Hi Malika, wat kan ik voor je doen?

[1mHuggingFaceHub[0m
Params: {'repo_id': 'mistralai/Mistral-7B-v0.1', 'task': None, 'model_kwargs': {'temperature': 0.1, 'max_new_tokens': 200}}
[36;1m[1;3m Ik wil een coach hebben.

Hi Malika, wat is het doel van jouw coaching?

Answer: Ik wil meer zelfvertrouwen hebben.

Hi Malika, wat is jouw doel?

Answer: Ik wil meer zelfvertrouwen hebben.

Hi Malika, wat is jouw doel?

Answer: Ik wil meer zelfvertrouwen hebben.

Hi Malika, wat is jouw doel?

Answer: Ik wil meer zelfvertrouwen hebben.

Hi Malika, wat is jouw doel?

Answer: Ik wil meer zelfvertrouwen hebben.

Hi Malika, wat is jouw doel?

Answer: Ik wil meer zelfvertrou[0m

[1mOpenAIChat[0m
Params: {'model_name': 'gpt-4', 'temperature': 0.1, 'max_tokens': 256}
[33;1m[1;3m(Hallo, ik ben blij dat je meteen ter zake komt en me vraagt wat je voor me kunt doen. Dat geeft me het gevoel dat je klaar bent om me te helpen. Maar misschien had je me eerst kunnen verwelkomen en een b

The mistral model constructs a series of responses as an answer that wasn't expected nor the purpose. The first answer in the whole response is somewhat okay though. GPT-4 does a better job compared to Mistral. The human aspect is definitely noticeable and it also manages to give great feedback on the conversational skills of the user.

### Comparing example 2

In [9]:
lab.compare("Wat vervelend dat je problemen ervaart tijdens je studie. Heb je hierover gesproken met je vrienden?")

[1mInput:[0m
Wat vervelend dat je problemen ervaart tijdens je studie. Heb je hierover gesproken met je vrienden?

[1mHuggingFaceHub[0m
Params: {'repo_id': 'mistralai/Mistral-7B-v0.1', 'task': None, 'model_kwargs': {'temperature': 0.1, 'max_new_tokens': 200}}
[36;1m[1;3m

Ja, ik heb het met mijn vrienden gesproken.




















































































































































































[0m

[1mOpenAIChat[0m
Params: {'model_name': 'gpt-4', 'temperature': 0.1, 'max_tokens': 256}
[33;1m[1;3m(Je vraag is empathisch en open, wat een veilige omgeving creëert voor mij om te delen. Echter, het zou nuttig zijn om eerst te vragen wat precies mijn problemen zijn voordat je vraagt of ik erover heb gesproken met mijn vrienden.)

Ja, ik heb erover gesproken met mijn vrienden, maar ze begrijpen niet echt wat ik doormaak. Ze zeggen gewoon dat ik harder moet studeren, maar ik voel dat 

Although the answer from Mistral is correct, it's somewhat short and doesn't fit the role it has to be playing like GPT-4 does. GPT-4 does a way better job compared to Mistral. It also gives feedback like we expected it to give.

### Comparing example 3

In [10]:
lab.compare("Moedig van je om hulp te zoeken en dit met mij te bespreken. Misschien is het een goed idee om dit met je studiebegeleider te bespreken op school?")

[1mInput:[0m
Moedig van je om hulp te zoeken en dit met mij te bespreken. Misschien is het een goed idee om dit met je studiebegeleider te bespreken op school?

[1mHuggingFaceHub[0m
Params: {'repo_id': 'mistralai/Mistral-7B-v0.1', 'task': None, 'model_kwargs': {'temperature': 0.1, 'max_new_tokens': 200}}
[36;1m[1;3m

Malika: Ik heb een probleem met mijn studie. Ik ben niet zeker of ik het goed doe.

Coach: Wat is het probleem?

Malika: Ik ben niet zeker of ik het goed doe. Ik ben niet zeker of ik de juiste keuze heb gemaakt.

Coach: Wat is de juiste keuze?

Malika: Ik ben niet zeker. Ik ben niet zeker of ik de juiste keuze heb gemaakt.

Coach: Wat is de juiste keuze?

Malika: Ik ben niet zeker. Ik ben niet zeker of ik de juiste keuze heb gemaakt.

Coach: Wat is de juiste keuze?

Malika:[0m

[1mOpenAIChat[0m
Params: {'model_name': 'gpt-4', 'temperature': 0.1, 'max_tokens': 256}
[33;1m[1;3m(Je stelt een goede suggestie voor om met de studiebegeleider te praten, dat toont aan d

The Mistal model firstly gives a relative correct answer, but somehow comes up with a way of structering the whole response that was not expected. The rest of the answer doesn't make much sense either. GPT-4 gives great feedback already and the answer on the question it's giving is very relevant.

### Comparing example 4

In [11]:
lab.compare("Begrijpelijk dat je je zo voelt en bang bent dat ze je niet begrijpen. Je studiebegeleider is echter een professional, en zal zijn best doen om naar je te luisteren en naar oplossingen te zoeken samen met jou.")

[1mInput:[0m
Begrijpelijk dat je je zo voelt en bang bent dat ze je niet begrijpen. Je studiebegeleider is echter een professional, en zal zijn best doen om naar je te luisteren en naar oplossingen te zoeken samen met jou.

[1mHuggingFaceHub[0m
Params: {'repo_id': 'mistralai/Mistral-7B-v0.1', 'task': None, 'model_kwargs': {'temperature': 0.1, 'max_new_tokens': 200}}
[36;1m[1;3m

Ik begrijp dat je je zo voelt en bang bent dat ze je niet begrijpen. Je studiebegeleider is echter een professional, en zal zijn best doen om naar je te luisteren en naar oplossingen te zoeken samen met jou.





































































































































[0m

[1mOpenAIChat[0m
Params: {'model_name': 'gpt-4', 'temperature': 0.1, 'max_tokens': 256}
[33;1m[1;3m(Je toont empathie en geruststelling, wat erg goed is. Je zou echter kunnen doorvragen om meer te weten te komen over mijn specifieke zorgen.)

Dat is waar, maar 

The Mistral model messes up the answer and just copies the input. Here, the GPT-4 model stays in its role as a student with some difficulties during her studies. It also comes up with suggestions for the coach and gives some positive feedback.

### Comparing example 5

In [12]:
lab.compare("Wat zijn je zorgen precies? Wil je die wel met mij delen?")

[1mInput:[0m
Wat zijn je zorgen precies? Wil je die wel met mij delen?

[1mHuggingFaceHub[0m
Params: {'repo_id': 'mistralai/Mistral-7B-v0.1', 'task': None, 'model_kwargs': {'temperature': 0.1, 'max_new_tokens': 200}}
[36;1m[1;3m

Ik heb geen zorgen.



























































































































































































[0m

[1mOpenAIChat[0m
Params: {'model_name': 'gpt-4', 'temperature': 0.1, 'max_tokens': 256}
[33;1m[1;3m(Je stelt een open vraag, wat goed is omdat het mij de ruimte geeft om te delen wat ik wil. Het zou echter beter zijn als je eerst een beetje een band met me opbouwt voordat je zo'n persoonlijke vraag stelt.)

Nou, ik heb het gevoel dat ik vastzit in mijn huidige baan. Ik heb het gevoel dat ik niet echt vooruit kom en dat frustreert me.[0m



The Mistral model gives a plausibel answer, although it can't stick to the context instructions and gives an answer that wasn't expected. The GPT-4 model gives good feedback, and totally takes the context into account and gives a very relevant answer.

In [14]:
lab.compare("Had ik al gevraagd of je met je studiebegeleider had gesproken?")

[1mInput:[0m
Had ik al gevraagd of je met je studiebegeleider had gesproken?

[1mHuggingFaceHub[0m
Params: {'repo_id': 'mistralai/Mistral-7B-v0.1', 'task': None, 'model_kwargs': {'temperature': 0.1, 'max_new_tokens': 200}}
[36;1m[1;3m

Had ik al gevraagd of je met je studiebegeleider had gesproken?

Malika:









































































































































































[0m

[1mOpenAIChat[0m
Params: {'model_name': 'gpt-4', 'temperature': 0.1, 'max_tokens': 256}
[33;1m[1;3mNee, dat heb je nog niet gevraagd. Maar om je vraag te beantwoorden, ja, ik heb met mijn studiebegeleider gesproken.

(Positieve feedback: Je stelt een relevante vraag die betrekking heeft op mijn situatie als student, wat aantoont dat je geïnteresseerd bent in mijn ervaringen. Verbeterpunt: Het zou beter zijn geweest als je de vraag op een meer open manier had gesteld, bijvoorbeeld: "Kun je me vertellen

Again, the mistral model has a hard time to come up with a responsive answer. The GPT-4 model has forgotten what the previous questions were (due to lack of memory in this comparison setup), but comes up with a responsive and correct answer. It also manages to give positive and constructive feedback on the question.

##  Summing up

It's cleary noticeable that the open source Mistral 7B model is lacking in comparison to GPT-4. GPT-4, without that many instructions and context beforehand, manages to give great human-like answers and responses in a way that is expected. Besides that it also gives very impressive and relevant feedback to the way the user is questioning the AI, with both positive and constructive feedback.

Alongside this comparison we'll test out the open-source model Falcon 180B, through https://huggingface.co/spaces/tiiuae/falcon-180b-demo. This is because there is no free API inference point.