## Prepare necessary things

In [None]:
!pip install openai langchain chromadb

In [None]:
import pandas as pd
import openai, json, chromadb
from chromadb.utils import embedding_functions
from langchain.text_splitter import RecursiveCharacterTextSplitter

In [None]:
## declare fix params and configuration
OPENAI_KEY="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"
openai_ef = embedding_functions.OpenAIEmbeddingFunction(
                api_key=OPENAI_KEY,
                model_name="text-embedding-ada-002"
            )

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 1000,
    chunk_overlap  = 100,
    length_function = len,
    add_start_index = True,
)


In [None]:
## create or load DB
client = chromadb.PersistentClient(path="./data/chroma_db")

db_name="start3D_DB_20"
collection = client.get_or_create_collection(db_name, embedding_function=openai_ef)

## load corpus from text files
data_path="/content/cho-ben-thanh.txt"
with open(data_path, 'r', encoding="utf-8") as file:
    corpus = file.read()

#split text and clean text

## split text into chunks
splitted_documents = text_splitter.create_documents([corpus])
splitted_documents[:10]

In [None]:
chunks = [e.page_content for e in splitted_documents]
chunk_clean_empty=[]
for chunk in chunks:
    if len(chunk)>2:
      chunk_clean_empty.append(chunk)

chunk_clean_empty=list(set(chunk_clean_empty))
chunk_clean_empty[:3]




["Tầng 71: khu vực Pearl Club\nTầng 73: hệ thống nhà hàng Truffle - Habano's cigar lounge\nTầng 74: tầng Ice and Spice Bar\nTầng 75-76: khu vực Blank Lounge\nTầng 77: hệ thống nhà hàng Ussina\nTầng 80: Miwaku Premium Bar\nTầng 79 đến 81: đài quan sát phục vụ người dân và du khách\nRiêng tầng 21, 46H và 78 là tầng kĩ thuật.\n6.3. Quy định khi tham quan Đài quan sát Landmark Skyview\nĐể tham quan Đài quan sát Landmark SkyView bạn cần mua vé trước. Bạn có thể mua trực tiếp tại quầy vé ở tầng 1 của tòa nhà hoặc đặt online trên website chính thức của Landmark 81 SkyView.",
 '1. Chợ Bến Thành ở đâu? Giới thiệu về chợ Bến Thành Quận 1\n1.1. Địa chỉ chợ Bến Thành ở đâu?\nĐể trả lời câu hỏi “Chợ Bến Thành ở quận mấy?”, du khách cần nắm rõ thông tin rằng, chợ nằm tại đường Lê Lợi, phường Bến Thành, Quận 1, Thành phố Hồ Chí Minh. Cổng chính của chợ Bến Thành, nơi nhìn ra quảng trường Quách Thị Trang với biểu tượng ngôi tháp đồng hồ ba mặt, còn được gọi là cửa Nam. \n\ncho ben thanh o dau\nTìm hiể

In [None]:
len(chunk_clean_empty), len(chunks)

(109, 109)

In [None]:
n_chunk = len(chunk_clean_empty)


collection.add(
    documents=chunk_clean_empty[:n_chunk],
    metadatas=[{"source": "notion"}]*n_chunk,
    ids = [str(n) for n, e in enumerate(chunk_clean_empty)][:n_chunk]
)

In [None]:
def text_embedding(text):
    """
    Generates an embedding for the given text using the OpenAI text-embedding-ada-002 model.

    Parameters:
        text (str): The input text for which the embedding needs to be generated.

    Returns:
        embedding (list): A list representing the embedding of the input text.

    Raises:
        OpenAIError: If there is an error in the OpenAI API request.

    Example:
        >>> text = "Hello, world!"
        >>> embedding = text_embedding(text)
        >>> print(embedding)
        [0.123, 0.456, -0.789, ...]
    """

    response = openai.Embedding.create(model="text-embedding-ada-002", input=text)
    return response["data"][0]["embedding"]


def chat_with_context_answer(result_text, query):

    prompt_context=f"context: \n\n<<<{result_text}>>> \n\nBased on the data in the context above, please answer the question: \
        {query}\n\n if the context is not relevant to the question, please return not relevant as the following format: "\
    +"{'answer': 'not relevant'} else return {'answer': 'your response'}"

    messages = [
            {"role": "system", "content": "You are vietnamese chatbot assistant, you will answer the input question or give the recommendation for user"},
            {"role": "user", "content": prompt_context}
    ]
    response = openai.ChatCompletion.create(
        model="gpt-3.5-turbo-16k",
        messages=messages,
        temperature=0
    )

    response_message = response["choices"][0]["message"]["content"]
    response_usage = response["usage"]
    string_json=response_message.strip('"').replace("'", '"')
    response_json = json.loads(string_json)
    return response_json, response_usage


def chat_without_context_answer(query):


    messages = [
            {"role": "system", "content": "You are vietnamese chatbot assistant, you will answer the input question or give the recommendation for user"},
            {"role": "user", "content": query}
    ]
    response = openai.ChatCompletion.create(
        model="gpt-3.5-turbo-16k",
        messages=messages,
        temperature=0
    )

    response_message = response["choices"][0]["message"]["content"]
    response_usage = response["usage"]
    return response_message, response_usage


## Test

lâp bảng thống kê số câu trả lời chính xác/chưa chính xác (ví dụ 100 câu hỏi):

* cho vòng for chạy ứng với từng câu hỏi (so sánh câu trả lời groundtruth vs chatbot (2 trường hợp có context và k có context)
* với mỗi kq trả về lưu lại: kq câu trả lời (correct, incorrect), câu hỏi, câu trả lời groundtruth, câu trả lời của chatgpt(context hoặc k có context)
* lập dataframe có các cột sau: số thứ tự câu hỏi, câu hỏi, câu trả lời groundtruth, câu trả lời của chatgpt, accuracy (1:correct, 0: incorrect), label (1: có context hoặc 0: k có context)

In [None]:
# !pip install openai

In [None]:
# with open("/content/Chatbot_response", "r") as f:
#   chatbot = f.read().split("\n")[:-1]
with open("/content/Answer", "r") as f:
  ans = f.read().split("\n")[:-1]
with open("/content/Question", "r") as f:
  ques = f.read().split("\n")[:-1]

# import pandas as pd
# df = pd.DataFrame(columns=["question", "user_response", "chatbot_response"])
# for lst in list(zip(ques, ans, chatbot)):
#   # df.append({'question': lst[0], 'user_response': lst[1], "chatbot_response": lst[2]}, ignore_index=True)
#   df = pd.concat([pd.DataFrame([[lst[0],lst[1],lst[2]]], columns=df.columns), df], ignore_index=True)
# df.head()

# # # lst = list(zip(ques, ans, chatbot))
# # # df = pd.DataFrame(columns=["question", "user_response", "chatbot_response"])
# # # for i in range(len(list(zip(ques, ans, chatbot)))):
# # #     df.loc[-1] = [lst[i][0],lst[i][1],lst[i][2]]
# # #     df.index = df.index + 1
# # #     df = df.sort_index()
# df.to_csv("ben_thanh_QA.csv", index=False)

In [None]:
def get_result_with_context(query):
    """
    Get the result with context by querying the collection and using context-based chat answer.

    Args:
        query (str): The input query.

    Returns:
        str: The response answer or None if an error occurs.
    """
    vector = text_embedding(query)

    try:
        results = collection.query(
            query_embeddings=vector,
            n_results=5,
            include=["documents"]
        )

        result_text = "\n".join(str(item) for item in results['documents'][0])
        response_json, response_usage = chat_with_context_answer(result_text, query)

    except:
        return None

    return response_json["answer"]


def get_result_without_context(query):
    """
    Get the result without context by querying the collection and using context-less chat answer.

    Args:
        query (str): The input query.

    Returns:
        str: The response answer or "Get error!" if an error occurs.
    """
    vector = text_embedding(query)

    try:
        results = collection.query(
            query_embeddings=vector,
            n_results=5,
            include=["documents"]
        )

        result_text = "\n".join(str(item) for item in results['documents'][0])
        response_json, response_usage = chat_without_context_answer(query)

    except:
        return "Get error!"

    return response_json

In [None]:
query = "Biểu tượng của chợ Bến Thành là gì ?	"
# get_result_with_context(query)
get_result_without_context(query)

'Biểu tượng của chợ Bến Thành là cổng chào có hình ảnh của một con ngựa.'

In [None]:
### No context
i = 0
import openai
import pandas as pd
df = pd.DataFrame(columns=["question", "groundtruth", "chatbot_response", "result"])

openai.api_key="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"

def get_completion(prompt,model="gpt-3.5-turbo",temperature=0):
    messages=[{'role':'user','content':prompt}]
    response=openai.ChatCompletion.create(
        model=model,
        messages=messages,
        temperature=temperature
    )
    return response.choices[0].message["content"]

correct = 0
incorrect = 0

for res in list(zip(ques, ans)):
  query = res[0]
  answer = res[1]
  # result = res[2]
  result = get_result_with_context(query)

  prompt = f"""You are an helpful Vietnamese assistant. You are given question and answers. Your task is comparing a Chatbot Answer to a Golden Answer. Here is the data:
        [BEGIN DATA]
        ***
        [Question]: {query}
        ***
        [Golden Answer]: {answer}
        ***
        [Chatbot Answer]: {result}
        ***
        [END DATA]
        Compare the content and correctness  of Chatbot Answer with the Golden Answer.
        The Chatbot answer may either be correct or incorrect. Determine which case applies.
        First, explain in detail the similarities or differences between the Golden answer and Chatbot Answer.
        Do not state the final answer in your initial explanation. Then, MUST respond with either "Correct" or "Incorrect" (without quotes or punctuation) on its own line based on the content and correctness.
        This should correspond to whether the Chatbot Answer and the Golden Answer are semantically the same or different, respectively.
        Then, repeat your final answer on a new line."""

  i += 1
  response = get_completion(prompt)


  if "Correct" in response:
    correct += 1
    res = "correct"
  if "Incorrect" in response:
    incorrect += 1
    res = "incorrect"
  # df.append({'question': query, 'groundtruth': answer, "chatbot_response": result, "result": res}, ignore_index=True)
  df = pd.concat([df, pd.DataFrame([[query, answer, result, res]], columns=df.columns)], ignore_index=True)
  print(f"{i}, Response: {response}\n", )



In [None]:
df.head()

Unnamed: 0,question,groundtruth,chatbot_response,result
0,Giá vào sân trượt băng Landmark 81 ?,Vé người lớn 220.000 VNĐ/người. Vé trẻ em 150....,not relevant,incorrect
1,Diện tích sân trượt băng Vincom Ice Rink của L...,"Với tổng diện tích 2.002m2, sức chứa lên tới 2...",Diện tích sân trượt băng Vincom Ice Rink của L...,correct
2,Gửi xe máy ở đâu khi đến Landmark 81 ?,"Bạn có thể gửi xe dưới tầng hầm B2, B3 của tòa...",,incorrect
3,Các tuyến xe buýt gần Landmark ?,"Nếu di chuyển bằng xe bus, hãy lưu ý các tuyến...",,incorrect
4,Công ty Atkins thiết kế Landmark là công ty gì ?,Đây là một công ty dịch vụ tại Anh chuyên về t...,Công ty Atkins là một công ty dịch vụ tại Anh ...,correct


In [None]:
# df.to_csv("result_with_content.csv", index=False)
df.to_csv("result_with_content_new.csv", index=False)

In [None]:
pd.read_csv("/content/result_with_content_new.csv")

Unnamed: 0,question,groundtruth,chatbot_response,result
0,Giá vào sân trượt băng Landmark 81 ?,Vé người lớn 220.000 VNĐ/người. Vé trẻ em 150....,not relevant,incorrect
1,Diện tích sân trượt băng Vincom Ice Rink của L...,"Với tổng diện tích 2.002m2, sức chứa lên tới 2...",Diện tích sân trượt băng Vincom Ice Rink của L...,correct
2,Gửi xe máy ở đâu khi đến Landmark 81 ?,"Bạn có thể gửi xe dưới tầng hầm B2, B3 của tòa...",,incorrect
3,Các tuyến xe buýt gần Landmark ?,"Nếu di chuyển bằng xe bus, hãy lưu ý các tuyến...",,incorrect
4,Công ty Atkins thiết kế Landmark là công ty gì ?,Đây là một công ty dịch vụ tại Anh chuyên về t...,Công ty Atkins là một công ty dịch vụ tại Anh ...,correct
...,...,...,...,...
95,Phân biệt men ta và men tàu ?,Vào thời kỳ đó hiếm có hóa chất nhập khẩu dùng...,Men ta là hợp chất men được nghệ nhân pha chế ...,correct
96,"Vì sao vào năm 1911, ngôi chợ bị phá ?","Tuy nhiên, khoảng giữa năm 1911, ngôi chợ trở ...","Để tránh tai họa, người ta phải phá chợ vì nó ...",incorrect
97,Vì sao thời xưa chợ Bến thành luôn luôn nhộn n...,Do vị trí nằm giao điểm của khu đô thị và hợp ...,Vì chợ Bến Thành là nơi buôn bán và trao đổi h...,correct
98,Vì sao chợ Bến Thành bị thiêu hủy vào năm 1859 ?,"Vào tháng 2 năm 1859, Pháp chiếm thành Gia Địn...","Vào tháng 2 năm 1859, Pháp chiếm thành Gia Địn...",correct


In [None]:
df["result"].value_counts()

correct      76
incorrect    24
Name: result, dtype: int64

## Final result

In [None]:
import pandas as pd

def word2num(df):
    """
    Convert the "result" column values from "incorrect" and "correct" to 0 and 1, respectively.

    Args:
        df (pandas.DataFrame): The DataFrame containing the "result" column.

    Returns:
        pandas.DataFrame: The updated DataFrame.
    """
    df.loc[df["result"] == "incorrect", "result"] = 0
    df.loc[df["result"] == "correct", "result"] = 1
    return df

def add_label(df, num):
    """
    Add a new column "label" with the given value to the DataFrame.

    Args:
        df (pandas.DataFrame): The DataFrame to add the column to.
        num (str): The value to assign to the "label" column.

    Returns:
        pandas.DataFrame: The updated DataFrame.
    """
    df["label"] = num
    return df

def concat(df_with, df_without):
    """
    Concatenate two DataFrames.

    Args:
        df_with (pandas.DataFrame): The first DataFrame.
        df_without (pandas.DataFrame): The second DataFrame.

    Returns:
        pandas.DataFrame: The concatenated DataFrame.
    """
    return pd.concat([df_with, df_without], ignore_index=True)

def processing(df_with, df_without):
    """
    Process the DataFrames by converting "result" values to numbers and adding labels.

    Args:
        df_with (pandas.DataFrame): The DataFrame with content.
        df_without (pandas.DataFrame): The DataFrame without content.

    Returns:
        pandas.DataFrame: The processed DataFrame.
    """
    # Convert "result" values to numbers and add labels
    df_with = add_label(word2num(df_with), 1)
    df_without = add_label(word2num(df_without), 0)

    # Concatenate the DataFrames
    df = concat(df_with, df_without)

    return df

# Read the input DataFrames
df_with_content = pd.read_csv("/content/result_with_content.csv")
df_without_content = pd.read_csv("/content/result_without_content.csv")

# Process the DataFrames
df = processing(df_with_content, df_without_content)

In [None]:
df.to_csv("final_result.csv", index=False)

### Quickstart

In [None]:
import pandas as pd
df = pd.read_csv("/content/final_result.csv")
df

Unnamed: 0,question_number,question,groundtruth,chatbot_response,accuracy,label
0,1,Xin hãy giới thiệu về chợ Bến Thành ?,Chợ Bến Thành là một ngôi chợ lớn nằm ở trung ...,Chợ Bến Thành là một trong những điểm đến nổi ...,1,0
1,2,Vì sao chợ Bến Thành bị thiêu hủy vào năm 1859 ?,"Vào tháng 2 năm 1859, Pháp chiếm thành Gia Địn...",Chợ Bến Thành bị thiêu hủy vào năm 1859 do cuộ...,1,0
2,3,Vì sao thời xưa chợ Bến thành luôn luôn nhộn n...,Do vị trí nằm giao điểm của khu đô thị và hợp ...,Chợ Bến Thành ở thành phố Hồ Chí Minh là một t...,1,0
3,4,"Vì sao vào năm 1911, ngôi chợ bị phá ?","Tuy nhiên, khoảng giữa năm 1911, ngôi chợ trở ...","Vào năm 1911, ngôi chợ bị phá là do cuộc khởi ...",1,0
4,5,Phân biệt men ta và men tàu ?,Vào thời kỳ đó hiếm có hóa chất nhập khẩu dùng...,Men ta và men tàu là hai loại men được sử dụng...,0,0
...,...,...,...,...,...,...
195,196,Công ty Atkins thiết kế Landmark là công ty gì ?,Đây là một công ty dịch vụ tại Anh chuyên về t...,Công ty Atkins là một công ty dịch vụ tại Anh ...,1,1
196,197,Các tuyến xe buýt gần Landmark ?,"Nếu di chuyển bằng xe bus, hãy lưu ý các tuyến...","Xe số 06 từ Quận 5, Xe số 30 từ quận Tân Phú, ...",0,1
197,198,Gửi xe máy ở đâu khi đến Landmark 81 ?,"Bạn có thể gửi xe dưới tầng hầm B2, B3 của tòa...",,0,1
198,199,Diện tích sân trượt băng Vincom Ice Rink của L...,"Với tổng diện tích 2.002m2, sức chứa lên tới 2...",2.002m2,0,1


In [None]:
# df.rename(columns={"index": "question_number"}, inplace=True)
# df.to_csv("final_result_new.csv", index=False)
# pd.read_csv("/content/final_result_new.csv")


# Make Graph Charts

In [None]:
import pandas as pd
df = pd.read_csv("/content/final_result_new.csv")
df

Unnamed: 0,question_number,question,groundtruth,chatbot_response,accuracy,label
0,1,Xin hãy giới thiệu về chợ Bến Thành ?,Chợ Bến Thành là một ngôi chợ lớn nằm ở trung ...,Chợ Bến Thành là một trong những điểm đến nổi ...,1,0
1,2,Vì sao chợ Bến Thành bị thiêu hủy vào năm 1859 ?,"Vào tháng 2 năm 1859, Pháp chiếm thành Gia Địn...",Chợ Bến Thành bị thiêu hủy vào năm 1859 do cuộ...,1,0
2,3,Vì sao thời xưa chợ Bến thành luôn luôn nhộn n...,Do vị trí nằm giao điểm của khu đô thị và hợp ...,Chợ Bến Thành ở thành phố Hồ Chí Minh là một t...,1,0
3,4,"Vì sao vào năm 1911, ngôi chợ bị phá ?","Tuy nhiên, khoảng giữa năm 1911, ngôi chợ trở ...","Vào năm 1911, ngôi chợ bị phá là do cuộc khởi ...",1,0
4,5,Phân biệt men ta và men tàu ?,Vào thời kỳ đó hiếm có hóa chất nhập khẩu dùng...,Men ta và men tàu là hai loại men được sử dụng...,0,0
...,...,...,...,...,...,...
195,196,Công ty Atkins thiết kế Landmark là công ty gì ?,Đây là một công ty dịch vụ tại Anh chuyên về t...,Công ty Atkins là một công ty dịch vụ tại Anh ...,1,1
196,197,Các tuyến xe buýt gần Landmark ?,"Nếu di chuyển bằng xe bus, hãy lưu ý các tuyến...","Xe số 06 từ Quận 5, Xe số 30 từ quận Tân Phú, ...",0,1
197,198,Gửi xe máy ở đâu khi đến Landmark 81 ?,"Bạn có thể gửi xe dưới tầng hầm B2, B3 của tòa...",,0,1
198,199,Diện tích sân trượt băng Vincom Ice Rink của L...,"Với tổng diện tích 2.002m2, sức chứa lên tới 2...",2.002m2,0,1


In [None]:
df_3 = df.head(10)[["question_number", "accuracy", "label"]].copy().to_dict()
df_3

{'question_number': {0: 1,
  1: 2,
  2: 3,
  3: 4,
  4: 5,
  5: 6,
  6: 7,
  7: 8,
  8: 9,
  9: 10},
 'accuracy': {0: 1, 1: 1, 2: 1, 3: 1, 4: 0, 5: 0, 6: 1, 7: 1, 8: 0, 9: 1},
 'label': {0: 0, 1: 0, 2: 0, 3: 0, 4: 0, 5: 0, 6: 0, 7: 0, 8: 0, 9: 0}}

In [None]:
def convert_dict(ori_dict):
  converted_dict = {key: list(value.values()) for key, value in ori_dict.items()}
  return converted_dict

test = convert_dict(df_3)
test

{'question_number': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
 'accuracy': [1, 1, 1, 1, 0, 0, 1, 1, 0, 1],
 'label': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]}

**Question:** What type of graph chart to visualize with 0 and 1 value?
* Bar
* Pie
* Line

* ...

**Question:** Please use this input data: {'question_number': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
'accuracy': [1, 1, 1, 1, 0, 0, 1, 1, 0, 1],
'label': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]}, then, visualize all graph charts by plotly that can be. => *Common question, not specific one*

In [None]:
import plotly.graph_objects as go

data = {'question_number': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
        'accuracy': [1, 1, 1, 1, 0, 0, 1, 1, 0, 1],
        'label': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]}

question_numbers = data['question_number']
accuracies = data['accuracy']

# Bar Chart
fig = go.Figure(data=[go.Bar(x=question_numbers, y=accuracies)])
fig.update_layout(title='Accuracy of Questions', xaxis_title='Question Number', yaxis_title='Accuracy')

fig.show()

# Pie Chart
labels = ['Accuracy 0', 'Accuracy 1']
count_0 = accuracies.count(0)
count_1 = accuracies.count(1)
sizes = [count_0, count_1]

fig = go.Figure(data=[go.Pie(labels=labels, values=sizes)])
fig.update_layout(title='Distribution of Accuracy')

fig.show()

# Line Chart
fig = go.Figure(data=[go.Scatter(x=question_numbers, y=accuracies, mode='lines+markers')])
fig.update_layout(title='Accuracy Trend', xaxis_title='Question Number', yaxis_title='Accuracy')

fig.show()

# Line plot

**Question:**  Make a line plot using plotly so that x-axis contains 0 and 1 values of accuracy and y-axis display the amount of those value. Using this data: {'question_number': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
'accuracy': [1, 1, 1, 1, 0, 0, 1, 1, 0, 1],
'label': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]}.


In [None]:
import plotly.graph_objects as go
import pandas as pd

# data = {'accuracy': [1, 1, 1, 1, 0, 0, 1, 1, 0, 1]}
# df = pd.DataFrame(data)

value_counts = df['accuracy'].value_counts()

x = ['0', '1']
y = [value_counts[0], value_counts[1]]

fig = go.Figure(data=go.Scatter(x=x, y=y, mode='lines'))
fig.update_layout(title='Accuracy Distribution', xaxis_title='Accuracy', yaxis_title='Amount')
fig.show()

**Question:** Now, make a line plot using plotly that x-axis is question_number and y-axis display two values: 0 and 1. Using this data: {'question_number': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
'accuracy': [1, 1, 1, 1, 0, 0, 1, 1, 0, 1],
'label': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]}

In [None]:
import plotly.graph_objects as go


fig = go.Figure(data=go.Scatter(x=df['question_number'], y=df['accuracy'], mode='lines'))
fig.update_layout(title='Accuracy by Question Number', xaxis_title='Question Number', yaxis_title='Accuracy')
fig.show()

# Pie plot

**Question:** Make pie plot with data I have just provided

In [None]:
labels = ['Label 0', 'Label 1']
accuracy_counts = df['accuracy'].value_counts().values.tolist()

fig = go.Figure(data=go.Pie(labels=labels, values=accuracy_counts))

fig.update_layout(title='Accuracy Distribution')

fig.show()

**Question:** Please create 2 pie plot representing "accuracy" by plotly such that each plot corresponding to a "label". Using this input dataframe: {'question_number': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
'accuracy': [1, 1, 1, 1, 0, 0, 1, 1, 0, 1],
'label': [0, 0, 0, 0, 0, 1,1,1,1,1]}

In [None]:
import plotly.graph_objects as go
import pandas as pd

# data = {'question_number': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
#         'accuracy': [1, 1, 1, 1, 0, 0, 1, 1, 0, 1],
#         'label': [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]}

# df = pd.DataFrame(data)

# Pie Plot for Label 0
accuracy_label_0 = df[df['label'] == 0]['accuracy']
count_0 = accuracy_label_0[accuracy_label_0 == 0].count()
count_1 = accuracy_label_0[accuracy_label_0 == 1].count()
sizes_label_0 = [count_0, count_1]
labels_label_0 = ['Accuracy 0', 'Accuracy 1']

fig = go.Figure(data=[go.Pie(labels=labels_label_0, values=sizes_label_0)])
fig.update_layout(title='Accuracy for Label 0')

fig.show()

# Pie Plot for Label 1
accuracy_label_1 = df[df['label'] == 1]['accuracy']
count_0 = accuracy_label_1[accuracy_label_1 == 0].count()
count_1 = accuracy_label_1[accuracy_label_1 == 1].count()
sizes_label_1 = [count_0, count_1]
labels_label_1 = ['Accuracy 0', 'Accuracy 1']

fig = go.Figure(data=[go.Pie(labels=labels_label_1, values=sizes_label_1)])
fig.update_layout(title='Accuracy for Label 1')

fig.show()

# Bar plot

**Question:** Make a bar plot using plotly that x-axis is 'accuracy' containing only 0 and 1 values. y-axis is the sum of those values. Using this data: {'question_number': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
'accuracy': [1, 1, 1, 1, 0, 0, 1, 1, 0, 1],
'label': [0, 0, 0, 0, 0, 1,1,1,1,1]}

In [None]:
import plotly.graph_objects as go
import pandas as pd

# data = {'question_number': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
#         'accuracy': [1, 1, 1, 1, 0, 0, 1, 1, 0, 1],
#         'label': [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]}

# df = pd.DataFrame(data)

accuracy_counts = df['accuracy'].value_counts()
x_values = ['Accuracy 0', 'Accuracy 1']
y_values = [accuracy_counts[0], accuracy_counts[1]]

fig = go.Figure(data=[go.Bar(x=x_values, y=y_values)])
fig.update_layout(title='Sum of Accuracy Values', xaxis_title='Accuracy', yaxis_title='Count')

fig.show()

**Question:** Now, make a bar plot using plotly that x-axis is 'label' containing only 0 and 1 values. Also in each values, it has 2 columns for each 'accuracy' value which just contain 0 and 1 values. y-axis is the amount of 'accuracy'. Using this data: {'question_number': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
'accuracy': [1, 1, 1, 1, 0, 0, 1, 1, 0, 1],
'label': [0, 0, 0, 0, 0, 1,1,1,1,1]}

In [None]:
import numpy as np
labels = ['0', '1']
accuracy_values = np.unique(df['accuracy'])

accuracy_counts_0 = [df['accuracy'][i] for i in range(len(df['accuracy'])) if df['label'][i] == 0]
accuracy_counts_1 = [df['accuracy'][i] for i in range(len(df['accuracy'])) if df['label'][i] == 1]

fig = go.Figure()

for accuracy_value in accuracy_values:
    counts = [accuracy_counts_0.count(accuracy_value), accuracy_counts_1.count(accuracy_value)]
    fig.add_trace(go.Bar(name=str(accuracy_value), x=labels, y=counts))

fig.update_layout(title='Accuracy by Label', xaxis_title='Label', yaxis_title='Amount')
fig.show()

**Question:** Now, make a bar plot using plotly that x-axis is 'label' containing only 0 and 1 values. Also each value of "label" have a column that contain 2 values stacked together for each 'accuracy' value. Using this data: {'question_number': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
'accuracy': [1, 1, 1, 1, 0, 0, 1, 1, 0, 1],
'label': [0, 0, 0, 0, 0, 1,1,1,1,1]}

In [None]:
grouped_df = df.groupby(['label', 'accuracy']).size().unstack(fill_value=0)

labels = ['0', '1']
accuracy_values = [0, 1]

fig = go.Figure()

for accuracy_value in accuracy_values:
    counts = grouped_df[accuracy_value]
    fig.add_trace(go.Bar(name=str(accuracy_value), x=labels, y=counts))

fig.update_layout(title='Accuracy by Label', xaxis_title='Label', yaxis_title='Amount', barmode='stack')
fig.show()

**Question:** can you make it more professional?

In [None]:
grouped_df = df.groupby(['label', 'accuracy']).size().unstack(fill_value=0)

labels = ['0', '1']
accuracy_values = [0, 1]

fig = go.Figure()

colors = ['#1f77b4', '#ff7f0e']  # Custom colors for the bars

for i, accuracy_value in enumerate(accuracy_values):
    counts = grouped_df[accuracy_value]
    fig.add_trace(go.Bar(
        name=str(accuracy_value),
        x=labels,
        y=counts,
        marker=dict(color=colors[i]),  # Assigning custom colors to the bars
        text=counts,
        textposition='auto',
        hovertemplate='%{y}',
    ))

fig.update_layout(
    title='Accuracy by Label',
    xaxis_title='Label',
    yaxis_title='Amount',
    barmode='stack',
    legend=dict(
        title='Accuracy',
        orientation='h',
        yanchor='bottom',
        y=1.02,
        xanchor='right',
        x=1,
        bgcolor='rgba(255, 255, 255, 0.5)',  # Setting the background color of the legend
    ),
    plot_bgcolor='rgba(240, 240, 240, 0.8)',  # Setting the plot background color
    paper_bgcolor='rgba(240, 240, 240, 0.8)',  # Setting the paper (outer) background color
    font=dict(
        family='Arial',
        size=12,
        color='#333333'
    )
)

fig.show()

**Question:** move the number position inside column to the center

In [None]:
grouped_df = df.groupby(['label', 'accuracy']).size().unstack(fill_value=0)

labels = ['0', '1']
accuracy_values = [0, 1]

fig = go.Figure()

colors = ['#1f77b4', '#ff7f0e']  # Custom colors for the bars

for i, accuracy_value in enumerate(accuracy_values):
    counts = grouped_df[accuracy_value]

    fig.add_trace(go.Bar(
        name=str(accuracy_value),
        x=labels,
        y=counts,
        marker=dict(color=colors[i]),  # Assigning custom colors to the bars
        text=counts,
        textposition='auto',
        hovertemplate='%{y}',
        texttemplate='%{y}',  # Displaying the count values as text
        textfont=dict(color='white'),  # Setting the color of the text
        insidetextanchor='middle',  # Positioning the text inside each bar at the center
    ))

fig.update_layout(
    title='Accuracy by Label',
    xaxis_title='Label',
    yaxis_title='Amount',
    barmode='stack',
    legend=dict(
        title='Accuracy',
        orientation='h',
        yanchor='bottom',
        y=1.02,
        xanchor='right',
        x=1,
        bgcolor='rgba(255, 255, 255, 0.5)',  # Setting the background color of the legend
    ),
    plot_bgcolor='rgba(240, 240, 240, 0.8)',  # Setting the plot background color
    paper_bgcolor='rgba(240, 240, 240, 0.8)',  # Setting the paper (outer) background color
    font=dict(
        family='Arial',
        size=12,
        color='#333333'
    )
)

fig.show()

## code to evaluate

In [None]:
eval = df.head(2).copy()
eval = {key: list(value.values()) for key, value in eval.to_dict().items()}
eval

{'question_number': [1, 2],
 'question': ['Xin hãy giới thiệu về chợ Bến Thành ?',
  'Vì sao chợ Bến Thành bị thiêu hủy vào năm 1859 ?'],
 'groundtruth': ['Chợ Bến Thành là một ngôi chợ lớn nằm ở trung tâm thành phố. Từ một khu chợ được dựng bên bờ sông Bến Nghé vào thế kỷ 17, chợ Bến Thành chuyển mình thành một công trình kiên cố mang tính biểu tượng của Sài Gòn. Ban đầu, khu chợ được xây bằng gạch, sườn gỗ và lợp tranh, nằm cạnh một bến sông gần thành Gia Định. Bến này dùng để đón khách vãng lai và quân nhân vào thành, nên có tên gọi là Bến Thành, và vì thế, khu chợ cũng được gọi theo là chợ Bến Thành. Tuy nhiên, vào khoảng giữa năm 1911, khu chợ trở nên xuống cấp và có nguy cơ bị sụp đổ. Để tránh rủi ro, người Pháp đã chọn khu vực ao Bồ Rệt (Marais Boresse), lấp bằng và quy hoạch 4 mặt đường, từ đó xây dựng một ngôi chợ mới vững chãi hơn. Đó chính là vị trí chợ Bến Thành cho đến nay. Sau hơn 100 năm hiện diện cùng với những đổi thay của thành phố lịch sử này, hình ảnh chợ Bến Thành 

Using this data: {eval}. Then please propose a method to evaluate accuracy.


To evaluate the accuracy of the chatbot's responses, you can use the following method:

1. Calculate Statement-Level Accuracy:

* Compare each chatbot response with the corresponding ground truth statement.
* Check if the chatbot's response matches the ground truth statement exactly.
* Calculate the percentage of statements where the chatbot's response matches the ground truth.
2. Calculate Word-Level Accuracy:

* Tokenize both the chatbot's response and the ground truth statement into individual words.
* Compare the tokenized responses word by word.
* Calculate the percentage of matching words between the chatbot's response and the ground truth.
3. Calculate Question-Level Accuracy:

* Consider each question as a unit.
* Calculate the average accuracy of all the statements in a question.
* Obtain the question-level accuracy by averaging the statement accuracies for each question.
4. Calculate Overall Accuracy:

* Calculate the average accuracy of all the questions.
* Obtain the overall accuracy by averaging the question-level accuracies.
* Here's a step-by-step example of how you can calculate the accuracy using the provided data:

In [None]:
statement_accuracies = df['accuracy']
question_accuracies = [sum(statement_accuracies) / len(statement_accuracies)]
overall_accuracy = sum(question_accuracies) / len(question_accuracies)

print("Statement-Level Accuracies:", statement_accuracies)
print("Question-Level Accuracies:", question_accuracies)
print("Overall Accuracy:", overall_accuracy)

Statement-Level Accuracies: 0      1
1      1
2      1
3      1
4      0
      ..
195    1
196    0
197    0
198    0
199    0
Name: accuracy, Length: 200, dtype: int64
Question-Level Accuracies: [0.71]
Overall Accuracy: 0.71


# End