In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

In [None]:
chat_df = pd.read_csv('chat_example.csv', index_col=0)

chat_df

In [None]:
form_df = pd.read_csv('form_example.csv')
form_df

In [None]:
both_df = pd.concat([form_df, chat_df])
both_df

In [None]:
form_text_len = [len(text.split(' ')) for text in form_df['text']]
chat_text_len = [len(text.split(' ')) for text in chat_df['text']]

In [None]:
plt.style.use('ggplot')

In [None]:
plt.figure(figsize=(8, 8))
bars = plt.bar(['Ankieta', 'ChatGPT-3.5'], [len(form_df), len(chat_df)], color=['green', 'darkblue'])
plt.title('Pochodzenie próbek danych wykorzystanych podczas tworzenia algorytmu')

for bar in bars:
    yval = bar.get_height()
    plt.text(bar.get_x() + bar.get_width()/2, yval + 1, round(yval, 2), ha='center', va='bottom')

plt.tight_layout(pad=1)
plt.savefig('imgs/img7.png')
plt.show()

In [None]:
plt.figure(figsize=(8, 8))
plt.title('Rozkład długości tekstów pochodzących\nwygenerowanych za pomocą ChatGPT-3.5')
plt.hist(chat_text_len , bins=20, color='darkblue')

plt.tight_layout(pad=1)
plt.savefig('imgs/img8.png')
plt.show()

In [None]:
plt.figure(figsize=(8, 8))
plt.hist(form_text_len , bins=20, color='green')
plt.title('Rozkład długości tekstów pozyskanych za pomocą ankiety')

plt.tight_layout(pad=1)
plt.savefig('imgs/img9.png')
plt.show()

In [None]:
plt.figure(figsize=(16, 8))
plt.hist(chat_text_len+form_text_len , bins=40, color='teal')
plt.title('Rozkład długości wszystkich próbek danych wykorzystanych podczas tworzenia algorytmu')

plt.tight_layout(pad=1)
plt.savefig('imgs/imgXX.png')
plt.show()

In [None]:
categories = list(both_df.columns)[2:]
categories[:3]

In [None]:
value_counts_chat_df = chat_df[categories].apply(pd.value_counts).fillna(0)
value_counts_chat_df

In [None]:
zeros = pd.DataFrame({category: [0] for category in categories})
zeros

In [None]:
value_counts_chat_df = pd.concat([zeros, value_counts_chat_df])
value_counts_chat_df

In [None]:
plt.figure(figsize=(16, 8))
plt.bar(categories, value_counts_chat_df.iloc[0], label=0)

for i in range(1, 6):
  plt.bar(categories, value_counts_chat_df.iloc[i], bottom=value_counts_chat_df.iloc[:i].sum(), label=i)

plt.title('Rozkład ocen przyznawanych poszczególnym kategoriom atrakcji turystycznych w danych wygenerowanych przez ChatGPT-3.5')
plt.legend(loc='upper right')
plt.xticks(rotation='vertical')


plt.tight_layout(pad=1)
plt.savefig('imgs/img10.png')
plt.show()

In [None]:
value_counts_form_df = form_df[categories].apply(pd.value_counts).fillna(0)

plt.figure(figsize=(16, 8))
plt.bar(categories, value_counts_form_df.iloc[0], label=0)

for i in range(1, 6):
  plt.bar(categories, value_counts_form_df.iloc[i], bottom=value_counts_form_df.iloc[:i].sum(), label=i)

plt.title('Rozkład ocen przyznawanych poszczególnym kategoriom atrakcji turystycznych w danych zebranych za pomocą ankiety')
plt.legend(loc='upper right')
plt.xticks(rotation='vertical')
plt.tight_layout(pad=1)
plt.savefig('imgs/img11.png')
plt.show()

In [None]:
grades_num_chat = value_counts_chat_df.sum(axis=1)

plt.figure(figsize=(8, 8))
plt.bar(range(6), grades_num_chat, color='darkblue')
plt.title('Rozkład wszystkich ocen przyznanych przez ChatGPT-3.5')

plt.tight_layout(pad=1)
plt.savefig('imgs/img12.png')
plt.show()


In [None]:
grades_num_form = value_counts_form_df.sum(axis=1)

plt.figure(figsize=(8, 8))
plt.bar(range(6), grades_num_form, color='green')
plt.title('Rozkład wszystkich ocen przyznanych przez ankietowanych')

plt.tight_layout(pad=1)
plt.savefig('imgs/img13.png')
plt.show()

In [None]:
def convert_to_binary(df, cols):
  means = df[cols].mean(axis=1)
  pref_df = pd.DataFrame()

  for col in cols:
    pref_df[col] = df[col] >= means

  return pref_df.astype(int)

In [None]:
scaled_chat_df = convert_to_binary(chat_df, categories)
scaled_chat_df.head(3)

In [None]:
value_counts_scaled_chat_df = scaled_chat_df[categories].apply(pd.value_counts).fillna(0)

plt.figure(figsize=(16, 8))
plt.bar(categories, value_counts_scaled_chat_df.iloc[0], label='Not like')
plt.bar(categories, value_counts_scaled_chat_df.iloc[1], bottom=value_counts_scaled_chat_df.iloc[0], label='Like')

plt.title('Like or not like PoI types - AI-generated')
plt.legend(loc='upper right')
plt.xticks(rotation='vertical')

plt.show()

In [None]:
column_order = value_counts_scaled_chat_df.iloc[1].argsort()
sorted_value_counts_scaled_chat_df = value_counts_scaled_chat_df.iloc[:, column_order]
sorted_value_counts_scaled_chat_df

In [None]:
plt.figure(figsize=(16, 8))
plt.bar(sorted_value_counts_scaled_chat_df.columns, sorted_value_counts_scaled_chat_df.iloc[0], label='Not like')
plt.bar(sorted_value_counts_scaled_chat_df.columns, sorted_value_counts_scaled_chat_df.iloc[1], bottom=sorted_value_counts_scaled_chat_df.iloc[0], label='Like')

plt.title('Rozkład klas pozytywnych i negatywnych dla poszczególnych kategorii atrakcji turystycznych w danych wygenerowanych przez ChatGPT-3.5')
plt.legend(loc='upper right')
plt.xticks(rotation='vertical')

plt.tight_layout(pad=1)
plt.savefig('imgs/img14.png')
plt.show()

In [None]:
scaled_form_df = convert_to_binary(form_df, categories)
scaled_form_df.head(3)

In [None]:
value_counts_scaled_form_df = scaled_form_df[categories].apply(pd.value_counts).fillna(0)

plt.figure(figsize=(16, 8))
plt.bar(categories, value_counts_scaled_form_df.iloc[0], label='Not like')
plt.bar(categories, value_counts_scaled_form_df.iloc[1], bottom=value_counts_scaled_form_df.iloc[0], label='Like')

plt.title('Rozkład klas pozytywnych i negatywnych dla poszczególnych kategorii atrakcji turystycznych w danych zebranych za pomocą ankiety')
plt.legend(loc='upper right')
plt.xticks(rotation='vertical')

plt.tight_layout(pad=1)
plt.savefig('imgs/img15.png')
plt.show()

In [None]:
column_order = value_counts_scaled_form_df.iloc[1].argsort()
sorted_value_counts_scaled_form_df = value_counts_scaled_form_df.iloc[:, column_order]
sorted_value_counts_scaled_form_df

In [None]:
plt.figure(figsize=(16, 8))
plt.bar(sorted_value_counts_scaled_form_df.columns, sorted_value_counts_scaled_form_df.iloc[0], label='Not like')
plt.bar(sorted_value_counts_scaled_form_df.columns, sorted_value_counts_scaled_form_df.iloc[1], bottom=sorted_value_counts_scaled_form_df.iloc[0], label='Like')

plt.title('Rozkład klas pozytywnych i negatywnych dla poszczególnych kategorii atrakcji turystycznych w danych zebranych za pomocą ankiety')
plt.legend(loc='upper right')
plt.xticks(rotation='vertical')

plt.tight_layout(pad=1)
plt.savefig('imgs/img15.png')
plt.show()

In [None]:
!zip -r /content/imgs_eda.zip /content/imgs

In [None]:
! ls

In [None]:
plt.figure(figsize=(8, 8))
plt.title('Form vs AI-generated data - boxplot\n(number of positive rates for categories)')
plt.boxplot([value_counts_scaled_form_df.iloc[1]/len(form_df), value_counts_scaled_chat_df.iloc[1]/len(chat_df)], labels=['Form', 'AI-generated'])
plt.show()