# Generate questions for the test

In [1]:
import pandas as pd
import numpy as np

### Preprocess table 1
The data is parsed as html table from [here](https://psycabi.net/testy/388-test-bolshaya-pyaterka-pyatifaktornyj-lichnostnyj-oprosnik-r-makkrae-p-kosta-metodika-diagnostiki-lichnostnykh-faktorov-temperamenta-i-kharaktera-5pfq)

In [2]:
# read the txt file with html table body content
with open("html_table_1.txt", "r") as file:
    table_body = file.read()

# convert the table body to a dataframe
table_df_1 = pd.read_html(table_body)[0]

# Create new text column as text0 + text1 and remove first number and dot
table_df_1[0] = table_df_1[0].str.replace(r"^\d+\.\s", "", regex=True)
table_df_1["Questions"] = "Оцените противопоставление:\n\n1. " + table_df_1[0] + "\nи\n2. " + table_df_1[6]


# Add answer columns filled with "Соглашусь с 1", "Скорее соглашусь с 1", "Не знаю", "Скорее соглашусь с 2", "Соглашусь с 2"
table_df_1 = table_df_1.assign(Ans_1="Соглашусь с 1", Ans_2="Скорее 1", Ans_3="Не знаю", Ans_4="Скорее 2", Ans_5="Соглашусь с 2")

# drop first 7 columns
table_df_1 = table_df_1.drop([0, 1, 2, 3, 4, 5, 6], axis=1)

# add required column
table_df_1["Required"] = True

# add column for imported from and index
table_df_1["Imported_From"] = "test_1"
table_df_1["Index"] = range(0, len(table_df_1))

table_df_1

Unnamed: 0,Questions,Ans_1,Ans_2,Ans_3,Ans_4,Ans_5,Required,Imported_From,Index
0,Оцените противопоставление:\n\n1. Мне нравится...,Соглашусь с 1,Скорее 1,Не знаю,Скорее 2,Соглашусь с 2,True,test_1,0
1,Оцените противопоставление:\n\n1. Люди считают...,Соглашусь с 1,Скорее 1,Не знаю,Скорее 2,Соглашусь с 2,True,test_1,1
2,Оцените противопоставление:\n\n1. Я во всем це...,Соглашусь с 1,Скорее 1,Не знаю,Скорее 2,Соглашусь с 2,True,test_1,2
3,Оцените противопоставление:\n\n1. Меня часто б...,Соглашусь с 1,Скорее 1,Не знаю,Скорее 2,Соглашусь с 2,True,test_1,3
4,Оцените противопоставление:\n\n1. Все новое вы...,Соглашусь с 1,Скорее 1,Не знаю,Скорее 2,Соглашусь с 2,True,test_1,4
...,...,...,...,...,...,...,...,...,...
70,Оцените противопоставление:\n\n1. Мне нравится...,Соглашусь с 1,Скорее 1,Не знаю,Скорее 2,Соглашусь с 2,True,test_1,70
71,Оцените противопоставление:\n\n1. Некоторые го...,Соглашусь с 1,Скорее 1,Не знаю,Скорее 2,Соглашусь с 2,True,test_1,71
72,Оцените противопоставление:\n\n1. Я точно и ме...,Соглашусь с 1,Скорее 1,Не знаю,Скорее 2,Соглашусь с 2,True,test_1,72
73,Оцените противопоставление:\n\n1. Иногда я быв...,Соглашусь с 1,Скорее 1,Не знаю,Скорее 2,Соглашусь с 2,True,test_1,73


### Preprocess table 2
The data is parsed as html table from [here](https://studme.org/125008/psihologiya/koping_povedenie_stressovyh_situatsiyah)

In [3]:

# Df for stacking the table body
table_df_2 = pd.DataFrame(columns=["Questions", "Ans_1", "Ans_2", "Ans_3", "Ans_4", "Ans_5"])

# read the txt file with html table body content
for i in range(1, 4):
    with open(f"html_table_2_{i}.txt", "r") as file:
        table_body = file.read()

    # convert the table body to a dataframe
    table_body_df = pd.read_html(table_body)[0]

    # drop first row
    table_body_df = table_body_df.drop(0)

    # drop first column
    table_body_df = table_body_df.drop(0, axis=1)

    # rename columns
    table_body_df.columns = ["Questions", "Ans_1", "Ans_2", "Ans_3", "Ans_4", "Ans_5"]

    # append to df
    table_df_2 = table_df_2.append(table_body_df, ignore_index=True)

# for the last row set answers as 1, 2, 3, 4, 5 (костыль)
table_df_2.iloc[-1, 1:] = [1, 2, 3, 4, 5]


# For each question for 60% probability make it lowercase and add "Я"
for i in range(0, len(table_df_2)):
    if np.random.rand() < 0.6:
        table_df_2["Questions"].iloc[i] = f"Оцените утверждение:" \
                                          f"" \
                                          f"Я {table_df_2['Questions'].iloc[i].lower()}"
    else:
        table_df_2["Questions"].iloc[i] = f"Оцените утверждение:\n\n{table_df_2['Questions'].iloc[i]}"

# set all answers to "Не соглашусь", "Скорее не соглашусь", "Не знаю", "Скорее соглашусь", "Соглашусь"
table_df_2.iloc[:, 1:] = ["Не соглашусь", "Скорее не соглашусь", "Не знаю", "Скорее соглашусь", "Соглашусь"]

# add required column
table_df_2["Required"] = True

# add column for imported from and index
table_df_2["Imported_From"] = "test_2"
table_df_2["Index"] = range(0, len(table_df_2))

table_df_2

Unnamed: 0,Questions,Ans_1,Ans_2,Ans_3,Ans_4,Ans_5,Required,Imported_From,Index
0,Оцените утверждение:\n\nЯ стараюсь тщательно р...,Не соглашусь,Скорее не соглашусь,Не знаю,Скорее соглашусь,Соглашусь,True,test_2,0
1,Оцените утверждение:\n\nСосредоточиваюсь на пр...,Не соглашусь,Скорее не соглашусь,Не знаю,Скорее соглашусь,Соглашусь,True,test_2,1
2,Оцените утверждение:\n\nЯ думаю о чем-то хорош...,Не соглашусь,Скорее не соглашусь,Не знаю,Скорее соглашусь,Соглашусь,True,test_2,2
3,Оцените утверждение:\n\nСтараюсь быть на людях,Не соглашусь,Скорее не соглашусь,Не знаю,Скорее соглашусь,Соглашусь,True,test_2,3
4,Оцените утверждение:\n\nВиню себя за нерешител...,Не соглашусь,Скорее не соглашусь,Не знаю,Скорее соглашусь,Соглашусь,True,test_2,4
5,"Оцените утверждение:\n\nЯ делаю то, что считаю...",Не соглашусь,Скорее не соглашусь,Не знаю,Скорее соглашусь,Соглашусь,True,test_2,5
6,Оцените утверждение:\n\nПогружаюсь в свою боль...,Не соглашусь,Скорее не соглашусь,Не знаю,Скорее соглашусь,Соглашусь,True,test_2,6
7,"Оцените утверждение:\n\nВиню себя за то, что о...",Не соглашусь,Скорее не соглашусь,Не знаю,Скорее соглашусь,Соглашусь,True,test_2,7
8,"Оцените утверждение:\n\nЯ хожу по магазинам, н...",Не соглашусь,Скорее не соглашусь,Не знаю,Скорее соглашусь,Соглашусь,True,test_2,8
9,"Оцените утверждение:\n\nЯ думаю о том, что для...",Не соглашусь,Скорее не соглашусь,Не знаю,Скорее соглашусь,Соглашусь,True,test_2,9


In [4]:
# merge the two dataframes
final_df = pd.concat([table_df_1, table_df_2], ignore_index=True)

final_df

Unnamed: 0,Questions,Ans_1,Ans_2,Ans_3,Ans_4,Ans_5,Required,Imported_From,Index
0,Оцените противопоставление:\n\n1. Мне нравится...,Соглашусь с 1,Скорее 1,Не знаю,Скорее 2,Соглашусь с 2,True,test_1,0
1,Оцените противопоставление:\n\n1. Люди считают...,Соглашусь с 1,Скорее 1,Не знаю,Скорее 2,Соглашусь с 2,True,test_1,1
2,Оцените противопоставление:\n\n1. Я во всем це...,Соглашусь с 1,Скорее 1,Не знаю,Скорее 2,Соглашусь с 2,True,test_1,2
3,Оцените противопоставление:\n\n1. Меня часто б...,Соглашусь с 1,Скорее 1,Не знаю,Скорее 2,Соглашусь с 2,True,test_1,3
4,Оцените противопоставление:\n\n1. Все новое вы...,Соглашусь с 1,Скорее 1,Не знаю,Скорее 2,Соглашусь с 2,True,test_1,4
...,...,...,...,...,...,...,...,...,...
118,Оцените утверждение:\n\nЯ беру отпуск или отгу...,Не соглашусь,Скорее не соглашусь,Не знаю,Скорее соглашусь,Соглашусь,True,test_2,43
119,Оцените утверждение:\n\nЯ отыгрываюсь на других,Не соглашусь,Скорее не соглашусь,Не знаю,Скорее соглашусь,Соглашусь,True,test_2,44
120,"Оцените утверждение:\n\nИспользую ситуацию, чт...",Не соглашусь,Скорее не соглашусь,Не знаю,Скорее соглашусь,Соглашусь,True,test_2,45
121,"Оцените утверждение:\n\nСтараюсь собраться, чт...",Не соглашусь,Скорее не соглашусь,Не знаю,Скорее соглашусь,Соглашусь,True,test_2,46


In [24]:
# Take a random question and print it in a corresponding format with answers with " * " signs
random_question = final_df.sample(1)

print(random_question["Questions"].values[0] + "\n")
print(f" * {random_question['Ans_1'].values[0]}")
print(f" * {random_question['Ans_2'].values[0]}")
print(f" * {random_question['Ans_3'].values[0]}")
print(f" * {random_question['Ans_4'].values[0]}")
print(f" * {random_question['Ans_5'].values[0]}")


Оцените утверждение:

Я смотрю телевизор или читаю книги

 * Не соглашусь
 * Скорее не соглашусь
 * Не знаю
 * Скорее соглашусь
 * Соглашусь


In [6]:
# Save the final df to xlsx
final_df.to_excel("Data/Generated_Questions.xlsx", index=False)