In [None]:
origin_path = 'C:/Data Science/CHATBOT_DTU_Bi_LSTM'
student_survey_path = f'{origin_path}/data/Form khảo sát sinh viên về cố vấn học tập (Responses).xlsx'
advisor_survey_path = f'{origin_path}/data/Khảo sát công tác cố vấn của giảng viên (Câu trả lời).xlsx'

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from collections import Counter

# Load data
student_data = pd.read_excel(student_survey_path)
advisor_data = pd.read_excel(advisor_survey_path)



# Display the first few rows and column names of each dataset to understand the structure and confirm column names
student_data.head(), student_data.columns, advisor_data.head(), advisor_data.columns

In [None]:
# Process Student Data for Chatbot Desire
student_desire_chatbot = student_data['Đánh giá độ mong muốn của em về một ứng dụng chatbot trả lời tự động 24/7 như một cố vấn học tập']
desire_counts = student_desire_chatbot.value_counts()

# Visualize Student Desire for a Chatbot
plt.figure(figsize=(10, 6))
desire_counts.sort_index().plot(kind='bar', color='skyblue')
plt.title('Rate desire about chatbot for counseling')
plt.xlabel('Desire rate (1- 5)')
plt.ylabel('Students')
plt.xticks(rotation=0)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()

In [None]:
# Process Advisor Data for Issues
advisor_issues = advisor_data['Những bất cập trong công tác cố vấn ?   (Có thể chọn nhiều)'].str.get_dummies(sep=', ')
issue_counts = advisor_issues.sum().sort_values(ascending=False)

# Visualize Issues Identified by Advisors
plt.figure(figsize=(12, 8))
issue_counts.plot(kind='bar', color='salmon')
plt.title('Những Bất Cập Trong Công Tác Cố Vấn Theo Khảo Sát Giảng Viên')
plt.xlabel('Các Vấn Đề Gặp Phải')
plt.ylabel('Số Lần Được Chọn')
plt.xticks(rotation=45, ha='right')
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()

In [None]:

# Assuming the data is already loaded
# Replace NaN values with "Câu không rõ"
student_topic_data = student_data['Những chủ đề nào bạn quan tâm muốn hỏi cố vấn học tập (Có thể chọn nhiều)'].fillna("Câu không rõ").str.split(',').explode()
student_topic_counts = Counter(student_topic_data)
advisor_topic_data = advisor_data['Những chủ đề nào sinh viên quan tâm (Có thể chọn nhiều)'].fillna("Câu không rõ").str.split(',').explode()
advisor_topic_counts = Counter(advisor_topic_data)

combined_topic_counts = {topic: student_topic_counts.get(topic, 0) + advisor_topic_counts.get(topic, 0) for topic in set(student_topic_counts.keys()).union(advisor_topic_counts.keys())}

# Sort topics by total counts in descending order
sorted_topics = sorted(combined_topic_counts.items(), key=lambda item: item[1], reverse=True)
topics, combined_counts = zip(*sorted_topics)  # Unzip into separate lists

# Prepare Counts for Plotting (split again after sorting)
student_counts = [student_topic_counts.get(topic, 0) for topic in topics]
advisor_counts = [advisor_topic_counts.get(topic, 0) for topic in topics]

# Define index for bar positions
index = range(len(topics))

bar_width = 0.35
opacity = 0.8

# Plotting Topics of Interest Comparison
plt.figure(figsize=(14, 8))
plt.bar(index, student_counts, width=bar_width, alpha=opacity, color='b', label='Students')
plt.bar([p + bar_width for p in index], advisor_counts, width=bar_width, alpha=opacity, color='r', label='Advisors')
plt.xlabel('Topics')
plt.ylabel('Counts')
plt.title('Topics of Interest: Students vs Advisors')
plt.xticks([p + bar_width / 2 for p in index], topics, rotation=90)
plt.legend()
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()


In [None]:
student_topics_df = pd.DataFrame(student_topic_counts.items(), columns=['Topic', 'Count'])

# Sort the DataFrame by 'Count' in descending order to see the most popular topics
sorted_student_topics = student_topics_df.sort_values(by='Count', ascending=False).reset_index(drop=True)

# Display the sorted topics
print(sorted_student_topics)

In [None]:
# Đếm số sinh viên theo khóa
cohort_counts = student_data['Khóa (chọn một)'].value_counts()

# Vẽ biểu đồ
plt.figure(figsize=(10, 6))
bars = cohort_counts.sort_index().plot(kind='bar', color='skyblue')  # Sorting by cohort name if it's not numeric
plt.title('Student for years')
plt.xlabel('Year')
plt.ylabel('Students')
plt.xticks(rotation=0)
plt.grid(axis='y', linestyle='--', alpha=0.7)

# Thêm số lượng vào mỗi cột
for bar in bars.patches:
    plt.text(bar.get_x() + bar.get_width() / 2, bar.get_height(), str(int(bar.get_height())),
             ha='center', va='bottom', color='black', fontweight='bold')

plt.tight_layout()
plt.show()

In [None]:
# Đếm số sinh viên theo chuyên ngành
major_counts = student_data['Chuyên ngành'].value_counts()

# Vẽ biểu đồ
plt.figure(figsize=(10, 8))
bars = major_counts.plot(kind='bar', color='skyblue')
plt.title('students by Majors')
plt.xlabel('Majors')
plt.ylabel('Students')
plt.xticks(rotation=45, ha='right')  # Xoay nhãn trục x để dễ đọc

# Thêm số lượng vào mỗi cột
for bar in bars.patches:
    plt.text(bar.get_x() + bar.get_width() / 2, bar.get_height() + 0.3, int(bar.get_height()),
             ha='center', color='dimgrey', fontweight='bold')

plt.show()

In [None]:
# Extract relevant columns for student and advisor ratings
student_ratings_updated = student_data_updated['Đánh giá độ mong muốn của em về một ứng dụng chatbot trả lời tự động 24/7 như một cố vấn học tập']
advisor_ratings_updated = advisor_data_updated['Đánh giá độ mong muốn của thầy cô về một ứng dụng chatbot trả lời tự động 24/7 về các thông tin cho sinh viên ']

# Count the frequency of each rating level
student_counts_updated = student_ratings_updated.value_counts().sort_index()
advisor_counts_updated = advisor_ratings_updated.value_counts().sort_index()

# Prepare labels and values for plotting
labels_updated = sorted(set(student_ratings_updated.dropna().unique()).union(advisor_ratings_updated.dropna().unique()))
student_values_updated = [student_counts_updated.get(label, 0) for label in labels_updated]
advisor_values_updated = [advisor_counts_updated.get(label, 0) for label in labels_updated]

# Now we can plot
fig, ax = plt.subplots()
bar_width = 0.35
index = range(len(labels_updated))

bar1 = ax.bar(index, student_values_updated, bar_width, label='Students')
bar2 = ax.bar([i + bar_width for i in index], advisor_values_updated, bar_width, label='Advisors')

ax.set_xlabel('Rating Level')
ax.set_ylabel('Counts')
ax.set_title('Desirability Ratings for a 24/7 Chatbot Advisor')
ax.set_xticks([i + bar_width / 2 for i in index])
ax.set_xticklabels(labels_updated)
ax.legend()

# Adding numerical annotations to the bars
for bar in bar1:
    yval = bar.get_height()
    ax.text(bar.get_x() + bar.get_width()/2, yval, int(yval), va='bottom')  # Center the text vertically in the bar

for bar in bar2:
    yval = bar.get_height()
    ax.text(bar.get_x() + bar.get_width()/2, yval, int(yval), va='bottom')  # Center the text vertically in the bar

plt.show()
