In [1]:
import pandas as pd
import numpy as np

In [3]:
# 读取CSV文件并指定编码
file_path = 'questionnaire_results.csv'  # 请替换为你的文件路径
df = pd.read_csv(file_path, encoding='gbk')  # 尝试使用gbk编码

# 定义需要转换的列（Q5~Q17）
likert_columns = ['Q5', 'Q6', 'Q7', 'Q8', 'Q9', 'Q10', 'Q11', 'Q12', 'Q13', 'Q14', 'Q15', 'Q16', 'Q17']

# 转换回答，将1, 2, 3, 4, 5转换为5, 4, 3, 2, 1
for column in likert_columns:
    df[column] = df[column].apply(lambda x: 6 - x if pd.notnull(x) else x)

# 按照受访者的身份类型进行分组
students_df = df[df['Q1'] == 1]  # Q1中回答为1的是学生
developers_teachers_df = df[df['Q1'] != 1]  # Q1中回答不为1的是开发者

# 打印转换后的数据（可选）
print("转换后的数据：")
print(df[likert_columns].head())

转换后的数据：
   Q5  Q6  Q7  Q8  Q9  Q10  Q11  Q12  Q13  Q14  Q15  Q16  Q17
0   5   4   4   4   4    4    4    4    4    5    4    4    3
1   5   4   4   5   4    4    5    5    4    5    3    4    4
2   5   4   4   5   4    5    5    5    3    4    4    4    5
3   4   5   4   3   4    4    5    5    3    2    5    4    5
4   5   5   3   5   5    4    5    3    3    5    5    5    3


In [4]:
# 用于计算问卷第二部分第一小问的统计数据
def calculate_part2_q1_statistics(dataframe, exclude_columns=None):
    """
    计算指定数据集内各个小题及整体的平均值和方差。

    参数：
    dataframe: pd.DataFrame - 输入的数据集
    question_columns: list - 需要计算的题目列
    exclude_columns: list - 排除的题目列（可选）

    返回：
    dict - 各小题及整体的平均值和方差
    """
    question_columns = ['Q5', 'Q7', 'Q9', 'Q11', 'Q13', 'Q15']
    # 提取指定列数据并存储到数组中
    part_question = {column: dataframe[column].dropna().values for column in question_columns}

    # 计算各小题的平均值和方差
    question_stats = {question: {'mean': answers.mean(), 'variance': answers.var()} for question, answers in part_question.items()}
    for question, stats in question_stats.items():
        print(f"{question} - 平均值: {stats['mean']:.3f}, 方差: {stats['variance']:.3f}")

    # 计算整体的平均值和方差
    combined_array = np.concatenate(list(part_question.values()))
    overall_mean = combined_array.mean()
    overall_variance = combined_array.var()
    print(f"整体平均值: {overall_mean:.3f}, 整体方差: {overall_variance:.3f}")
    
    # 计算整体大于4、等于3、小于等于2的比例
    print(f"整体 - 大于等于4的比例: {(combined_array >= 4).mean():.3f}; 等于3的比例: {(combined_array == 3).mean():.3f}; 小于等于2的比例: {(combined_array <= 2).mean():.3f}")

    # 如果提供了排除的列，计算排除后的整体平均值和方差
    if exclude_columns:
        filtered_question = {question: answers for question, answers in part_question.items() if
                             question not in exclude_columns}
        filtered_combined_array = np.concatenate(list(filtered_question.values()))
        filtered_overall_mean = filtered_combined_array.mean()
        filtered_overall_variance = filtered_combined_array.var()
        print(f"排除{exclude_columns}后的整体平均值: {filtered_overall_mean:.3f}, 整体方差: {filtered_overall_variance:.3f}")

    # return question_stats

calculate_part2_q1_statistics(df, exclude_columns=['Q5', 'Q11'])
print("=" * 50)
calculate_part2_q1_statistics(students_df, exclude_columns=['Q5', 'Q11'])
print("=" * 50)
calculate_part2_q1_statistics(developers_teachers_df, exclude_columns=['Q5', 'Q11'])


Q5 - 平均值: 4.419, 方差: 0.476
Q7 - 平均值: 4.116, 方差: 0.707
Q9 - 平均值: 4.000, 方差: 0.605
Q11 - 平均值: 4.349, 方差: 0.460
Q13 - 平均值: 4.233, 方差: 0.551
Q15 - 平均值: 4.326, 方差: 0.685
整体平均值: 4.240, 整体方差: 0.601
整体 - 大于等于4的比例: 0.853; 等于3的比例: 0.116; 小于等于2的比例: 0.031
排除['Q5', 'Q11']后的整体平均值: 4.169, 整体方差: 0.652
Q5 - 平均值: 4.308, 方差: 0.598
Q7 - 平均值: 3.923, 方差: 0.840
Q9 - 平均值: 3.769, 方差: 0.639
Q11 - 平均值: 4.308, 方差: 0.521
Q13 - 平均值: 4.077, 方差: 0.533
Q15 - 平均值: 4.231, 方差: 0.716
整体平均值: 4.103, 整体方差: 0.682
整体 - 大于等于4的比例: 0.808; 等于3的比例: 0.141; 小于等于2的比例: 0.051
排除['Q5', 'Q11']后的整体平均值: 4.000, 整体方差: 0.712
Q5 - 平均值: 4.588, 方差: 0.242
Q7 - 平均值: 4.412, 方差: 0.360
Q9 - 平均值: 4.353, 方差: 0.346
Q11 - 平均值: 4.412, 方差: 0.360
Q13 - 平均值: 4.471, 方差: 0.484
Q15 - 平均值: 4.471, 方差: 0.602
整体平均值: 4.451, 整体方差: 0.404
整体 - 大于等于4的比例: 0.922; 等于3的比例: 0.078; 小于等于2的比例: 0.000
排除['Q5', 'Q11']后的整体平均值: 4.426, 整体方差: 0.450


In [5]:
# 用于计算问卷第二部分第二小问的统计数据
def calculate_part2_q2_statistics(dataframe, exclude_columns=None):
    """
    计算指定数据集内各个小题及整体的平均值和方差。

    参数：
    dataframe: pd.DataFrame - 输入的数据集
    exclude_columns: list - 排除的题目列（可选）

    返回：
    dict - 各小题及整体的平均值和方差
    """
    question_columns = ['Q6', 'Q8', 'Q10', 'Q12', 'Q14', 'Q16']
    # 提取指定列数据并存储到数组中
    part_question = {column: dataframe[column].dropna().values for column in question_columns}

    # 计算各小题的平均值和方差
    question_stats = {question: {'mean': answers.mean(), 'variance': answers.var()} for question, answers in part_question.items()}
    for question, stats in question_stats.items():
        print(f"{question} - 平均值: {stats['mean']:.3f}, 方差: {stats['variance']:.3f}")

    # 计算整体的平均值和方差
    combined_array = np.concatenate(list(part_question.values()))
    overall_mean = combined_array.mean()
    overall_variance = combined_array.var()
    print(f"整体平均值: {overall_mean:.3f}, 整体方差: {overall_variance:.3f}")
    
    # 计算整体大于4、等于3、小于等于2的比例
    print(f"整体大于等于4的比例: {(combined_array >= 4).mean():.3f}; 等于3的比例: {(combined_array == 3).mean():.3f}; 小于等于2的比例: {(combined_array <= 2).mean():.3f}")

    # 如果提供了排除的列，计算排除后的整体平均值和方差
    if exclude_columns:
        filtered_question = {question: answers for question, answers in part_question.items() if question not in exclude_columns}
        filtered_combined_array = np.concatenate(list(filtered_question.values()))
        filtered_overall_mean = filtered_combined_array.mean()
        filtered_overall_variance = filtered_combined_array.var()
        print(f"排除{exclude_columns}后的整体平均值: {filtered_overall_mean:.3f}, 整体方差: {filtered_overall_variance:.3f}")

    # return question_stats

# 示例调用函数计算开发者数据集的统计数据
calculate_part2_q2_statistics(df, exclude_columns=['Q6', 'Q12'])
print("=" * 50)
calculate_part2_q2_statistics(students_df, exclude_columns=['Q6', 'Q12'])
print("=" * 50)
calculate_part2_q2_statistics(developers_teachers_df, exclude_columns=['Q6', 'Q12'])

Q6 - 平均值: 4.442, 方差: 0.479
Q8 - 平均值: 4.140, 方差: 0.818
Q10 - 平均值: 4.186, 方差: 0.710
Q12 - 平均值: 4.488, 方差: 0.622
Q14 - 平均值: 4.186, 方差: 0.942
Q16 - 平均值: 4.372, 方差: 0.559
整体平均值: 4.302, 整体方差: 0.707
整体大于等于4的比例: 0.860; 等于3的比例: 0.097; 小于等于2的比例: 0.043
排除['Q6', 'Q12']后的整体平均值: 4.221, 整体方差: 0.765
Q6 - 平均值: 4.192, 方差: 0.540
Q8 - 平均值: 3.846, 方差: 0.899
Q10 - 平均值: 3.923, 方差: 0.840
Q12 - 平均值: 4.462, 方差: 0.633
Q14 - 平均值: 4.038, 方差: 1.037
Q16 - 平均值: 4.308, 方差: 0.444
整体平均值: 4.128, 整体方差: 0.778
整体大于等于4的比例: 0.821; 等于3的比例: 0.122; 小于等于2的比例: 0.058
排除['Q6', 'Q12']后的整体平均值: 4.029, 整体方差: 0.836
Q6 - 平均值: 4.824, 方差: 0.145
Q8 - 平均值: 4.588, 方差: 0.360
Q10 - 平均值: 4.588, 方差: 0.242
Q12 - 平均值: 4.529, 方差: 0.602
Q14 - 平均值: 4.412, 方差: 0.713
Q16 - 平均值: 4.471, 方差: 0.720
整体平均值: 4.569, 整体方差: 0.481
整体大于等于4的比例: 0.922; 等于3的比例: 0.059; 小于等于2的比例: 0.020
排除['Q6', 'Q12']后的整体平均值: 4.515, 整体方差: 0.514


In [6]:
# 用于计算问卷第三部分第一小问的统计数据
def calculate_part3_q1_statistics(dataframe):
    """
    计算Q17的平均值和方差。
    参数：
    dataframe: pd.DataFrame - 输入的数据集
    返回：
    dict - Q17的平均值和方差
    """
    # 提取Q17的数据并存储到数组中
    part3_question1 = dataframe['Q17'].dropna().values
    # 计算Q17的平均值和方差
    question1_mean = part3_question1.mean()
    question1_variance = part3_question1.var()
    print(f"Q17 - 平均值: {question1_mean:.3f}, 方差: {question1_variance:.3f}")
    # 计算Q17中大于4、等于3、小于等于2的比例
    print(f"Q17 - 大于等于4的比例: {(part3_question1 >= 4).mean():.3f}; 等于3的比例: {(part3_question1 == 3).mean():.3f}; 小于等于2的比例: {(part3_question1 <= 2).mean():.3f}")
    
    # return {'mean': question1_mean, 'variance': question1_variance}

# 示例调用函数计算Q17的统计数据
calculate_part3_q1_statistics(df)
print("=" * 50)
calculate_part3_q1_statistics(students_df)
print("=" * 50)
calculate_part3_q1_statistics(developers_teachers_df)

Q17 - 平均值: 4.163, 方差: 0.601
Q17 - 大于等于4的比例: 0.814; 等于3的比例: 0.163; 小于等于2的比例: 0.023
Q17 - 平均值: 4.038, 方差: 0.652
Q17 - 大于等于4的比例: 0.769; 等于3的比例: 0.192; 小于等于2的比例: 0.038
Q17 - 平均值: 4.353, 方差: 0.464
Q17 - 大于等于4的比例: 0.882; 等于3的比例: 0.118; 小于等于2的比例: 0.000
