In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import easygraph as eg
import seaborn as sns

# 1. 加载数据集
url = 'https://example.com/path/to/your/dataset.csv' 
data = pd.read_csv(url)

# 2. 数据预处理
# 检查缺失值
print("缺失值情况：")
print(data.isnull().sum())

# 填充缺失值（如果有必要）
data.fillna(method='ffill', inplace=True)

# 3. 数据的基本统计分析
print("数据集的描述性统计：")
print(data.describe())

# 4. 计算相关性
correlation_matrix = data.corr()
print("相关性矩阵：")
print(correlation_matrix)

# 5. 可视化相关性矩阵
plt.figure(figsize10, 8))
sns.heatmap(correlation_matrix, annot=True, fmt=".2f", cmap='coolwarm', square=True)
plt.title('相关性矩阵热图')
plt.show()

# 6. 使用 EasyGraph生成图形化表示
# 假设我们想分析 'final_result' 列与 'num_of_attempts' 列之间的关系
easy_graph = eg.Graph()

# 添加节点和边
for index, row in data.iterrows():
    easy_graph.add_node(row['id'], final_result=row['final_result'], num_of_prev_attempts=row['num_of_prev_attempts'])

# 可视化节点分布plt.figure(figsize=(10, 6))
eg.draw(easy_graph, node_color='blue', edge_color='gray', with_labels=True, node_size=500)
plt.title('学生最终结果与以往尝试次数的关系')
plt.show()

# 7. 进行简单的分析
# 计算不同最终结果的学生人数
result_counts = data['final_result'].value_counts()
print("不同最终结果的学生人数：")
print(result_counts)

# 绘制最终结果的柱状图
plt.figure(figsize=(8, 5))
result_counts.plot(kind='bar', color='skyblue', edgecolor='black')
plt.title('学生最终结果分布')
plt.xlabel('最终结果')
plt.ylabel('学生人数')
plt.xticks(rotation=45)
plt.show()

 8. 分析不同性别的学生表现
if 'gender' in data.columns:
    gender_result_counts = data.groupby('gender')['final_result'].value_counts().unstack()
    print("不同性别学生的最终结果分布：")
    print(gender_result_counts)

    # 绘制性别与最终结果的堆叠柱状图
    gender_result_counts.plot(kind='bar', stacked=True, color=['lightblue', 'cor', 'lightgreen'])
    plt.title('不同性别学生的最终结果分布')
    plt.xlabel('性别')
    plt.ylabel('学生人数')
    plt.xticks(rotation=0)
    plt.legend(title='最终结果')
    plt.show()

# 9. 学习活动与最终结果的关系
if 'num_of_assign' in data.columns and 'final_result' in data.columns:
    plt.figure(figsize=(10, 6))
    sns.boxplot(x='final_result', y='num_of_assignments', data=data)
    plt.title('最终与作业数量的关系')
    plt.xlabel('最终结果')
    plt.ylabel('作业数量')
    plt.show()

# 10. 按年龄分析学生表现（假设数据集中有年龄列）
if 'age' in data.columns:
    age_result_counts = data.groupby('age')['final_result'].value_counts().unstack()
    print("不同年龄学生的最终结果分布：")
    print(age_result_counts)

    # 绘制年龄与最终结果的堆叠柱状图
    age_result_counts.plot(kind='bar', stacked=True, color=['lightblue', 'lightcoral', 'lightgreen'])
    plt.title('不同年龄学生的最终结果分布')
    plt.xlabel('年龄')
    plt.ylabel('学生')
    plt.xticks(rotation=0)
    plt.legend(title='最终结果')
    plt.show()

# 11. 计算最终结果的比例
final_result_ratios = result_counts / result_counts.sum()
print("最终结果的比例：")
print(final_result_ratios)

# 12. 可视化最终结果的比例
plt.figure(figsize=(8, 5))
final_result_ratios.plot(kind='pie', autopct='%1.1f%%', startangle=90, colors=['lightblue', 'lightcoral 'lightgreen'])
plt.title('学生最终结果比例')
plt.ylabel('')
plt.show()