高中阶段，学生考试成绩的分析是一个重要的而频繁的应用场景，快速、有效、精准的生成学生成绩的分析报告，是学情监控和开展个性化教学的前提。对于这个问题，不同学校有不同的方法加以处理。这篇文章以高中学生的成绩分析为背景，使用pandas（是一个基于numpy的python的数据分析包）对学生成绩进行分析。本文分为如下部分：

> 1. 虚拟成绩表的生成
> 2. 全校学生成绩整体分析
> 3. 学生分班、分科成绩分析
> 4. 发现偏科学生
> 
> 本文以学生成绩分析为场景，总结我参加华为云大数据挑战赛（成绩并不好- -）时对于pandas的学习体会，供大家参考。

在开始之前，导入numpy和pandas，按照习惯写成如下形式。如果没有这个模块，还是老规矩，使用pip install numpy和pip install pandas安装一下。

In [2]:
import numpy as np
import pandas as pd

#### 一、虚拟成绩表的生成
在开始之前，先生成我们的分析对象，学生成绩表，假设本次考试为理科班的摸底考试。学生成绩表包括：

1. 基本信息，包括：学生姓名、学生年级、学生班级；
2. 学生成绩，假设学生的成绩服从正态分布，生成的成绩包括如下科目：语文（150分）、数学（150分）、英语（150）、物理（100分）、化学（100分）、生物（100分）。

先确定每个年级的班级数目，然后在一个范围内随机生成各班人数，由此得到全校人数。根据全校人数随机生成学生姓名，并在确定各科平均值和标准差后，根据正态分布规律随机生成各个学生的各科成绩，以此获得一份总的成绩汇总表。由于这部分代码较为冗长且不是主要部分，感兴趣的朋友可以点击源码查看。（该部分编程时间：2h）

In [92]:
import random

def generate_class_name(class_num):
    grade_index = [19,18,17]
    group = []
    for ii in range(len(grade_index)):
        for i in range(class_num[ii]):
            c_index = i + 1
            if c_index < 10:
                c = '0' + str(c_index)
            else:
                c = str(c_index)
            group.append(str(grade_index[ii])+c)
    return group


def generate_student_num(class_num):
    group = []
    for cNum in class_num:
        students_num = [random.choice(range(55,68)) for i in range(cNum)]
        group.extend(students_num)
    return group
    
    
def generate_class():
    class_num = [26,27,23] # 高一、高二、高三学生的班级数
    class_name = generate_class_name(class_num)
    student_num = generate_student_num(class_num)
    return class_name, student_num


def students_sum(student_num):
    all_num = 0
    for group in student_num:
        all_num += np.sum(group)
    return all_num
       
    
def student_name():
    # 参考：https://blog.csdn.net/qq_41426326/article/details/91975774
    # 大众化姓氏
    firstName = "赵钱孙李周吴郑王冯陈褚卫蒋沈韩杨朱秦尤许何吕施张孔曹严华金魏陶姜戚谢邹喻水云苏潘葛奚范彭郎鲁韦昌马苗凤花方俞任袁柳鲍史唐费岑薛雷贺倪汤滕殷罗毕郝邬安常乐于时傅卞齐康伍余元卜顾孟平" \
                "黄和穆萧尹姚邵湛汪祁毛禹狄米贝明臧计成戴宋茅庞熊纪舒屈项祝董粱杜阮席季麻强贾路娄危江童颜郭梅盛林刁钟徐邱骆高夏蔡田胡凌霍万柯卢莫房缪干解应宗丁宣邓郁单杭洪包诸左石崔吉" \
                "龚程邢滑裴陆荣翁荀羊甄家封芮储靳邴松井富乌焦巴弓牧隗山谷车侯伊宁仇祖武符刘景詹束龙叶幸司韶黎乔苍双闻莘劳逄姬冉宰桂牛寿通边燕冀尚农温庄晏瞿茹习鱼容向古戈终居衡步都耿满弘国文东殴沃曾关红游盖益桓公晋楚闫"
    # 百家姓中双姓氏
    firstName2="万俟司马上官欧阳夏侯诸葛闻人东方赫连皇甫尉迟公羊澹台公冶宗政濮阳淳于单于太叔申屠公孙仲孙轩辕令狐钟离宇文长孙慕容鲜于闾丘司徒司空亓官司寇仉督子颛孙端木巫马公西漆雕乐正壤驷公良拓跋夹谷宰父谷梁段干百里东郭南门呼延羊舌微生梁丘左丘东门西门南宫南宫"
    # 女孩名字
    girl = '秀娟英华慧巧美娜静淑惠珠翠雅芝玉萍红娥玲芬芳燕彩春菊兰凤洁梅琳素云莲真环雪荣爱妹霞香月莺媛艳瑞凡佳嘉琼勤珍贞莉桂娣叶璧璐娅琦晶妍茜秋珊莎锦黛青倩婷姣婉娴瑾颖露瑶怡婵雁蓓纨仪荷丹蓉眉君琴蕊薇菁梦岚苑婕馨瑗琰韵融园艺咏卿聪澜纯毓悦昭冰爽琬茗羽希宁欣飘育滢馥筠柔竹霭凝晓欢霄枫芸菲寒伊亚宜可姬舒影荔枝思丽'
    # 男孩名字
    boy = '伟刚勇毅俊峰强军平保东文辉力明永健世广志义兴良海山仁波宁贵福生龙元全国胜学祥才发武新利清飞彬富顺信子杰涛昌成康星光天达安岩中茂进林有坚和彪博诚先敬震振壮会思群豪心邦承乐绍功松善厚庆磊民友裕河哲江超浩亮政谦亨奇固之轮翰朗伯宏言若鸣朋斌梁栋维启克伦翔旭鹏泽晨辰士以建家致树炎德行时泰盛雄琛钧冠策腾楠榕风航弘'
    # 名
    name = '中笑贝凯歌易仁器义礼智信友上都卡被好无九加电金马钰玉忠孝'
 
    # 5%的概况生成双数姓氏
    if random.choice(range(200))>10:
        firstName_name =firstName[random.choice(range(len(firstName)))]
    else:
        i = random.choice(range(len(firstName2)))
        firstName_name =firstName2[i:i+2]
 
    sex = random.choice(range(2))
    name_1 = ""
    # 生成并返回一个名字
    if sex > 0:
        girl_name = girl[random.choice(range(len(girl)))]
        if random.choice(range(2)) > 0:
            name_1 = girl[random.choice(range(len(girl)))]
        return firstName_name + name_1 + girl_name
    else:
        boy_name = boy[random.choice(range(len(boy)))]
        if random.choice(range(2)) > 0:
            name_1 = boy[random.choice(range(len(boy)))]
        return firstName_name + name_1 + boy_name

    
def generate_student_name(all_num):
    return [student_name() for i in range(all_num)]


def init_table(class_name, student_num, student_name_group):
    table1 = []
    table2 = []
    table3 = student_name_group
    group = []
    for i in range(len(student_num)):
        for j in range(student_num[i]):
            className = class_name[i]
            if className[:2] =='19':
                table1.append('高一')
            if className[:2] =='18':
                table1.append('高二')
            if className[:2] =='17':
                table1.append('高三')
            table2.append(className)
    df = pd.DataFrame({'年级':table1,'班级':table2,'姓名':table3})
    return df


def get_result(all_num, min_mark, max_mark, mu, sigma=20):
    group = []
    for i in range(all_num):
        mark = np.ceil(random.normalvariate(mu,sigma)).astype(int)
        if mark < min_mark:
            mark = min_mark
        if mark > max_mark:
            mark = max_mark
        group.append(mark)
    return group


def get_list(all_num, df):
    subject_name = ['语文','数学','英语','物理','化学','生物']
    min_marks = [62,28,50,15,25,22]
    max_marks = [150,150,150,100,100,100]
    mus = [100,90,85,60,65,65]
    sigmas = [21,20,30,13,17,12]
    groups = []
    for i in range(len(subject_name)):
        groups = get_result(all_num, min_marks[i], max_marks[i], mus[i], sigmas[i])
        df[subject_name[i]] = groups
    df['总分'] = df[subject_name].apply(lambda x: x.sum(), axis=1)
    return df

class_name, student_num = generate_class()
all_num = students_sum(student_num)
student_name_group = generate_student_name(all_num)
student_info = init_table(class_name, student_num, student_name_group)
student_list = get_list(all_num, student_info)
student_list.to_excel('学生成绩表2.xlsx')
print(len(student_list))
student_list.head()

4690


Unnamed: 0,年级,班级,姓名,语文,数学,英语,物理,化学,生物,总分
0,高一,1901,伍怡巧,91,74,69,60,80,73,447
1,高一,1901,水园雪,100,52,58,57,45,72,384
2,高一,1901,倪嘉,85,98,51,62,61,46,403
3,高一,1901,严龙,100,110,101,57,100,78,546
4,高一,1901,危邦祥,87,64,59,72,45,80,407


在生成的成绩表中，一共有3个年级，4619人。其中高一26个班，高二27个班，高三个23班，各班学生人数介于55-68人之间。

####  二、年级分析
##### 2.1 各年级的最低分、最高分、平均分和中位数
各年级的各科最高分、最低分、平均分和中位数能够直观的反映各年级的整体教学情况。在这一部分用到的函数主要是.groupby和.agg，group可以按年级分组，.agg能够对各年级各分组应用给个函数进行计算。

In [103]:
subject_name = ['语文','数学','英语','物理','化学','生物','总分']
student_list.groupby('年级')[subject_name].agg(['max','min','mean','median']).reset_index()

Unnamed: 0_level_0,年级,语文,语文,语文,语文,数学,数学,数学,数学,英语,...,化学,化学,生物,生物,生物,生物,总分,总分,总分,总分
Unnamed: 0_level_1,Unnamed: 1_level_1,max,min,mean,median,max,min,mean,median,max,...,mean,median,max,min,mean,median,max,min,mean,median
0,高一,150,62,100.537539,100,150,28,90.460568,90,150,...,65.784858,65,100,25,65.237855,65,617,342,470.589905,468
1,高三,150,62,100.345429,100,150,29,91.288904,92,150,...,65.909979,67,100,22,65.198883,65,661,340,471.221214,470
2,高二,150,62,100.469498,101,150,28,90.312201,91,150,...,64.940789,65,100,22,65.956938,66,643,310,469.278708,469


##### 2.2 获取各年级的成绩前5的学生

不管哪个层级的学校，拔尖学生都在学校人才培养工作占有重要地位，而学习成绩可以在一个侧面反映拔尖学生的范围。

In [134]:
student_list.sort_values(['年级','总分'], ascending=False, inplace=True)
student_list['年级排名'] = student_list['总分'].groupby(student_list['年级']).rank(ascending=False).astype(int)
student_list.groupby('年级').get_group('高三').head()

Unnamed: 0,年级,班级,姓名,语文,数学,英语,物理,化学,生物,总分,年级排名,班级排名
4344,高三,1718,米浩功,150,115,150,78,100,68,661,1,1
3852,高三,1710,牛良子,150,97,135,70,100,96,648,2,1
4168,高三,1715,岑园琰,137,103,128,62,80,92,602,3,1
4558,高三,1721,水波,137,83,135,78,100,63,596,4,1
4269,高三,1717,劳晓瑞,143,89,150,59,60,92,593,5,1


In [135]:
student_list.sort_values(['年级','总分'], ascending=True, inplace=True)
student_list['年级排名'] = student_list['总分'].groupby(student_list['年级']).rank(ascending=False).astype(int)
student_list.groupby('年级').get_group('高三').head()

Unnamed: 0,年级,班级,姓名,语文,数学,英语,物理,化学,生物,总分,年级排名,班级排名
3433,高三,1703,余冠,62,57,65,47,51,58,340,1433,56
3888,高三,1711,孙枝丽,62,33,78,61,53,61,348,1432,58
3348,高三,1702,娄澜舒,75,58,78,34,26,81,352,1431,66
3801,高三,1709,子颛利平,75,58,73,55,29,65,355,1429,56
3846,高三,1710,茅霄,73,58,50,59,72,43,355,1429,62


#### 3 班级分析
##### 3.1 班级整体情况分析
分析各班第1在年级的位置，能够帮助学校在整体层面把握各班的教学质量。

In [137]:
student_list['班级排名'] = student_list['总分'].groupby(student_list['班级']).rank(ascending=False).astype(int)
student_list[(student_list['班级排名'] == 1)].groupby('年级').get_group('高三')

Unnamed: 0,年级,班级,姓名,语文,数学,英语,物理,化学,生物,总分,年级排名,班级排名
3260,高三,1701,童群松,148,104,95,54,78,59,538,101,1
3315,高三,1701,宰父亚,123,125,100,65,65,60,538,101,1
4039,高三,1713,晋梅,81,119,145,49,67,94,555,53,1
3648,高三,1707,臧发冠,110,94,98,93,75,87,557,48,1
4429,高三,1719,胡胜,106,120,120,73,65,73,557,48,1
3987,高三,1712,刘巧莎,127,91,119,68,100,61,566,30,1
4074,高三,1714,邴蕊晓,97,116,131,91,64,67,566,30,1
4593,高三,1722,龙怡,150,111,114,45,84,62,566,30,1
3531,高三,1705,尚以,150,132,110,58,62,59,571,21,1
4685,高三,1723,鲁德星,112,146,110,71,56,76,571,21,1


分析各班一本率，以广西2019年高考理科一本线（509分）为标准，计算各班一本率。

In [170]:
class_list = pd.DataFrame()
class_list['一本人数'] = student_list.groupby('班级')['总分'].apply(lambda x: np.sum((x >=510).astype(int)))
class_list['班级人数'] = student_num
class_list['一本率'] = class_list['一本人数']/class_list['班级人数']
subject_name = ['语文','数学','英语','物理','化学','生物','总分','年级排名']
class_list = class_list.merge(student_list.groupby('班级')[subject_name].agg(['max','min','mean','median']).reset_index(), on='班级', how='left')
class_list

  new_axis = axis.drop(labels, errors=errors)


Unnamed: 0,班级,一本人数,班级人数,一本率,"(语文, max)","(语文, min)","(语文, mean)","(语文, median)","(数学, max)","(数学, min)",...,"(生物, mean)","(生物, median)","(总分, max)","(总分, min)","(总分, mean)","(总分, median)","(年级排名, max)","(年级排名, min)","(年级排名, mean)","(年级排名, median)"
0,1701,16,63,0.253968,148,62,104.476190,104.0,136,44,...,66.539683,65.0,538,380,478.111111,482.0,1410,101,629.539683,567.0
1,1702,15,58,0.258621,140,65,99.848485,100.0,135,45,...,63.515152,63.0,579,352,466.060606,460.5,1431,15,763.712121,836.0
2,1703,10,67,0.149254,148,62,100.071429,97.0,150,56,...,65.517857,63.0,592,340,466.428571,466.0,1433,6,762.517857,771.5
3,1704,21,56,0.375000,150,62,102.268657,100.0,136,58,...,64.970149,66.0,579,375,486.567164,488.0,1414,15,579.000000,505.0
4,1705,11,58,0.189655,150,62,99.931034,99.0,136,31,...,67.948276,69.5,571,386,475.448276,480.5,1400,21,674.051724,584.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
71,1922,13,65,0.200000,150,62,103.333333,103.0,128,28,...,67.842105,65.0,562,384,477.982456,489.0,1542,51,709.947368,560.0
72,1923,6,60,0.100000,150,62,101.222222,103.0,128,46,...,65.174603,65.0,563,349,463.317460,465.0,1582,48,849.619048,841.0
73,1924,13,63,0.206349,150,62,100.442623,97.0,135,47,...,66.868852,67.0,551,377,466.180328,463.0,1554,87,832.786885,870.0
74,1925,11,61,0.180328,144,62,99.542373,102.0,136,48,...,61.525424,62.0,572,374,471.067797,471.0,1558,32,782.169492,753.0


#### 四、学科分析
分析各年级单科成绩分布情况。

In [195]:
bins = [0,40,60,80,100,120,140,150]

group_name = ['高一','高二','高三']
subject_name = ['语文','数学','英语','物理','化学','生物']
df_group = []
for name in group_name:
    grade = student_list.groupby('年级').get_group(name)
    df = pd.DataFrame()
    for s_name in subject_name:
        cuts = pd.cut(grade[s_name],bins=bins) #可选label添加自定义标签
        subject_cut = grade.groupby(cuts)[s_name].count()
        df[s_name] = subject_cut
    df.index.name = name
    df_group.append(df)
    print(df)

             语文   数学   英语   物理   化学   生物
高一                                      
(0, 40]       0    8    0  101  110   40
(40, 60]      0   94  312  677  503  501
(60, 80]    281  382  357  709  629  887
(80, 100]   530  632  425   98  343  157
(100, 120]  495  359  285    0    0    0
(120, 140]  230   93  154    0    0    0
(140, 150]   49   17   52    0    0    0
             语文   数学   英语   物理   化学   生物
高二                                      
(0, 40]       0   13    0   93  138   22
(40, 60]      0  104  345  745  522  549
(60, 80]    308  401  384  731  691  902
(80, 100]   526  648  425  103  321  199
(100, 120]  553  407  311    0    0    0
(120, 140]  242   89  144    0    0    0
(140, 150]   43   10   63    0    0    0
             语文   数学   英语   物理   化学   生物
高三                                      
(0, 40]       0    9    0   93  115   26
(40, 60]      0   87  273  614  409  453
(60, 80]    230  328  338  624  619  819
(80, 100]   511  547  370  102  290  135
(100, 120]  461 

分析偏科学生

比如数学130，语文不及格。

In [205]:
student_list['数学偏科'] = ((student_list['数学']>=130) & (student_list['语文']<90) & (student_list['英语']<90)).astype(int)
partial = student_list[student_list['数学偏科'] == 1]
partial.groupby('年级')['数学偏科'].count()

年级
高一    7
高三    8
高二    5
Name: 数学偏科, dtype: int64

总结
出现过的编程知识点:

~~~

~~~

此外还包括
~~~

~~~

