# 功能：纠正所有的校名和专业

In [1]:
# -*- coding:utf-8 -*-
import Levenshtein
import pandas as pd
import numpy as np
import collections
import os
import pickle

## cosine()计算两个字符串的余弦相似度或相同字数

In [2]:
def words2vec(words1=None, words2=None):
    '''
    功能：将两个字符串切割，并统计字出现次数
    '''
    v1 = []
    v2 = []
    tag_dict1 = dict(collections.Counter(words1))
    tag_dict2 = dict(collections.Counter(words2))
    merged_tag = set(tag_dict1.keys()) | set(tag_dict2.keys())
    for i in merged_tag:
        if i in tag_dict1:
            v1.append(tag_dict1[i])
        else:
            v1.append(0)
        if i in tag_dict2:
            v2.append(tag_dict2[i])
        else:
            v2.append(0)
    return v1, v2
 
def cosine_similarity(vector1, vector2):
    '''
    功能：计算两个向量的余弦相似度
    '''
    dot_product = 0.0
    normA = 0.0
    normB = 0.0
    for a, b in zip(vector1, vector2):
        dot_product += a * b
        normA += a ** 2
        normB += b ** 2
    if normA == 0.0 or normB == 0.0:
        return 0
    else:
        return round(dot_product / ((normA**0.5)*(normB**0.5)) * 100, 5)
     
def cosine(str1, str2, flag):
    '''
    功能：计算两个字符串的余弦相似度或相同字数
    flag:1表示求余弦相似度，2表示比较相同字数
    '''
    vec1, vec2 = words2vec(str1, str2)
    if(flag == 1):
        return cosine_similarity(vec1, vec2)
    elif(flag == 2):
        add = [a&b for a, b in zip(vec1,vec2)]
        a = collections.Counter(add)    
        #print(a)
        return a[1]

In [3]:
def main_fun(se_list,se_original):
    '''
    功能：核心算法，计算最小编辑距离，余弦相似度，相同字数
    se_list：标准学校/专业列表，类型为pd.Series()
    se_original：纠错前校名/专业，类型为pd.Series()
    输出：result:list型，纠正后列表
    '''
    correcttime = 0
    result = []
    i = 0
    for textb in se_original:
        if(textb!='无'):
            for texta in se_list.index:
                se_list[texta]=(Levenshtein.distance(texta,textb))
            min_distance = se_list.values.min()
            if(len(se_list[se_list == min_distance]) == 1):
                print(textb,se_list.idxmin(),min_distance,se_original[se_original == textb].index)
                result.append(se_list.idxmin())
                correcttime +=1
        
            else:
                list_min = se_list[se_list == min_distance]
                #print(list_min)
                for texta in list_min.index:
                    #list_min[texta]=(cosine(texta,textb,1)) #余弦相似度
                    list_min[texta]=(cosine(texta,textb,2)) #相同字数
                #print(list_min)
                max_cos = list_min.values.max()
                if(len(list_min[list_min == max_cos]) == 1):
                    print(textb,list_min.idxmax(),max_cos,se_original[se_original == textb].index)
                    result.append(list_min.idxmax())
                    correcttime +=1
                else:
                    #result.append(textb) #如果结果不唯一，不做纠正
                    result.append(list_min[list_min == max_cos].index[0]) #如果结果不唯一，填充第一个结果
            #print(textb,list_min)
        else:
            result.append('无')
    print(correcttime)
    return result,correcttime

In [4]:
df_kunkun = pd.read_csv('../data/submit/submit_24th.csv')
df_kunkun

Unnamed: 0,登记表编号,性别,民族,体重,血型,籍贯,高中学校名称,高中专业,高中学位,高中起止时间,...,研究生学校名称,研究生专业,研究生学位,研究生起止时间,研究生是否毕业,学校名称（其它）,专业（其它）,学位（其它）,起止时间（其它）,是否毕业（其它）
0,201100004,男,汉,00,无,河南,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
1,201100005,男,汉,58,O,江苏,江事准阿蓄级柴学,无,无,无,...,无,无,无,无,无,无,无,无,无,无
2,201100007,男,汉,50,无,湖州,永旧解新皮县中,无,无,无,...,无,无,无,无,无,无,无,无,无,无
3,201100012,女,汉,3,B,海,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
4,201100015,男,汉,33,无,河南古,丽解明阳卓秀泊史,无,无,无,...,无,无,无,无,无,无,无,无,无,无
5,201100016,男,汉,55,O,徽南青,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
6,20110002,男,汉,33,O,福浙,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
7,201100020,女,汉,33,OO,黑古,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
8,201100021,女,无,无,O,南安,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
9,201100024,女,汉,33,无,北州吉,无,无,无,无,...,水凉云山大学,通安同书,硕硕,无,否,无,无,无,无,无


# 本科校名

In [5]:
pkl = pickle.load(open('../data/list/universities_names_super.pkl','rb'))
school_list = pd.Series(data=list(range(len(pkl))),index= pkl)
se_school = df_kunkun['本科学校名称']
se_school.index = df_kunkun['登记表编号']
se_school = se_school.str.replace('太学','大学')
result,correcttime = main_fun(school_list,se_school)

北赣通长学 北京交通大学 3 Int64Index([201100005], dtype='int64', name='登记表编号')
石甸事阳白宇中气 石事邮专 6 Int64Index([20110002], dtype='int64', name='登记表编号')
郑山船官涉章琼番 山西警官职业学院 2 Int64Index([201100020], dtype='int64', name='登记表编号')
太原迁里工大学 太原理工大学 2 Int64Index([201100031], dtype='int64', name='登记表编号')
财备科技南厚 财贸科技学院 3 Int64Index([201100040], dtype='int64', name='登记表编号')
曲阜师范达学 曲阜师范大学 1 Int64Index([201100042], dtype='int64', name='登记表编号')
北威威市郭宝 北京城市学院 4 Int64Index([201100050], dtype='int64', name='登记表编号')
审首教育学障 河南教育学院 3 Int64Index([201100070], dtype='int64', name='登记表编号')
东寸出财萨杜学 东北财经大学 4 Int64Index([201100072], dtype='int64', name='登记表编号')
天日吐长学 天津大学 3 Int64Index([20110008], dtype='int64', name='登记表编号')
北呼马司息程学管 北京信息工程学院 4 Int64Index([201100086], dtype='int64', name='登记表编号')
北埠田育冀学壁 北京体育大学 4 Int64Index([201100087], dtype='int64', name='登记表编号')
丰国政法大学 中国政法大学 1 Int64Index([201100101], dtype='int64', name='登记表编号')
北凉房太肯玛蹈防 北京舞蹈学院 2 Int64Index([201100117], dtype='int64', name='登记表编号')
哈凉滨理吐炬气 哈尔滨理工大学 4 Int64Inde

沈阳化工大学 沈阳化工大学 0 Int64Index([20140315], dtype='int64', name='登记表编号')
东北大学 东北大学 0 Int64Index([20140319], dtype='int64', name='登记表编号')
业京交通大学 北京交通大学 1 Int64Index([20140326], dtype='int64', name='登记表编号')
武汉大学 武汉大学 0 Int64Index([20140330], dtype='int64', name='登记表编号')
127


In [6]:
df_result = df_kunkun.copy()
df_result['本科学校名称'] = result
df_result

Unnamed: 0,登记表编号,性别,民族,体重,血型,籍贯,高中学校名称,高中专业,高中学位,高中起止时间,...,研究生学校名称,研究生专业,研究生学位,研究生起止时间,研究生是否毕业,学校名称（其它）,专业（其它）,学位（其它）,起止时间（其它）,是否毕业（其它）
0,201100004,男,汉,00,无,河南,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
1,201100005,男,汉,58,O,江苏,江事准阿蓄级柴学,无,无,无,...,无,无,无,无,无,无,无,无,无,无
2,201100007,男,汉,50,无,湖州,永旧解新皮县中,无,无,无,...,无,无,无,无,无,无,无,无,无,无
3,201100012,女,汉,3,B,海,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
4,201100015,男,汉,33,无,河南古,丽解明阳卓秀泊史,无,无,无,...,无,无,无,无,无,无,无,无,无,无
5,201100016,男,汉,55,O,徽南青,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
6,20110002,男,汉,33,O,福浙,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
7,201100020,女,汉,33,OO,黑古,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
8,201100021,女,无,无,O,南安,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
9,201100024,女,汉,33,无,北州吉,无,无,无,无,...,水凉云山大学,通安同书,硕硕,无,否,无,无,无,无,无


# 研究生校名

In [7]:
se_school = df_kunkun['研究生学校名称']
se_school.index = df_kunkun['登记表编号']
se_school = se_school.str.replace('太学','大学')
result,correcttime = main_fun(school_list,se_school)

五高大学卫 五邑大学 2 Int64Index([201100042], dtype='int64', name='登记表编号')
畜南圣音子学 湖南女子学院 3 Int64Index([201100075], dtype='int64', name='登记表编号')
子时出尔审大马口 齐齐哈尔大学 6 Int64Index([201100161], dtype='int64', name='登记表编号')
第汕红兵珠垦乡萨 第二炮兵工程学院 6 Int64Index([201100197], dtype='int64', name='登记表编号')
水寸丹叶大吕 牡丹江大学 4 Int64Index([201100259], dtype='int64', name='登记表编号')
水永之川古学 四川大学 4 Int64Index([201100309], dtype='int64', name='登记表编号')
新刑贺南许理云智 新加坡南洋理工大学 3 Int64Index([20110062], dtype='int64', name='登记表编号')
北系二师太曹 湖北第二师范学院 3 Int64Index([20110068], dtype='int64', name='登记表编号')
中丰山白一 中山大学 3 Int64Index([20110105], dtype='int64', name='登记表编号')
东北兵宇 东北大学 2 Int64Index([20110148], dtype='int64', name='登记表编号')
青育绿寸技内学 青岛科技大学 4 Int64Index([20110172], dtype='int64', name='登记表编号')
汕环日升太厚 汕头大学 5 Int64Index([20110198], dtype='int64', name='登记表编号')
西北玉业长店力中 西北工业大学 5 Int64Index([20110268], dtype='int64', name='登记表编号')
水宁京交大 北京交大 2 Int64Index([20110292], dtype='int64', name='登记表编号')
首都纳范头学 首都师范大学 2 Int64Index([20110312], dtype

In [8]:
result

['无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '燕山大学',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '五邑大学',
 '国际关系学院',
 '无',
 '梧州学院',
 '无',
 '无',
 '无',
 '牡丹江师范大学',
 '无',
 '湖南女子学院',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '齐齐哈尔大学',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '第二炮兵工程学院',
 '无',
 '无',
 '无',
 '北京工商大学',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '牡丹江大学',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '四川大学',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '吉首大学',
 '无',
 '新加坡南洋理工大学',
 '无',
 '无',
 '湖北第二师范学院',
 '广东海洋大学',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '无',
 '北语学院',
 '无',
 '无',
 '民办',
 '无',
 '无',
 '无',
 '无',
 '民办',
 '无',
 '无',
 '无',
 '中山大学',
 '无',
 '无',
 '中国计量大学

In [9]:
df_result['研究生学校名称'] = result
df_result

Unnamed: 0,登记表编号,性别,民族,体重,血型,籍贯,高中学校名称,高中专业,高中学位,高中起止时间,...,研究生学校名称,研究生专业,研究生学位,研究生起止时间,研究生是否毕业,学校名称（其它）,专业（其它）,学位（其它）,起止时间（其它）,是否毕业（其它）
0,201100004,男,汉,00,无,河南,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
1,201100005,男,汉,58,O,江苏,江事准阿蓄级柴学,无,无,无,...,无,无,无,无,无,无,无,无,无,无
2,201100007,男,汉,50,无,湖州,永旧解新皮县中,无,无,无,...,无,无,无,无,无,无,无,无,无,无
3,201100012,女,汉,3,B,海,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
4,201100015,男,汉,33,无,河南古,丽解明阳卓秀泊史,无,无,无,...,无,无,无,无,无,无,无,无,无,无
5,201100016,男,汉,55,O,徽南青,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
6,20110002,男,汉,33,O,福浙,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
7,201100020,女,汉,33,OO,黑古,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
8,201100021,女,无,无,O,南安,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
9,201100024,女,汉,33,无,北州吉,无,无,无,无,...,燕山大学,通安同书,硕硕,无,否,无,无,无,无,无


# 大专校名

In [10]:
se_school = df_kunkun['大专学校名称']
se_school.index = df_kunkun['登记表编号']
se_school = se_school.str.replace('太学','大学')
result,correcttime = main_fun(school_list,se_school)

0


In [11]:
df_result['大专学校名称'] = result
df_result

Unnamed: 0,登记表编号,性别,民族,体重,血型,籍贯,高中学校名称,高中专业,高中学位,高中起止时间,...,研究生学校名称,研究生专业,研究生学位,研究生起止时间,研究生是否毕业,学校名称（其它）,专业（其它）,学位（其它）,起止时间（其它）,是否毕业（其它）
0,201100004,男,汉,00,无,河南,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
1,201100005,男,汉,58,O,江苏,江事准阿蓄级柴学,无,无,无,...,无,无,无,无,无,无,无,无,无,无
2,201100007,男,汉,50,无,湖州,永旧解新皮县中,无,无,无,...,无,无,无,无,无,无,无,无,无,无
3,201100012,女,汉,3,B,海,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
4,201100015,男,汉,33,无,河南古,丽解明阳卓秀泊史,无,无,无,...,无,无,无,无,无,无,无,无,无,无
5,201100016,男,汉,55,O,徽南青,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
6,20110002,男,汉,33,O,福浙,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
7,201100020,女,汉,33,OO,黑古,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
8,201100021,女,无,无,O,南安,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
9,201100024,女,汉,33,无,北州吉,无,无,无,无,...,燕山大学,通安同书,硕硕,无,否,无,无,无,无,无


# 高中校名

In [12]:
pkl = pickle.load(open('../data/list/middle_school_list_super.pkl','rb'))
school_list = pd.Series(data=list(range(len(pkl))),index= pkl)
se_school = df_kunkun['高中学校名称']
se_school.index = df_kunkun['登记表编号']
result,correcttime = main_fun(school_list,se_school)

江事准阿蓄级柴学 江苏淮阳高级中学 5 Int64Index([201100005], dtype='int64', name='登记表编号')
汝百南泊罗习书 湖南汩罗三中 5 Int64Index([201100086], dtype='int64', name='登记表编号')
翰梦试卓机潍觅 翰林计算机学院 5 Int64Index([20110009], dtype='int64', name='登记表编号')
育园申学 育园中学 1 Int64Index([201100101], dtype='int64', name='登记表编号')
唐回具第五局级中学 唐河县第五高级中学 3 Int64Index([201100120], dtype='int64', name='登记表编号')
长离市紫心民学 长春市第八中学 4 Int64Index([20110014], dtype='int64', name='登记表编号')
许算县百 许昌县一高 2 Int64Index([201100146], dtype='int64', name='登记表编号')
北京里旦国申学 北京世青国际学校 4 Int64Index([201100150], dtype='int64', name='登记表编号')
成安县中 成安县一中 1 Int64Index([201100160], dtype='int64', name='登记表编号')
事智训五 才智培训学校 2 Int64Index([201100162], dtype='int64', name='登记表编号')
妇齿如吐枣星第伸享 枣庄第八中学 2 Int64Index([201100163], dtype='int64', name='登记表编号')
隆验视明晶坦鞋进接 崇明实验中学 2 Int64Index([201100188], dtype='int64', name='登记表编号')
河角省雁师高中 河南省偃师高中 2 Int64Index([201100197], dtype='int64', name='登记表编号')
北育准息管昌豆督 北京信息管理学校 5 Int64Index([201100215], dtype='int64', name='登记表编号')
铃翔牧算刚浮阳玉 牧阳人学校 2 I

In [13]:
df_result['高中学校名称'] = result
df_result

Unnamed: 0,登记表编号,性别,民族,体重,血型,籍贯,高中学校名称,高中专业,高中学位,高中起止时间,...,研究生学校名称,研究生专业,研究生学位,研究生起止时间,研究生是否毕业,学校名称（其它）,专业（其它）,学位（其它）,起止时间（其它）,是否毕业（其它）
0,201100004,男,汉,00,无,河南,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
1,201100005,男,汉,58,O,江苏,江苏淮阳高级中学,无,无,无,...,无,无,无,无,无,无,无,无,无,无
2,201100007,男,汉,50,无,湖州,旧县中学,无,无,无,...,无,无,无,无,无,无,无,无,无,无
3,201100012,女,汉,3,B,海,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
4,201100015,男,汉,33,无,河南古,阳坊中学,无,无,无,...,无,无,无,无,无,无,无,无,无,无
5,201100016,男,汉,55,O,徽南青,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
6,20110002,男,汉,33,O,福浙,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
7,201100020,女,汉,33,OO,黑古,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
8,201100021,女,无,无,O,南安,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
9,201100024,女,汉,33,无,北州吉,无,无,无,无,...,燕山大学,通安同书,硕硕,无,否,无,无,无,无,无


# 本科专业

In [14]:
pkl = pickle.load(open('../data/list/subjects_super.pkl','rb'))
subject_list = pd.Series(data=list(range(len(pkl))),index= pkl)
se_subject = df_kunkun['本科专业']
se_subject.index = df_kunkun['登记表编号']
result,correcttime = main_fun(subject_list,se_subject)

通食球宗 通信工程 3 Int64Index([201100005], dtype='int64', name='登记表编号')
曲智繁射班 智能交通 4 Int64Index([201100015], dtype='int64', name='登记表编号')
共炮子 电子 2 Int64Index([201100016], dtype='int64', name='登记表编号')
英语 英语 0 Int64Index([201100027, 20110072], dtype='int64', name='登记表编号')
自环古义 自动化 3 Int64Index([201100031], dtype='int64', name='登记表编号')
应用电子 应用电子 0 Int64Index([201100042], dtype='int64', name='登记表编号')
密子子 密码学 1 Int64Index([201100070], dtype='int64', name='登记表编号')
计算机 计算机 0 Int64Index([201100086], dtype='int64', name='登记表编号')
法学 法学 0 Int64Index([201100101], dtype='int64', name='登记表编号')
育用电日导术 应用电子技术 3 Int64Index([201100117], dtype='int64', name='登记表编号')
会计 会计 0 Int64Index([201100118, 20110057], dtype='int64', name='登记表编号')
文和 文秘 1 Int64Index([201100134], dtype='int64', name='登记表编号')
产木 水产 1 Int64Index([20110015], dtype='int64', name='登记表编号')
人力赏源 人力资源 1 Int64Index([20110016], dtype='int64', name='登记表编号')
生复机应 计算机应用 2 Int64Index([201100169], dtype='int64', name='登记表编号')
原作等 作物学 1 Int64Index([2011001

In [15]:
df_result['本科专业'] = result
df_result

Unnamed: 0,登记表编号,性别,民族,体重,血型,籍贯,高中学校名称,高中专业,高中学位,高中起止时间,...,研究生学校名称,研究生专业,研究生学位,研究生起止时间,研究生是否毕业,学校名称（其它）,专业（其它）,学位（其它）,起止时间（其它）,是否毕业（其它）
0,201100004,男,汉,00,无,河南,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
1,201100005,男,汉,58,O,江苏,江苏淮阳高级中学,无,无,无,...,无,无,无,无,无,无,无,无,无,无
2,201100007,男,汉,50,无,湖州,旧县中学,无,无,无,...,无,无,无,无,无,无,无,无,无,无
3,201100012,女,汉,3,B,海,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
4,201100015,男,汉,33,无,河南古,阳坊中学,无,无,无,...,无,无,无,无,无,无,无,无,无,无
5,201100016,男,汉,55,O,徽南青,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
6,20110002,男,汉,33,O,福浙,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
7,201100020,女,汉,33,OO,黑古,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
8,201100021,女,无,无,O,南安,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
9,201100024,女,汉,33,无,北州吉,无,无,无,无,...,燕山大学,通安同书,硕硕,无,否,无,无,无,无,无


# 研究生专业

In [16]:
pkl = pickle.load(open('../data/list/subjects_super.pkl','rb'))
subject_list = pd.Series(data=list(range(len(pkl))),index= pkl)
se_subject = df_kunkun['研究生专业']
se_subject.index = df_kunkun['登记表编号']
result,correcttime = main_fun(subject_list,se_subject)

通安同书 交通安全 2 Int64Index([201100024], dtype='int64', name='登记表编号')
档非蹈 档案学 2 Int64Index([201100042], dtype='int64', name='登记表编号')
四舶语药 英语 3 Int64Index([201100056], dtype='int64', name='登记表编号')
影色学 电影学 2 Int64Index([201100070], dtype='int64', name='登记表编号')
气贮技成 电气技术 2 Int64Index([20110021], dtype='int64', name='登记表编号')
细自骨 自动化 1 Int64Index([201100259], dtype='int64', name='登记表编号')
本路息动 电路系统 3 Int64Index([20110042], dtype='int64', name='登记表编号')
绘济学 经济学 1 Int64Index([20110058], dtype='int64', name='登记表编号')
食号处进 信号处理 2 Int64Index([20110062], dtype='int64', name='登记表编号')
智成交毒 智能交通 2 Int64Index([20110068], dtype='int64', name='登记表编号')
挥利应射 水利工程 3 Int64Index([20110087], dtype='int64', name='登记表编号')
一子宇 电子 2 Int64Index([20110105], dtype='int64', name='登记表编号')
软件争 软件 1 Int64Index([20110108], dtype='int64', name='登记表编号')
心 心理学 1 Int64Index([20110127], dtype='int64', name='登记表编号')
哲弹间用 哲学 3 Int64Index([20110172], dtype='int64', name='登记表编号')
争年田舞一 老年医学 4 Int64Index([20110240], dtype='int64', name='

In [17]:
df_result['研究生专业'] = result
df_result

Unnamed: 0,登记表编号,性别,民族,体重,血型,籍贯,高中学校名称,高中专业,高中学位,高中起止时间,...,研究生学校名称,研究生专业,研究生学位,研究生起止时间,研究生是否毕业,学校名称（其它）,专业（其它）,学位（其它）,起止时间（其它）,是否毕业（其它）
0,201100004,男,汉,00,无,河南,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
1,201100005,男,汉,58,O,江苏,江苏淮阳高级中学,无,无,无,...,无,无,无,无,无,无,无,无,无,无
2,201100007,男,汉,50,无,湖州,旧县中学,无,无,无,...,无,无,无,无,无,无,无,无,无,无
3,201100012,女,汉,3,B,海,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
4,201100015,男,汉,33,无,河南古,阳坊中学,无,无,无,...,无,无,无,无,无,无,无,无,无,无
5,201100016,男,汉,55,O,徽南青,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
6,20110002,男,汉,33,O,福浙,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
7,201100020,女,汉,33,OO,黑古,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
8,201100021,女,无,无,O,南安,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
9,201100024,女,汉,33,无,北州吉,无,无,无,无,...,燕山大学,交通安全,硕硕,无,否,无,无,无,无,无


# 大专专业

In [18]:
pkl = pickle.load(open('../data/list/subjects_super.pkl','rb'))
subject_list = pd.Series(data=list(range(len(pkl))),index= pkl)
se_subject = df_kunkun['大专专业']
se_subject.index = df_kunkun['登记表编号']
result,correcttime = main_fun(subject_list,se_subject)

0


In [19]:
df_result['大专专业'] = result
df_result

Unnamed: 0,登记表编号,性别,民族,体重,血型,籍贯,高中学校名称,高中专业,高中学位,高中起止时间,...,研究生学校名称,研究生专业,研究生学位,研究生起止时间,研究生是否毕业,学校名称（其它）,专业（其它）,学位（其它）,起止时间（其它）,是否毕业（其它）
0,201100004,男,汉,00,无,河南,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
1,201100005,男,汉,58,O,江苏,江苏淮阳高级中学,无,无,无,...,无,无,无,无,无,无,无,无,无,无
2,201100007,男,汉,50,无,湖州,旧县中学,无,无,无,...,无,无,无,无,无,无,无,无,无,无
3,201100012,女,汉,3,B,海,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
4,201100015,男,汉,33,无,河南古,阳坊中学,无,无,无,...,无,无,无,无,无,无,无,无,无,无
5,201100016,男,汉,55,O,徽南青,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
6,20110002,男,汉,33,O,福浙,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
7,201100020,女,汉,33,OO,黑古,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
8,201100021,女,无,无,O,南安,无,无,无,无,...,无,无,无,无,无,无,无,无,无,无
9,201100024,女,汉,33,无,北州吉,无,无,无,无,...,燕山大学,交通安全,硕硕,无,否,无,无,无,无,无


In [20]:
df_result.to_csv('../data/result/matchschool+subject_all+dazhuan.csv',index=False)