## The analysis of patent
### 主要是分析企业的专利数量、研发投入等，借此分析企业的创新水平

In [2]:
# 根据国标-国家经济行业分类 https://www.mca.gov.cn/images3/www/file/201711/1509495881341.pdf
# 进行patent初步筛选: 国民经济行业分类代码,国民经济行业分类名称

from collections import Counter
import json
from tqdm import tqdm
import os
from patent_utils import get_output_file_name
from patent_utils import is_chinese

input_directory = '/mntmodels/boyuan/learnspace/AI_gov/raw_data/research_data/patent_data_all/data_json_filtered'
output_directory = '/mntmodels/boyuan/learnspace/AI_gov/raw_data/research_data/patent_data_all/data_json_GB_filtered'
os.makedirs(output_directory, exist_ok=True)

def filter_GB(category_code):
    # 采矿业
    # print(type(category_code))
    if category_code > 600 and category_code < 1300:
        return 1
    # 制造业
    if category_code > 3200 and category_code < 4200:
        return 1
    return 0


def check(patent_data):
    '''
    检查Patent Data 中是否有违规的数据
    '''
    # 检查筛选键值是否存在异常取值
    key='国民经济行业分类代码'
    values = [item[key] for item in patent_data if key in item]

    counter = Counter(values)

    print(counter)
    print(len(counter))

    # 检查int转化是否有效
    entry = patent_data[0]
    print(int(entry['国民经济行业分类代码']))
    print(entry['国民经济行业分类代码'])


for root, dirs, files in os.walk(input_directory):
    for file in tqdm(files):
        if file.endswith('.json'):
            patent_input = os.path.join(root, file)
        else:
            continue
        print('\n\n')
        print('**'*60)
        with open(patent_input,'r') as f:
            patent_data = json.load(f)
        check(patent_data)
        new_patent_data = []
        flag = 1
        for entry in patent_data:
            # 有些数据里存在该键值为空或者不是float是str的情况，需要进行额外筛选
            if entry['国民经济行业分类代码'] is None:
                continue
            
            # 检查是否为中文字符串
            if type(entry ['国民经济行业分类代码']) is str and is_chinese(entry['国民经济行业分类代码']):
                continue
            
            try:
                category_id_float = float(entry['国民经济行业分类代码'])
                # 可以在这里添加转换成功后的处理，例如添加到新列表中
                if filter_GB(int(category_id_float)) == 1:
                    new_patent_data.append(entry)
            except ValueError:
                # 如果转换失败（即不是有效的数字字符串），可以在这里处理或者跳过
                continue
                
        print(f'Total Number for original data: {len(patent_data)}')
        print(f'Total Number after GB filterd:{len(new_patent_data)}')

        # 构造输出文件的完整路径
        output_file_name = get_output_file_name(file)
        output_file_path = os.path.join(output_directory, output_file_name)
        
        # 将提取的数据保存到新的JSON文件中
        with open(output_file_path, 'w', encoding='utf-8') as output_file:
            json.dump(new_patent_data, output_file, ensure_ascii=False, indent=4)

        print(f"Filtered data have been saved to {output_file_path}")
        print('**'*60) 


  0%|          | 0/6 [00:00<?, ?it/s]




************************************************************************************************************************
Counter({2614.0: 13816, 3921.0: 13663, 3072.0: 13183, 3912.0: 12904, 3544.0: 10701, 3463.0: 10325, 4090.0: 9819, 3660.0: 9370, 3562.0: 6998, 6510.0: 5546, 2661.0: 5436, 4011.0: 4631, 3434.0: 4370, 2613.0: 4197, 3829.0: 4074, 3412.0: 4020, 3479.0: 3986, 2662.0: 3950, 4620.0: 3924, 3421.0: 3779, 3360.0: 3769, 3464.0: 3612, 3931.0: 3511, 3311.0: 3504, 3459.0: 3501, 3584.0: 3456, 3150.0: 3425, 2730.0: 3395, None: 3353, 6420.0: 3240, 6591.0: 3046, 3811.0: 3017, 3919.0: 2990, 2651.0: 2908, 2641.0: 2896, 3821.0: 2734, 3424.0: 2666, 3581.0: 2643, 2653.0: 2476, 2760.0: 2423, 4700.0: 2409, 6540.0: 2399, 2664.0: 2394, 3990.0: 2322, 4015.0: 2303, 3425.0: 2287, 1712.0: 2246, 3442.0: 2206, 3572.0: 2196, 3599.0: 2179, 3441.0: 2179, 2031.0: 2072, 3963.0: 2023, 3474.0: 1998, 3511.0: 1998, 3823.0: 1950, 3461.0: 1900, 2669.0: 1860, 3468.0: 1823, 3596.0: 1815, 2511.0: 1773, 1399.0: 1

 17%|█▋        | 1/6 [00:08<00:40,  8.02s/it]

Filtered data have been saved to /mntmodels/boyuan/learnspace/AI_gov/raw_data/research_data/patent_data_all/data_json_GB_filtered/patent_2016_filtered_filtered.json
************************************************************************************************************************



************************************************************************************************************************
Counter({None: 387709, 2614.0: 5929, 3921.0: 4956, 3544.0: 3947, 3463.0: 3749, 3912.0: 3682, 2730.0: 3302, 4090.0: 3253, 3072.0: 2975, 3660.0: 2454, 2661.0: 2228, 3562.0: 1901, 2613.0: 1730, 4620.0: 1589, 2662.0: 1501, 3311.0: 1353, 3360.0: 1321, 4011.0: 1277, 3479.0: 1239, 3434.0: 1228, 3421.0: 1227, 6510.0: 1208, 3829.0: 1165, 1310.0: 1134, 3412.0: 1131, 3931.0: 1108, 3584.0: 1076, 2760.0: 1062, 3150.0: 1027, 3459.0: 1021, 3811.0: 989, 1712.0: 983, 4015.0: 980, 3424.0: 947, 2653.0: 934, 3581.0: 916, 2651.0: 904, 3572.0: 899, 2641.0: 845, 2710.0: 825, 3821.0: 820, 6591.0: 814, 4700.

 33%|███▎      | 2/6 [00:13<00:26,  6.52s/it]

Filtered data have been saved to /mntmodels/boyuan/learnspace/AI_gov/raw_data/research_data/patent_data_all/data_json_GB_filtered/patent_2015_filtered_filtered.json
************************************************************************************************************************



************************************************************************************************************************
Counter({3921.0: 14788, 3072.0: 13719, 3912.0: 13168, None: 11790, 4090.0: 11670, 2614.0: 11258, 3544.0: 10691, 3463.0: 9578, 3660.0: 9316, 6510.0: 8438, 3562.0: 7248, 4011.0: 6229, 6420.0: 5171, 3931.0: 5001, 3434.0: 4988, 3479.0: 4874, 2661.0: 4874, 3421.0: 4640, 3829.0: 4520, 3464.0: 4454, 6591.0: 4436, 2613.0: 4037, 3412.0: 3963, 3360.0: 3857, 3919.0: 3763, 3150.0: 3675, 3584.0: 3568, 3459.0: 3549, 3811.0: 3477, 3311.0: 3363, 3821.0: 3316, 2662.0: 3271, 4620.0: 3239, 4015.0: 2903, 2651.0: 2870, 6540.0: 2783, 3425.0: 2759, 3963.0: 2512, 3940.0: 2449, 3990.0: 2406, 3424.0: 2387, 35

 50%|█████     | 3/6 [00:21<00:22,  7.35s/it]

Filtered data have been saved to /mntmodels/boyuan/learnspace/AI_gov/raw_data/research_data/patent_data_all/data_json_GB_filtered/patent_2017_filtered_filtered.json
************************************************************************************************************************



************************************************************************************************************************
Counter({3921.0: 15717, 3912.0: 15532, 3072.0: 12123, 4090.0: 10425, 2614.0: 9945, 3544.0: 9921, 3660.0: 7998, 3463.0: 7932, 6510.0: 7427, 3562.0: 5971, 3931.0: 5741, 4011.0: 5279, None: 5014, 2661.0: 4894, 6420.0: 4807, 3479.0: 4632, 3919.0: 4186, 3829.0: 4184, 3464.0: 3929, 6591.0: 3870, 3421.0: 3828, 3434.0: 3781, 3360.0: 3760, 3412.0: 3490, 3811.0: 3417, 2662.0: 3213, 2613.0: 3155, 3311.0: 2914, 3459.0: 2910, 3584.0: 2881, 3821.0: 2834, 6540.0: 2785, 4620.0: 2763, 2651.0: 2715, 3990.0: 2713, 4015.0: 2697, 3150.0: 2657, 3823.0: 2517, 2760.0: 2482, '3921': 2417, 3425.0: 2268, '3912

 67%|██████▋   | 4/6 [00:30<00:15,  7.94s/it]

Filtered data have been saved to /mntmodels/boyuan/learnspace/AI_gov/raw_data/research_data/patent_data_all/data_json_GB_filtered/patent_2018_filtered_filtered.json
************************************************************************************************************************



************************************************************************************************************************
Counter({3912.0: 21421, 3921.0: 21116, 4090.0: 12081, 3072.0: 11860, 2614.0: 11788, 3544.0: 11086, 3463.0: 9727, 3660.0: 8518, 3911.0: 7620, 3479.0: 7480, 2661.0: 6742, 3931.0: 6537, 6591.0: 6311, '3912': 6085, 4011.0: 6050, 3562.0: 5915, '3921': 5863, 3919.0: 5360, 3464.0: 4828, 6540.0: 4714, 6510.0: 4537, 3421.0: 4391, None: 4339, 2760.0: 4016, 3829.0: 4010, 3434.0: 3883, 3360.0: 3839, 2662.0: 3593, 3584.0: 3540, 3811.0: 3526, 4620.0: 3384, '2614': 3369, 3412.0: 3354, '4090': 3319, 3990.0: 3205, 4015.0: 3204, '3072': 3183, '3544': 3080, 3821.0: 2977, 2613.0: 2893, 3150.0: 2872, 265

 83%|████████▎ | 5/6 [00:41<00:09,  9.04s/it]

Filtered data have been saved to /mntmodels/boyuan/learnspace/AI_gov/raw_data/research_data/patent_data_all/data_json_GB_filtered/patent_2020_filtered_filtered.json
************************************************************************************************************************



************************************************************************************************************************
Counter({3921.0: 20706, 3912.0: 18784, 3072.0: 12576, 4090.0: 12065, 2614.0: 10900, 3544.0: 10735, 3660.0: 8944, 3463.0: 8179, 6510.0: 8169, 3562.0: 6856, 3931.0: 6715, 2661.0: 6412, 3479.0: 6163, 3911.0: 5795, 4011.0: 5317, 6591.0: 5104, 3464.0: 4498, 3919.0: 4139, 3829.0: 4137, 3421.0: 3917, 3811.0: 3797, 2760.0: 3762, None: 3678, 3434.0: 3658, 3412.0: 3632, 3360.0: 3510, 2662.0: 3414, 4015.0: 3322, 3821.0: 3205, 3584.0: 3103, '3921': 3062, 2613.0: 2967, 3990.0: 2964, '3912': 2911, 3311.0: 2866, 3459.0: 2831, 4620.0: 2786, 2664.0: 2572, 2651.0: 2517, 3823.0: 2477, 3150.0: 2467, 391

100%|██████████| 6/6 [00:51<00:00,  8.51s/it]

Filtered data have been saved to /mntmodels/boyuan/learnspace/AI_gov/raw_data/research_data/patent_data_all/data_json_GB_filtered/patent_2019_filtered_filtered.json
************************************************************************************************************************





In [3]:
# 再进行完GB筛选后，首先进行一波数据分析
# 分析申请人的组成成分,比如企业 \ 个人 \ NoneType等
# 这里最后可以出一个热力图，统计各个patent数据的键值分布情况,同时把其他的键值不对的情况处理了（比如申请人类型是日期的）
# 统计一下原始数据分布情况和筛选后数据分布情况

from collections import Counter
import json


input_directory = '/mntmodels/boyuan/learnspace/AI_gov/raw_data/research_data/patent_data_all/data_json_GB_filtered'

for root, dirs, files in os.walk(input_directory):
    for file in tqdm(files):
        if file.endswith('.json'):
            patent_input = os.path.join(root, file)
        else:
            continue
        print('\n\n')
        print('**'*60)
        with open(patent_input,'r') as f:
            patent_data = json.load(f)
        key = '申请人类型'
        values = [item[key] for item in patent_data if key in item]
        counter = Counter(values)
        print(counter)
        print('**'*60)


        

  0%|          | 0/6 [00:00<?, ?it/s]




************************************************************************************************************************


 17%|█▋        | 1/6 [00:03<00:15,  3.01s/it]

Counter({'企业': 255235, ' 高校': 74236, '科研机构': 14172, '个人': 11724, '其他': 3569, '政府部': 373})
************************************************************************************************************************



************************************************************************************************************************


 33%|███▎      | 2/6 [00:05<00:10,  2.67s/it]

Counter({'企业': 208131, ' 高校': 45837, '个人': 14915, '科研机构': 9369, '其他': 2867, '政府部': 307})
************************************************************************************************************************



************************************************************************************************************************


 50%|█████     | 3/6 [00:07<00:07,  2.44s/it]

Counter({'企业': 193666, ' 高校': 36895, '个人': 14740, '科研机构': 9028, '其他': 3059, '政府部': 337})
************************************************************************************************************************



************************************************************************************************************************


 67%|██████▋   | 4/6 [00:09<00:04,  2.38s/it]

Counter({'企业': 195586, ' 高校': 45966, '个人': 15012, '科研机构': 10292, '其他': 2859, '政府部': 320})
************************************************************************************************************************



************************************************************************************************************************


 83%|████████▎ | 5/6 [00:10<00:01,  1.79s/it]

Counter({'企业': 53874, ' 高校': 15826, '个人': 7193, '科研机构': 2285, '其他': 1101, '政府部': 95})
************************************************************************************************************************



************************************************************************************************************************


100%|██████████| 6/6 [00:13<00:00,  2.19s/it]

Counter({'企业': 226242, ' 高校': 55844, '科研机构': 11630, '个人': 11550, '其他': 2939, '政府部': 386})
************************************************************************************************************************





### 由结果惊喜的发现，之前看到的申请人类型是nonetype的，在筛选国民经济行业分类代码的时候同步也被筛掉了

In [4]:
# 接下来进行正式的处理，采取专利匹配操作和知识图谱构建

# 首先从工商企业数据得到作参考的name_list
import json

reference_input = '/mntmodels/boyuan/learnspace/AI_gov/raw_data/research_data/business_info/output_extracted_new.json'
with open(reference_input,'r') as f:
    reference_data = json.load(f)
name_list = []
for entry in reference_data:
    name_list.append(
        entry['origin_info']['name']
    )
print(name_list[0:10])
print(f'Total Number for namelist:{len(name_list)}')

['武汉市鑫力荣物资再生有限公司', '武汉滨水东熠进出口服务有限公司', '武汉品瀚电子商务商行', '武汉文鸿汽车服务有限公司', '湖北华屹企业管理咨询有限公司', '湖北振意贸易有限公司', '湖北鑫润旺六口茶农业科技有限公司', '武汉柏雍电子商务商行', '湖北民生石油液化气有限公司武汉常码头加气站', '武汉康通运输有限公司']
Total Number for namelist:97810


### 分析：为什么专利数据这么少，其实大概就是少：
### 1. 专利数据是国家专利局的数据，不是光谷的数据，所以其实还要做一个潜在筛选武汉的公司（其实直接和武汉市企业工商信息匹配就可以了）
### 2. 大概可以去遍历所有的专利数据，最后只保留总的，不用每年都保留

In [5]:

# 进行正式的数据分析，根据上面得到的name_list 过所有的GB_filtered json files 筛选出所有‘武汉光谷’的专利申请数据

from collections import Counter
import json
import os
from tqdm import tqdm

input_directory = '/mntmodels/boyuan/learnspace/AI_gov/raw_data/research_data/patent_data_all/data_json_GB_filtered'

patent_enter_data = []
for root, dirs, files in os.walk(input_directory):
    for file in files:
        if file.endswith('.json'):
            patent_input = os.path.join(root, file)
        else:
            continue
        with open(patent_input,'r') as f:
            patent_data = json.load(f)
        cnt = 0
        for patent_entry in tqdm(patent_data):
            if patent_entry['主申请人名称'] in name_list:
                patent_enter_data.append(patent_entry)
                cnt += 1
        print(f'Total Number for patent - enterprise: {cnt}')

100%|██████████| 359309/359309 [07:51<00:00, 762.62it/s]


Total Number for patent - enterprise: 734


100%|██████████| 281426/281426 [06:10<00:00, 759.13it/s]


Total Number for patent - enterprise: 281


100%|██████████| 257725/257725 [05:34<00:00, 770.13it/s]


Total Number for patent - enterprise: 128


100%|██████████| 270035/270035 [05:52<00:00, 765.12it/s]


Total Number for patent - enterprise: 247


100%|██████████| 80374/80374 [01:43<00:00, 780.25it/s]


Total Number for patent - enterprise: 19


100%|██████████| 308591/308591 [06:42<00:00, 765.94it/s]

Total Number for patent - enterprise: 556





In [6]:
import json
output_file = '/mntmodels/boyuan/learnspace/AI_gov/raw_data/research_data/patent_data_all/patent_final/patent_final.json'
with open(output_file,'w',encoding='utf-8') as f:
    json.dump(patent_enter_data,f,indent=2,ensure_ascii=False)


In [1]:
734+281+128+247+19+556

1965

In [1]:
# 分析最终专利数据中，每个公司分别有多少专利
import json
from collections import Counter
patent_input = '/mntmodels/boyuan/learnspace/AI_gov/raw_data/research_data/patent_data_all/patent_final/patent_final.json'
with open(patent_input,'r') as f:
    patent_data = json.load(f)
key='主申请人名称'
values = [item[key] for item in patent_data if key in item]

counter = Counter(values)

print(counter)
print(len(counter))
    

Counter({'武汉斗鱼网络科技有限公司': 629, '中车长江车辆有限公司': 162, '东风汽车集团有限公司': 106, '易瓦特科技股份公司': 96, '中交第二航务工程局有限公司': 72, '神龙汽车有限公司': 52, '东风汽车有限公司': 33, '武汉华工激光工程有限责任公司': 32, '武汉华中数控股份有限公司': 26, '武汉中海庭数据技术有限公司': 23, '中铁工程机械研究设计院有限公司': 18, '武汉盛帆电子股份有限公司': 17, '武汉华工正源光子技术有限公司': 16, '中铁十一局集团有限公司': 16, '武汉凡谷电子技术股份有限公司': 14, '武汉思普崚技术有限公司': 14, '武汉重型机床集团有限公司': 14, '武汉斑马快跑科技有限公司': 12, '法雷奥照明湖北技术中心有限公司': 12, '武汉瑞松北斗汽车装备有限公司': 12, '武汉协和齿环有限公司': 11, '武汉光庭信息技术股份有限公司': 10, '武汉依迅北斗空间技术有限公司': 10, '武汉海达数云技术有限公司': 10, '武汉元光科技有限公司': 9, '武汉理工通宇新源动力有限公司': 9, '武汉中原电子集团有限公司': 9, '武汉盛硕电子有限公司': 8, '东风李尔汽车座椅有限公司': 8, '湖北开特汽车电子电器系统股份有限公司': 8, '武汉星巡智能科技有限公司': 7, '中石化石油机械股份有限公司': 7, '中铁科工集团轨道交通装备有限公司': 7, '武汉联航机电有限公司': 7, '武汉元丰汽车零部件有限公司': 7, '东风富士汤姆森调温器有限公司': 7, '三环集团有限公司': 7, '武汉英康汇通电气有限公司': 7, '武汉泛洲中越合金有限公司': 6, '武汉飞恩微电子有限公司': 6, '武汉佳特轿车零部件有限公司': 6, '武汉烽火信息集成技术有限公司': 6, '武汉优视科技有限公司': 6, '武汉精伦电气有限公司': 6, '武汉合康动力技术有限公司': 6, '武汉神骏专用汽车制造股份有限公司': 6, '湖北雷迪特冷却系统股份有限公司': 5, '中铁建电气化局集团南方工程有限公司': 5, '南斗六星系统集成有限公司': 5, '际华三五零六纺织服装有限公司'

## 发现最终专利数据中有很多斗鱼这种公司的？可能汽车只是一部分，但并不是全部，会有假阳性，故用gpt再标一遍

In [7]:
# 进行数据filter
import json
patent_input = '/mntmodels/boyuan/learnspace/AI_gov/raw_data/research_data/patent_data_all/patent_final/patent_final.tmp_re_output.json'
filter_gpt_output = '/mntmodels/boyuan/learnspace/AI_gov/raw_data/research_data/patent_data_all/patent_final_48.json'
with open(patent_input,'r') as f:
    patent_data = json.load(f)
def parse_and_update(entries):
    new_data = []
    for entry in entries:
        # Extract the output string
        output_str = entry.get("output", "")
        # Extract the categories
        big_category = output_str.split("[[大类]]: ")[1].split("\n\n")[0].replace("{{", "").replace("}}", "").split("}}{{")
        small_category = output_str.split("[[子类别]]: ")[1].split("\n\n")[0].replace("{{", "").replace("}}", "").split("}}{{")
        new_entry = {}
        # Check if 大类 is not null and update the entry
        if big_category!= ["Null"]:
            for key, value in entry['origin_info'].items():
                new_entry[key] = value
            new_entry["大类"] = big_category[0]
            new_entry["子类别"] = small_category[0]
            new_data.append(new_entry)
    print(f'Original Data Number:{len(entries)}')
    print(f'New Data Number:{len(new_data)}')
    return new_data

# Update the data
updated_data = parse_and_update(patent_data)
print(updated_data[0])

with open(filter_gpt_output,'w',encoding='utf-8') as f:
    json.dump(updated_data,f,indent=2,ensure_ascii=False)

Original Data Number:1965
New Data Number:1129
{'专利号': 'CN109406025B', '专利名称': '压力测试方法、装置及电子设备', '专利类型': '发明授权', '申请日': '2018-10-16', '公开日': '2019-03-01', '授权日': '2020-12-15', '专利代理机构': '北京众达德权知识产权代理有限公司', '专利法律状态': '发明专利权授予', '申请人类型': '企业', '主申请人名称': '武汉斗鱼网络科技有限公司', '主申请人地址': '430000 湖北省武汉市东湖开发区软件园东路1号软件产业4.1期B1栋11楼', '主申请人地址国家': 'CHN', '累计被引用量': '.', '主分类号': 'G01L5/00(2006.01)', '专利分类号': 'G01L5/00(2006.01)', '专利分类号数量': 1.0, '国民经济行业分类代码': 4090.0, '国民经济行业分类名称': '其他仪器仪表制造业', '大类': '研发与设计电气设备生产', '子类别': '专用技术研发与设计汽车测试电控系统生产'}


In [8]:
# 分析最终专利数据中，每个公司分别有多少专利
# 再分析一遍，和前面进行对比
import json
from collections import Counter
patent_input = '/mntmodels/boyuan/learnspace/AI_gov/raw_data/research_data/patent_data_all/patent_final/patent_final_48.json'
with open(patent_input,'r') as f:
    patent_data = json.load(f)
key='主申请人名称'
values = [item[key] for item in patent_data if key in item]

counter = Counter(values)

print(counter)
print(len(counter))

Counter({'武汉斗鱼网络科技有限公司': 146, '中车长江车辆有限公司': 108, '东风汽车集团有限公司': 106, '神龙汽车有限公司': 50, '东风汽车有限公司': 31, '中交第二航务工程局有限公司': 31, '武汉华工激光工程有限责任公司': 30, '武汉华中数控股份有限公司': 25, '武汉中海庭数据技术有限公司': 23, '易瓦特科技股份公司': 21, '武汉重型机床集团有限公司': 14, '法雷奥照明湖北技术中心有限公司': 12, '武汉瑞松北斗汽车装备有限公司': 12, '武汉盛帆电子股份有限公司': 12, '武汉华工正源光子技术有限公司': 12, '武汉协和齿环有限公司': 11, '武汉斑马快跑科技有限公司': 11, '武汉依迅北斗空间技术有限公司': 10, '武汉海达数云技术有限公司': 10, '武汉光庭信息技术股份有限公司': 10, '武汉理工通宇新源动力有限公司': 9, '中铁工程机械研究设计院有限公司': 9, '中铁十一局集团有限公司': 8, '东风李尔汽车座椅有限公司': 8, '武汉元光科技有限公司': 8, '湖北开特汽车电子电器系统股份有限公司': 7, '武汉元丰汽车零部件有限公司': 7, '武汉英康汇通电气有限公司': 7, '东风富士汤姆森调温器有限公司': 6, '武汉中原电子集团有限公司': 6, '武汉凡谷电子技术股份有限公司': 6, '武汉联航机电有限公司': 6, '武汉泛洲中越合金有限公司': 6, '武汉思普崚技术有限公司': 6, '三环集团有限公司': 6, '武汉佳特轿车零部件有限公司': 6, '武汉神骏专用汽车制造股份有限公司': 6, '武汉合康动力技术有限公司': 6, '武汉飞恩微电子有限公司': 5, '武汉鸿博鑫科技有限公司': 5, '湖北机电院装备制造有限责任公司': 5, '中铁科工集团轨道交通装备有限公司': 5, '武汉盛硕电子有限公司': 5, '湖北雷迪特冷却系统股份有限公司': 5, '武汉英泰斯特电子技术有限公司': 5, '武汉洛特福动力技术有限公司': 4, '东风亚普汽车部件有限公司': 4, '山推楚天工程机械有限公司': 4, '武汉高德红外股份有限公司': 4, '武汉杜曼智能科技有限公司': 4, 

In [1]:
# 分析最终专利数据中，每个公司分别有多少专利
# 再分析一遍，和前面进行对比
import json
from collections import Counter
patent_input = '/mntmodels/boyuan/learnspace/AI_gov/raw_data/research_data/patent_data_all/patent_final/patent_final_48.json'
with open(patent_input,'r') as f:
    patent_data = json.load(f)
key='申请人类型'
values = [item[key] for item in patent_data if key in item]

counter = Counter(values)

print(counter)
print(len(counter))

Counter({'企业': 1129})
1
