In [1]:
import numpy as np
import pandas as pd
import pdfplumber 
import os

In [2]:
project_path = os.path.join(os.getcwd(), os.pardir)
data_dir = os.path.join(project_path, 'data')
result_dir = os.path.join(project_path, 'result')
image_dir = os.path.join(project_path, 'image')
pdf_folder_path = os.path.join(project_path, 'data', 'intro')  ###pdf文件夹的路径
all_tables = []

In [3]:
import re

def extract_tables_with_headers(pdf_path):
    # 通过正则表达式匹配出含有 每 100 kJ 的行
    pattern1 = r'100\s*(k|K)(j|J)'    
    # 初始化一个空的列表用于存储每页的表格数据
    all_tables = []

    # 因为营养成分的开头一定会有 列名，由此来对于每列的含义进行确定（究竟是‘每100kJ’ 还是 ‘每100g’...）
    is_defined = False
    cols_ranks = []
    with pdfplumber.open(pdf_path) as pdf:
        # 遍历 PDF 中的每一页
        for page_number, page in enumerate(pdf.pages):
            # 提取表格内容
            table = page.extract_table()
            # print(table)
            if table:
                if not is_defined:
                    for line in table:
                        length = len(line)
                        if (length>=3) and (length<=5) and (line[0] == '营养成分'):
                            for x in range(1, length):
                                match = re.search(pattern1, line[x])
                                if match:
                                    cols_ranks.append(0)
                                    cols_ranks.append(x)
                                    is_defined = True
                        if is_defined:
                            break      
                for line in table:
                    length = len(line)
                    if (length>=3) and (length<=5):
                        new_line = [line[x] for x in cols_ranks]
                        all_tables.append(new_line)
                        
                        
                        
    # 检查是否提取到了表格内容
    if all_tables:
        # 将表格数据汇总为 DataFrame，并设置列名
        df = pd.DataFrame(all_tables)
        return df
    else:
        print("未找到符合条件的表格")
        return None

In [4]:
import re

###读取文件夹中的所有pdf文件，运用遍历的方法
df = pd.DataFrame()
total = pd.DataFrame()
file_name=[]

pattern = r'能量|蛋白质|脂肪|碳水化合物|钠|氯|钾|磷'


for filename in os.listdir(pdf_folder_path):
    file_name.append(filename[:14])
    
    if filename.endswith('.pdf'):
        file_path = os.path.join(pdf_folder_path, filename)   ####读取每个pdf文件的路径
        selected_columns = extract_tables_with_headers(file_path)
        df1=selected_columns

        ind = [False] * len(df1)
        for x in range(len(ind)):
            if df1.iloc[x, 0]:   # 排除 None 的情况
                finds = re.findall(pattern, df1.iloc[x, 0])
                if len(finds) >= 1:
                    ind[x] = True
        df = df1[ind]
        df.columns = ['Header', 'Value']
        df.set_index('Header',inplace=True)
        
       
        total=pd.concat([total,df],axis=1,ignore_index=True)

        
total=total.T 
total['注册证号']= ['国食注字' + x[4:] for x in file_name]
total.set_index('注册证号',inplace=True)       

In [5]:
###按照顺序排列列名
###顺序如下
total.isna().sum()

Header
能量(kJ)                           0
蛋白质（等同物）(g)                    181
脂肪(g)                            0
碳水化合物(g)                         0
钠(mg)                            6
钾(mg)                           49
磷(mg)                           55
氯(mg)                           47
二十二碳六烯酸（DHA）(%总脂肪酸)            179
二十碳四烯酸（AA）(%总脂肪酸)              179
蛋白质(g)                           5
二十二碳六烯酸(%总脂肪酸)                 174
二十碳四烯酸(%总脂肪酸)                  174
钠                              180
二十二碳六烯酸\n/(%总脂肪酸)              181
二十碳四烯酸\n/(%总脂肪酸)               181
二十碳四烯酸(%总脂肪\n酸)                174
酪蛋白磷酸肽(mg)                     181
蛋白质（等同物）\n(g)                  178
二十二碳六烯酸\n（DHA）(%总脂肪\n酸)        181
二十碳四烯酸\n（AA）(%总脂肪酸)            181
钙磷比值                           178
二十碳四烯酸\n(%总脂肪酸)                169
二十二碳六烯酸\n(%总脂肪酸)               169
二十碳四烯酸（ARA）(%总脂肪酸)             180
二十二碳六烯酸(DHA)(%总脂肪酸)            181
提供能量                           181
钾                              178
n-3脂肪酸（以\nEPA

In [6]:
idx = total['蛋白质（等同物）(g)'].notna()
total.loc[idx, '蛋白质(g)'] = total.loc[idx, '蛋白质（等同物）(g)']

# 经过检查发现，pdf '国食注字TY20175003', '国食注字TY20230017' 中单位均为 mg
idx = total['钠'].notna()
# print(total[idx].index)
total.loc[idx, '钠(mg)'] = total.loc[idx, '钠']

# 经过检查发现，pdf '国食注字TY20185001', '国食注字TY20185011', '国食注字TY20195012', '国食注字TY20205001' 中具有这样的问题（多余'\n'）
idx = total['蛋白质（等同物）\n(g)'].notna()
# print(total[idx].index)
total.loc[idx, '蛋白质(g)'] = total.loc[idx, '蛋白质（等同物）\n(g)']
 
# 经过检查发现，pdf '国食注字TY20205001', '国食注字TY20210002', '国食注字TY20210003', '国食注字TY20230059'中单位均为 mg
idx = total['钾'].notna()
# print(total[idx].index)
total.loc[idx, '钾(mg)'] = total.loc[idx, '钾']

# 需要将以 (g) 为单位结尾的数据 *1000
idx1 = (total['钠(g)'].notna()) 
idx2 = (total['钾(g)'].notna())
idx3 = (total['氯(g)'].notna())
print(total[idx1 | idx2 | idx3].index)
total.loc[idx1, '钠(mg)'] = [str(float(x) * 1000) for x in total.loc[idx1, '钠(g)']]
total.loc[idx2, '钾(mg)'] = [str(float(x) * 1000) for x in total.loc[idx2, '钾(g)']]
total.loc[idx3, '氯(mg)'] = [str(float(x) * 1000) for x in total.loc[idx3, '氯(g)']]

Index(['国食注字TY20220012', '国食注字TY20230001', '国食注字TY20230067', '国食注字TY20240010'], dtype='object', name='注册证号')


In [7]:
result1_1 = total[['能量(kJ)','脂肪(g)','碳水化合物(g)','蛋白质(g)','钠(mg)','氯(mg)','钾(mg)','磷(mg)']]
result1_1

Header,能量(kJ),脂肪(g),碳水化合物(g),蛋白质(g),钠(mg),氯(mg),钾(mg),磷(mg)
注册证号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
国食注字TY20175001,100,1.2,2.5,0.72,10.1,20.8,28.5,21.3
国食注字TY20175002,100,1.28,2.51,0.55,9,15,32,15
国食注字TY20175003,100.0,1.280,2.549,0.546,,15.38,31.47,10.49
国食注字TY20180001,100,1.3,2.6,0.56,8.4,15.4,24.7,13.1
国食注字TY20180002,100,0,5.8,0,271,416,184,14.6
...,...,...,...,...,...,...,...,...
国食注字TY20240018,100,0.76,3.15,0.95,23,18,32,11
国食注字TY20240019,100,0,0.3,5.6,11,,,
国食注字TY20240020,100,2.3,0.69,0.22,3.2,,,
国食注字TY20240021,100,0,5.71,0.18,14.17,,,


In [8]:
result1_1.isna().sum()

Header
能量(kJ)       0
脂肪(g)        0
碳水化合物(g)     0
蛋白质(g)       0
钠(mg)        0
氯(mg)       46
钾(mg)       44
磷(mg)       55
dtype: int64

In [9]:
result1_1.columns.names = [None]
result1_1 = result1_1.fillna(0)
result1_1.to_excel(os.path.join(result_dir, 'result1.xlsx'))
result1_1['蛋白质(g)'] = result1_1['蛋白质(g)'].astype(float)
result1_1.sort_values('蛋白质(g)', ascending=False, inplace=True)
result1_1.head(3)

Unnamed: 0_level_0,能量(kJ),脂肪(g),碳水化合物(g),蛋白质(g),钠(mg),氯(mg),钾(mg),磷(mg)
注册证号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
国食注字TY20230045,100,0.04,0.007,5.9,45.0,0,0,0
国食注字TY20230062,100,0.0,0.08,5.8,24.0,0,0,0
国食注字TY20220002,100,0.0,0.1,5.8,80.4,0,0,0


In [12]:
test = pd.read_excel(os.path.join(result_dir, 'result1.xlsx'))
test = test.fillna(0)
print(test.loc[test['注册证号']=='国食注字TY20175003', '钠(mg)'])
test.set_index('注册证号', inplace=True)
test.to_excel(os.path.join(result_dir, 'result1.xlsx'))

2    0.0
Name: 钠(mg), dtype: float64


## task 1.2

In [8]:
data = pd.read_excel(os.path.join(data_dir, 'data.xlsx'))

识别说明书中的【产品类别】、【组织状态】、【适用人群】等数据，添加至 data.xlsx 中

In [54]:
# 提取函数
def extract_ty_st_gp(path):
    with pdfplumber.open(path) as pdf:
        # 遍历 PDF 中的每一页
        ty = None
        st = None
        gp = None
        for page_number, page in enumerate(pdf.pages):
            text = page.extract_text() # 页面内容提取为文本
            # 按行分割文本
            for line in text.split('\n'):    
                if '【产品类别】' in line:
                    ty = line.strip('【产品类别】')
                if '【组织状态】' in line:
                    st = line.strip('【组织状态】')
                if '【适用人群】' in line:
                    gp = line.strip('【适用人群】')
        return (ty, st, gp)

In [65]:
df1_2 = pd.DataFrame(columns=['注册证号', '产品类别', '组织状态', '适用人群'])
# 对每一个 pdf 进行操作
cnt = 0
for file in os.listdir(os.path.join(data_dir, 'intro')):
    if file.endswith('.pdf'):
        file_path = os.path.join(data_dir, 'intro', file)
        ty, st, gp = extract_ty_st_gp(file_path)
        df1_2.loc[cnt] = ['国食注字' + file[4:-4], ty, st, gp]
        cnt += 1

### 清洗数据

In [66]:
# 缺失值
df1_2.isna().sum() # 所有 pdf 中均含有三者的信息

注册证号    0
产品类别    0
组织状态    0
适用人群    0
dtype: int64

In [67]:
# 异常值
df1_2['产品类别'].value_counts()

产品类别
全营养配方食          56
非全营养配方食         51
早产/低出生体重婴儿配方    15
无乳糖配方           13
蛋白质（氨基酸）组件      13
乳蛋白部分水解配方       11
母乳营养补充剂          5
碳水化合物组件          4
乳蛋白深度水解配方        3
脂肪（脂肪酸）组件        2
电解质配方            2
氨基酸配方            2
特定全营养配方食         1
氨基酸代谢障碍配方        1
低乳糖配方            1
流质配方             1
增稠组件             1
Name: count, dtype: int64

In [68]:
# 注意到需要为其添加 ‘品’ 字，如 ‘全营养配方食’ 实际为 ‘全营养配方食品’
df1_2.loc[df1_2['产品类别'] == '全营养配方食', ['产品类别']] = '全营养配方食品'
df1_2.loc[df1_2['产品类别'] == '非全营养配方食', ['产品类别']] = '非全营养配方食品'
df1_2.loc[df1_2['产品类别'] == '特定全营养配方食', ['产品类别']] = '特定全营养配方食品'

df1_2['产品类别'].value_counts()

产品类别
全营养配方食品         56
非全营养配方食品        51
早产/低出生体重婴儿配方    15
无乳糖配方           13
蛋白质（氨基酸）组件      13
乳蛋白部分水解配方       11
母乳营养补充剂          5
碳水化合物组件          4
乳蛋白深度水解配方        3
脂肪（脂肪酸）组件        2
电解质配方            2
氨基酸配方            2
特定全营养配方食品        1
氨基酸代谢障碍配方        1
低乳糖配方            1
流质配方             1
增稠组件             1
Name: count, dtype: int64

In [69]:
df1_2['组织状态'].value_counts()

组织状态
粉      131
液       46
粉状。      2
粉末       1
液态。      1
颗粒       1
Name: count, dtype: int64

In [72]:
df1_2.loc[df1_2['组织状态'] == '粉', ['组织状态']] = '粉状'
df1_2.loc[df1_2['组织状态'] == '液', ['组织状态']] = '液态'
df1_2.loc[df1_2['组织状态'] == '粉状。', ['组织状态']] = '粉状'
df1_2.loc[df1_2['组织状态'] == '粉末', ['组织状态']] = '粉状'
df1_2.loc[df1_2['组织状态'] == '液态。', ['组织状态']] = '液态'

# 对于颗粒虽然只有一个数据，但采取保留的形式，修改为源 pdf 国食注字TY20240008 中的 颗粒状
df1_2.loc[df1_2['组织状态'] == '颗粒', ['组织状态']] = '颗粒状'
df1_2['组织状态'].value_counts()

组织状态
粉状     134
液态      47
颗粒状      1
Name: count, dtype: int64

In [79]:
# 观察所有的数据
# for people in df1_2['适用人群'].value_counts().index:
#     print(people)

# 发现有些明显数据缺失，找到产品的注册证号
print(df1_2.loc[df1_2['适用人群'] == '10岁以上苯丙酮尿症'])
print(df1_2.loc[df1_2['适用人群'] == '1～10岁苯丙酮尿症'])
print(df1_2.loc[df1_2['适用人群'] == '于1～10岁进食受限、消化吸收障碍、代谢紊乱需要补充营养的'])

              注册证号      产品类别 组织状态        适用人群
16  国食注字TY20185011  非全营养配方食品   粉状  10岁以上苯丙酮尿症
              注册证号      产品类别 组织状态        适用人群
39  国食注字TY20195012  非全营养配方食品   粉状  1～10岁苯丙酮尿症
              注册证号     产品类别 组织状态                           适用人群
40  国食注字TY20200001  全营养配方食品   粉状  于1～10岁进食受限、消化吸收障碍、代谢紊乱需要补充营养的


In [82]:
# 观察后进行更正
df1_2.loc[df1_2['适用人群'] == '10岁以上苯丙酮尿症', '适用人群'] = '10岁以上苯丙酮尿症人群'
df1_2.loc[df1_2['适用人群'] == '1～10岁苯丙酮尿症', '适用人群'] = '1～10岁苯丙酮尿症人群'
df1_2.loc[df1_2['适用人群'] == '于1～10岁进食受限、消化吸收障碍、代谢紊乱需要补充营养的', '适用人群'] = '于1～10岁进食受限、消化吸收障碍、代谢紊乱需要补充营养的人群'

# 去除掉提取时的 ‘。’
df1_2['适用人群'] = [x.strip('。') for x in df1_2['适用人群']]


for people in df1_2['适用人群'].value_counts().index:
    print(people)

10岁以上进食受限、消化吸收障碍、代谢紊乱等需要补充营养的人群
早产/低出生体重婴儿
10岁以上特定疾病或医学状况下需要补充蛋白质的人群
0～12月龄乳糖不耐受婴儿
0～12月龄乳蛋白过敏高风险婴儿
10岁以上因腹泻等原因导致轻至中度脱水需要补充水及电解质的人群
于10岁以上进食受限、消化吸收障碍、代谢紊乱需要补充营养的人群
10岁以上术前需要补充碳水化合物的人群
于10岁以上进食受限、消化吸收障碍、代谢紊乱等需要补充营养的人群
0～12月龄食物蛋白过敏婴儿
10岁以上特定疾病或医学状况下需要补充碳水化合物的人群
10岁以上需要限制脂肪摄入、消化吸收障碍等医学状况下的人群
10岁以上术前需要补充碳水化合物和电解质的人群
1岁以上术前需要补充碳水化合物的人群
10岁以上特定疾病或者医学状况下需要补充蛋白质的人群
18岁以上术前需要补充碳水化合物和电解质的人群
10岁以上因腹泻需要补充水及电解质的人群
于1～10岁进食受限、消化吸收障碍、代谢紊乱需要补充营养的人群
1～10岁进食受限、消化吸收障碍、代谢紊乱等需要补充营养的人群
1~10岁因进食受限、消化吸收障碍、代谢紊乱等需要补充营养的人群
0～12 月龄乳糖不耐受婴儿
10岁以上吞咽障碍和（或）有误吸风险的人群
1岁以上特定疾病或医学状况下需要补充蛋白质的人群
10岁以上特定疾病或医学状态下需要补充蛋白质的人群
于10岁以上特定疾病或医学状况下需要补充碳水化合物的人群
术前需补充碳水化合物和水的18岁以上人群
0～12月乳糖不耐受婴儿
1～10岁因腹泻导致轻度或者中度脱水需要补充水及电解质的人群
于10岁以上吞咽障碍和（或）有误吸风险的人群
10岁以上因进食受限、消化吸收障碍、代谢紊乱等需要补充营养的人群
10岁以上进食受限、消化吸收障碍、代谢紊乱等需补充营养的人群
10岁以上特定疾病或者医学状况下需要补充碳水化合物的人群
10岁以上因腹泻等原因导致轻至中度脱水需要补充水和电解质的人群
于1～10岁进食受限、消化吸收障碍、代谢紊乱等需要补充营养的人群
10 岁以上进食受限、消化吸收障碍、代谢紊乱等需要补充营养的人群
1~10岁进食受限、消化吸收障碍、代谢紊乱等需要补充营养的人群
10 岁以上特定疾病或医学状况下需要补充蛋白质的人群
1岁以上因腹泻等原因导致轻至中度脱水需要补充水及电解质的人群
食物蛋白过敏婴儿
18岁

### 合并 data.xlsx 中数据与清洗后数据
采用 merge() 的左连接（left join）：以左边的DataFrame为基础，保留左边DataFrame的所有行，右边DataFrame中与公共列匹配的行填充数据，不匹配的则填充NaN。

In [90]:
df1_2_new = pd.merge(data, df1_2, on='注册证号', how='left')
df1_2_new.index = range(1, 183)
df1_2_new.index.names = ['序号']
df1_2_new.head(5)

Unnamed: 0_level_0,企业名称,产品名称,注册证号,有效期至,产品类别,组织状态,适用人群
序号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,SHS INTERNATIONAL LTD,纽康特特殊医学用途婴儿氨基酸配方食品,国食注字TY20175001,2027-10-13,氨基酸配方,粉状,食物蛋白过敏婴儿
2,ABBOTT LABORATORIES S.A.,雅培亲护特殊医学用途婴儿乳蛋白部分水解配方粉,国食注字TY20175002,2027-10-13,乳蛋白部分水解配方,粉状,0～12月龄乳蛋白过敏高风险婴儿
3,ABBOTT LABORATORIES S.A.,菁挚呵护特殊医学用途婴儿乳蛋白部分水解配方粉,国食注字TY20175003,2022-11-19,乳蛋白部分水解配方,粉状,0-12月龄乳蛋白过敏高风险婴儿
4,杭州贝因美母婴营养品有限公司,贝因美特殊医学用途婴儿无乳糖配方食品,国食注字TY20180001,2028-01-17,无乳糖配方,粉状,0～12月龄乳糖不耐受婴儿
5,SHS INTERNATIONAL LTD,纽贝瑞特殊医学用途婴儿苯丙酮尿症配方粉,国食注字TY20185001,2028-01-17,氨基酸代谢障碍配方,粉状,0～12月龄苯丙酮尿症婴儿


## task 1.3
将适用人群进行分类，首先将适用人群的所有取值打印出来

In [91]:
for people in df1_2_new['适用人群'].value_counts().index:
    print(people)

10岁以上进食受限、消化吸收障碍、代谢紊乱等需要补充营养的人群
早产/低出生体重婴儿
10岁以上特定疾病或医学状况下需要补充蛋白质的人群
0～12月龄乳糖不耐受婴儿
0～12月龄乳蛋白过敏高风险婴儿
10岁以上因腹泻等原因导致轻至中度脱水需要补充水及电解质的人群
10岁以上术前需要补充碳水化合物的人群
于10岁以上进食受限、消化吸收障碍、代谢紊乱需要补充营养的人群
0～12月龄食物蛋白过敏婴儿
10岁以上特定疾病或医学状况下需要补充碳水化合物的人群
10岁以上需要限制脂肪摄入、消化吸收障碍等医学状况下的人群
于10岁以上进食受限、消化吸收障碍、代谢紊乱等需要补充营养的人群
10岁以上术前需要补充碳水化合物和电解质的人群
1岁以上术前需要补充碳水化合物的人群
10岁以上特定疾病或者医学状况下需要补充蛋白质的人群
18岁以上术前需要补充碳水化合物和电解质的人群
10岁以上因腹泻需要补充水及电解质的人群
于1～10岁进食受限、消化吸收障碍、代谢紊乱需要补充营养的人群
0～12 月龄乳糖不耐受婴儿
1～10岁进食受限、消化吸收障碍、代谢紊乱等需要补充营养的人群
1~10岁因进食受限、消化吸收障碍、代谢紊乱等需要补充营养的人群
10岁以上吞咽障碍和（或）有误吸风险的人群
1岁以上特定疾病或医学状况下需要补充蛋白质的人群
10岁以上特定疾病或医学状态下需要补充蛋白质的人群
于10岁以上特定疾病或医学状况下需要补充碳水化合物的人群
术前需补充碳水化合物和水的18岁以上人群
0～12月乳糖不耐受婴儿
1～10岁因腹泻导致轻度或者中度脱水需要补充水及电解质的人群
于10岁以上吞咽障碍和（或）有误吸风险的人群
10岁以上因进食受限、消化吸收障碍、代谢紊乱等需要补充营养的人群
10岁以上进食受限、消化吸收障碍、代谢紊乱等需补充营养的人群
10岁以上特定疾病或者医学状况下需要补充碳水化合物的人群
10岁以上因腹泻等原因导致轻至中度脱水需要补充水和电解质的人群
于1～10岁进食受限、消化吸收障碍、代谢紊乱等需要补充营养的人群
10 岁以上进食受限、消化吸收障碍、代谢紊乱等需要补充营养的人群
1~10岁进食受限、消化吸收障碍、代谢紊乱等需要补充营养的人群
10 岁以上特定疾病或医学状况下需要补充蛋白质的人群
1岁以上因腹泻等原因导致轻至中度脱水需要补充水及电解质的人群
食物蛋白过敏婴儿
18岁

引入正则表达式，筛选含有‘婴儿’的条目，划分为 ‘特医婴配食品’

In [107]:
import re

df1_3 = df1_2_new.copy()
for x in df1_3.index:
    chars = re.findall(r'婴儿', df1_3.loc[x, '适用人群'])
    if len(chars) >= 1:
        df1_3.loc[x, '适用人群类别'] = '特医婴配食品'

# 观察剩下的数据，发现均非婴配食品，将其置为 ‘1 岁以上特医食品’
df1_3.loc[df1_3['适用人群类别'].isna(), '适用人群'].value_counts()
print(df1_3.isna().sum()) # 发现只有适用人群类别为 NAN
df1_3.fillna('1 岁以上特医食品', inplace=True)
df1_3.head(5)

企业名称        0
产品名称        0
注册证号        0
有效期至        0
产品类别        0
组织状态        0
适用人群        0
适用人群类别    131
dtype: int64


Unnamed: 0_level_0,企业名称,产品名称,注册证号,有效期至,产品类别,组织状态,适用人群,适用人群类别
序号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,SHS INTERNATIONAL LTD,纽康特特殊医学用途婴儿氨基酸配方食品,国食注字TY20175001,2027-10-13,氨基酸配方,粉状,食物蛋白过敏婴儿,特医婴配食品
2,ABBOTT LABORATORIES S.A.,雅培亲护特殊医学用途婴儿乳蛋白部分水解配方粉,国食注字TY20175002,2027-10-13,乳蛋白部分水解配方,粉状,0～12月龄乳蛋白过敏高风险婴儿,特医婴配食品
3,ABBOTT LABORATORIES S.A.,菁挚呵护特殊医学用途婴儿乳蛋白部分水解配方粉,国食注字TY20175003,2022-11-19,乳蛋白部分水解配方,粉状,0-12月龄乳蛋白过敏高风险婴儿,特医婴配食品
4,杭州贝因美母婴营养品有限公司,贝因美特殊医学用途婴儿无乳糖配方食品,国食注字TY20180001,2028-01-17,无乳糖配方,粉状,0～12月龄乳糖不耐受婴儿,特医婴配食品
5,SHS INTERNATIONAL LTD,纽贝瑞特殊医学用途婴儿苯丙酮尿症配方粉,国食注字TY20185001,2028-01-17,氨基酸代谢障碍配方,粉状,0～12月龄苯丙酮尿症婴儿,特医婴配食品


## task 1.4 获取登记年份与产品来源
登记年份可在打开 pdf 时根据文件名称获得，产品来源需要读取 pdf 内容

In [108]:
df = pd.DataFrame(columns=['注册证号', '产品来源', '登记年份'])

# 对每一个 pdf 进行操作
cnt = 0
for file in os.listdir(os.path.join(data_dir, 'intro')):
    if file.endswith('.pdf'):
        df.loc[cnt] = ['国食注字' + file[4:-4], int(file[10]), file[6:10]]
        cnt += 1
is_foreign = (df['产品来源'] == 5)
is_domestic = (df['产品来源'] == 0)
df.loc[is_foreign, '产品来源'] = '进口产品'
df.loc[is_domestic, '产品来源'] = '国产产品'
df

Unnamed: 0,注册证号,产品来源,登记年份
0,国食注字TY20175001,进口产品,2017
1,国食注字TY20175002,进口产品,2017
2,国食注字TY20175003,进口产品,2017
3,国食注字TY20180001,国产产品,2018
4,国食注字TY20180002,国产产品,2018
...,...,...,...
177,国食注字TY20240018,国产产品,2024
178,国食注字TY20240019,国产产品,2024
179,国食注字TY20240020,国产产品,2024
180,国食注字TY20240021,国产产品,2024


将得到的 df 与任务 1.3 中 merge

In [114]:
df1_4 = pd.merge(df1_3, df, on='注册证号', how='left')
# df1_4.index = range(1, 183)
# df1_4.index.names = ['序号']
df1_4.set_index('企业名称', inplace=True)
df1_4.to_excel(os.path.join(result_dir, 'result2.xlsx'))
df1_4.head(5)

Unnamed: 0_level_0,产品名称,注册证号,有效期至,产品类别,组织状态,适用人群,适用人群类别,产品来源,登记年份
企业名称,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
SHS INTERNATIONAL LTD,纽康特特殊医学用途婴儿氨基酸配方食品,国食注字TY20175001,2027-10-13,氨基酸配方,粉状,食物蛋白过敏婴儿,特医婴配食品,进口产品,2017
ABBOTT LABORATORIES S.A.,雅培亲护特殊医学用途婴儿乳蛋白部分水解配方粉,国食注字TY20175002,2027-10-13,乳蛋白部分水解配方,粉状,0～12月龄乳蛋白过敏高风险婴儿,特医婴配食品,进口产品,2017
ABBOTT LABORATORIES S.A.,菁挚呵护特殊医学用途婴儿乳蛋白部分水解配方粉,国食注字TY20175003,2022-11-19,乳蛋白部分水解配方,粉状,0-12月龄乳蛋白过敏高风险婴儿,特医婴配食品,进口产品,2017
杭州贝因美母婴营养品有限公司,贝因美特殊医学用途婴儿无乳糖配方食品,国食注字TY20180001,2028-01-17,无乳糖配方,粉状,0～12月龄乳糖不耐受婴儿,特医婴配食品,国产产品,2018
SHS INTERNATIONAL LTD,纽贝瑞特殊医学用途婴儿苯丙酮尿症配方粉,国食注字TY20185001,2028-01-17,氨基酸代谢障碍配方,粉状,0～12月龄苯丙酮尿症婴儿,特医婴配食品,进口产品,2018
