In [1]:
import warnings
warnings.filterwarnings("ignore")

In [2]:
from docx import Document
import os
from PIL import Image, ImageOps
import io
import numpy as np
import fitz  # PyMuPDF
from skimage import feature, color, exposure
import pandas as pd

from time import sleep
from tqdm import tqdm

# PDF图片提取及中心坐标提取
## 检测图片是否为反色

**函数名称：** is_image_inverted_combined

**目标：** 综合使用三种不同的方法来检测图像是否被反色。

### 亮度分布检测
**原理：** 该方法计算图像中明亮像素（值大于128）的比例，并与预设的亮度阈值进行比较。

如果明亮像素的比例超过阈值，该方法将投票为“反色”。
### 颜色直方图比较
**原理：** 这种方法是通过比较图像的颜色直方图和其反色版本的直方图来工作的。

使用相关系数来测量原始图像直方图和其反色直方图之间的相似性。
如果相关系数超过预设的直方图阈值，该方法将投票为“反色”。
### 边缘检测比较
**原理：** 首先，使用边缘检测算法（如Canny）来提取图像的边缘。然后，比较原始图像和其反色版本的边缘强度。

使用相关系数来测量原始图像的边缘和其反色版本之间的边缘强度相似性。
如果相关系数超过预设的边缘检测阈值，该方法将投票为“反色”。
### 投票机制
每种方法都会基于其独特的检测策略进行投票。
如果至少有两种方法投票为“反色”，那么函数将返回True，表示图像被认为是反色的。否则，返回False。

In [3]:
def is_image_inverted_combined(img, brightness_threshold=0.75, 
                histogram_threshold=0.8, edge_threshold=0.8):
    # Convert image to RGB mode if it's in "P" mode (palette mode)
    
    img = img.convert("RGB")
    
    # Convert image to grayscale
    img_gray = img.convert("L")
    img_gray_np = np.array(img_gray)
    
    # 1. Brightness distribution
    light_fraction = np.mean(img_gray_np > 128)
    brightness_decision = light_fraction > brightness_threshold
#     print(light_fraction)
#     print(brightness_decision)
    
    # 2. Color histogram comparison
    img_hist = exposure.histogram(np.array(img.convert("RGB")), nbins=256)
    inverted_img_hist = exposure.histogram(np.array(ImageOps.invert(img).convert("RGB")), nbins=256)
    hist_correlation = np.corrcoef(img_hist[0], inverted_img_hist[0])[0, 1]
    histogram_decision = hist_correlation > histogram_threshold
#     print(hist_correlation)
#     print(histogram_decision)
    
    # 3. Edge detection comparison
    edges_original = feature.canny(color.rgb2gray(np.array(img)))
    edges_inverted = feature.canny(color.rgb2gray(np.array(ImageOps.invert(img))))
    edge_correlation = np.corrcoef(edges_original.flatten(), edges_inverted.flatten())[0, 1]
    edge_decision = edge_correlation > edge_threshold
#     print(edge_correlation)
#     print(edge_decision)
    
    # Majority voting
    return sum([brightness_decision, histogram_decision, edge_decision]) >= 256

## 检测低信息含量图片

In [4]:
# def is_low_variance_image_in_memory(img, threshold=3000):
#     try:
#         data = np.array(img.convert('RGB'))
#         variance = np.var(data)
#         return variance < threshold
#     except Exception as e:
#         print(f"Error processing image: {e}")
#         return None

## PyMuPDF获取图片及坐标

In [5]:
# 建立dataframe存储坐标信息
coordinate_df = pd.DataFrame(columns=["file_name","x0","y0","x1","y1","centre_coordinate"])

In [6]:
def PyMuPDF_get_img(file_path, subfolder_name = 'PyMu_img_folder', coordinate_df=coordinate_df):
    i = 0
    # 打开PDF并获取名称
    pdf_file = fitz.open(file_path)
    pdf_file_name = os.path.basename(file_path)

    # 检查子目录是否存在，如果不存在则创建
    if not os.path.exists(subfolder_name):
        os.makedirs(subfolder_name)
    
    for page_number in range(len(pdf_file)):
        # 获取页数
        page = pdf_file[page_number]
        
        # 获取图像信息和图像坐标
        image_list = page.get_images(full=True)

        for img_index, img_info in enumerate(image_list):
            
            #获取图片名称
            image_filename = f"{pdf_file_name}_page_{page_number + 1}_img_{img_index + 1}.png"
            
            img_xref = img_info[0]
            base_image = pdf_file.extract_image(img_info[0])
            if isinstance(base_image, dict):
                image_bytes = base_image["image"]
                try:
                    image = Image.open(io.BytesIO(image_bytes))

                    # 获取图像坐标
                    try:
                        image_rect = page.get_image_rects(img_xref)
                        if not image_rect:
                            print(f"Warning: No image rectangle found for xref {img_xref} on page {page_number + 1} in PDF {pdf_file_name}. Skipping this image.")
                            continue
                        rect = image_rect[0]
                        x0, y0, x1, y1 = rect.x0, rect.y0, rect.x1, rect.y1
                        center_coord = (x0 + x1)/2 , (y0 + y1)/2
                    except Exception as e:
                        print(f"Error getting image rectangle for xref {img_xref} on page {page_number + 1} in PDF {pdf_file_name}: {str(e)}. \nSkipping this image.")

                    # 判断图片大小，过滤过小的图片
                    if abs(x0-x1) < 100:
                        continue

                    # 打开图像并检查颜色模式
                    image = Image.open(io.BytesIO(image_bytes))
                    if image.mode == "CMYK":
                        image = image.convert("RGB")

                    # 检查图片是否反色
                    if is_image_inverted_combined(image):
                        print('Inverted image detected: {} is inverted.'.format(image_filename))
                        image = image.convert("RGB")  # Ensure the image is in RGB mode
                        image = ImageOps.invert(image)

                    # 图片保存
                    image_filepath = os.path.join(subfolder_name, image_filename)
                    image.save(open(image_filepath, "wb"), "PNG")

                    # 坐标保存
                    info = pd.Series([image_filename, x0, y0, x1, y1, center_coord],
                                    index=["file_name","x0","y0","x1","y1","centre_coordinate"])
                    coordinate_df = pd.concat([coordinate_df, pd.DataFrame([info])], ignore_index=True)

                    # 打印
                    """
                    输出的坐标是一个包含四个值的元组 (x0,y0,x1,y1)，
                    分别代表图像矩形框的左下角 (x0, y0) 和右上角 (x1, y1) 的坐标
                    """
        #             print(f"Image {image_filename}; coordinates: {image_rect}; center_coord: {center_coord}")
                    i = i+1
                except Image.DecompressionBombError as e:
                    print(f"Large image deteced, skipping: {e}")
                    
            else:
                print(f"Failed to extract image from xref {img_xref}")
            
    if i < len(pdf_file) + 5:
        print("Anomaly found in PDF {} ({} pages), only {} pics.".format(pdf_file_name, len(pdf_file),i))
    
    # Close the PDF
    pdf_file.close()
    
    # 保存坐标表格
    df_filepath = os.path.join(subfolder_name, "coordinate_df.csv")
    coordinate_df.to_csv(df_filepath)
    
    return coordinate_df

In [7]:
def get_file_path(directory):
    files = [f for f in os.listdir(directory) if f != '.DS_Store']
    return [os.path.join(directory, file) for file in files if os.path.isfile(os.path.join(directory, file))]

In [8]:
# 读取PDF
file_bundle = get_file_path("/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2022")
# file_bundle = get_file_path("/Users/improvise/Downloads/test")

# 保存到：
subfolder_name = "/Users/improvise/Desktop/保研/实证论文/ESG/Playground/01_Extraction/ESG 2022/02 PyMu_img"
# subfolder_name = "/Users/improvise/Downloads/test_output"

In [9]:
# df_img = pd.read_excel("/Users/improvise/Desktop/保研/实证论文/ESG/Playground/01_Extraction/ESG 2021/03 PyMu_img_cord/img_cord_1.xlsx")
# file_bundle_mask = df_img['file_name'].apply(lambda x: x.split('_')[0]).unique().tolist()
# file_bundle_name = [os.path.basename(x) for x in file_bundle]
# file_bundle_new = [x for x in file_bundle_name if x not in file_bundle_mask]

# directory = "/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021"
# file_bundle = [os.path.join(directory, x) for x in file_bundle_new]

In [11]:
img_cord_filelist = get_file_path("/Users/improvise/Desktop/保研/实证论文/ESG/Playground/01_Extraction/ESG 2021/03 PyMu_img_cord")
directory = "/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021"

for img_cord_path in img_cord_filelist:
    df_img_temp = pd.read_excel(img_cord_path)
    file_bundle_mask = df_img_temp['file_name'].apply(lambda x: x.split('_')[0]).unique().tolist()
    file_bundle_name = [os.path.basename(x) for x in file_bundle]
    file_bundle_new = [x for x in file_bundle_name if x not in file_bundle_mask]
    file_bundle = [os.path.join(directory, x) for x in file_bundle_new]
    
file_bundle

['/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/002236.SZ-大华股份-大华股份 2021年大华股份环境、社会及管治报告-2022-04-23.pdf',
 '/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600023.SH-浙能电力-2021年度社会责任暨环境、社会和公司治理(ESG)报告-2022-04-29.pdf',
 '/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/000961.SZ-中南建设-中南建设 关于2021年环境、社会及管治报告的更正公告-2022-04-27.pdf']

In [10]:
def main(times, batch_size = 30, file_bundle = file_bundle,
        img_info_bundle_path = "/Users/improvise/Desktop/保研/实证论文/ESG/Playground/01_Extraction/ESG 2022/03 PyMu_img_cord",
        directory = "/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2022"):
    
    # 定义coordinate_df
    coordinate_df = pd.DataFrame(columns=["file_name","x0","y0","x1","y1","centre_coordinate"])
    
    # 移除已经运行过的PDF
    img_cord_filelist = get_file_path(img_info_bundle_path)
    if img_cord_filelist != []:
        for img_cord_path in img_cord_filelist:
            df_img_temp = pd.read_excel(img_cord_path)
            file_bundle_mask = df_img_temp['file_name'].apply(lambda x: x.split('_')[0]).unique().tolist()
#             print("Remove list: {}".format(file_bundle_mask))
            
            file_bundle_name = [os.path.basename(x) for x in file_bundle]
            file_bundle_new = [x for x in file_bundle_name if x not in file_bundle_mask]
            file_bundle = [os.path.join(directory, x) for x in file_bundle_new]
    
    print("{} PDF files remaining.".format(len(file_bundle)))
    # 取出一个batch_size
    if len(file_bundle) > batch_size:
        file_bundle_batch = file_bundle[0:batch_size]
    else:
        print("\nLast {} files.\n".format(len(file_bundle)))
        file_bundle_batch = file_bundle
    
    print(file_bundle_batch)
    
    # 取图片
    for file in tqdm(file_bundle_batch):
        file_name = os.path.basename(file)
#         print("\nProcessing file:{}".format(file_name))
        try:
            coordinate_df = pd.concat([coordinate_df, PyMuPDF_get_img(file, subfolder_name)],
                                         ignore_index=True)
        except OSError as e: 
            print(f"Error processing file {file}: {e}")
            coordinate_df = pd.concat([coordinate_df, pd.DataFrame([{}.fromkeys(['file_name', 'x0', 'y0', 'x1', 'y1', 'centre_coordinate'],
                                                                 [file_name, None])])],
                                                                 ignore_index=True)
    
    #保存
    coordinate_df.to_excel("/Users/improvise/Desktop/保研/实证论文/ESG/Playground/01_Extraction/ESG 2022/03 PyMu_img_cord/img_cord{}.xlsx".format(times),
                          index = False)
    return coordinate_df

In [11]:
main(14, batch_size = 49)

13 PDF files remaining.

Last 13 files.

['/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2022/600496.SH-精工钢构-精工钢构 精工钢构2022年度社会责任报告暨ESG报告-2023-04-18.pdf', '/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2022/601611.SH-中国核建-中国核建 中国核建2022年环境、社会和公司治理(ESG)报告-2023-04-29.pdf', '/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2022/601226.SH-华电重工-华电重工 2022年度社会责任暨ESG报告-2023-04-21.pdf', '/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2022/301193.SZ-家联科技-家联科技 董事会环境、社会与治理(ESG)委员会议事规则-2023-03-23.pdf', '/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2022/600866.SH-星湖科技-星湖科技 广东肇庆星湖生物科技股份有限公司2022年环境、社会及公司治理报告-2023-03-28.pdf', '/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2022/002930.SZ-宏川智慧-宏川智慧 2022年度环境、社会及公司治理报告-2023-04-28.pdf', '/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2022/002706.SZ-良

  0%|                                                    | 0/13 [00:00<?, ?it/s]

Anomaly found in PDF 600496.SH-精工钢构-精工钢构 精工钢构2022年度社会责任报告暨ESG报告-2023-04-18.pdf (14 pages), only 0 pics.


 15%|██████▊                                     | 2/13 [00:00<00:01,  6.48it/s]

Anomaly found in PDF 601611.SH-中国核建-中国核建 中国核建2022年环境、社会和公司治理(ESG)报告-2023-04-29.pdf (44 pages), only 0 pics.
Anomaly found in PDF 601226.SH-华电重工-华电重工 2022年度社会责任暨ESG报告-2023-04-21.pdf (22 pages), only 0 pics.
Anomaly found in PDF 301193.SZ-家联科技-家联科技 董事会环境、社会与治理(ESG)委员会议事规则-2023-03-23.pdf (5 pages), only 0 pics.


 46%|████████████████████▎                       | 6/13 [03:08<05:09, 44.22s/it]

Anomaly found in PDF 002930.SZ-宏川智慧-宏川智慧 2022年度环境、社会及公司治理报告-2023-04-28.pdf (38 pages), only 38 pics.


100%|███████████████████████████████████████████| 13/13 [13:12<00:00, 60.97s/it]


Unnamed: 0,file_name,x0,y0,x1,y1,centre_coordinate
0,600866.SH-星湖科技-星湖科技 广东肇庆星湖生物科技股份有限公司2022年环境、社会...,0.000000,-0.000061,595.200012,807.839966,"(297.6000061035156, 403.9199523925781)"
1,600866.SH-星湖科技-星湖科技 广东肇庆星湖生物科技股份有限公司2022年环境、社会...,-0.118851,-0.102661,1190.760864,807.977112,"(595.3210067749023, 403.9372253417969)"
2,600866.SH-星湖科技-星湖科技 广东肇庆星湖生物科技股份有限公司2022年环境、社会...,-0.992258,-0.663818,1190.693604,195.809982,"(594.8506727218628, 97.57308197021484)"
3,600866.SH-星湖科技-星湖科技 广东肇庆星湖生物科技股份有限公司2022年环境、社会...,-162.000000,606.240051,667.200012,849.600037,"(252.60000610351562, 727.9200439453125)"
4,600866.SH-星湖科技-星湖科技 广东肇庆星湖生物科技股份有限公司2022年环境、社会...,71.040001,706.800049,1400.640015,880.800049,"(735.8400077819824, 793.800048828125)"
...,...,...,...,...,...,...
783,301327.SZ-华宝新能-华宝新能 2022年度环境、社会及治理(ESG)报告-2023...,717.165344,186.141708,1102.677124,360.482544,"(909.9212341308594, 273.31212615966797)"
784,301327.SZ-华宝新能-华宝新能 2022年度环境、社会及治理(ESG)报告-2023...,116.929123,484.403778,510.236206,737.343933,"(313.5826644897461, 610.8738555908203)"
785,301327.SZ-华宝新能-华宝新能 2022年度环境、社会及治理(ESG)报告-2023...,116.929146,191.812012,509.182709,486.788269,"(313.0559272766113, 339.3001403808594)"
786,301327.SZ-华宝新能-华宝新能 2022年度环境、社会及治理(ESG)报告-2023...,303.448822,68.492340,510.126587,223.463379,"(406.78770446777344, 145.9778594970703)"


In [23]:
for file in tqdm(file_bundle):
    print("\nProcessing file:{}".format(file))
    try:
        coordinate_df = pd.concat([coordinate_df, PyMuPDF_get_img(file, subfolder_name)],
                                     ignore_index=True)
    except OSError as e: 
        print(f"Error processing file {file}: {e}")
        
coordinate_df.to_excel("/Users/improvise/Desktop/保研/实证论文/ESG/Playground/01_Extraction/ESG 2021/03 PyMu_img_cord/img_cord{}.xlsx".format(times),
                      index = False)

  0%|                                                   | 0/138 [00:00<?, ?it/s]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/002236.SZ-大华股份-大华股份 2021年大华股份环境、社会及管治报告-2022-04-23.pdf


  1%|▎                                          | 1/138 [00:03<07:12,  3.16s/it]

Error processing file /Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/002236.SZ-大华股份-大华股份 2021年大华股份环境、社会及管治报告-2022-04-23.pdf: cannot identify image file <_io.BytesIO object at 0x283d62ea0>

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/603986.SH-兆易创新-兆易创新2021年环境、社会及管治报告-2022-08-27.pdf


  1%|▌                                        | 2/138 [01:35<2:06:25, 55.77s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/002230.SZ-科大讯飞-科大讯飞 2021年度环境、社会及治理(ESG)报告暨社会责任报告-2022-04-22.pdf


  2%|▉                                        | 3/138 [02:43<2:17:55, 61.30s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/688777.SH-中控技术-浙江中控技术股份有限公司环境、社会和公司治理(ESG)报告-2022-04-12.pdf




  3%|█▏                                     | 4/138 [21:45<18:09:48, 487.97s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600008.SH-首创环保-首创环保2021年度环境、社会与治理(ESG)暨社会责任报告-2022-04-09.pdf


  4%|█▍                                     | 5/138 [22:29<12:06:53, 327.92s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600176.SH-中国巨石-中国巨石2021年度环境、社会及治理(ESG)暨社会责任报告-2022-03-19.pdf


  4%|█▋                                      | 6/138 [22:39<8:03:29, 219.77s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/300891.SZ-惠云钛业-惠云钛业 2021年度环境、社会及公司治理(ESG)报告-2022-03-30.pdf


  5%|██                                      | 7/138 [23:00<5:37:53, 154.76s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/300244.SZ-迪安诊断-迪安诊断 2021迪安诊断环境、社会及公司治理(ESG)报告-2022-04-16.pdf


  6%|██▎                                     | 8/138 [23:04<3:51:27, 106.83s/it]

Anomaly found in PDF 300244.SZ-迪安诊断-迪安诊断 2021迪安诊断环境、社会及公司治理(ESG)报告-2022-04-16.pdf (52 pages), only 22 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/002180.SZ-纳思达-纳思达 2021环境、社会及管治报告(中文版)-2022-07-01.pdf


  7%|██▌                                     | 9/138 [24:49<3:48:06, 106.10s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/688007.SH-光峰科技-2021年度环境、社会及治理(ESG)报告-2022-04-27.pdf


  7%|██▉                                     | 10/138 [25:09<2:49:33, 79.48s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600461.SH-洪城环境-江西洪城环境股份有限公司2021年度环境、社会及管治(ESG)报告-2022-04-22.pdf


  8%|███▏                                    | 11/138 [26:06<2:34:02, 72.78s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/603288.SH-海天味业-海天味业2021年度环境、社会及治理报告-2022-03-25.pdf


  9%|███▍                                    | 12/138 [26:25<1:58:33, 56.46s/it]

Anomaly found in PDF 603288.SH-海天味业-海天味业2021年度环境、社会及治理报告-2022-03-25.pdf (44 pages), only 40 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/300285.SZ-国瓷材料-国瓷材料 2021年度国瓷材料ESG报告-2022-03-10.pdf










  9%|███▊                                    | 13/138 [26:38<1:30:07, 43.26s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/603345.SH-安井食品-安井食品2021年环境、社会及管治(ESG)报告-2022-05-24.pdf


 10%|████                                    | 14/138 [27:29<1:34:01, 45.49s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600588.SH-用友网络-用友网络科技股份有限公司2021年可持续发展(ESG)报告-2022-03-19.pdf


 11%|████▎                                   | 15/138 [27:44<1:14:19, 36.25s/it]

Anomaly found in PDF 600588.SH-用友网络-用友网络科技股份有限公司2021年可持续发展(ESG)报告-2022-03-19.pdf (27 pages), only 22 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/688536.SH-思瑞浦-思瑞浦微电子科技(苏州)股份有限公司2021年度环境、社会及公司治理(ESG)报告-2022-03-14.pdf


 12%|████▊                                     | 16/138 [27:45<52:06, 25.63s/it]

Anomaly found in PDF 688536.SH-思瑞浦-思瑞浦微电子科技(苏州)股份有限公司2021年度环境、社会及公司治理(ESG)报告-2022-03-14.pdf (22 pages), only 7 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600989.SH-宝丰能源-宁夏宝丰能源集团股份有限公司2021可持续发展报告(ESG报告)-2022-03-10.pdf


 12%|█████▏                                    | 17/138 [28:18<56:11, 27.86s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/300948.SZ-冠中生态-冠中生态 青岛冠中生态股份有限公司2021年度环境、社会及管治报告-2022-04-26.pdf


 13%|█████▏                                  | 18/138 [30:07<1:44:55, 52.46s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/002266.SZ-浙富控股-浙富控股 浙富控股2021年度环境、社会及公司治理(ESG)报告-2022-06-30.pdf


 14%|█████▌                                  | 19/138 [32:33<2:39:34, 80.46s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/601607.SH-上海医药-上海医药2021年度可持续发展报告暨环境、社会及管治报告-2022-03-30.pdf


 14%|█████▊                                  | 20/138 [32:47<1:59:02, 60.53s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/002410.SZ-广联达-广联达 2021年环境、社会及管治(ESG)报告-2022-03-29.pdf


 15%|██████                                  | 21/138 [32:59<1:29:20, 45.82s/it]

Anomaly found in PDF 002410.SZ-广联达-广联达 2021年环境、社会及管治(ESG)报告-2022-03-29.pdf (45 pages), only 41 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/601958.SH-金钼股份-金钼股份2021年度环境、社会与公司治理报告(ESG报告)-2022-04-27.pdf


 16%|██████▍                                 | 22/138 [33:08<1:07:16, 34.80s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/601066.SH-中信建投-中信建投证券股份有限公司2021年度社会责任暨环境、社会及管治(ESG)报告-2022-03-31.pdf


 17%|███████                                   | 23/138 [33:16<51:36, 26.93s/it]

Anomaly found in PDF 601066.SH-中信建投-中信建投证券股份有限公司2021年度社会责任暨环境、社会及管治(ESG)报告-2022-03-31.pdf (97 pages), only 19 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/603659.SH-璞泰来-上海璞泰来新能源科技股份有限公司2021年度环境、社会及公司治理报告-2022-03-29.pdf


 17%|██████▉                                 | 24/138 [34:02<1:01:40, 32.46s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/601328.SH-交通银行-交通银行2021年社会责任(ESG)报告-2022-03-26.pdf


 18%|███████▌                                  | 25/138 [34:14<49:57, 26.52s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/002930.SZ-宏川智慧-宏川智慧 2021年度环境、社会及公司治理报告-2022-04-28.pdf


 19%|███████▌                                | 26/138 [37:13<2:14:29, 72.05s/it]

Anomaly found in PDF 002930.SZ-宏川智慧-宏川智慧 2021年度环境、社会及公司治理报告-2022-04-28.pdf (30 pages), only 30 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/300737.SZ-科顺股份-科顺股份 2021年ESG报告-2022-04-28.pdf


 20%|███████▊                                | 27/138 [37:18<1:36:14, 52.02s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/002415.SZ-海康威视-海康威视 2021年环境、社会及管治报告-2022-04-16.pdf


 20%|████████                                | 28/138 [38:04<1:32:14, 50.32s/it]

Anomaly found in PDF 002415.SZ-海康威视-海康威视 2021年环境、社会及管治报告-2022-04-16.pdf (114 pages), only 114 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/605183.SH-确成股份-确成硅化学股份有限公司2021年度环境、社会及公司治理(ESG)报告-2022-08-19.pdf


 21%|████████▍                               | 29/138 [38:46<1:26:34, 47.66s/it]

Anomaly found in PDF 605183.SH-确成股份-确成硅化学股份有限公司2021年度环境、社会及公司治理(ESG)报告-2022-08-19.pdf (41 pages), only 41 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/601058.SH-赛轮轮胎-赛轮集团股份有限公司2021年度环境、社会及公司治理(ESG)报告-2022-04-02.pdf


 22%|████████▋                               | 30/138 [40:20<1:51:09, 61.76s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/300296.SZ-利亚德-利亚德 利亚德2021年度环境社会治理(ESG)暨社会责任报告-2022-04-15.pdf


 22%|████████▉                               | 31/138 [40:50<1:32:40, 51.97s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600188.SH-兖矿能源-兖矿能源集团股份有限公司2021年度环境、社会及管治报告-2022-03-31.pdf


 23%|█████████▎                              | 32/138 [40:55<1:07:19, 38.11s/it]

Anomaly found in PDF 600188.SH-兖矿能源-兖矿能源集团股份有限公司2021年度环境、社会及管治报告-2022-03-31.pdf (80 pages), only 58 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600909.SH-华安证券-华安证券2021年环境、社会及公司治理(ESG)报告-2022-03-31.pdf


 24%|██████████                                | 33/138 [41:11<54:55, 31.39s/it]

Anomaly found in PDF 600909.SH-华安证券-华安证券2021年环境、社会及公司治理(ESG)报告-2022-03-31.pdf (46 pages), only 40 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/601899.SH-紫金矿业-紫金矿业集团股份有限公司2021年度环境、社会及管治(ESG)报告-2022-03-19.pdf


 25%|██████████▎                               | 34/138 [41:33<49:17, 28.44s/it]

Anomaly found in PDF 601899.SH-紫金矿业-紫金矿业集团股份有限公司2021年度环境、社会及管治(ESG)报告-2022-03-19.pdf (100 pages), only 70 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/603338.SH-浙江鼎力-浙江鼎力机械股份有限公司2021年度环境、社会责任和公司治理(ESG)报告-2022-04-29.pdf


 25%|██████████▋                               | 35/138 [41:52<44:00, 25.64s/it]

Anomaly found in PDF 603338.SH-浙江鼎力-浙江鼎力机械股份有限公司2021年度环境、社会责任和公司治理(ESG)报告-2022-04-29.pdf (44 pages), only 41 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/601588.SH-北辰实业-北辰实业2021企业社会责任暨环境、社会及管治报告-2022-03-17.pdf


 26%|██████████▍                             | 36/138 [44:32<1:52:14, 66.02s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/688063.SH-派能科技-上海派能能源科技股份有限公司2021年社会责任暨环境、社会与管治报告-2022-04-08.pdf


 27%|██████████▋                             | 37/138 [46:47<2:26:06, 86.80s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/300750.SZ-宁德时代-宁德时代 宁德时代2021年度环境、社会与公司治理(ESG)报告-2022-04-22.pdf


 28%|███████████                             | 38/138 [46:55<1:45:12, 63.13s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600875.SH-东方电气-2021环境、社会及管治报告-2022-05-28.pdf


 28%|███████████▎                            | 39/138 [47:14<1:22:21, 49.92s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/002582.SZ-好想你-好想你 2021年度环境、社会及治理(ESG)报告-2022-04-29.pdf


 29%|███████████▌                            | 40/138 [47:47<1:13:14, 44.84s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/000723.SZ-美锦能源-美锦能源 2021年环境、社会及管治报告-2022-05-31.pdf


 30%|███████████▉                            | 41/138 [48:37<1:14:44, 46.24s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600096.SH-云天化-云天化2021年社会责任暨环境、社会及管治报告-2022-03-31.pdf


 30%|████████████▏                           | 42/138 [49:20<1:12:45, 45.47s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600276.SH-恒瑞医药-恒瑞医药2021年度环境、社会及管治报告-2022-04-23.pdf


 31%|████████████▍                           | 43/138 [51:05<1:40:16, 63.33s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/301062.SZ-上海艾录-上海艾录 上海艾录2021年年度环境、社会及管治(ESG)报告-2022-12-13.pdf


 32%|████████████▊                           | 44/138 [54:07<2:34:45, 98.78s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/300393.SZ-中来股份-中来股份 2021年度环境、社会及公司治理(ESG)报告-2022-04-26.pdf


 33%|█████████████                           | 45/138 [55:03<2:13:18, 86.00s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/601952.SH-苏垦农发-苏垦农发2021年度环境、社会及治理(ESG)报告-2022-04-15.pdf


 33%|█████████████▎                          | 46/138 [55:24<1:41:57, 66.50s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/300070.SZ-碧水源-碧水源 2021年度环境、社会及管治报告-2022-04-08.pdf


 34%|█████████████▌                          | 47/138 [55:37<1:16:32, 50.47s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600821.SH-金开新能-2021年环境、社会及管治报告-2022-02-28.pdf


 35%|█████████████▉                          | 48/138 [56:29<1:16:15, 50.84s/it]

Anomaly found in PDF 600821.SH-金开新能-2021年环境、社会及管治报告-2022-02-28.pdf (42 pages), only 42 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600477.SH-杭萧钢构-杭萧钢构2021年度环境、社会及公司治理报告-2022-04-20.pdf


 36%|██████████████▉                           | 49/138 [56:31<53:37, 36.16s/it]

Anomaly found in PDF 600477.SH-杭萧钢构-杭萧钢构2021年度环境、社会及公司治理报告-2022-04-20.pdf (48 pages), only 7 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600871.SH-石化油服-2021年度环境、社会及管治(ESG)报告-2022-03-30.pdf


 36%|███████████████▏                          | 50/138 [56:33<38:02, 25.94s/it]

Anomaly found in PDF 600871.SH-石化油服-2021年度环境、社会及管治(ESG)报告-2022-03-30.pdf (49 pages), only 41 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600660.SH-福耀玻璃-福耀玻璃2021年环境、社会及管治报告-2022-04-15.pdf


 37%|███████████████▌                          | 51/138 [57:33<52:31, 36.22s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/603323.SH-苏农银行-苏农银行2021年度社会责任(ESG)报告-2022-04-28.pdf


 38%|███████████████▊                          | 52/138 [58:02<48:52, 34.10s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/601128.SH-常熟银行-江苏常熟农村商业银行股份有限公司2021年度社会责任(ESG)报告-2022-03-31.pdf


 38%|████████████████▏                         | 53/138 [59:01<58:43, 41.45s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/601600.SH-中国铝业-中国铝业2021年度社会责任暨环境、社会与管治报告(ESG报告)-2022-03-23.pdf


 39%|████████████████▍                         | 54/138 [59:15<46:31, 33.24s/it]

Anomaly found in PDF 601600.SH-中国铝业-中国铝业2021年度社会责任暨环境、社会与管治报告(ESG报告)-2022-03-23.pdf (91 pages), only 79 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600221.SH-ST海航- ST海航 2021年社会责任报告暨ESG(环境、社会与管治)报告-2022-04-30.pdf


 40%|████████████████▋                         | 55/138 [59:24<35:53, 25.95s/it]

Anomaly found in PDF 600221.SH-ST海航- ST海航 2021年社会责任报告暨ESG(环境、社会与管治)报告-2022-04-30.pdf (36 pages), only 34 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600803.SH-新奥股份-新奥天然气股份有限公司2021年环境、社会及管治报告-2022-04-07.pdf


 41%|█████████████████                         | 56/138 [59:30<27:29, 20.11s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/601628.SH-中国人寿-中国人寿2021年环境、社会及管治(ESG)暨社会责任报告-2022-03-25.pdf


 41%|█████████████████▎                        | 57/138 [59:44<24:40, 18.28s/it]

Anomaly found in PDF 601628.SH-中国人寿-中国人寿2021年环境、社会及管治(ESG)暨社会责任报告-2022-03-25.pdf (35 pages), only 31 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600023.SH-浙能电力-2021年度社会责任暨环境、社会和公司治理(ESG)报告-2022-04-29.pdf
Anomaly found in PDF 600023.SH-浙能电力-2021年度社会责任暨环境、社会和公司治理(ESG)报告-2022-04-29.pdf (12 pages), only 0 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/601007.SH-金陵饭店-金陵饭店股份有限公司2021年度ESG报告-2022-04-30.pdf


 43%|████████████████▏                     | 59/138 [1:02:45<1:07:55, 51.59s/it]

Anomaly found in PDF 601007.SH-金陵饭店-金陵饭店股份有限公司2021年度ESG报告-2022-04-30.pdf (28 pages), only 28 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600570.SH-恒生电子-2021年恒生电子股份有限公司环境、社会及治理(ESG)报告暨企业社会责任报告-2022-03-31.pdf


 43%|█████████████████▍                      | 60/138 [1:02:58<54:39, 42.04s/it]

Anomaly found in PDF 600570.SH-恒生电子-2021年恒生电子股份有限公司环境、社会及治理(ESG)报告暨企业社会责任报告-2022-03-31.pdf (92 pages), only 59 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/000786.SZ-北新建材-北新建材 2021年度环境、社会及管治(ESG)暨社会责任报告-2022-03-23.pdf


 44%|█████████████████▋                      | 61/138 [1:03:05<42:10, 32.87s/it]

Anomaly found in PDF 000786.SZ-北新建材-北新建材 2021年度环境、社会及管治(ESG)暨社会责任报告-2022-03-23.pdf (51 pages), only 23 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/603259.SH-药明康德-2021年环境、社会及管治报告-2022-03-24.pdf


 45%|█████████████████▉                      | 62/138 [1:03:14<33:22, 26.34s/it]

Anomaly found in PDF 603259.SH-药明康德-2021年环境、社会及管治报告-2022-03-24.pdf (99 pages), only 71 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600153.SH-建发股份-建发股份2021年社会责任报告暨ESG(环境、社会及公司治理)报告-2022-04-19.pdf


 46%|██████████████████▎                     | 63/138 [1:04:13<44:20, 35.47s/it]

Anomaly found in PDF 600153.SH-建发股份-建发股份2021年社会责任报告暨ESG(环境、社会及公司治理)报告-2022-04-19.pdf (60 pages), only 60 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600635.SH-大众公用-大众公用2021年度环境、社会及管治(ESG)报告-2022-03-31.pdf


 46%|██████████████████▌                     | 64/138 [1:04:37<39:45, 32.24s/it]

Anomaly found in PDF 600635.SH-大众公用-大众公用2021年度环境、社会及管治(ESG)报告-2022-03-31.pdf (42 pages), only 43 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600901.SH-江苏租赁-江苏租赁 2021年度环境、社会及治理(ESG)报告-2022-04-22.pdf


 47%|██████████████████▊                     | 65/138 [1:05:11<39:34, 32.53s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600998.SH-九州通-九州通2021年度环境、社会及治理(ESG)报告-2022-04-26.pdf


 48%|███████████████████▏                    | 66/138 [1:05:23<31:56, 26.62s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/688608.SH-恒玄科技-恒玄科技2021年环境、社会及公司治理(ESG)报告-2022-04-15.pdf


 49%|███████████████████▍                    | 67/138 [1:05:26<23:26, 19.82s/it]

Anomaly found in PDF 688608.SH-恒玄科技-恒玄科技2021年环境、社会及公司治理(ESG)报告-2022-04-15.pdf (47 pages), only 9 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/603501.SH-韦尔股份-2021年环境、社会及管治报告-2022-04-19.pdf


 49%|███████████████████▋                    | 68/138 [1:05:45<22:47, 19.54s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/300832.SZ-新产业-新产业 2021年度环境、社会和公司治理(ESG)报告-2022-04-22.pdf


 50%|████████████████████                    | 69/138 [1:06:33<32:10, 27.98s/it]

Anomaly found in PDF 300832.SZ-新产业-新产业 2021年度环境、社会和公司治理(ESG)报告-2022-04-22.pdf (58 pages), only 47 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/300378.SZ-鼎捷软件-鼎捷软件 鼎捷软件2021年度环境、社会及公司治理报告-2022-03-31.pdf


 51%|████████████████████▎                   | 70/138 [1:06:35<22:43, 20.05s/it]

Anomaly found in PDF 300378.SZ-鼎捷软件-鼎捷软件 鼎捷软件2021年度环境、社会及公司治理报告-2022-03-31.pdf (22 pages), only 24 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600548.SH-深高速-2021年度环境、社会及管治报告-2022-03-30.pdf


 51%|████████████████████▌                   | 71/138 [1:06:40<17:27, 15.64s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/601618.SH-中国中冶-中国中冶2021年度社会责任报告暨ESG(环境、社会与管治)报告-2022-03-30.pdf


 52%|████████████████████▊                   | 72/138 [1:06:58<18:09, 16.51s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/601398.SH-工商银行-工商银行2021社会责任(ESG)报告-2022-03-31.pdf


 53%|█████████████████████▏                  | 73/138 [1:07:06<14:57, 13.81s/it]

Anomaly found in PDF 601398.SH-工商银行-工商银行2021社会责任(ESG)报告-2022-03-31.pdf (70 pages), only 69 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/300124.SZ-汇川技术-汇川技术 汇川技术2021年度ESG报告-2022-04-26.pdf


 54%|█████████████████████▍                  | 74/138 [1:07:09<11:24, 10.69s/it]

Anomaly found in PDF 300124.SZ-汇川技术-汇川技术 汇川技术2021年度ESG报告-2022-04-26.pdf (30 pages), only 3 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600699.SH-均胜电子-均胜电子2021年度社会责任暨环境、社会及管治报告-2022-04-26.pdf


 54%|█████████████████████▋                  | 75/138 [1:07:17<10:14,  9.75s/it]

Anomaly found in PDF 600699.SH-均胜电子-均胜电子2021年度社会责任暨环境、社会及管治报告-2022-04-26.pdf (86 pages), only 58 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/300785.SZ-值得买-值得买 北京值得买科技股份有限公司2021年度环境、社会与治理(ESG)报告-2022-04-27.pdf


 55%|████████████████████▉                 | 76/138 [1:11:11<1:19:42, 77.13s/it]

Anomaly found in PDF 300785.SZ-值得买-值得买 北京值得买科技股份有限公司2021年度环境、社会与治理(ESG)报告-2022-04-27.pdf (35 pages), only 35 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600338.SH-西藏珠峰-公司2021环境、社会与公司治理(ESG)报告【彩页版】-2022-04-21.pdf


 56%|█████████████████████▏                | 77/138 [1:11:59<1:09:33, 68.41s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/688336.SH-三生国健-三生国健 2021年度环境、社会及公司治理报告-2022-03-29.pdf


 57%|██████████████████████▌                 | 78/138 [1:12:00<48:09, 48.15s/it]

Anomaly found in PDF 688336.SH-三生国健-三生国健 2021年度环境、社会及公司治理报告-2022-03-29.pdf (57 pages), only 7 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/000507.SZ-珠海港-珠海港 2021年度环境、社会及管治(ESG)报告-2022-04-27.pdf


 57%|█████████████████████▊                | 79/138 [1:14:25<1:15:53, 77.18s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/601088.SH-中国神华-中国神华2021年度环境、社会责任和公司治理报告-2022-03-26.pdf


 58%|██████████████████████                | 80/138 [1:15:15<1:06:46, 69.09s/it]

Anomaly found in PDF 601088.SH-中国神华-中国神华2021年度环境、社会责任和公司治理报告-2022-03-26.pdf (118 pages), only 79 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/300012.SZ-华测检测-华测检测 2021年环境、社会及管治报告-2022-04-25.pdf


 59%|███████████████████████▍                | 81/138 [1:15:24<48:29, 51.05s/it]

Anomaly found in PDF 300012.SZ-华测检测-华测检测 2021年环境、社会及管治报告-2022-04-25.pdf (63 pages), only 50 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600690.SH-海尔智家-海尔智家股份有限公司2021年度环境、社会与管治报告-2022-03-31.pdf


 59%|███████████████████████▊                | 82/138 [1:16:47<56:25, 60.45s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/603983.SH-丸美股份-广东丸美生物技术股份有限公司2021年度环境、社会与公司治理(ESG)报告-2022-04-30.pdf


 60%|████████████████████████                | 83/138 [1:17:28<50:11, 54.75s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/300957.SZ-贝泰妮-贝泰妮 云南贝泰妮生物科技集团股份有限公司2021社会责任报告暨ESG(环境、社会及管治)报告-2022-03-23.pdf


 61%|████████████████████████▎               | 84/138 [1:17:45<38:54, 43.23s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600600.SH-青岛啤酒-环境、社会及管治报告-2022-03-29.pdf


 62%|████████████████████████▋               | 85/138 [1:17:56<29:50, 33.79s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600783.SH-鲁信创投-鲁信创投2021年度ESG报告-2022-04-30.pdf


 62%|████████████████████████▉               | 86/138 [1:18:05<22:51, 26.37s/it]

Anomaly found in PDF 600783.SH-鲁信创投-鲁信创投2021年度ESG报告-2022-04-30.pdf (29 pages), only 32 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600161.SH-天坛生物-天坛生物2021年度环境、社会及公司治理(ESG)报告-2022-04-26.pdf


 63%|█████████████████████████▏              | 87/138 [1:18:06<15:51, 18.65s/it]

Anomaly found in PDF 600161.SH-天坛生物-天坛生物2021年度环境、社会及公司治理(ESG)报告-2022-04-26.pdf (30 pages), only 34 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/601857.SH-中国石油-中国石油天然气股份有限公司环境、社会及治理报告-2022-04-01.pdf


 64%|█████████████████████████▌              | 88/138 [1:18:16<13:27, 16.15s/it]

Anomaly found in PDF 601857.SH-中国石油-中国石油天然气股份有限公司环境、社会及治理报告-2022-04-01.pdf (104 pages), only 48 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/601390.SH-中国中铁-中国中铁2021年度环境、社会与管治报告暨社会责任报告-2022-03-31.pdf


 64%|█████████████████████████▊              | 89/138 [1:19:22<25:16, 30.94s/it]

Anomaly found in PDF 601390.SH-中国中铁-中国中铁2021年度环境、社会与管治报告暨社会责任报告-2022-03-31.pdf (105 pages), only 101 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/301039.SZ-中集车辆-中集车辆 2021年度社会责任暨环境、社会及管治报告-2022-04-27.pdf


 65%|██████████████████████████              | 90/138 [1:19:56<25:30, 31.89s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600436.SH-片仔癀-漳州片仔癀药业股份有限公司2021年度社会责任报告暨ESG(环境、社会及官治)报告-2022-04-16.pdf


 66%|██████████████████████████▍             | 91/138 [1:21:47<43:34, 55.63s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/603613.SH-国联股份-2021年度环境、社会及管治报告-2022-04-22.pdf


 67%|██████████████████████████▋             | 92/138 [1:22:53<44:57, 58.64s/it]

Anomaly found in PDF 603613.SH-国联股份-2021年度环境、社会及管治报告-2022-04-22.pdf (30 pages), only 32 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/601162.SH-天风证券-天风证券2021年度环境、社会及公司治理报告-2022-03-31.pdf


 67%|█████████████████████████▌            | 93/138 [1:25:09<1:01:30, 82.02s/it]

Anomaly found in PDF 601162.SH-天风证券-天风证券2021年度环境、社会及公司治理报告-2022-03-31.pdf (41 pages), only 26 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/688235.SH-百济神州-2021年百济神州环境、社会和公司治理(ESG)报告-2022-04-27.pdf


 68%|███████████████████████████▏            | 94/138 [1:25:38<48:31, 66.17s/it]

Anomaly found in PDF 688235.SH-百济神州-2021年百济神州环境、社会和公司治理(ESG)报告-2022-04-27.pdf (91 pages), only 73 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/605199.SH-葫芦娃-海南葫芦娃药业集团股份有限公司2021年度环境、社会及公司治理(ESG)报告-2022-04-28.pdf


 69%|███████████████████████████▌            | 95/138 [1:26:10<39:54, 55.69s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/605198.SH-德利股份-德利股份 2021年社会责任暨环境、社会及管治报告-2022-03-31.pdf


 70%|███████████████████████████▊            | 96/138 [1:26:12<27:53, 39.84s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600177.SH-雅戈尔-雅戈尔2021年度环境、社会及治理(ESG)暨社会责任报告-2022-04-26.pdf


 70%|████████████████████████████            | 97/138 [1:26:42<25:04, 36.68s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/601168.SH-西部矿业-西部矿业2021年度环境、社会及公司治理(ESG)报告-2022-04-23.pdf


 71%|████████████████████████████▍           | 98/138 [1:26:55<19:43, 29.59s/it]

Anomaly found in PDF 601168.SH-西部矿业-西部矿业2021年度环境、社会及公司治理(ESG)报告-2022-04-23.pdf (100 pages), only 67 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600109.SH-国金证券-国金证券股份有限公司二〇二一年度社会责任暨环境、社会及公司治理(ESG)报告-2022-04-29.pdf


 72%|████████████████████████████▋           | 99/138 [1:27:01<14:42, 22.62s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/603300.SH-华铁应急-浙江华铁应急设备科技股份有限公司2021年度社会责任(ESG)报告-2022-06-10.pdf


 72%|████████████████████████████▎          | 100/138 [1:28:17<24:26, 38.60s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600705.SH-中航产融-中航产融2021年度ESG报告-2022-03-22.pdf




 73%|████████████████████████████▌          | 101/138 [1:28:27<18:25, 29.89s/it]

Anomaly found in PDF 600705.SH-中航产融-中航产融2021年度ESG报告-2022-03-22.pdf (120 pages), only 66 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/601898.SH-中煤能源-中国中煤能源股份有限公司2021年度环境、社会及管治(ESG)报告-2022-03-25.pdf


 74%|████████████████████████████▊          | 102/138 [1:28:35<14:01, 23.37s/it]

Anomaly found in PDF 601898.SH-中煤能源-中国中煤能源股份有限公司2021年度环境、社会及管治(ESG)报告-2022-03-25.pdf (40 pages), only 24 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600428.SH-中远海特-中远海运特种运输股份有限公司2021年ESG及社会责任报告-2022-03-31.pdf


 75%|█████████████████████████████          | 103/138 [1:29:38<20:32, 35.22s/it]

Anomaly found in PDF 600428.SH-中远海特-中远海运特种运输股份有限公司2021年ESG及社会责任报告-2022-03-31.pdf (74 pages), only 65 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/002242.SZ-九阳股份-九阳股份 2021年环境、社会及管治报告-2022-04-30.pdf


 75%|█████████████████████████████▍         | 104/138 [1:29:57<17:11, 30.34s/it]

Anomaly found in PDF 002242.SZ-九阳股份-九阳股份 2021年环境、社会及管治报告-2022-04-30.pdf (72 pages), only 75 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600755.SH-厦门国贸-厦门国贸集团股份有限公司2021年度环境、社会及治理报告-2022-04-21.pdf


 76%|█████████████████████████████▋         | 105/138 [1:31:05<23:02, 41.90s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/688009.SH-中国通号-2021年度环境、社会及管治报告-2022-03-28.pdf


 77%|███████████████████████████▋        | 106/138 [1:47:52<2:56:41, 331.29s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/000040.SZ-东旭蓝天-东旭蓝天 2021年环境、社会及治理报告(更新后)-2022-04-30.pdf


 78%|███████████████████████████▉        | 107/138 [1:48:34<2:06:17, 244.42s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/603822.SH-嘉澳环保-2021年度ESG报告-2022-04-07.pdf


 78%|████████████████████████████▏       | 108/138 [1:49:01<1:29:40, 179.36s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600919.SH-江苏银行-江苏银行2021年度社会责任报告暨ESG报告-2022-04-13.pdf


 79%|████████████████████████████▍       | 109/138 [1:49:08<1:01:43, 127.71s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/688223.SH-晶科能源-晶科能源2021年度环境、社会及治理(ESG)报告-2022-04-23.pdf


 80%|███████████████████████████████        | 110/138 [1:49:38<45:54, 98.36s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600779.SH-水井坊-水井坊2021年度环境、社会、公司治理(ESG)报告-2022-04-23.pdf


 80%|███████████████████████████████▎       | 111/138 [1:49:52<32:52, 73.05s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/688779.SH-长远锂科-湖南长远锂科股份有限公司2021年度环境、社会及公司治理报告-2022-04-27.pdf


 81%|███████████████████████████████▋       | 112/138 [1:52:10<39:59, 92.29s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/300413.SZ-芒果超媒-芒果超媒 2021年度ESG报告-2022-04-25.pdf


 82%|███████████████████████████████▉       | 113/138 [1:53:23<36:07, 86.71s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/603239.SH-浙江仙通-浙江仙通2021年度环境、社会及公司治理(ESG)报告-2022-04-28.pdf


 83%|████████████████████████████████▏      | 114/138 [1:53:38<26:00, 65.01s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600219.SH-南山铝业-山东南山铝业股份有限公司2021年度环境、社会及管治报告(中文版)-2022-07-01.pdf


 83%|███████████████████████████████▋      | 115/138 [1:56:55<40:09, 104.78s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600519.SH-贵州茅台-贵州茅台2021年环境、社会及治理(ESG)报告-2022-03-31.pdf


 84%|████████████████████████████████▊      | 116/138 [1:57:40<31:50, 86.84s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/688676.SH-金盘科技-2021年环境、社会及管治(ESG)报告-2022-04-16.pdf


 85%|█████████████████████████████████      | 117/138 [1:58:07<24:04, 68.79s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600655.SH-豫园股份-2021年度环境、社会及管治报告-2022-03-22.pdf


 86%|█████████████████████████████████▎     | 118/138 [1:58:16<16:59, 50.99s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/601985.SH-中国核电-中国核能电力股份有限公司2021年环境、社会及公司治理(ESG)报告-2022-04-28.pdf


 86%|█████████████████████████████████▋     | 119/138 [1:58:23<11:57, 37.76s/it]

Anomaly found in PDF 601985.SH-中国核电-中国核能电力股份有限公司2021年环境、社会及公司治理(ESG)报告-2022-04-28.pdf (27 pages), only 31 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/688156.SH-路德环境-2021年度环境、社会及管治(ESG)报告-2022-04-21.pdf


 87%|█████████████████████████████████▉     | 120/138 [1:59:25<13:29, 44.96s/it]

Anomaly found in PDF 688156.SH-路德环境-2021年度环境、社会及管治(ESG)报告-2022-04-21.pdf (24 pages), only 24 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600497.SH-驰宏锌锗-2021年度环境、社会及管治(ESG)报告-2022-04-22.pdf


 88%|██████████████████████████████████▏    | 121/138 [2:00:17<13:18, 46.98s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/000877.SZ-天山股份-天山股份 新疆天山水泥股份有限公司2021年度环境、社会及管治(ESG)报告-2022-06-08.pdf


 88%|██████████████████████████████████▍    | 122/138 [2:01:32<14:49, 55.57s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/601375.SH-中原证券-H股公告—中州证券2021年环境、社会及管治报告-2022-04-20.pdf


 89%|██████████████████████████████████▊    | 123/138 [2:01:44<10:36, 42.44s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/002929.SZ-润建股份-润建股份 2021年度环境、社会及管治(ESG)报告-2022-04-26.pdf


 90%|███████████████████████████████████    | 124/138 [2:03:16<13:21, 57.23s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/603565.SH-中谷物流-2021年环境、社会及管治报告-2022-03-29.pdf


 91%|███████████████████████████████████▎   | 125/138 [2:03:29<09:31, 43.93s/it]

Anomaly found in PDF 603565.SH-中谷物流-2021年环境、社会及管治报告-2022-03-29.pdf (59 pages), only 63 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/601598.SH-中国外运-2021年度社会责任报告暨ESG报告-2022-03-30.pdf


 91%|███████████████████████████████████▌   | 126/138 [2:03:30<06:12, 31.07s/it]

Anomaly found in PDF 601598.SH-中国外运-2021年度社会责任报告暨ESG报告-2022-03-30.pdf (38 pages), only 29 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/000878.SZ-云南铜业-云南铜业 2021年度环境、社会责任和公司治理(ESG)报告-2022-03-30.pdf


 92%|███████████████████████████████████▉   | 127/138 [2:04:42<07:56, 43.28s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/300181.SZ-佐力药业-佐力药业 2021年社会责任报告暨ESG(环境、社会及管治)报告-2022-04-20.pdf


 93%|████████████████████████████████████▏  | 128/138 [2:05:08<06:23, 38.33s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/601969.SH-海南矿业-海南矿业股份有限公司2021年度社会责任报告暨ESG报告-2022-03-23.pdf


 93%|████████████████████████████████████▍  | 129/138 [2:05:43<05:34, 37.17s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/000951.SZ-中国重汽-中国重汽 公司2021年度环境、社会与公司治理(ESG)报告-2022-04-01.pdf


 94%|████████████████████████████████████▋  | 130/138 [2:05:48<03:40, 27.58s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600141.SH-兴发集团-2021年度环境、社会及治理报告-2022-03-22.pdf


 95%|█████████████████████████████████████  | 131/138 [2:06:35<03:53, 33.39s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/000961.SZ-中南建设-中南建设 关于2021年环境、社会及管治报告的更正公告-2022-04-27.pdf
Anomaly found in PDF 000961.SZ-中南建设-中南建设 关于2021年环境、社会及管治报告的更正公告-2022-04-27.pdf (1 pages), only 0 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/601872.SH-招商轮船-招商轮船2021年环境、社会及管治报告-2022-07-26.pdf


 96%|█████████████████████████████████████▌ | 133/138 [2:07:05<02:04, 24.91s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600323.SH-瀚蓝环境-瀚蓝环境股份有限公司2021年度社会责任报告(ESG报告)-2022-03-31.pdf


 97%|█████████████████████████████████████▊ | 134/138 [2:08:18<02:26, 36.74s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/603610.SH-麒盛科技-麒盛科技2021年社会责任暨环境及管治报告-2022-04-18.pdf


 98%|██████████████████████████████████████▏| 135/138 [2:08:57<01:52, 37.41s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/600315.SH-上海家化-上海家化2021年环境、社会及公司治理(ESG)报告-2022-03-17.pdf


 99%|██████████████████████████████████████▍| 136/138 [2:09:05<00:58, 29.48s/it]

Anomaly found in PDF 600315.SH-上海家化-上海家化2021年环境、社会及公司治理(ESG)报告-2022-03-17.pdf (44 pages), only 43 pics.

Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/601881.SH-中国银河-中国银河 2021年度社会责任暨环境、社会及管治报告-2022-03-31.pdf


 99%|██████████████████████████████████████▋| 137/138 [2:09:15<00:24, 24.09s/it]


Processing file:/Users/improvise/Desktop/保研/实证论文/ESG/Playground/00_DataBase/01_ESGReport_PDF/2021/688248.SH-南网科技-南方电网电力科技股份有限公司2021年度环境、社会及管治(ESG)报告-2022-05-31.pdf


100%|███████████████████████████████████████| 138/138 [2:12:07<00:00, 57.44s/it]


Unnamed: 0,file_name,x0,y0,x1,y1,centre_coordinate
0,603986.SH-兆易创新-兆易创新2021年环境、社会及管治报告-2022-08-27....,50.553928,690.151550,152.250702,791.848328,"(101.40231513977051, 740.9999389648438)"
1,603986.SH-兆易创新-兆易创新2021年环境、社会及管治报告-2022-08-27....,154.743622,-8.583344,596.383179,285.843018,"(375.5634002685547, 138.6298370361328)"
2,603986.SH-兆易创新-兆易创新2021年环境、社会及管治报告-2022-08-27....,727.712341,7.994659,1169.351807,302.421021,"(948.5320739746094, 155.2078399658203)"
3,603986.SH-兆易创新-兆易创新2021年环境、社会及管治报告-2022-08-27....,485.679138,73.391815,1191.550049,555.814697,"(838.6145935058594, 314.60325622558594)"
4,603986.SH-兆易创新-兆易创新2021年环境、社会及管治报告-2022-08-27....,-212.346176,51.832214,1931.482178,1020.465820,"(859.568000793457, 536.1490173339844)"
...,...,...,...,...,...,...
11833,688248.SH-南网科技-南方电网电力科技股份有限公司2021年度环境、社会及管治(ES...,-161.705566,350.324829,758.925537,868.179810,"(298.6099853515625, 609.2523193359375)"
11834,688248.SH-南网科技-南方电网电力科技股份有限公司2021年度环境、社会及管治(ES...,955.273438,630.266846,1153.862427,779.208618,"(1054.5679321289062, 704.7377319335938)"
11835,688248.SH-南网科技-南方电网电力科技股份有限公司2021年度环境、社会及管治(ES...,-307.635742,-18.469360,1490.263428,939.090881,"(591.3138427734375, 460.3107604980469)"
11836,688248.SH-南网科技-南方电网电力科技股份有限公司2021年度环境、社会及管治(ES...,-1849.897461,10.169312,295.418701,852.444519,"(-777.2393798828125, 431.3069152832031)"


In [12]:
# try:
#     for file in tqdm(file_bundle):
#         print("\nProcessing file:{}".format(file))
# #         try:
#         coordinate_df = pd.concat([coordinate_df, PyMuPDF_get_img(file, subfolder_name)],
#                                      ignore_index=True)
# #         except Exception as e:
# #             print('====Unexpected Anomaly====\n{}'.format(e))
# except OSError as e:
#     print(f"Error processing file {file}: {e}")

# coordinate_df

In [13]:
# coordinate_df.to_csv("/Users/improvise/Desktop/保研/实证论文/ESG/Playground/PyMu_img01//coordinate_df2.csv")
# coordinate_df.to_excel("/Users/improvise/Desktop/保研/实证论文/ESG/Playground/01_Extraction/ESG 2021/03 PyMu_img_cord/img_cord_2.xlsx",
#                       index = False)