处理bib文件到excel

In [11]:
import bibtexparser
import pandas as pd

# 读取BibTeX文件
with open('ACL2023.bib', 'r', encoding='utf-8') as bibfile:
    bib_database = bibtexparser.load(bibfile)

# 创建一个空的DataFrame来存储提取的信息
data = {'title': [],
        'author': [],
        'year': [],
        'month': [],
        'address': [],
        'publisher': [],
        'url': [],
        'doi': [],
        'pages': []}

# 遍历每个条目，并提取所需信息
for entry in bib_database.entries:
    data['title'].append(entry.get('title', ''))
    data['author'].append(entry.get('author', ''))
    data['year'].append(entry.get('year', ''))
    data['month'].append(entry.get('month', ''))
    data['address'].append(entry.get('address', ''))
    data['publisher'].append(entry.get('publisher', ''))
    data['url'].append(entry.get('url', ''))
    data['doi'].append(entry.get('doi', ''))
    data['pages'].append(entry.get('pages', ''))

# 将提取的信息转换为DataFrame
df = pd.DataFrame(data)

# 将DataFrame写入Excel文件
df.to_excel('ACL2023.xlsx', index=False)

print("Excel文件已创建成功！")



Excel文件已创建成功！


处理HTML加速

In [21]:
import re
from bs4 import BeautifulSoup
import pandas as pd

# 读取HTML文件
with open('ACL2023.html', 'r', encoding='utf-8') as html_file:
    html_content = html_file.read()

# 使用Beautiful Soup解析HTML
soup = BeautifulSoup(html_content, 'html.parser')
F
# 创建一个空的DataFrame来存储文章信息
data = {'paper_title': [], 'abstract': []}
# 填充两行空白数据
data['paper_title'].append('')
data['abstract'].append('')
data['paper_title'].append('')
data['abstract'].append('')

# 设置i的初始值
i = 1

# 循环搜索文章标题和摘要内容并提取
while True:
    # 构建文章链接的正则表达式
    paper_link_regex = re.compile(fr'href="https://aclanthology.org/2023.acl-long.{i}/"')

    # 搜索文章链接
    paper_link_match = re.search(paper_link_regex, html_content)

    # 如果找到文章链接
    if paper_link_match:
        # 根据文章链接定位文章标题
        paper_link_tag = soup.find(href=f'https://aclanthology.org/2023.acl-long.{i}/')
        if paper_link_tag:
            paper_title = paper_link_tag.text.strip()
            # 添加文章标题到DataFrame
            data['paper_title'].append(paper_title)
            title_words = paper_title.split()[:2]
            print(f"文章 {i} 标题提取成功: {' '.join(title_words)}...")

        else:
            data['paper_title'].append('')
            print(f"文章 {i} 标题未找到")

        # 根据摘要id定位摘要内容
        abstract_div = soup.find(id=f'abstract-2023--acl-long--{i}').find_next('div')

        # 提取摘要文本并添加到DataFrame
        if abstract_div:
            abstract_text = abstract_div.text.strip()
            data['abstract'].append(abstract_text)
            abstract_words = abstract_text.split()[:2]
            print(f"文章 {i} 摘要提取成功: {' '.join(abstract_words)}...")
        else:
            data['abstract'].append('')
            print(f"摘要 {i} 未找到")

        # 增加i的值
        i += 1
    else:
        # 如果找不到文章链接，退出循环
        break

# 将提取的文章信息转换为DataFrame
df_articles = pd.DataFrame(data)

# 读取原始Excel文件
df_original = pd.read_excel('ACL2023.xlsx')

# 将文章标题信息添加为原始Excel文件的新列
df_original['paper_title'] = df_articles['paper_title']

# 将更新后的DataFrame写回原始Excel文件
df_original.to_excel('ACL2023.xlsx', index=False)

print("文章标题和摘要信息已提取并添加到原始Excel文件中！")


文章 1 标题提取成功: One Cannot...
摘要 1 提取成功: User simulators...
文章 2 标题提取成功: SafeConv: Explaining...
摘要 2 提取成功: One of...
文章 3 标题提取成功: Detecting and...
摘要 3 提取成功: While the...
文章 4 标题提取成功: Explainable Recommendation...
摘要 4 提取成功: Explainable recommendation...
文章 5 标题提取成功: Binary and...
摘要 5 提取成功: Ternary and...
文章 6 标题提取成功: Span-Selective Linear...
摘要 6 提取成功: In schema-guided...
文章 7 标题提取成功: EM Pre-training...
摘要 7 提取成功: Dialogue response...
文章 8 标题提取成功: ACLM: A...
摘要 8 提取成功: Complex Named...
文章 9 标题提取成功: Natural Language...
摘要 9 提取成功: Computational notebooks,...
文章 10 标题提取成功: Subset Retrieval...
摘要 10 提取成功: k-nearest-neighbor machine...
文章 11 标题提取成功: MIL-Decoding: Detoxifying...
摘要 11 提取成功: Despite advances...
文章 12 标题提取成功: Dependency resolution...
摘要 12 提取成功: Using psycholinguistic...
文章 13 标题提取成功: Open-ended Long...
摘要 13 提取成功: Pre-trained autoregressive...
文章 14 标题提取成功: A Method...
摘要 14 提取成功: We study...
文章 15 标题提取成功: Holographic CCG...
摘要 15 提取成功: We propose...
文章 16 标题提取成功: Prompts Can

In [22]:
import pandas as pd

# 读取Excel文件
df = pd.read_excel('ACL2023.xlsx')

# 遍历每一行
for index, row in df.iterrows():
    # 获取当前行的paper_title和title属性值
    paper_title = row['paper_title']
    title = row['title']

    # 如果paper_title为空，则跳过该行
    if pd.isna(paper_title):
        print(f"行 {index+1}: paper_title为空，跳过处理")
        continue

    # 如果paper_title不为空，则用其内容填充title属性
    df.at[index, 'title'] = paper_title
    print(f"行 {index+1}: paper_title为 '{paper_title[:10]}'... 用其填充title属性")

# 将更新后的DataFrame写回原始Excel文件
df.to_excel('ACL2023.xlsx', index=False)

print("Excel文件处理完成！")


行 1: paper_title为空，跳过处理
行 2: paper_title为空，跳过处理
行 3: paper_title为 'One Cannot'... 用其填充title属性
行 4: paper_title为 'SafeConv: '... 用其填充title属性
行 5: paper_title为 'Detecting '... 用其填充title属性
行 6: paper_title为 'Explainabl'... 用其填充title属性
行 7: paper_title为 'Binary and'... 用其填充title属性
行 8: paper_title为 'Span-Selec'... 用其填充title属性
行 9: paper_title为 'EM Pre-tra'... 用其填充title属性
行 10: paper_title为 'ACLM: A Se'... 用其填充title属性
行 11: paper_title为 'Natural La'... 用其填充title属性
行 12: paper_title为 'Subset Ret'... 用其填充title属性
行 13: paper_title为 'MIL-Decodi'... 用其填充title属性
行 14: paper_title为 'Dependency'... 用其填充title属性
行 15: paper_title为 'Open-ended'... 用其填充title属性
行 16: paper_title为 'A Method f'... 用其填充title属性
行 17: paper_title为 'Holographi'... 用其填充title属性
行 18: paper_title为 'Prompts Ca'... 用其填充title属性
行 19: paper_title为 'Retrieve-a'... 用其填充title属性
行 20: paper_title为 'WeCheck: S'... 用其填充title属性
行 21: paper_title为 'AMR-based '... 用其填充title属性
行 22: paper_title为 'Text Adver'... 用其填充title属性
行 23: paper_title为 