In [129]:
import pandas as pd
import os
import ast
import time
from tqdm import tqdm
from transformers import pipeline, AutoModelForTokenClassification, AutoTokenizer

# Set max column width
pd.set_option("max_colwidth", 500)

In [214]:
# Input directory (dir. with csvs containing parsed articles)
DF_input = input().strip()

 C:\Users\svalb\OneDrive\Escritorio\Data_40_years_cancer_studies\parsedXMLs_combined_until_Oct2025_base\


In [215]:
DF_output = input().strip()

 D:\Data_40_years_cancer_studies\BERT_NER_parsedXMLs_combined_until_Oct2025_base\


In [216]:
list_csvs = []

for file in os.listdir(DF_input):
    if file[-4:] == ".csv":
        list_csvs.append(file)

n_csvs = len(list_csvs)

In [219]:
# Input directory for the BERT model fine tuned for affiliation NER
path_BERT = input().strip()

 C:\Users\svalb\OneDrive\Escritorio\Data_40_years_cancer_studies\bert-fineutned-ner-4511-optuna-optimized\


In [220]:
# Load BERT model
model = AutoModelForTokenClassification.from_pretrained(path_BERT)
tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
nlp = pipeline('ner', model=model, tokenizer=tokenizer, aggregation_strategy='max')

Device set to use cpu


In [None]:
# Extract the affiliation of the last author (or, if that is not available, of any author) of each article
# Then, do NER on the affiliation, add result to dataframe and save it
no_affiliation = []
parsed_csvs = []

for csv in list_csvs:
    if csv not in parsed_csvs: 
        start = time.time()
        NER_input = {} # PMIDs used as keys, affiliation for this PMID as values
        NER_output = {} # PMIDs used as keys, NER from BERT as values

        # Part 1: Extract affiliation of last (or, if not available, any other) author of each article
        print(f"Extracting affiliation of articles in csv: {csv} ({str(list_csvs.index(csv)+1)}/{str(n_csvs)})")
        df= pd.read_csv(DF_input + csv)
        for i in range(df.index[-1] + 1): # Iterate through all rows, including the last one
            NER_input[df.at[i, "PMID"]] = []
            try:
                authors_data = ast.literal_eval(df.at[i, "Authors"])
                for author in authors_data:
                    if "Affiliation" in author and author["Affiliation"]:
                        for affiliation in author["Affiliation"]:
                            NER_input[df.at[i, "PMID"]].append(affiliation)

                if len(NER_input[df.at[i, "PMID"]]) == 0:
                    no_affiliation.append(df.at[i, "PMID"])

            except Error:
                NER_input[df.at[i, "PMID"]] = None
                no_affiliation.append(df.at[i, "PMID"])

        for key in NER_input.keys():
            NER_input[key] = list(set(NER_input[key]))
    
            if NER_input[key] == []:
                NER_input[key] == None
    
            else:
                combined_input = ""
                for affiliation in NER_input[key]:
                    combined_input += ". " + affiliation
        
                NER_input[key] = combined_input[2:]

        # Part 2: Do NER on the affiliation to extract structured info
        for key in tqdm(NER_input.keys()):
            if len(NER_input[key]) > 0:
                text = NER_input[key]
                entities = nlp(text)
                NER_output[key] = entities

            else:
                NER_output[key] = []

    df_NER_BERT = pd.DataFrame(pd.Series(NER_output, name="values"))
    df_NER_BERT["PMID_NER"] = df_NER_BERT.index
    df_NER_BERT = df_NER_BERT.rename(columns={"values": "NER_BERT"}).reset_index().drop(columns=["index"])

    df_save = pd.merge(df, df_NER_BERT, left_on= "PMID", right_on="PMID_NER", how="left")
    df_save = df_save.drop(columns=["PMID_NER"])

    df_save.to_csv(DF_output + "BERT_NER_" + csv, index = False)

Extracting affiliation of articles in csv: parsedXMLs_first_pred_26400.csv (1/51)


100%|██████████████████████████████████████████████████████████████████████████| 23958/23958 [00:03<00:00, 6650.10it/s]


Extracting affiliation of articles in csv: parsedXMLs_first_upd_100000.csv (2/51)


  df= pd.read_csv(DF_input + csv)
100%|██████████████████████████████████████████████████████████████████████████| 99763/99763 [3:23:23<00:00,  8.18it/s]


Extracting affiliation of articles in csv: parsedXMLs_first_upd_200000.csv (3/51)


  df= pd.read_csv(DF_input + csv)
100%|██████████████████████████████████████████████████████████████████████████| 99381/99381 [3:18:27<00:00,  8.35it/s]


Extracting affiliation of articles in csv: parsedXMLs_first_upd_300000.csv (4/51)


  df= pd.read_csv(DF_input + csv)
100%|██████████████████████████████████████████████████████████████████████████| 92962/92962 [3:07:00<00:00,  8.29it/s]


Extracting affiliation of articles in csv: parsedXMLs_first_upd_340800.csv (5/51)


  df= pd.read_csv(DF_input + csv)
100%|██████████████████████████████████████████████████████████████████████████| 31488/31488 [1:00:42<00:00,  8.64it/s]


Extracting affiliation of articles in csv: parsedXMLs_update_2025_09_33200.csv (6/51)


  df= pd.read_csv(DF_input + csv)
100%|██████████████████████████████████████████████████████████████████████████| 33283/33283 [1:11:45<00:00,  7.73it/s]


Extracting affiliation of articles in csv: parsedX_100000.csv (7/51)


100%|██████████████████████████████████████████████████████████████████████████| 100000/100000 [47:01<00:00, 35.44it/s]


Extracting affiliation of articles in csv: parsedX_1000000.csv (8/51)


100%|██████████████████████████████████████████████████████████████████████████| 100000/100000 [57:46<00:00, 28.85it/s]


Extracting affiliation of articles in csv: parsedX_1100000.csv (9/51)


100%|██████████████████████████████████████████████████████████████████████████| 100000/100000 [58:55<00:00, 28.29it/s]


Extracting affiliation of articles in csv: parsedX_1200000.csv (10/51)


100%|██████████████████████████████████████████████████████████████████████████| 99260/99260 [1:00:17<00:00, 27.44it/s]


Extracting affiliation of articles in csv: parsedX_1300000.csv (11/51)


100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [1:00:41<00:00, 27.46it/s]


Extracting affiliation of articles in csv: parsedX_1400000.csv (12/51)


  df= pd.read_csv(DF_input + csv)
100%|██████████████████████████████████████████████████████████████████████████| 99920/99920 [1:00:56<00:00, 27.33it/s]


Extracting affiliation of articles in csv: parsedX_1500000.csv (13/51)


  df= pd.read_csv(DF_input + csv)
100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [1:03:18<00:00, 26.33it/s]


Extracting affiliation of articles in csv: parsedX_1600000.csv (14/51)


  df= pd.read_csv(DF_input + csv)
100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [1:03:26<00:00, 26.27it/s]


Extracting affiliation of articles in csv: parsedX_1700000.csv (15/51)


100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [1:00:15<00:00, 27.66it/s]


Extracting affiliation of articles in csv: parsedX_1800000.csv (16/51)


  df= pd.read_csv(DF_input + csv)
100%|██████████████████████████████████████████████████████████████████████████| 99985/99985 [1:01:41<00:00, 27.01it/s]


Extracting affiliation of articles in csv: parsedX_1900000.csv (17/51)


  df= pd.read_csv(DF_input + csv)
100%|██████████████████████████████████████████████████████████████████████████| 100000/100000 [59:44<00:00, 27.90it/s]


Extracting affiliation of articles in csv: parsedX_200000.csv (18/51)


100%|██████████████████████████████████████████████████████████████████████████| 100000/100000 [39:14<00:00, 42.48it/s]


Extracting affiliation of articles in csv: parsedX_2000000.csv (19/51)


  df= pd.read_csv(DF_input + csv)
100%|████████████████████████████████████████████████████████████████████████████| 99999/99999 [59:46<00:00, 27.88it/s]


Extracting affiliation of articles in csv: parsedX_2100000.csv (20/51)


  df= pd.read_csv(DF_input + csv)
100%|████████████████████████████████████████████████████████████████████████████| 99999/99999 [59:46<00:00, 27.88it/s]


Extracting affiliation of articles in csv: parsedX_2200000.csv (21/51)


  df= pd.read_csv(DF_input + csv)
100%|██████████████████████████████████████████████████████████████████████████| 99999/99999 [1:02:43<00:00, 26.57it/s]


Extracting affiliation of articles in csv: parsedX_2300000.csv (22/51)


  df= pd.read_csv(DF_input + csv)
100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [1:34:25<00:00, 17.65it/s]


Extracting affiliation of articles in csv: parsedX_2400000.csv (23/51)


  df= pd.read_csv(DF_input + csv)
100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [2:01:08<00:00, 13.76it/s]


Extracting affiliation of articles in csv: parsedX_2500000.csv (24/51)


  df= pd.read_csv(DF_input + csv)
100%|██████████████████████████████████████████████████████████████████████████| 99964/99964 [2:19:21<00:00, 11.96it/s]


Extracting affiliation of articles in csv: parsedX_2600000.csv (25/51)


  df= pd.read_csv(DF_input + csv)
100%|██████████████████████████████████████████████████████████████████████████| 99735/99735 [2:33:35<00:00, 10.82it/s]


Extracting affiliation of articles in csv: parsedX_2700000.csv (26/51)


  df= pd.read_csv(DF_input + csv)
100%|██████████████████████████████████████████████████████████████████████████| 99997/99997 [2:32:25<00:00, 10.93it/s]


Extracting affiliation of articles in csv: parsedX_2800000.csv (27/51)


  df= pd.read_csv(DF_input + csv)
100%|██████████████████████████████████████████████████████████████████████████| 99995/99995 [2:37:59<00:00, 10.55it/s]


Extracting affiliation of articles in csv: parsedX_2900000.csv (28/51)


  df= pd.read_csv(DF_input + csv)
100%|██████████████████████████████████████████████████████████████████████████| 99957/99957 [2:38:44<00:00, 10.49it/s]


Extracting affiliation of articles in csv: parsedX_300000.csv (29/51)


  df= pd.read_csv(DF_input + csv)
100%|██████████████████████████████████████████████████████████████████████████| 100000/100000 [27:15<00:00, 61.15it/s]


Extracting affiliation of articles in csv: parsedX_3000000.csv (30/51)


  df= pd.read_csv(DF_input + csv)
100%|██████████████████████████████████████████████████████████████████████████| 99916/99916 [2:44:12<00:00, 10.14it/s]


Extracting affiliation of articles in csv: parsedX_3100000.csv (31/51)


  df= pd.read_csv(DF_input + csv)
100%|██████████████████████████████████████████████████████████████████████████| 99937/99937 [2:44:12<00:00, 10.14it/s]


Extracting affiliation of articles in csv: parsedX_3200000.csv (32/51)


  df= pd.read_csv(DF_input + csv)
100%|██████████████████████████████████████████████████████████████████████████| 99909/99909 [2:50:24<00:00,  9.77it/s]


Extracting affiliation of articles in csv: parsedX_3300000.csv (33/51)


  df= pd.read_csv(DF_input + csv)
100%|██████████████████████████████████████████████████████████████████████████| 99961/99961 [2:59:04<00:00,  9.30it/s]


Extracting affiliation of articles in csv: parsedX_3400000.csv (34/51)


  df= pd.read_csv(DF_input + csv)
100%|██████████████████████████████████████████████████████████████████████████| 99920/99920 [2:57:32<00:00,  9.38it/s]


Extracting affiliation of articles in csv: parsedX_3500000.csv (35/51)


  df= pd.read_csv(DF_input + csv)
100%|██████████████████████████████████████████████████████████████████████████| 99885/99885 [2:55:36<00:00,  9.48it/s]


Extracting affiliation of articles in csv: parsedX_3600000.csv (36/51)


  df= pd.read_csv(DF_input + csv)
100%|██████████████████████████████████████████████████████████████████████████| 99921/99921 [3:01:20<00:00,  9.18it/s]


Extracting affiliation of articles in csv: parsedX_3700000.csv (37/51)


  df= pd.read_csv(DF_input + csv)
100%|██████████████████████████████████████████████████████████████████████████| 99949/99949 [3:01:56<00:00,  9.16it/s]


Extracting affiliation of articles in csv: parsedX_3800000.csv (38/51)


  df= pd.read_csv(DF_input + csv)
100%|██████████████████████████████████████████████████████████████████████████| 99928/99928 [3:02:02<00:00,  9.15it/s]


Extracting affiliation of articles in csv: parsedX_3900000.csv (39/51)


  df= pd.read_csv(DF_input + csv)
