In [1]:
import os
import eunomia
import pickle




In [27]:
paper_id = '29'
docs_processor = eunomia.LoadDoc('../Data/SI_PDF/', paper_id=paper_id)
sliced_pages = docs_processor.process(['references ', 'acknowledgement', 'acknowledgments'],
                                             chunk_size=None, chunk_overlap=0)

In [3]:
from langchain.chains import RetrievalQA
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import FAISS

k = 8
Embedding_model = 'text-davinci-003' # text-embedding-ada-002

faiss_index_path = f"../Data/faiss/{Embedding_model}/faiss_index_{Embedding_model}_{paper_id}.pkl"
just_load = True
if os.path.isfile(faiss_index_path) and just_load:
    print('loadded Embeddings')
    with open(faiss_index_path, "rb") as f:
        faiss_index = pickle.load(f)
else:
    with open(faiss_index_path, "wb") as f:  # text-embedding-ada-002
        faiss_index = FAISS.from_documents(sliced_pages, OpenAIEmbeddings(model=Embedding_model))    # 'text-davinci-003
        pickle.dump(faiss_index, f)
retriever  = faiss_index.as_retriever(search_type="mmr", search_kwargs={"k":k}) # Maximum Marginal Relevance Retrieval


loadded Embeddings


In [4]:
from langchain.llms import OpenAI
from langchain.chat_models  import ChatOpenAI
llm = OpenAI(temperature=0, model_name='gpt-3.5-turbo-16k') # gpt-3.5-turbo-16k
qa = RetrievalQA.from_chain_type(
    llm=llm, chain_type="stuff", retriever=retriever, return_source_documents=False,)



In [5]:
query = 'What is DOI, paper title, published journal?'

from langchain.callbacks import get_openai_callback
with get_openai_callback() as cb:
    result = qa({"query": query})
    print(result)
    print(cb)

{'query': 'What is DOI, paper title, published journal?', 'result': 'The DOI (Digital Object Identifier) is 10.1038/ncomms1956. The paper title is "Microporous metal-organic framework with potential for carbon dioxide capture at ambient conditions". The published journal is Nature Communications.'}
Tokens Used: 4798
	Prompt Tokens: 4750
	Completion Tokens: 48
Successful Requests: 1
Total Cost (USD): $0.014442


In [6]:
Rule = f"""

There are only 2 options for water stability: \
1. Stable \
2. Unstable \

For 1. Stable, \
The MOF should be stable to keep structure integrity \
after exposure to aqueous solution. \

For 2. Unstable, \
The MOF will decompose after exposure \
to humid environment. \

"""

In [7]:
prompt3a = f"""
    This doc describes the water stability properties of afew \
    Metal-Organic Framework(MOF) compound. Please find \
    the full name for all MOFs, and the \
    water stability corresponding to each MOF. \
    Please use the following rules to identify\
    the water stability of each MOF. \

    Rule: ```{Rule}``` \

    If there are multiple MOFs, please list them all and put "MOF name" before them. \

    You should only respond in JSON format as described below. 
    
    Make sure it is parsable using Python json.load.
    
    Make sure "MOF name"s do not have duplicates

    If information is not provided, state it as not provided.\

    """

from langchain.callbacks import get_openai_callback
with get_openai_callback() as cb:
    result = qa({"query": prompt3a})
    print(result)
    print(cb)

{'query': '\n    This doc describes the water stability properties of afew     Metal-Organic Framework(MOF) compound. Please find     the full name for all MOFs, and the     water stability corresponding to each MOF.     Please use the following rules to identify    the water stability of each MOF. \n    Rule: ```\n\nThere are only 2 options for water stability: 1. Stable 2. Unstable \nFor 1. Stable, The MOF should be stable to keep structure integrity after exposure to aqueous solution. \nFor 2. Unstable, The MOF will decompose after exposure to humid environment. \n``` \n    If there are multiple MOFs, please list them all and put "MOF name" before them. \n    You should only respond in JSON format as described below. \n    \n    Make sure it is parsable using Python json.load.\n    \n    Make sure "MOF name"s do not have duplicates\n\n    If information is not provided, state it as not provided.\n    ', 'result': '{\n  "MOF name": "UTSA-16",\n  "Water Stability": "Stable"\n}'}
Token

In [8]:
from typing import List
from pydantic import BaseModel, Field, validator, ValidationError
from langchain.output_parsers import OutputFixingParser, PydanticOutputParser
# def parse_to_dict(result, paper_id):

#     class MOF(BaseModel):
#         name: str = Field(description="name of a MOF")
#         stability: str = Field(description="choose only one: stable or unstable or not provided")

#         def name_not_provided(cls, field):
#             if field == "Not Provided":
# #                 raise ValueError("Dummy-MOF!")
#                 field = 'Dummy-MOF'
#             return field
    
#     class MOFList(BaseModel):
#         MOFs: List[MOF]

#     from langchain.output_parsers import PydanticOutputParser
#     parser = PydanticOutputParser(pydantic_object=MOF)
#     llm_parser = OutputFixingParser.from_llm(parser=parser, llm=ChatOpenAI(temperature=0))  
    
# #     print(result['result'])
#     parsed_result = llm_parser.parse(result['result'].strip("'").replace("\\", ""))
#     dict_response = dict(zip(parsed_result.name, parsed_result.stability))
#     new_dict = {}
#     for i, (key, value) in enumerate(dict_response.items(), start=1):
#         new_dict[key] = {'Predicted Stability': value, 'Paper id': paper_id}
#     return new_dict

def parse_to_dict(result, paper_id):
    from typing import List
    from langchain.output_parsers import PydanticOutputParser

    class MOF(BaseModel):
        name: str = Field(description="name of a MOF")
        stability: str = Field(description="choose only one: stable or unstable or not provided")

    class MOFList(BaseModel):
        MOFs: List[MOF]

    parser = PydanticOutputParser(pydantic_object=MOFList)
    llm_parser = OutputFixingParser.from_llm(parser=parser, llm=ChatOpenAI(temperature=0))

    try:
        parsed_result = llm_parser.parse(result['result'])
    except OutputParserException as e:
        raise OutputParserException(f"Failed to parse MOF: {e}", llm_output=result['result'])

    dict_response = {mof.name: mof.stability for mof in parsed_result.MOFs}
    new_dict = {key: {'Predicted Stability': value, 'Paper id': paper_id} for key, value in dict_response.items()}
    return new_dict

In [9]:
predictions_dict = parse_to_dict(result, paper_id)
predictions_dict

{'UTSA-16': {'Predicted Stability': 'stable', 'Paper id': '69'}}

In [10]:
import os
import pickle
from langchain.callbacks import get_openai_callback
from langchain.chains import RetrievalQA
from langchain.llms import OpenAI
from langchain.chat_models  import ChatOpenAI


def retriev_QA(paper_id, LLM_model, Embedding_model, k, temperature):
    mofpaper_path = '../Data/SI_PDF/' + paper_id + '.pdf'
    print(mofpaper_path)
    with get_openai_callback() as cb:
        docs_processor = eunomia.LoadDoc('../Data/SI_PDF/', paper_id=str(paper_id))
        sliced_pages = docs_processor.process(['references ', 'acknowledgement', 'acknowledgments'],
                                                     chunk_size=None, chunk_overlap=0)
        print(len(docs_processor.pages), len(sliced_pages))
        faiss_index_path = f"../Data/faiss/{Embedding_model}/faiss_index_{Embedding_model}_{paper_id}.pkl"
        if os.path.isfile(faiss_index_path):
            with open(faiss_index_path, "rb") as f:
                faiss_index = pickle.load(f)
        else:
            with open(faiss_index_path, "wb") as f:
                faiss_index = FAISS.from_documents(sliced_pages, OpenAIEmbeddings(model=Embedding_model))   #text-davinci-003
                pickle.dump(faiss_index, f)
        retriever  = faiss_index.as_retriever(search_type="mmr", search_kwargs={"k":k}) # Maximum Marginal Relevance Retrieval        
#         retriever  = faiss_index.as_retriever(search_type="similarity_score_threshold", search_kwargs={"score_threshold": .8}) # Maximum Marginal Relevance Retrieval        
        qa = RetrievalQA.from_chain_type(
            llm=ChatOpenAI(model=LLM_model, temperature=temperature), chain_type="stuff", retriever=retriever, return_source_documents=False)
        answer = qa({"query": prompt3a})
        predictions_dict = parse_to_dict(answer, paper_id)
        return predictions_dict, cb.total_cost

In [16]:
from tqdm import tqdm
import numpy as np
import json
predictions = []
costs = []


LLM_model = 'gpt-3.5-turbo-16k'
Embedding_model = 'text-davinci-003'#'text-davinci-003' text-embedding-ada-002
k = 8
temp = 0.9

for i in tqdm(range(1,112)):
    print(f'Paper {i}')
    p, c = retriev_QA(str(i), LLM_model, Embedding_model, k, temperature=temp)
    costs.append(c)
    predictions.append(p)
    print(f'\n Total cost: ${np.sum(costs)}\n') 
    results_index_path = f"../Data/faiss/results/{LLM_model}/faiss-{Embedding_model}/k_{k}/t_{temp}/results_paper_{i}.json"
    with open(results_index_path, 'w') as f:
        json.dump(p, f)
#     break

  0%|                                                                                                                                                                                 | 0/111 [00:00<?, ?it/s]

Paper 1
../Data/SI_PDF/1.pdf
15 13


  1%|█▌                                                                                                                                                                       | 1/111 [00:07<13:53,  7.57s/it]


 Total cost: $0.01808

Paper 2
../Data/SI_PDF/2.pdf
15 15


  2%|███                                                                                                                                                                      | 2/111 [00:18<16:59,  9.35s/it]


 Total cost: $0.041041999999999995

Paper 3
../Data/SI_PDF/3.pdf
8 8


  3%|████▌                                                                                                                                                                    | 3/111 [00:28<17:26,  9.69s/it]


 Total cost: $0.0625245

Paper 4
../Data/SI_PDF/4.pdf
11 11


  4%|██████                                                                                                                                                                   | 4/111 [00:36<16:24,  9.20s/it]


 Total cost: $0.0862705

Paper 5
../Data/SI_PDF/5.pdf
31 25


  5%|███████▌                                                                                                                                                                 | 5/111 [00:44<15:12,  8.61s/it]


 Total cost: $0.10369400000000001

Paper 6
../Data/SI_PDF/6.pdf
10 9


  5%|█████████▏                                                                                                                                                               | 6/111 [00:50<13:40,  7.81s/it]


 Total cost: $0.12352300000000001

Paper 7
../Data/SI_PDF/7.pdf
6 4


  6%|██████████▋                                                                                                                                                              | 7/111 [00:53<10:53,  6.29s/it]


 Total cost: $0.135054

Paper 8
../Data/SI_PDF/8.pdf
15 13


  7%|████████████▏                                                                                                                                                            | 8/111 [00:59<10:43,  6.25s/it]


 Total cost: $0.1590905

Paper 9
../Data/SI_PDF/9.pdf
8 5


  8%|█████████████▋                                                                                                                                                           | 9/111 [01:03<09:11,  5.40s/it]


 Total cost: $0.173143

Paper 10
../Data/SI_PDF/10.pdf
7 6


  9%|███████████████▏                                                                                                                                                        | 10/111 [01:08<08:57,  5.32s/it]


 Total cost: $0.1870845

Paper 11
../Data/SI_PDF/11.pdf
6 6


 10%|████████████████▋                                                                                                                                                       | 11/111 [01:11<07:54,  4.75s/it]


 Total cost: $0.203459

Paper 12
../Data/SI_PDF/12.pdf
120 16


 11%|██████████████████▏                                                                                                                                                     | 12/111 [01:45<22:07, 13.41s/it]


 Total cost: $0.213025

Paper 13
../Data/SI_PDF/13.pdf
16 13


 12%|███████████████████▋                                                                                                                                                    | 13/111 [01:58<21:54, 13.41s/it]


 Total cost: $0.234978

Paper 14
../Data/SI_PDF/14.pdf
8 8


 13%|█████████████████████▏                                                                                                                                                  | 14/111 [02:04<17:51, 11.05s/it]


 Total cost: $0.2606515

Paper 15
../Data/SI_PDF/15.pdf
10 8


 14%|██████████████████████▋                                                                                                                                                 | 15/111 [02:07<13:59,  8.74s/it]


 Total cost: $0.28220399999999995

Paper 16
../Data/SI_PDF/16.pdf
12 12


 14%|████████████████████████▏                                                                                                                                               | 16/111 [02:24<17:50, 11.27s/it]


 Total cost: $0.30363300000000004

Paper 17
../Data/SI_PDF/17.pdf
4 4


 15%|█████████████████████████▋                                                                                                                                              | 17/111 [02:32<15:56, 10.18s/it]


 Total cost: $0.31643800000000005

Paper 18
../Data/SI_PDF/18.pdf
9 9


 16%|███████████████████████████▏                                                                                                                                            | 18/111 [02:45<16:55, 10.92s/it]


 Total cost: $0.33645500000000006

Paper 19
../Data/SI_PDF/19.pdf
8 8


 17%|████████████████████████████▊                                                                                                                                           | 19/111 [02:49<13:44,  8.96s/it]


 Total cost: $0.36040150000000004

Paper 20
../Data/SI_PDF/20.pdf
6 6


 18%|██████████████████████████████▎                                                                                                                                         | 20/111 [02:52<10:51,  7.16s/it]


 Total cost: $0.37845400000000007

Paper 21
../Data/SI_PDF/21.pdf
28 23


 19%|███████████████████████████████▊                                                                                                                                        | 21/111 [03:06<13:57,  9.30s/it]


 Total cost: $0.3937460000000001

Paper 22
../Data/SI_PDF/22.pdf
4 4


 20%|█████████████████████████████████▎                                                                                                                                      | 22/111 [03:10<11:13,  7.57s/it]


 Total cost: $0.4078405000000001

Paper 23
../Data/SI_PDF/23.pdf
11 9


 21%|██████████████████████████████████▊                                                                                                                                     | 23/111 [03:15<10:12,  6.96s/it]


 Total cost: $0.4275290000000001

Paper 24
../Data/SI_PDF/24.pdf
15 13


 22%|████████████████████████████████████▎                                                                                                                                   | 24/111 [03:23<10:18,  7.11s/it]


 Total cost: $0.441863

Paper 25
../Data/SI_PDF/25.pdf
13 8


 23%|█████████████████████████████████████▊                                                                                                                                  | 25/111 [03:28<09:23,  6.55s/it]


 Total cost: $0.4632525

Paper 26
../Data/SI_PDF/26.pdf
6 6


 23%|███████████████████████████████████████▎                                                                                                                                | 26/111 [03:35<09:30,  6.72s/it]


 Total cost: $0.484707

Paper 27
../Data/SI_PDF/27.pdf
13 11


 24%|████████████████████████████████████████▊                                                                                                                               | 27/111 [03:43<09:42,  6.93s/it]


 Total cost: $0.505977

Paper 28
../Data/SI_PDF/28.pdf
7 6


 25%|██████████████████████████████████████████▍                                                                                                                             | 28/111 [03:46<08:01,  5.80s/it]


 Total cost: $0.5195705

Paper 29
../Data/SI_PDF/29.pdf
13 13


 26%|███████████████████████████████████████████▉                                                                                                                            | 29/111 [03:54<08:49,  6.46s/it]


 Total cost: $0.5457460000000001

Paper 30
../Data/SI_PDF/30.pdf
9 7


 27%|█████████████████████████████████████████████▍                                                                                                                          | 30/111 [03:57<07:35,  5.62s/it]


 Total cost: $0.5601865

Paper 31
../Data/SI_PDF/31.pdf
7 6


 28%|██████████████████████████████████████████████▉                                                                                                                         | 31/111 [04:02<06:56,  5.21s/it]


 Total cost: $0.5746695

Paper 32
../Data/SI_PDF/32.pdf
5 4


 29%|████████████████████████████████████████████████▍                                                                                                                       | 32/111 [04:06<06:26,  4.89s/it]


 Total cost: $0.5864195

Paper 33
../Data/SI_PDF/33.pdf
24 21


 30%|█████████████████████████████████████████████████▉                                                                                                                      | 33/111 [04:39<17:18, 13.32s/it]


 Total cost: $0.6097135

Paper 34
../Data/SI_PDF/34.pdf
6 6


 31%|███████████████████████████████████████████████████▍                                                                                                                    | 34/111 [04:42<13:12, 10.29s/it]


 Total cost: $0.626129

Paper 35
../Data/SI_PDF/35.pdf
13 12


 32%|████████████████████████████████████████████████████▉                                                                                                                   | 35/111 [04:48<11:34,  9.14s/it]


 Total cost: $0.645563

Paper 36
../Data/SI_PDF/36.pdf
7 7


 32%|██████████████████████████████████████████████████████▍                                                                                                                 | 36/111 [04:55<10:31,  8.42s/it]


 Total cost: $0.663795

Paper 37
../Data/SI_PDF/37.pdf
7 6


 33%|████████████████████████████████████████████████████████                                                                                                                | 37/111 [05:03<10:07,  8.21s/it]


 Total cost: $0.6791320000000001

Paper 38
../Data/SI_PDF/38.pdf
13 11


 34%|█████████████████████████████████████████████████████████▌                                                                                                              | 38/111 [05:10<09:33,  7.86s/it]


 Total cost: $0.6978700000000001

Paper 39
../Data/SI_PDF/39.pdf
21 18


 35%|███████████████████████████████████████████████████████████                                                                                                             | 39/111 [05:21<10:44,  8.96s/it]


 Total cost: $0.7219845000000001

Paper 40
../Data/SI_PDF/40.pdf
15 12


 36%|████████████████████████████████████████████████████████████▌                                                                                                           | 40/111 [05:33<11:23,  9.63s/it]


 Total cost: $0.7389145

Paper 41
../Data/SI_PDF/41.pdf
16 13


 37%|██████████████████████████████████████████████████████████████                                                                                                          | 41/111 [05:42<11:10,  9.59s/it]


 Total cost: $0.763511

Paper 42
../Data/SI_PDF/42.pdf
13 10


 38%|███████████████████████████████████████████████████████████████▌                                                                                                        | 42/111 [05:52<11:00,  9.58s/it]


 Total cost: $0.7848670000000001

Paper 43
../Data/SI_PDF/43.pdf
6 6


 39%|█████████████████████████████████████████████████████████████████                                                                                                       | 43/111 [05:57<09:18,  8.21s/it]


 Total cost: $0.8075000000000001

Paper 44
../Data/SI_PDF/44.pdf
11 9


 40%|██████████████████████████████████████████████████████████████████▌                                                                                                     | 44/111 [06:02<08:10,  7.32s/it]


 Total cost: $0.8263725000000001

Paper 45
../Data/SI_PDF/45.pdf
9 6


Retrying langchain.chat_models.openai.ChatOpenAI.completion_with_retry.<locals>._completion_with_retry in 1.0 seconds as it raised ServiceUnavailableError: The server is overloaded or not ready yet..
 41%|████████████████████████████████████████████████████████████████████                                                                                                    | 45/111 [06:42<18:44, 17.03s/it]


 Total cost: $0.8428040000000001

Paper 46
../Data/SI_PDF/46.pdf
6 5


 41%|█████████████████████████████████████████████████████████████████████▌                                                                                                  | 46/111 [06:49<15:10, 14.00s/it]


 Total cost: $0.8567690000000001

Paper 47
../Data/SI_PDF/47.pdf
9 9


 42%|███████████████████████████████████████████████████████████████████████▏                                                                                                | 47/111 [07:00<14:12, 13.31s/it]


 Total cost: $0.8780110000000001

Paper 48
../Data/SI_PDF/48.pdf
18 15


 43%|████████████████████████████████████████████████████████████████████████▋                                                                                               | 48/111 [07:06<11:28, 10.93s/it]


 Total cost: $0.9002129999999999

Paper 49
../Data/SI_PDF/49.pdf
9 9


 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                             | 49/111 [07:15<10:42, 10.37s/it]


 Total cost: $0.9246509999999999

Paper 50
../Data/SI_PDF/50.pdf
10 9


 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                            | 50/111 [07:25<10:40, 10.50s/it]


 Total cost: $0.9463519999999999

Paper 51
../Data/SI_PDF/51.pdf
6 6


Retrying langchain.chat_models.openai.ChatOpenAI.completion_with_retry.<locals>._completion_with_retry in 1.0 seconds as it raised ServiceUnavailableError: The server is overloaded or not ready yet..
 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                          | 51/111 [08:30<26:33, 26.56s/it]


 Total cost: $0.9663629999999999

Paper 52
../Data/SI_PDF/52.pdf
11 10


 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                         | 52/111 [08:35<19:51, 20.19s/it]


 Total cost: $0.9839589999999998

Paper 53
../Data/SI_PDF/53.pdf
6 6


 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                       | 53/111 [08:44<16:18, 16.87s/it]


 Total cost: $1.0043779999999998

Paper 54
../Data/SI_PDF/54.pdf
17 17


 49%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 54/111 [08:56<14:43, 15.51s/it]


 Total cost: $1.0229079999999997

Paper 55
../Data/SI_PDF/55.pdf
13 7


 50%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 55/111 [09:01<11:19, 12.13s/it]


 Total cost: $1.0421994999999997

Paper 56
../Data/SI_PDF/56.pdf
9 9


 50%|████████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 56/111 [09:10<10:19, 11.26s/it]


 Total cost: $1.064552

Paper 57
../Data/SI_PDF/57.pdf
4 4


 51%|██████████████████████████████████████████████████████████████████████████████████████▎                                                                                 | 57/111 [09:20<09:48, 10.90s/it]


 Total cost: $1.079033

Paper 58
../Data/SI_PDF/58.pdf
8 8


 52%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                                | 58/111 [09:24<07:50,  8.87s/it]


 Total cost: $1.1017584999999999

Paper 59
../Data/SI_PDF/59.pdf
13 11


 53%|█████████████████████████████████████████████████████████████████████████████████████████▎                                                                              | 59/111 [09:30<06:50,  7.89s/it]


 Total cost: $1.1251339999999999

Paper 60
../Data/SI_PDF/60.pdf
12 10


 54%|██████████████████████████████████████████████████████████████████████████████████████████▊                                                                             | 60/111 [09:35<05:59,  7.04s/it]


 Total cost: $1.1421759999999999

Paper 61
../Data/SI_PDF/61.pdf
15 12


 55%|████████████████████████████████████████████████████████████████████████████████████████████▎                                                                           | 61/111 [09:45<06:42,  8.04s/it]


 Total cost: $1.163393

Paper 62
../Data/SI_PDF/62.pdf
13 13


 56%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                                                          | 62/111 [09:54<06:41,  8.20s/it]


 Total cost: $1.188037

Paper 63
../Data/SI_PDF/63.pdf
14 11


 57%|███████████████████████████████████████████████████████████████████████████████████████████████▎                                                                        | 63/111 [10:07<07:54,  9.88s/it]


 Total cost: $1.2102140000000001

Paper 64
../Data/SI_PDF/64.pdf
19 16


 58%|████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                       | 64/111 [10:20<08:24, 10.73s/it]


 Total cost: $1.2243659999999998

Paper 65
../Data/SI_PDF/65.pdf
12 12


 59%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                     | 65/111 [10:26<07:10,  9.37s/it]


 Total cost: $1.2456804999999997

Paper 66
../Data/SI_PDF/66.pdf
20 18


 59%|███████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                    | 66/111 [10:31<05:55,  7.91s/it]


 Total cost: $1.2648539999999997

Paper 67
../Data/SI_PDF/67.pdf
18 14


 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                  | 67/111 [10:36<05:13,  7.13s/it]


 Total cost: $1.2825999999999997

Paper 68
../Data/SI_PDF/68.pdf
17 17


 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                 | 68/111 [10:41<04:36,  6.44s/it]


 Total cost: $1.3028804999999997

Paper 69
../Data/SI_PDF/69.pdf
19 14


 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                               | 69/111 [11:00<07:05, 10.14s/it]


 Total cost: $1.3227534999999997

Paper 70
../Data/SI_PDF/70.pdf
8 6


 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                              | 70/111 [11:03<05:34,  8.16s/it]


 Total cost: $1.3378089999999998

Paper 71
../Data/SI_PDF/71.pdf
6 6


 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                            | 71/111 [11:15<06:06,  9.16s/it]


 Total cost: $1.3577

Paper 72
../Data/SI_PDF/72.pdf
8 8


 65%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                           | 72/111 [11:19<04:57,  7.63s/it]


 Total cost: $1.382938

Paper 73
../Data/SI_PDF/73.pdf
7 7


 66%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                         | 73/111 [11:25<04:33,  7.21s/it]


 Total cost: $1.402267

Paper 74
../Data/SI_PDF/74.pdf
7 5


 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 74/111 [11:29<03:54,  6.34s/it]


 Total cost: $1.41632

Paper 75
../Data/SI_PDF/75.pdf
5 5


 68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                      | 75/111 [11:32<03:13,  5.38s/it]


 Total cost: $1.435282

Paper 76
../Data/SI_PDF/76.pdf
9 6


 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                     | 76/111 [11:36<02:44,  4.70s/it]


 Total cost: $1.451073

Paper 77
../Data/SI_PDF/77.pdf
18 18


 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                   | 77/111 [11:41<02:48,  4.97s/it]


 Total cost: $1.4717120000000001

Paper 78
../Data/SI_PDF/78.pdf
17 17


 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                  | 78/111 [11:47<02:54,  5.30s/it]


 Total cost: $1.491311

Paper 79
../Data/SI_PDF/79.pdf
7 5


 71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                | 79/111 [11:53<02:49,  5.31s/it]


 Total cost: $1.504956

Paper 80
../Data/SI_PDF/80.pdf
13 10


 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                               | 80/111 [11:57<02:38,  5.11s/it]


 Total cost: $1.522789

Paper 81
../Data/SI_PDF/81.pdf
11 5


 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                             | 81/111 [12:04<02:50,  5.70s/it]


 Total cost: $1.538159

Paper 82
../Data/SI_PDF/82.pdf
10 8


 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                            | 82/111 [12:09<02:37,  5.44s/it]


 Total cost: $1.559986

Paper 83
../Data/SI_PDF/83.pdf
15 12


 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                          | 83/111 [12:15<02:34,  5.53s/it]


 Total cost: $1.580035

Paper 84
../Data/SI_PDF/84.pdf
8 7


 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                        | 84/111 [12:19<02:15,  5.02s/it]


 Total cost: $1.596999

Paper 85
../Data/SI_PDF/85.pdf
8 7


 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                       | 85/111 [12:26<02:31,  5.82s/it]


 Total cost: $1.614791

Paper 86
../Data/SI_PDF/86.pdf
10 9


 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                     | 86/111 [12:35<02:49,  6.80s/it]


 Total cost: $1.641469

Paper 87
../Data/SI_PDF/87.pdf
14 12


 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                    | 87/111 [12:39<02:21,  5.90s/it]


 Total cost: $1.6600095000000001

Paper 88
../Data/SI_PDF/88.pdf
11 5


 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                  | 88/111 [12:46<02:23,  6.24s/it]


 Total cost: $1.6754895

Paper 89
../Data/SI_PDF/89.pdf
13 10


 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                 | 89/111 [13:06<03:46, 10.32s/it]


 Total cost: $1.697591

Paper 90
../Data/SI_PDF/90.pdf
15 12


 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                               | 90/111 [13:14<03:20,  9.54s/it]


 Total cost: $1.716175

Paper 91
../Data/SI_PDF/91.pdf
14 11


 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                              | 91/111 [13:18<02:39,  7.97s/it]


 Total cost: $1.7337155

Paper 92
../Data/SI_PDF/92.pdf
10 8


 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                            | 92/111 [13:24<02:16,  7.19s/it]


 Total cost: $1.7546285

Paper 93
../Data/SI_PDF/93.pdf
10 8


 84%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                           | 93/111 [13:27<01:48,  6.05s/it]


 Total cost: $1.77415

Paper 94
../Data/SI_PDF/94.pdf
12 11


 85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                         | 94/111 [13:35<01:54,  6.76s/it]


 Total cost: $1.796698

Paper 95
../Data/SI_PDF/95.pdf
8 8


 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                        | 95/111 [13:42<01:47,  6.70s/it]


 Total cost: $1.8218275

Paper 96
../Data/SI_PDF/96.pdf
11 6


 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                      | 96/111 [13:46<01:29,  6.00s/it]


 Total cost: $1.8373005

Paper 97
../Data/SI_PDF/97.pdf
15 12


 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 97/111 [13:58<01:47,  7.70s/it]


 Total cost: $1.8522245

Paper 98
../Data/SI_PDF/98.pdf
10 10


 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 98/111 [14:02<01:26,  6.69s/it]


 Total cost: $1.871282

Paper 99
../Data/SI_PDF/99.pdf
18 15


 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                  | 99/111 [14:09<01:21,  6.81s/it]


 Total cost: $1.89143

Paper 100
../Data/SI_PDF/100.pdf
11 4


 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                | 100/111 [14:13<01:04,  5.84s/it]


 Total cost: $1.9012324999999999

Paper 101
../Data/SI_PDF/101.pdf
11 11


 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 101/111 [14:26<01:21,  8.11s/it]


 Total cost: $1.9252675

Paper 102
../Data/SI_PDF/102.pdf
26 22


 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍             | 102/111 [14:37<01:19,  8.85s/it]


 Total cost: $1.9453165

Paper 103
../Data/SI_PDF/103.pdf
4 4


 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 103/111 [14:41<01:00,  7.54s/it]


 Total cost: $1.9574224999999998

Paper 104
../Data/SI_PDF/104.pdf
7 6


 94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 104/111 [14:47<00:49,  7.02s/it]


 Total cost: $1.9729985

Paper 105
../Data/SI_PDF/105.pdf
6 6


 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 105/111 [14:54<00:41,  6.98s/it]


 Total cost: $1.9935785000000001

Paper 106
../Data/SI_PDF/106.pdf
4 4


 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 106/111 [15:17<00:58, 11.68s/it]


 Total cost: $2.009148

Paper 107
../Data/SI_PDF/107.pdf
16 14


 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉      | 107/111 [15:22<00:38,  9.64s/it]


 Total cost: $2.026117

Paper 108
../Data/SI_PDF/108.pdf
13 12


 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍    | 108/111 [15:27<00:25,  8.36s/it]


 Total cost: $2.043218

Paper 109
../Data/SI_PDF/109.pdf
15 15


 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉   | 109/111 [15:31<00:13,  6.94s/it]


 Total cost: $2.0593295

Paper 110
../Data/SI_PDF/110.pdf
13 13


 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 110/111 [15:34<00:05,  5.90s/it]


 Total cost: $2.0843760000000002

Paper 111
../Data/SI_PDF/111.pdf
8 8


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 111/111 [15:39<00:00,  8.46s/it]


 Total cost: $2.1057175000000004






## Two-step LLM

In [24]:
chain_1_prompt = f"""
    This doc describes the water stability properties of a few \
    Metal-Organic Framework(MOF) compound. Please find \
    the full name for all MOFs.
    Please use the following rules:

    Rule: \

    If there are multiple MOFs, please list them all and put "MOF name" before them. \

    Your output sould be a Python list.
    
    Make sure "MOF name"s do not have duplicates.

    """




def two_step_retriev_QA_(paper_id, LLM_model, Embedding_model, k, temperature):
    mofpaper_path = '../Data/SI_PDF/' + paper_id + '.pdf'
    print(mofpaper_path)
    with get_openai_callback() as cb:
        docs_processor = eunomia.LoadDoc('../Data/SI_PDF/', paper_id=str(paper_id))
        sliced_pages = docs_processor.process(['references ', 'acknowledgement', 'acknowledgments'],
                                                     chunk_size=None, chunk_overlap=0)
        print(len(docs_processor.pages), len(sliced_pages))
        faiss_index_path = f"../Data/faiss/{Embedding_model}/faiss_index_{Embedding_model}_{paper_id}.pkl"
        if os.path.isfile(faiss_index_path):
            with open(faiss_index_path, "rb") as f:
                faiss_index = pickle.load(f)
        else:
            with open(faiss_index_path, "wb") as f:
                faiss_index = FAISS.from_documents(sliced_pages, OpenAIEmbeddings(model=Embedding_model))   #text-davinci-003
                pickle.dump(faiss_index, f)
        retriever  = faiss_index.as_retriever(search_type="mmr", search_kwargs={"k":k}) # Maximum Marginal Relevance Retrieval        
#         retriever  = faiss_index.as_retriever(search_type="similarity_score_threshold", search_kwargs={"score_threshold": .8}) # Maximum Marginal Relevance Retrieval        
        qa = RetrievalQA.from_chain_type(
            llm=ChatOpenAI(model=LLM_model, temperature=temperature), chain_type="stuff", retriever=retriever, return_source_documents=False)
        answer_1 = qa({"query": chain_1_prompt})
        mof_list = answer_1['result']
        chain_2_prompt = f"""
        This doc describes the water stability properties of a few \
        Metal-Organic Framework(MOF) compound listed as {mof_list}. Please find \
        the water stability corresponding to each MOF. \
        Please use the following rules to identify\
        the water stability of each MOF. \

        Rule: \
        There are only 2 options for water stability: \
        1. Stable \
        2. Unstable \

        For 1. Stable, \
        The MOF should be stable to keep structure integrity \
        after exposure to aqueous solution. \

        For 2. Unstable, \
        The MOF will decompose after exposure \
        to humid environment. \


        If there are multiple MOFs, please list them all and put "MOF name" before them. \

        You should only respond in JSON format as described below. \

        Make sure it is parsable using Python json.load.\

        Make sure "MOF name"s do not have duplicates.\

        If information is not provided, state it as not provided.\


        """
        answer_2 = qa(chain_2_prompt)
        predictions_dict = parse_to_dict(answer_2, paper_id)
        return predictions_dict, cb.total_cost

In [28]:
predictions = []
costs = []

LLM_model = 'gpt-3.5-turbo-16k'
Embedding_model = 'text-davinci-003'#'text-davinci-003' text-embedding-ada-002
k = 8
temp = 0

for i in tqdm(range(29,112)):
    print(f'Paper {i}')
    p, c = two_step_retriev_QA_(str(i), LLM_model, Embedding_model, k, temperature=temp)
    costs.append(c)
    predictions.append(p)
    print(f'\n Total cost: ${np.sum(costs)}\n') 
    results_index_path = f"../Data/faiss/results/{LLM_model}/faiss-{Embedding_model}/k_{k}/t_{temp}/two-step/results_paper_{i}.json"
    with open(results_index_path, 'w') as f:
        json.dump(p, f)
#     break

  0%|                                                                                                                                                                                  | 0/83 [00:00<?, ?it/s]

Paper 29
../Data/SI_PDF/29.pdf
13 13


  1%|██                                                                                                                                                                        | 1/83 [00:21<29:33, 21.63s/it]


 Total cost: $0.05010850000000001

Paper 30
../Data/SI_PDF/30.pdf
9 7


  2%|████                                                                                                                                                                      | 2/83 [00:26<16:01, 11.87s/it]


 Total cost: $0.077736

Paper 31
../Data/SI_PDF/31.pdf
7 6


  4%|██████▏                                                                                                                                                                   | 3/83 [00:32<11:59,  8.99s/it]


 Total cost: $0.10529949999999999

Paper 32
../Data/SI_PDF/32.pdf
5 4


  5%|████████▏                                                                                                                                                                 | 4/83 [00:36<09:24,  7.14s/it]


 Total cost: $0.12739099999999998

Paper 33
../Data/SI_PDF/33.pdf
24 21


  6%|██████████▏                                                                                                                                                               | 5/83 [01:01<17:43, 13.63s/it]


 Total cost: $0.16299549999999996

Paper 34
../Data/SI_PDF/34.pdf
6 6


  7%|████████████▎                                                                                                                                                             | 6/83 [01:08<14:25, 11.24s/it]


 Total cost: $0.19488999999999995

Paper 35
../Data/SI_PDF/35.pdf
13 12


  8%|██████████████▎                                                                                                                                                           | 7/83 [01:16<12:54, 10.19s/it]


 Total cost: $0.23154949999999996

Paper 36
../Data/SI_PDF/36.pdf
7 7


 10%|████████████████▍                                                                                                                                                         | 8/83 [01:22<11:10,  8.94s/it]


 Total cost: $0.266201

Paper 37
../Data/SI_PDF/37.pdf
7 6


 11%|██████████████████▍                                                                                                                                                       | 9/83 [01:34<12:04,  9.79s/it]


 Total cost: $0.29434150000000003

Paper 38
../Data/SI_PDF/38.pdf
13 11


 12%|████████████████████▎                                                                                                                                                    | 10/83 [01:41<11:08,  9.16s/it]


 Total cost: $0.33340700000000006

Paper 39
../Data/SI_PDF/39.pdf
21 18


 13%|██████████████████████▍                                                                                                                                                  | 11/83 [01:55<12:38, 10.54s/it]


 Total cost: $0.37658650000000005

Paper 40
../Data/SI_PDF/40.pdf
15 12


 14%|████████████████████████▍                                                                                                                                                | 12/83 [02:01<10:50,  9.16s/it]


 Total cost: $0.40645800000000004

Paper 41
../Data/SI_PDF/41.pdf
16 13


 16%|██████████████████████████▍                                                                                                                                              | 13/83 [02:13<11:38,  9.98s/it]


 Total cost: $0.45425550000000003

Paper 42
../Data/SI_PDF/42.pdf
13 10


 17%|████████████████████████████▌                                                                                                                                            | 14/83 [02:24<11:41, 10.17s/it]


 Total cost: $0.49538000000000004

Paper 43
../Data/SI_PDF/43.pdf
6 6


 18%|██████████████████████████████▌                                                                                                                                          | 15/83 [02:37<12:36, 11.13s/it]


 Total cost: $0.5398075

Paper 44
../Data/SI_PDF/44.pdf
11 9


 19%|████████████████████████████████▌                                                                                                                                        | 16/83 [02:45<11:29, 10.29s/it]


 Total cost: $0.576201

Paper 45
../Data/SI_PDF/45.pdf
9 6


 20%|██████████████████████████████████▌                                                                                                                                      | 17/83 [03:01<13:00, 11.82s/it]


 Total cost: $0.6086965

Paper 46
../Data/SI_PDF/46.pdf
6 5


 22%|████████████████████████████████████▋                                                                                                                                    | 18/83 [03:09<11:36, 10.72s/it]


 Total cost: $0.634412

Paper 47
../Data/SI_PDF/47.pdf
9 9


 23%|██████████████████████████████████████▋                                                                                                                                  | 19/83 [03:24<12:56, 12.13s/it]


 Total cost: $0.6735995

Paper 48
../Data/SI_PDF/48.pdf
18 15


 24%|████████████████████████████████████████▋                                                                                                                                | 20/83 [03:31<11:00, 10.49s/it]


 Total cost: $0.711229

Paper 49
../Data/SI_PDF/49.pdf
9 9


 25%|██████████████████████████████████████████▊                                                                                                                              | 21/83 [03:42<11:01, 10.67s/it]


 Total cost: $0.7566725

Paper 50
../Data/SI_PDF/50.pdf
10 9


 27%|████████████████████████████████████████████▊                                                                                                                            | 22/83 [03:55<11:30, 11.32s/it]


 Total cost: $0.7966265

Paper 51
../Data/SI_PDF/51.pdf
6 6


 28%|██████████████████████████████████████████████▊                                                                                                                          | 23/83 [04:02<09:58,  9.97s/it]


 Total cost: $0.835008

Paper 52
../Data/SI_PDF/52.pdf
11 10


 29%|████████████████████████████████████████████████▊                                                                                                                        | 24/83 [04:09<08:54,  9.05s/it]


 Total cost: $0.8683795000000001

Paper 53
../Data/SI_PDF/53.pdf
6 6


 30%|██████████████████████████████████████████████████▉                                                                                                                      | 25/83 [04:19<09:08,  9.46s/it]


 Total cost: $0.906421

Paper 54
../Data/SI_PDF/54.pdf
17 17


 31%|████████████████████████████████████████████████████▉                                                                                                                    | 26/83 [04:31<09:43, 10.24s/it]


 Total cost: $0.9394355000000001

Paper 55
../Data/SI_PDF/55.pdf
13 7


 33%|██████████████████████████████████████████████████████▉                                                                                                                  | 27/83 [04:42<09:46, 10.47s/it]


 Total cost: $0.9775790000000001

Paper 56
../Data/SI_PDF/56.pdf
9 9


 34%|█████████████████████████████████████████████████████████                                                                                                                | 28/83 [04:54<10:01, 10.94s/it]


 Total cost: $1.0258585

Paper 57
../Data/SI_PDF/57.pdf
4 4


 35%|███████████████████████████████████████████████████████████                                                                                                              | 29/83 [05:00<08:27,  9.40s/it]


 Total cost: $1.050884

Paper 58
../Data/SI_PDF/58.pdf
8 8


 36%|█████████████████████████████████████████████████████████████                                                                                                            | 30/83 [05:11<08:39,  9.80s/it]


 Total cost: $1.0960955

Paper 59
../Data/SI_PDF/59.pdf
13 11


 37%|███████████████████████████████████████████████████████████████                                                                                                          | 31/83 [05:23<09:04, 10.48s/it]


 Total cost: $1.142383

Paper 60
../Data/SI_PDF/60.pdf
12 10


 39%|█████████████████████████████████████████████████████████████████▏                                                                                                       | 32/83 [05:29<07:52,  9.27s/it]


 Total cost: $1.1747985

Paper 61
../Data/SI_PDF/61.pdf
15 12


 40%|███████████████████████████████████████████████████████████████████▏                                                                                                     | 33/83 [05:40<08:08,  9.78s/it]


 Total cost: $1.2142160000000002

Paper 62
../Data/SI_PDF/62.pdf
13 13


 41%|█████████████████████████████████████████████████████████████████████▏                                                                                                   | 34/83 [05:50<08:06,  9.93s/it]


 Total cost: $1.2608705000000002

Paper 63
../Data/SI_PDF/63.pdf
14 11


 42%|███████████████████████████████████████████████████████████████████████▎                                                                                                 | 35/83 [06:04<08:50, 11.05s/it]


 Total cost: $1.3009730000000002

Paper 64
../Data/SI_PDF/64.pdf
19 16


 43%|█████████████████████████████████████████████████████████████████████████▎                                                                                               | 36/83 [06:18<09:21, 11.95s/it]


 Total cost: $1.3274165000000002

Paper 65
../Data/SI_PDF/65.pdf
12 12


 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                             | 37/83 [06:27<08:25, 10.98s/it]


 Total cost: $1.3687920000000002

Paper 66
../Data/SI_PDF/66.pdf
20 18


 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                           | 38/83 [06:39<08:33, 11.41s/it]


 Total cost: $1.4098045000000001

Paper 67
../Data/SI_PDF/67.pdf
18 14


 47%|███████████████████████████████████████████████████████████████████████████████▍                                                                                         | 39/83 [06:46<07:17,  9.95s/it]


 Total cost: $1.438166

Paper 68
../Data/SI_PDF/68.pdf
17 17


 48%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                       | 40/83 [06:52<06:20,  8.84s/it]


 Total cost: $1.4751565000000002

Paper 69
../Data/SI_PDF/69.pdf
19 14


 49%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 41/83 [07:22<10:37, 15.17s/it]


 Total cost: $1.5105590000000002

Paper 70
../Data/SI_PDF/70.pdf
8 6


 51%|█████████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 42/83 [07:29<08:37, 12.63s/it]


 Total cost: $1.5396765000000001

Paper 71
../Data/SI_PDF/71.pdf
6 6


 52%|███████████████████████████████████████████████████████████████████████████████████████▌                                                                                 | 43/83 [07:42<08:34, 12.87s/it]


 Total cost: $1.5751920000000001

Paper 72
../Data/SI_PDF/72.pdf
8 8


 53%|█████████████████████████████████████████████████████████████████████████████████████████▌                                                                               | 44/83 [07:49<07:09, 11.02s/it]


 Total cost: $1.6242655000000001

Paper 73
../Data/SI_PDF/73.pdf
7 7


 54%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                                             | 45/83 [07:55<06:09,  9.72s/it]


 Total cost: $1.6607090000000002

Paper 74
../Data/SI_PDF/74.pdf
7 5


 55%|█████████████████████████████████████████████████████████████████████████████████████████████▋                                                                           | 46/83 [08:01<05:12,  8.44s/it]


 Total cost: $1.6875015000000002

Paper 75
../Data/SI_PDF/75.pdf
5 5


 57%|███████████████████████████████████████████████████████████████████████████████████████████████▋                                                                         | 47/83 [08:07<04:43,  7.88s/it]


 Total cost: $1.7244610000000002

Paper 76
../Data/SI_PDF/76.pdf
9 6


 58%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                       | 48/83 [08:13<04:06,  7.05s/it]


 Total cost: $1.7549970000000001

Paper 77
../Data/SI_PDF/77.pdf
18 18


 59%|███████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                     | 49/83 [08:20<04:02,  7.13s/it]


 Total cost: $1.7949985000000002

Paper 78
../Data/SI_PDF/78.pdf
17 17


 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                   | 50/83 [08:27<03:49,  6.97s/it]


 Total cost: $1.8327160000000002

Paper 79
../Data/SI_PDF/79.pdf
7 5


 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                 | 51/83 [08:35<03:53,  7.31s/it]


 Total cost: $1.8586045000000002

Paper 80
../Data/SI_PDF/80.pdf
13 10


 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                               | 52/83 [08:42<03:51,  7.48s/it]


 Total cost: $1.8927680000000002

Paper 81
../Data/SI_PDF/81.pdf
11 5


 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                             | 53/83 [08:51<03:52,  7.76s/it]


 Total cost: $1.9216325000000003

Paper 82
../Data/SI_PDF/82.pdf
10 8


 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                           | 54/83 [08:57<03:27,  7.14s/it]


 Total cost: $1.9639440000000004

Paper 83
../Data/SI_PDF/83.pdf
15 12


 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                         | 55/83 [09:07<03:46,  8.10s/it]


 Total cost: $2.0026935000000003

Paper 84
../Data/SI_PDF/84.pdf
8 7


 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                       | 56/83 [09:18<04:00,  8.93s/it]


 Total cost: $2.036365

Paper 85
../Data/SI_PDF/85.pdf
8 7


 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                     | 57/83 [09:28<04:01,  9.28s/it]


 Total cost: $2.070012

Paper 86
../Data/SI_PDF/86.pdf
10 9


 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                   | 58/83 [09:39<04:04,  9.78s/it]


 Total cost: $2.1207245

Paper 87
../Data/SI_PDF/87.pdf
14 12


 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                | 59/83 [09:46<03:39,  9.13s/it]


 Total cost: $2.159873

Paper 88
../Data/SI_PDF/88.pdf
11 5


 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 60/83 [09:56<03:29,  9.12s/it]


 Total cost: $2.1886125

Paper 89
../Data/SI_PDF/89.pdf
13 10


 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                            | 61/83 [10:05<03:19,  9.08s/it]


 Total cost: $2.226632

Paper 90
../Data/SI_PDF/90.pdf
15 12


 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                          | 62/83 [10:12<03:02,  8.71s/it]


 Total cost: $2.2622235

Paper 91
../Data/SI_PDF/91.pdf
14 11


 76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                        | 63/83 [10:19<02:42,  8.12s/it]


 Total cost: $2.2957170000000002

Paper 92
../Data/SI_PDF/92.pdf
10 8


 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 64/83 [10:25<02:19,  7.33s/it]


 Total cost: $2.3353545

Paper 93
../Data/SI_PDF/93.pdf
10 8


 78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 65/83 [10:33<02:15,  7.51s/it]


 Total cost: $2.373717

Paper 94
../Data/SI_PDF/94.pdf
12 11


 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                  | 66/83 [10:42<02:18,  8.14s/it]


 Total cost: $2.4135735

Paper 95
../Data/SI_PDF/95.pdf
8 8


 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                | 67/83 [10:50<02:10,  8.13s/it]


 Total cost: $2.462448

Paper 96
../Data/SI_PDF/96.pdf
11 6


 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                              | 68/83 [10:58<01:59,  7.94s/it]


 Total cost: $2.4923485000000003

Paper 97
../Data/SI_PDF/97.pdf
15 12


 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                            | 69/83 [11:11<02:12,  9.48s/it]


 Total cost: $2.5186910000000005

Paper 98
../Data/SI_PDF/98.pdf
10 10


 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                          | 70/83 [11:17<01:50,  8.46s/it]


 Total cost: $2.5555885000000003

Paper 99
../Data/SI_PDF/99.pdf
18 15


 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                        | 71/83 [11:31<02:01, 10.13s/it]


 Total cost: $2.5937280000000005

Paper 100
../Data/SI_PDF/100.pdf
11 4


 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                      | 72/83 [11:37<01:37,  8.86s/it]


 Total cost: $2.6125115

Paper 101
../Data/SI_PDF/101.pdf
11 11


 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                    | 73/83 [11:54<01:54, 11.41s/it]


 Total cost: $2.658639

Paper 102
../Data/SI_PDF/102.pdf
26 22


 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                  | 74/83 [12:06<01:43, 11.49s/it]


 Total cost: $2.6980855

Paper 103
../Data/SI_PDF/103.pdf
4 4


 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                | 75/83 [12:13<01:22, 10.26s/it]


 Total cost: $2.720885

Paper 104
../Data/SI_PDF/104.pdf
7 6


 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋              | 76/83 [12:19<01:02,  8.95s/it]


 Total cost: $2.7498325

Paper 105
../Data/SI_PDF/105.pdf
6 6


 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 77/83 [12:25<00:47,  7.91s/it]


 Total cost: $2.7886550000000003

Paper 106
../Data/SI_PDF/106.pdf
4 4


 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 78/83 [12:51<01:06, 13.31s/it]


 Total cost: $2.8174085000000004

Paper 107
../Data/SI_PDF/107.pdf
16 14


 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 79/83 [12:58<00:46, 11.51s/it]


 Total cost: $2.8515310000000005

Paper 108
../Data/SI_PDF/108.pdf
13 12


 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉      | 80/83 [13:03<00:28,  9.60s/it]


 Total cost: $2.8808925

Paper 109
../Data/SI_PDF/109.pdf
15 15


 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 81/83 [13:07<00:16,  8.00s/it]


 Total cost: $2.911996

Paper 110
../Data/SI_PDF/110.pdf
13 13


 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 82/83 [13:16<00:08,  8.32s/it]


 Total cost: $2.9606005

Paper 111
../Data/SI_PDF/111.pdf
8 8


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 83/83 [13:24<00:00,  9.70s/it]


 Total cost: $3.00245






In [None]:
from typing import List
from pydantic import BaseModel, Field, validator
from langchain.output_parsers import OutputFixingParser, PydanticOutputParser

class MOF(BaseModel):
    name: List[str] = Field(description="name of a MOF")
    stability: List[str] = Field(description="choose only one: stable or unstable or not provided")
    @validator("name", pre=True)
    def name_not_provided(cls, field):
        if field == "Not Provided":
#                 raise ValueError("Dummy-MOF!")
            field = 'Dummy-MOF'
        return field

from langchain.output_parsers import PydanticOutputParser
parser = PydanticOutputParser(pydantic_object=MOF)
#     try:
llm_parser = OutputFixingParser.from_llm(parser=parser, llm=ChatOpenAI(temperature=0))

test_dict = {
  "MOFs": [
    {
      "MOF name": "DMOF",
      "Water stability": "Stable"
    },
    {
      "MOF name": "MOF-508",
      "Water stability": "Stable"
    },
    {
      "MOF name": "DMOF-TM",
      "Water stability": "Not provided"
    },
    {
      "MOF name": "MOF-508-TM",
      "Water stability": "Not provided"
    }
  ]
}

In [None]:
parsed_result = parse_to_dict(test_dict,65)