In [1]:
import urllib.request
import fitz
import re
import numpy as np
import tensorflow_hub as hub
import openai
import gradio as gr
import os
from sklearn.neighbors import NearestNeighbors

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
def download_pdf(url, output_path):
    urllib.request.urlretrieve(url, output_path)


def preprocess(text):
    text = text.replace('\n', ' ')
    text = re.sub('\s+', ' ', text)
    return text


def pdf_to_text(path, start_page=1, end_page=None):
    doc = fitz.open(path)
    total_pages = doc.page_count

    if end_page is None:
        end_page = total_pages

    text_list = []

    for i in range(start_page-1, end_page):
        text = doc.load_page(i).get_text("text")
        text = preprocess(text)
        text_list.append(text)

    doc.close()
    return text_list


def text_to_chunks(texts, word_length=150, start_page=1):
    text_toks = [t for t in texts]
    page_nums = []
    chunks = []
    
    for idx, words in enumerate(text_toks):
        text = ''.join(text_toks)
        for i in range(0, len(words), word_length):
            chunk = words[i:i+word_length]
            if (i+word_length) > len(words) and (len(chunk) < word_length) and (
                len(text_toks) != (idx+1)):
                text_toks[idx+1] = chunk + text_toks[idx+1]
                continue
            # chunk = ' '.join(chunk).strip()
            chunk = f' ' + '"' + chunk + '"'
            chunks.append(chunk)
    return chunks

In [3]:
class SemanticSearch:
    
    def __init__(self):
        self.use = hub.load('https://tfhub.dev/google/universal-sentence-encoder/4')
        self.fitted = False
    
    
    def fit(self, data, batch=1000, n_neighbors=5):
        self.data = data
        self.embeddings = self.get_text_embedding(data, batch=batch)
        n_neighbors = min(n_neighbors, len(self.embeddings))
        self.nn = NearestNeighbors(n_neighbors=n_neighbors)
        self.nn.fit(self.embeddings)
        self.fitted = True
    
    
    def __call__(self, text, return_data=True):
        inp_emb = self.use([text])
        neighbors = self.nn.kneighbors(inp_emb, return_distance=False)[0]
        
        if return_data:
            return [self.data[i] for i in neighbors]
        else:
            return neighbors
    
    
    def get_text_embedding(self, texts, batch=1000):
        embeddings = []
        for i in range(0, len(texts), batch):
            text_batch = texts[i:(i+batch)]
            emb_batch = self.use(text_batch)
            embeddings.append(emb_batch)
        embeddings = np.vstack(embeddings)
        return embeddings



In [4]:
# The modified function generates embeddings based on PDF file name and page number and checks if the embeddings file exists before loading or generating it.	
def load_recommender(path, start_page=1):
    global recommender
    pdf_file = os.path.basename(path)
    embeddings_file = f"{pdf_file}_{start_page}.npy"
    
    if os.path.isfile(embeddings_file):
        embeddings = np.load(embeddings_file)
        recommender.embeddings = embeddings
        recommender.fitted = True
        return "Embeddings loaded from file"
    
    texts = pdf_to_text(path, start_page=start_page)
    chunks = text_to_chunks(texts, start_page=start_page)
    recommender.fit(chunks)
    np.save(embeddings_file, recommender.embeddings)
    return 'Corpus Loaded.'



def generate_text(openAI_key,prompt, engine="text-davinci-003"):
    openai.api_key = openAI_key
    completions = openai.Completion.create(
        engine=engine,
        prompt=prompt,
        max_tokens=512,
        n=1,
        stop=None,
        temperature=0.7,
    )
    message = completions.choices[0].text
    return message
    
def generate_text2(openAI_key, prompt, engine="gpt-3.5-turbo-0301"):
    openai.api_key = openAI_key
    messages = [{'role': 'system', 'content': 'You are a helpful assistant.'},
                {'role': 'user', 'content': prompt}]
    
    completions = openai.ChatCompletion.create(
        model=engine,
        messages=messages,
        max_tokens=512,
        n=1,
        stop=None,
        temperature=0.7,
    )
    message = completions.choices[0].message['content']
    return message

def generate_answer(question,openAI_key):
    topn_chunks = recommender(question)
    prompt = ""
    prompt += 'search results:\n\n'
    print(topn_chunks)
    for c in topn_chunks:
        prompt += c + '\n\n'
        
    prompt += "Instructions: Compose a comprehensive reply to the query using the search results given. "\
              "Cite each reference using [ Page Number] notation (every result has this number at the beginning). "\
              "Citation should be done at the end of each sentence. If the search results mention multiple subjects "\
              "with the same name, create separate answers for each. Only include information found in the results and "\
              "don't add any additional information. Make sure the answer is correct and don't output false content. "\
              "If the text does not relate to the query, simply state 'PDF上にない情報です。'. Ignore outlier "\
              "search results which has nothing to do with the question. Only answer what is asked. The "\
              "answer should be short and concise. Answer step-by-step. \n\nQuery: {question}\nAnswer: "
    
    prompt += f"Query: {question}\nAnswer:"
    answer = generate_text(openAI_key, prompt,"text-davinci-003")
    return answer


def question_answer(url, file, question, openAI_key="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"):
    # if openAI_key.strip()=='':
    #     return '[ERROR]: Please enter you Open AI Key. Get your key here : https://platform.openai.com/account/api-keys'
    if url.strip() == '' and file == None:
        return '[ERROR]: PDFファイルを入れてください。'
    
    if url.strip() != '' and file != None:
        return '[ERROR]: PDFファイルは一つのみ入れてください。'

    if url.strip() != '':
        glob_url = url
        download_pdf(glob_url, 'corpus.pdf')
        load_recommender('corpus.pdf')

    else:
        old_file_name = file.name
        file_name = file.name
        file_name = file_name[:-12] + file_name[-4:]
        os.rename(old_file_name, file_name)
        load_recommender(file_name)

    if question.strip() == '':
        return '[ERROR]: 質問を入力してください。'

    return generate_answer(question,openAI_key)

In [5]:
recommender = SemanticSearch()

title = 'PDF GPT'

with gr.Blocks() as demo:

    gr.Markdown(f'<center><h1>{title}</h1></center>')
    # gr.Markdown(description)

    with gr.Row():
        
        with gr.Group():
            # gr.Markdown(f'<p style="text-align:center">Get your Open AI API key <a href="https://platform.openai.com/account/api-keys">here</a></p>')
            # openAI_key=gr.Textbox(label='Enter your OpenAI API key here')
            url = gr.Textbox(label='PDFファイルのURLを貼り付けてください。')
            gr.Markdown("<center><h4>OR<h4></center>")
            file = gr.File(label='ここに読み込みたい資料(.pdf)をアップロードしてください。', file_types=['.pdf'])
            question = gr.Textbox(label='Enter your question here')
            btn = gr.Button(value='Submit')
            btn.style(full_width=True)

        with gr.Group():
            answer = gr.Textbox(label='GPTの返事:')

        btn.click(question_answer, inputs=[url, file, question], outputs=[answer])
#openai.api_key = os.getenv('Your_Key_Here') 
# demo.launch()
demo.launch(share=True)

Running on local URL:  http://127.0.0.1:7860
Running on public URL: https://b5e62e4904275752c9.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades (NEW!), check out Spaces: https://huggingface.co/spaces




[' "す影響に関する認識 1999年の喫煙と健康問題に関する実態調査では、全体の84.5%の人が「喫煙で肺が んにかかりやすくなる」と思っている一方で、「心臓病」は40.5%、「脳卒中」では35.1%23)と、 低率になっているなど、疾患によってはたばこの健康影響に関する認識が低い。さらに は、たばこに依"', ' "f the Surgeon General. U.S. Department of Health and Human Services, Public Health Service, Office of the Assistant Secretary of Health, Office on Smo"', ' "nsequences from Smoking: A Report of the Advisory Committee to the Surgeon General of the Public Health Service. PHS Publication No.1103. Rockville, M"', ' "する禁煙支援を積極的に推進していくことは重要かつ効果的であることから、今後、 禁煙、節煙を希望する者に対する禁煙支援プログラムを行政サービスとしてのみならず、 保険者が行う保健事業の場を活用したり、かかりつけ医、かかりつけ歯科医、かかりつ け薬局等による医療サービスの場を活用して、全ての市町村で受け"', ' "煙防止 学校教育や地域保健の現場における健康教育を充実させる。また、未成年者は、たば この危険性に関する情報を十分に与えることはもとより、社会環境の整備あるいは規制と いう形で、保護する必要がある。 （３）非喫煙者の保護 受動喫煙からの非喫煙者の保護という趣旨を徹底し、また「たばこのない社会」という"']
[' "した異常の 危険因子である1)～7)。喫煙者の多くは、たばこの害を十分に認識しないまま、未成年のうち に喫煙を開始しているが８)～１０)、未成年期に喫煙を開始した者では、成人になってから喫 煙を開始した者に比べて、これらの疾患の危険性はより大きい2)～5)8)。さらに、本人の喫煙 のみならず、周囲の"', ' "喫煙者のたばこ煙による受動喫煙も、肺がんや虚血性心疾患、呼吸 器疾患、乳幼児突然死症候群などの危険因子であ

Traceback (most recent call last):
  File "c:\Users\madde\AppData\Local\Programs\Python\Python311\Lib\site-packages\gradio\routes.py", line 401, in run_predict
    output = await app.get_blocks().process_api(
             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "c:\Users\madde\AppData\Local\Programs\Python\Python311\Lib\site-packages\gradio\blocks.py", line 1302, in process_api
    result = await self.call_function(
             ^^^^^^^^^^^^^^^^^^^^^^^^^
  File "c:\Users\madde\AppData\Local\Programs\Python\Python311\Lib\site-packages\gradio\blocks.py", line 1025, in call_function
    prediction = await anyio.to_thread.run_sync(
                 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "c:\Users\madde\AppData\Local\Programs\Python\Python311\Lib\site-packages\anyio\to_thread.py", line 31, in run_sync
    return await get_asynclib().run_sync_in_worker_thread(
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "c:\Users\madde\AppData\Local\Programs\Python\Python311\Lib\site

[' "する禁煙支援を積極的に推進していくことは重要かつ効果的であることから、今後、 禁煙、節煙を希望する者に対する禁煙支援プログラムを行政サービスとしてのみならず、 保険者が行う保健事業の場を活用したり、かかりつけ医、かかりつけ歯科医、かかりつ け薬局等による医療サービスの場を活用して、全ての市町村で受け"', ' "喫煙者のたばこ煙による受動喫煙も、肺がんや虚血性心疾患、呼吸 器疾患、乳幼児突然死症候群などの危険因子である11)12)。また、たばこに含まれるニコチ ンには依存性があり、自分の意志だけでは、やめたくてもやめられないことが多い９)10)13)14)。 しかし、禁煙に成功すれば、喫煙を継続した場合に比"', ' "現在の日本の状況であ り1)2)１７)、この頃より種々のたばこ抑制策（消費者に対する警告表示、未成年者の喫煙禁止 や、公共の場所の禁煙、たばこ広告の禁止などの様々な規制や、たばこ税の増額など）を 講じた結果、国民の喫煙率や一人当たりたばこ消費量が低下した2)5)20)。その成果は最近 になってようや"', ' "で首位となっ た18)。さらに、たばこによる疾病や死亡のために、1993年には年間１兆2000億円（国民医 療費の５％）が超過医療費としてかかっていることが試算されており、社会全体では少なく とも４兆円以上の損失があるとされている19)。 欧米先進国では、たばこによる疾病や死亡が1960年代に既に、"', ' "した異常の 危険因子である1)～7)。喫煙者の多くは、たばこの害を十分に認識しないまま、未成年のうち に喫煙を開始しているが８)～１０)、未成年期に喫煙を開始した者では、成人になってから喫 煙を開始した者に比べて、これらの疾患の危険性はより大きい2)～5)8)。さらに、本人の喫煙 のみならず、周囲の"']
[' "する禁煙支援を積極的に推進していくことは重要かつ効果的であることから、今後、 禁煙、節煙を希望する者に対する禁煙支援プログラムを行政サービスとしてのみならず、 保険者が行う保健事業の場を活用したり、かかりつけ医、かかりつけ歯科医、かかりつ け薬局等による医療サービスの場を活用して、全ての市町村で受け"', ' "喫煙者のたばこ煙による受動喫煙も、肺がんや虚血性心疾患、呼吸 器疾患、乳幼児突然死症候群などの危険因子であ