# Extractive QA with txtai

In Parts 1 through 4, we gave a general overview of txtai, the backing technology and examples of how to use it for similarity searches. This notebook builds on that and extends to building extractive question-answering systems.

# Install dependencies

Install `txtai` and all dependencies.

In [None]:
# %%capture
# !pip install git+https://github.com/neuml/txtai 

# Create an Embeddings and Extractor instances

The Embeddings instance is the main entrypoint for txtai. An Embeddings instance defines the method used to tokenize and convert a segment of text into an embeddings vector.

The Extractor instance is the entrypoint for extractive question-answering.

Both the Embeddings and Extractor instances take a path to a transformer model. Any model on the [Hugging Face model hub](https://huggingface.co/models) can be used in place of the models below.

In [1]:
%%capture

from txtai.embeddings import Embeddings
from txtai.pipeline import Extractor
from txtai.pipeline import Textractor


# Create textractor model
textractor = Textractor(sentences=True) # this is using apache tika

# Create embeddings model, backed by sentence-transformers & transformers
embeddings = Embeddings({"path": "sentence-transformers/nli-mpnet-base-v2"})

# Create extractor instance
extractor = Extractor(embeddings, "distilbert-base-cased-distilled-squad")

In [3]:
pdf_path = "txtai/生产安全事故应急预案 1.pdf"

In [4]:
data = textractor(pdf_path)
data

['备案号： \n\n 版本号：LZM/AQ-2023-第1版 \n\n\n\n\n\n\n\n庐州梦集成电路股份有限公司 \n\n生产安全事故应急预案 \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n \n编制单位：庐州梦集成电路股份有限公司 \n\n颁布日期：2023年11月\n\n\n\n\n批 准 页 \n\n为贯彻《中华人民共和国突发事件应对法》（主席令2007第69号）《中\n\n华人民共和国安全生产法》（主席令〔2021〕第88号）《生产安全事故应急\n\n预案管理办法》（应急管理部令第2号）等相关法律、法规、标准规范的要求\n\n，妥善处置本公司区域内生产安全事故，使事故发生后能够迅速、有效、有\n\n序的实施应急救援，庐州梦集成电路股份有限公司应急预案编制工作组，依\n\n据《生产经营单位生产安全事故应急预案编制导则》(GB/T29639-2020）结合\n\n公司实际情况，编制了《庐州梦集成电路股份有限公司生产安全事故应急预\n\n案》。 \n\n《庐州梦集成电路股份有限公司生产安全事故应急预案》是本单位实施\n\n应急救援工作的法规性文件，用于规范、指导本公司生产安全事故的应急演\n\n练及应急救援行动。主要包括综合应急预案、专项应急预案、现场处置方案\n\n及附件等内容。 \n\n本预案由庐州梦集成电路股份有限公司风险管理处归口并负责解释，自\n\n发布之日起正式实施，本公司各个部门均应严格遵守执行。 \n\n\n\n\n\n 签发人： \n\n\n\n 年 月 日 \n\n\n\n\n\n\n\n\n\n \n\n\n庐州梦集成电路股份有限公司 生产安全事故应急预案 \n\n\n\n目录 \n\n庐州梦集成电路股份有限公司 ........................................................... 1 \n\n生产安全事故应急预案 ...................................................................... 1 \n\n一、生产安全事故综合应急预案 ....................................................... 1 \n\n1 总则 ...

In [5]:
def prompt(question):
  return f"""
  Answer the following question using the provided context.

  Question:
  {question}

  Context:
  """

In [6]:
embeddings.index([(uid, text, None) for uid, text in enumerate(data)])

# Create and run pipeline
query = "当由公司组成事故调查组对公司进行事故调查时，应对事件的起因、性质、影响、责任、人员伤亡、财产损失、经验教训和恢复重建等问题进行调查评估。事故调查报告应当包括哪些內容"
extractor([{"query": query, "question": prompt(query)}], data)

[{'answer': None}]