# Metadata Extraction and Augmentation w/ Marvin

This notebook walks through using [`Marvin`](https://github.com/PrefectHQ/marvin) to extract and augment metadata from text. Marvin uses the LLM to identify and extract metadata.  Metadata can be anything from additional and enhanced questions and answers to business object identification and elaboration.  This notebook will demonstrate pulling out and elaborating on Sports Supplement information in a csv document.

Note: You will need to supply a valid open ai key below to run this notebook.

## Setup

In [None]:
# !pip install marvin

In [1]:
from llama_index import SimpleDirectoryReader
from llama_index.indices.service_context import ServiceContext
from llama_index.llms import OpenAI
from llama_index.node_parser import SimpleNodeParser
from llama_index.node_parser.extractors import (
    MetadataExtractor,
)
from llama_index.text_splitter import TokenTextSplitter
from llama_index.node_parser.extractors.marvin_metadata_extractor import (
    MarvinMetadataExtractor,
)

In [2]:
import os
import openai

os.environ["OPENAI_API_KEY"] = "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"
openai.api_key = os.environ["OPENAI_API_KEY"]

In [27]:
documents = SimpleDirectoryReader("../../data/").load_data()

# limit document text length
documents[0].text = documents[0].text[:6000]

In [29]:
import marvin
from marvin import ai_model

from llama_index.bridge.pydantic import BaseModel, Field

marvin.settings.openai.api_key = os.environ["OPENAI_API_KEY"]


@ai_model
class SportsSupplement(BaseModel):
    title: str = Field(..., description="The title of the document")
    summary: str = Field(..., description="A short summary of the document")
    keywords: str = Field(
        ..., description="Some keywords that describe and mentioned in the document"
    )

In [30]:
llm_model = "gpt-3.5-turbo"

llm = OpenAI(temperature=0.1, model_name=llm_model, max_tokens=512)
service_context = ServiceContext.from_defaults(llm=llm)

# construct text splitter to split texts into chunks for processing
# this takes a while to process, you can increase processing time by using larger chunk_size
# file size is a factor too of course
text_splitter = TokenTextSplitter(separator="\n\n\n", chunk_size=2048, chunk_overlap=128)

# set the global service context object, avoiding passing service_context when building the index
from llama_index import set_global_service_context

set_global_service_context(service_context)

# create metadata extractor
metadata_extractor = MetadataExtractor(
    extractors=[
        MarvinMetadataExtractor(
            marvin_model=SportsSupplement, llm_model_string=llm_model
        ),  # let's extract custom entities for each node.
    ],
)

# create node parser to parse nodes from document
node_parser = SimpleNodeParser(
    text_splitter=text_splitter,
    metadata_extractor=metadata_extractor,
)

# use node_parser to get nodes from the documents
nodes = node_parser.get_nodes_from_documents(documents)

In [46]:
from pprint import pprint
# pprint(nodes[2].text)
pprint("------")
pprint(nodes[2].metadata)

'------'
{'file_name': 'PVJ.2022.11-01.docx',
 'marvin_metadata': {'keywords': 'phương pháp xử lý tín hiệu phi tuyến, đánh '
                                 'giá ảnh hưởng, giếng bơm ép, giếng khai '
                                 'thác, mô hình INSIM, mô hình điện trở điện '
                                 'dung, chỉ số khai thác đa giếng, tầng nước '
                                 'đáy, đường cơ sở, độ thấm, đứt gãy, phần '
                                 'mềm, Trần Đăng Tú, nnk, tỷ phần dòng chảy '
                                 'Gentil, sản lượng dầu, bể Cửu Long, công tác '
                                 'quản lý, tối ưu khai thác mỏ',
                     'summary': 'Phương pháp xử lý tín hiệu phi tuyến được sử '
                                'dụng để đánh giá ảnh hưởng giữa giếng bơm ép '
                                'và giếng khai thác trong lĩnh vực kỹ thuật. '
                                'Một số công trình nghiên cứu đã sử dụng '
                          

In [44]:
from pprint import pprint

for i in range(4):
    pprint(nodes[i].metadata)

{'file_name': 'PVJ.2022.11-01.docx',
 'marvin_metadata': {'keywords': 'Mô hình mô phỏng, phục hồi lịch sử, xử lý '
                                 'tín hiệu phi tuyến, thuật toán nội suy, bơm '
                                 'ép nước, bể Cửu Long',
                     'summary': 'Mô hình mô phỏng khai thác là công cụ đáng '
                                'tin cậy và thường được các kỹ sư dầu khí ưu '
                                'tiên sử dụng trong công tác vận hành khai '
                                'thác và quản lý mỏ dầu khí. Phục hồi lịch sử '
                                'khai thác là mắt xích quan trọng trong quy '
                                'trình xây dựng và hoàn thiện mô hình mô '
                                'phỏng, đảm bảo phản ánh đúng động thái khai '
                                'thác của vỉa.',
                     'title': 'NÂNG CAO CHẤT LƯỢNG MÔ HÌNH MÔ PHỎNG KHAI THÁC '
                              'TRÊN CƠ SỞ ỨNG DỤNG KẾT QUẢ PHƯƠNG PHÁP XỬ