# POC - reports generated with GEN AI 

## Packages

In [1]:
import logging
import sys

logging.basicConfig(stream=sys.stdout, level=logging.INFO)
logging.getLogger().addHandler(logging.StreamHandler(stream=sys.stdout))

from llama_index import VectorStoreIndex, SimpleDirectoryReader, ServiceContext
from llama_index.llms import HuggingFaceLLM

In [2]:
import os
import getpass

HUGGINGFACEHUB_API_TOKEN = "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"
os.environ["HUGGINGFACEHUB_API_TOKEN"] = HUGGINGFACEHUB_API_TOKEN
os.environ['HUGGING_FACE_HUB_API_KEY'] = HUGGINGFACEHUB_API_TOKEN #getpass.getpass('Hugging face api key:')


#model_id='bigscience/bloom-1b7'
#model_id='google/flan-t5-xxl'
#model_id='lmsys/fastchat-t5-3b-v1.0'

In [3]:
## model used to translate the text
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
  
tokenizer = AutoTokenizer.from_pretrained("unicamp-dl/translation-en-pt-t5")

model = AutoModelForSeq2SeqLM.from_pretrained("unicamp-dl/translation-en-pt-t5", max_length=1023)

translate_pipeline = pipeline('text2text-generation', model=model, tokenizer=tokenizer)

## Read the path of documents

In [4]:
file1='[CONECTAM] PCA ETAPA3.pdf'
file2='[CONECTAM] PCA ETAPA4.pdf'
file3='[CONECTAM] PT.pdf'
file4='[CONECTAM] RDA.pdf'
source='pdfs/partial_reports/'
input_files=[file1,file2,file3]

In [5]:
documents = SimpleDirectoryReader(source).load_data()

In [6]:
from llama_index.prompts.prompts import SimpleInputPrompt

#system_prompt = "You are a Q&A assistant. Your goal is to answer questions as accurately as possible based on the instructions and context provided."
system_prompt ="Você é um assistente de perguntas e respostas. Seu objetivo é responder às perguntas com a maior precisão possível, com base nas instruções e no contexto fornecidos."

# This will wrap the default prompts that are internal to llama-index
query_wrapper_prompt = SimpleInputPrompt("<|USER|>{query_str}<|ASSISTANT|>")

In [7]:
import torch

# load the model in HF
llm = HuggingFaceLLM(
    context_window=4096,
    max_new_tokens=512,
    generate_kwargs={"temperature": 0.0, "do_sample": False},
    system_prompt=system_prompt,
    query_wrapper_prompt=query_wrapper_prompt,
    tokenizer_name="meta-llama/Llama-2-7b-chat-hf",
    model_name="meta-llama/Llama-2-7b-chat-hf",
    device_map="auto",
    # uncomment this if using CUDA to reduce memory usage
    model_kwargs={"torch_dtype": torch.float16 , "load_in_8bit":True})

Downloading (…)lve/main/config.json:   0%|          | 0.00/614 [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/2 [00:00<?, ?it/s]

INFO:accelerate.utils.modeling:We will use 90% of the memory on device 0 for storing the model, and 10% for the buffer to avoid OOM. You can set `max_memory` in to a higher value to use more memory (at your own risk).
We will use 90% of the memory on device 0 for storing the model, and 10% for the buffer to avoid OOM. You can set `max_memory` in to a higher value to use more memory (at your own risk).


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

In [8]:
from langchain.embeddings.huggingface import HuggingFaceEmbeddings
from llama_index import LangchainEmbedding, ServiceContext

#load the Embeddings
embed_model = LangchainEmbedding(
  HuggingFaceEmbeddings(model_name="sentence-transformers/all-mpnet-base-v2")
)

INFO:sentence_transformers.SentenceTransformer:Load pretrained SentenceTransformer: sentence-transformers/all-mpnet-base-v2
Load pretrained SentenceTransformer: sentence-transformers/all-mpnet-base-v2
INFO:sentence_transformers.SentenceTransformer:Use pytorch device: cuda
Use pytorch device: cuda


In [9]:
service_context = ServiceContext.from_defaults(
    chunk_size=1024,
    llm=llm,
    embed_model=embed_model
)

In [10]:
index = VectorStoreIndex.from_documents(documents, service_context=service_context)

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

In [11]:
query_engine = index.as_query_engine()
response = query_engine.query("Qual o principal tema dos documentos?")
print(translate_pipeline(f"translate English to Portuguese:{response}")[0]['generated_text'])

Batches:   0%|          | 0/1 [00:00<?, ?it/s]



O tema principal dos documentos é o uso do satélite SGDC para a conectividade no Brasil, especificamente para instituições de ensino e comunidades indígenas.


In [12]:
response = query_engine.query("A partir dos documentos fornecidos elabore a principal justificativa deste projeto")
print(translate_pipeline(f"translate English to Portuguese:{response}")[0]['generated_text'])

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

A principal justificativa deste projecto consiste em elaborar uma prova de conceito (PoC) para o projecto Plataforma Conectiva Amazônia (PCA), que tem por objectivo proporcionar uma conectividade na Internet de alta velocidade a comunidades remotas da Amazônia. A PoC avaliará a viabilidade de ligação destas comunidades através de tecnologias ópticas por satélite ou fibra, e também testará a arquitectura inicial da plataforma PCA. O projecto será desenvolvido em parceria com a Foxconn, e incluirá a utilização de tecnologias como a geoestatística de satélite e a fibra óptica. A PoC será utilizada para analisar a viabilidade da plataforma PCA, incluindo a conectividade por satélite ou fibra óptica, e para avaliar o desempenho do sistema em diferentes condições. Em termos gerais, a principal justificativa do projecto de PCA é fornecer uma conectividade na Internet de alta velocidade a comunidades remotas da Amazônia. A PoC avaliará a viabilidade da ligação destas comunidades através de tec

In [None]:
response = query_engine.query("Faça o resumo de como foi realizada a prova de conceito (POC) do projeto")
print(translate_pipeline(f"translate English to Portuguese:{response}")[0]['generated_text'])

Batches: 100%|██████████| 1/1 [00:00<00:00, 117.94it/s]


### Refs

https://github.com/MuhammadMoinFaisal/LargeLanguageModelsProjects/blob/main/Chat_with_Document_LlamaIndex_PaLM2/Chat_with_Documents_LlamaIndex_PaLM2.ipynb

https://www.youtube.com/watch?v=aWGn61YT2dA