## TRABALHO DE CONCLUSÃO DE CURSO
Agente de IA para vender e falar sobre o Método CIS, que é um produto da empresa

In [None]:
!pip install PyMuPDF

Collecting PyMuPDF
  Downloading pymupdf-1.26.4-cp39-abi3-manylinux_2_28_x86_64.whl.metadata (3.4 kB)
Downloading pymupdf-1.26.4-cp39-abi3-manylinux_2_28_x86_64.whl (24.1 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m24.1/24.1 MB[0m [31m35.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: PyMuPDF
Successfully installed PyMuPDF-1.26.4


In [None]:
!pip install pdfplumber

Collecting pdfplumber
  Downloading pdfplumber-0.11.7-py3-none-any.whl.metadata (42 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/42.8 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.8/42.8 kB[0m [31m3.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting pdfminer.six==20250506 (from pdfplumber)
  Downloading pdfminer_six-20250506-py3-none-any.whl.metadata (4.2 kB)
Collecting pypdfium2>=4.18.0 (from pdfplumber)
  Downloading pypdfium2-4.30.0-py3-none-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (48 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m48.5/48.5 kB[0m [31m4.8 MB/s[0m eta [36m0:00:00[0m
Downloading pdfplumber-0.11.7-py3-none-any.whl (60 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m60.0/60.0 kB[0m [31m5.8 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading pdfminer_six-20250506-py3-none-any.whl (5.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━

In [None]:
# === Melhor Extrator de PDF (PyMuPDF + fallback pdfplumber) ===
# - Mantém layout básico e quebra de linha
# - Remove hífens de quebra de linha opcionais
# - Gera objetos Document compatíveis com LangChain (page_content, metadata)

import re
from typing import List
import os

# PyMuPDF (fitz) para extração primária, pdfplumber como fallback
import fitz  # PyMuPDF
import pdfplumber

try:
    from langchain.docstore.document import Document
except Exception:
    # Fallback leve: estrutura similar a Document (mantém compatibilidade básica)
    class Document(dict):
        def __init__(self, page_content: str, metadata: dict = None):
            super().__init__(page_content=page_content, metadata=metadata or {})
        @property
        def page_content(self):
            return self["page_content"]
        @property
        def metadata(self):
            return self["metadata"]

def _clean_text(text: str, dehyphen: bool = True) -> str:
    # Normaliza espaços e quebras
    text = text.replace('\r', '')
    # Junta hífens de quebra de linha: "pal-\navra" -> "palavra"
    if dehyphen:
        text = re.sub(r'(\w+)-\n(\w+)', r'\1\2', text)
    # Condensa múltiplas quebras em no máx. 2
    text = re.sub(r'\n{3,}', '\n\n', text)
    return text.strip()

def extract_pdf_documents(path: str, dehyphen: bool = True) -> List[Document]:
    docs: List[Document] = []
    # Prefer PyMuPDF
    try:
        with fitz.open(path) as pdf:
            for i, page in enumerate(pdf):
                # "text" preserva ordem de blocos melhor que "blocks" na maioria dos casos
                text = page.get_text("text") or ""
                text = _clean_text(text, dehyphen=dehyphen)
                docs.append(Document(page_content=text, metadata={"source": os.path.abspath(path), "page": i + 1}))
        return docs
    except Exception as e:
        # Fallback para pdfplumber
        with pdfplumber.open(path) as pdf:
            for i, page in enumerate(pdf.pages):
                text = page.extract_text() or ""
                text = _clean_text(text, dehyphen=dehyphen)
                docs.append(Document(page_content=text, metadata={"source": os.path.abspath(path), "page": i + 1}))
        return docs


In [None]:
# Instalando FAISS (biblioteca mais usada)
!pip install openai sentence-transformers faiss-cpu

Collecting faiss-cpu
  Downloading faiss_cpu-1.12.0-cp312-cp312-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (5.1 kB)
Downloading faiss_cpu-1.12.0-cp312-cp312-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl (31.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m31.4/31.4 MB[0m [31m31.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faiss-cpu
Successfully installed faiss-cpu-1.12.0


In [None]:
# importando as bibliotecas que serão usadas
import openai
from sentence_transformers import SentenceTransformer
import faiss
import numpy as np

# 🔑 Configuração da API
# A API key agora pode ser definida como uma variável de ambiente OPENAI_API_KEY
# Chave API real
api_key = "#chave API" # <--- SUBSTITUA POR SUA CHAVE API REAL

# 🔤 Simulando uma base de conhecimento para iniciar o modelo
knowledge_base = [
    "O Método CIS, desenvolvido por Paulo Vieira, significa Método do Coaching Integral sistêmico.",
    "O Método CIS é o maior treinamento de inteligência emocional do mundo e já impactou mais de um milhão e meio de pessoas.",
    "O Método CIS já foi transmitido em 83 países e 4 continentes"
   ]



In [None]:
# 🧠 Modelo de embeddings
embedder = SentenceTransformer('all-MiniLM-L6-v2')
kb_embeddings = embedder.encode(knowledge_base, convert_to_numpy=True)

# 🎯 Indexação FAISS
index = faiss.IndexFlatL2(kb_embeddings.shape[1])
index.add(kb_embeddings)



The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

In [None]:
# TESTANDO O MODELO

# ❓ Pergunta do usuário
question = "Me explique o que é o Método CIS?"

# 🧲 Embedding da pergunta
question_embedding = embedder.encode([question], convert_to_numpy=True)

# 🔍 Recuperando contexto relevante
top_k = 1
_, retrieved_indices = index.search(question_embedding, top_k)
retrieved_context = knowledge_base[retrieved_indices[0][0]]

# Criar uma instância do cliente OpenAI com a nova sintaxe
client = openai.OpenAI(api_key=api_key)


In [None]:
# 📤 Prompt COM RAG
rag_prompt = f"Contexto: {retrieved_context}\n\nPergunta: {question}"
# Usar o novo método client.chat.completions.create
response_com_rag = client.chat.completions.create(
    model="gpt-3.5-turbo",
    messages=[{"role": "user", "content": rag_prompt}]
)



In [None]:
print("🟢 COM RAG:\n", response_com_rag.choices[0].message.content)

🟢 COM RAG:
 O Método CIS é um programa de treinamento que tem como objetivo ajudar as pessoas a desenvolverem e fortalecerem a inteligência emocional. Por meio de palestras, workshops e atividades práticas, os participantes aprendem a lidar de maneira mais eficaz com suas emoções, aprimorar suas habilidades de comunicação, desenvolver autoconfiança e autocontrole, entre outros aspectos. O programa já impactou mais de um milhão e meio de pessoas em todo o mundo, ajudando-os a alcançarem uma vida mais equilibrada e realizada.


##vamos usar langchain para fazer um "rag" com pdf

In [None]:
!pip install langchain langchain-community



In [None]:
!pip install chromadb



In [None]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma
from langchain.llms import OpenAI
from langchain.chains import RetrievalQA


# Carregar dois arquivos PDF
docs_from_pdf1 = extract_pdf_documents("/content/Febracis_merged.pdf")
docs_from_pdf2 = extract_pdf_documents("/content/MétodoCIS_merged.pdf")

# Concatenar em uma única lista de documentos
documents = docs_from_pdf1 + docs_from_pdf2

# 2. Dividindo os documentos em chunks
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
docs_chunked = text_splitter.split_documents(documents)

# 3. Criando o indexador
embedding = OpenAIEmbeddings(openai_api_key=api_key)
db = Chroma.from_documents(docs_chunked, embedding)

# 4. Criando o sistema RAG com retriever + LLM
retriever = db.as_retriever(search_kwargs={"k": 3})
llm = OpenAI(temperature=0.5, openai_api_key=api_key)
rag_chain = RetrievalQA.from_chain_type(llm=llm, retriever=retriever)

# 5. Testando
pergunta = "O que é o Método CIS"
resposta = rag_chain.run(pergunta)
print(resposta)

  embedding = OpenAIEmbeddings(openai_api_key=api_key)
  llm = OpenAI(temperature=0.5, openai_api_key=api_key)
  resposta = rag_chain.run(pergunta)


 O Método CIS é o maior treinamento de Inteligência Emocional do mundo, que trabalha os principais pilares da vida de um ser humano e já transformou a vida de 1,5 milhões de pessoas em todo o mundo ao longo de mais de 20 anos.


In [None]:
# prompt: aumento de temperatura da célula anterior

# Aumentar a temperatura geralmente torna as respostas mais criativas/aleatórias.
llm = OpenAI(temperature=1, openai_api_key=api_key)
rag_chain = RetrievalQA.from_chain_type(llm=llm, retriever=retriever)

# 4. Testando (com a nova temperatura)
pergunta = "O que é Método CIS? Explique com detalhes"
resposta = rag_chain.run(pergunta)
resposta

' Método CIS é o maior treinamento de Inteligência Emocional do mundo que trabalha os principais pilares da vida de um ser humano. O treinamento utiliza ferramentas e conceitos, comprovados por pesquisadores da neurociência e do comportamento, para promover mudanças e eliminar barreiras que impedem as pessoas de conquistar tudo aquilo que merecem. Ao longo de mais de 20 anos, o Método CIS transformou a vida de 1,5 milhões de pessoas em todo o mundo, oferecendo a elas uma compreensão melhor das emoções e ajudando-as a lidar com elas de forma mais eficaz e positiva.'