<a href="https://colab.research.google.com/github/willameoliveira/ibot-factory/blob/master/ProjetoImersaoIA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Projeto IBot Factory, f√°brica de chatbot inteligente**
Respondendo apenas tr√™s perguntas usando o chatbot, gere um assistente virtual para seu neg√≥cio. O projeto ainda √© um prot√≥tipo.

Ser√° √∫til para qualquer institui√ß√£o (seja de ensino, de sa√∫de, ongs, etc) que deseja ter uma assistente inteligente para seu neg√≥cio. Um grande objetivo √© democratizar a cria√ß√£o de assistentes virtuais principalmente nas organiza√ß√µes p√∫blicas, melhorando a qualidade do atendimento.

Para executar esse notebook, observe que h√° v√°rios trechos que s√≥ precisam ser executados apenas uma vez.

O c√≥digo inicia fazendo as instala√ß√µes necess√°rias (biblioteca da ia generativa do google, biblioteca para acessar o Google Drive a partir do python e, por √∫ltimo, uma biblioteca para trabalhar com PDF no python respectivamente). Ele s√≥ precisa ser executado apenas uma vez por notebook.

In [None]:
!pip install -q -U google-generativeai
!pip install PyDrive
!pip install PyPDF2

Nesse trecho s√£o feitos todos os imports de bibliotecas necess√°rias.

*   `google.generativeai as genai`: Importa a biblioteca de IA generativa do Google, que voc√™ pode usar para tarefas como gera√ß√£o de texto, sumariza√ß√£o e resposta a perguntas.
*   `from google.colab import userdata`: Importa o m√≥dulo userdata do Google Colab, que pode ser usado para acessar armazenamento persistente dentro do seu ambiente do Colab.
*   `from urllib.parse import urlparse`: Importa a fun√ß√£o urlparse, √∫til para dividir URLs em seus componentes (esquema, netloc, caminho, etc.).
*  `import PyPDF2`: Importa a biblioteca PyPDF2, permitindo que voc√™ trabalhe com arquivos PDF, incluindo leitura, manipula√ß√£o e grava√ß√£o.
*   `from pydrive.auth import GoogleAuth` e `from pydrive.drive import GoogleDrive`: Importam componentes da biblioteca PyDrive, que fornece uma interface para interagir com sua conta do Google Drive a partir do Python. Voc√™ pode us√°-la para enviar, baixar e gerenciar arquivos no Google Drive.
*   `from google.colab import auth` e `from oauth2client.client import GoogleCredentials`: Importam m√≥dulos necess√°rios para autenticar seu notebook Colab com sua conta do Google, concedendo acesso aos seus arquivos do Google Drive e outros servi√ßos do Google.

In [59]:
import google.generativeai as genai
from google.colab import userdata
from urllib.parse import urlparse
import PyPDF2
from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive
from google.colab import auth
from oauth2client.client import GoogleCredentials

Aqui o cliente PyDrive √© autenticado e criado, podendo acessar o Google Drive do usu√°rio. Est√° sendo usada a credencial padr√£o, que pede acesso total aos arquivos do Drive. Ao executar esse trecho, ser√° pedida a permiss√£o para acesso total ao seu Drive. N√£o tenha medo de conceder esse acesso, observe que o c√≥digo n√£o remove nada do seu Drive, apenas l√™ o arquivo PDF que voc√™ mesmo informar√°. Como esse c√≥digo √© s√≥ um prot√≥tipo, essa credencial resolve por enquanto.
OBS: Esse trecho s√≥ precisa ser executado uma vez por notebook.

In [24]:
# Authenticate and create the PyDrive client.
# This only needs to be done once per notebook.
auth.authenticate_user()
gauth = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)

Esse trecho corresponde ao acesso do dono do neg√≥cio e, por isso, s√≥ precisa ser executado uma vez por notebook. O p√∫blico alvo do neg√≥cio que acessa apenas o assistente virtual, n√£o ter√° acesso a essa parte. Por ser prot√≥tipo, s√≥ est√° sendo poss√≠vel gerar uma √∫nica assistente virtual por vez.

In [None]:
print("Seja bem vindo ao IBot Factory, seu criador de chatbot inteligente. üòÅ")
tipo_negocio = input("Primeiro informe como se identifica seu neg√≥cio (ex: empresa, organiza√ß√£o ou institui√ß√£o?): ")
razao_social = input("\nInforme o nome da sua organiza√ß√£o da forma como deseja que apare√ßa no assistente virtual: ")
link_arquivo = input("""

Agora informe o link do PDF contido no seu Google Drive que cont√©m as informa√ß√µes dos seus
servi√ßos (CUIDADO: Certifique-se de que todo o conte√∫do possa ser publicado na internet e que n√£o h√° conte√∫do ofensivo).
Para isso, basta clicar com o bot√£o direito no arquivo e escolher a op√ß√£o copiar link para a √°rea de transfer√™ncia e
colar aqui: """)

# Analisa a URL
parsed_url = urlparse(link_arquivo)

# Extraindo o ID da url
file_id = parsed_url.query.split("=")[1].split("&")[0]

# criando arquivo vazio, apenas com o id do que se deseja acessar
downloaded = drive.CreateFile({'id': file_id})
# baixando o arquivo para o sistema de arquivo local
downloaded.GetContentFile("document0.pdf")

print("\nParab√©ns. As configura√ß√µes iniciais do seu assistente j√° foram feitas!")

Inicializando o modelo Gemini. A partir daqui inicia a execu√ß√£o do Assistente Virtual que foi configurado pelo dono do neg√≥cio.

In [66]:
genai.configure(api_key=userdata.get('API_KEY'))

# Set up the model
generation_config = {
  "temperature": 0.5,
  "top_p": 0.95,
  "top_k": 0,
  "max_output_tokens": 8192,
}

safety_settings = [
  {
    "category": "HARM_CATEGORY_HARASSMENT",
    "threshold": "BLOCK_MEDIUM_AND_ABOVE"
  },
  {
    "category": "HARM_CATEGORY_HATE_SPEECH",
    "threshold": "BLOCK_MEDIUM_AND_ABOVE"
  },
  {
    "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
    "threshold": "BLOCK_MEDIUM_AND_ABOVE"
  },
  {
    "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
    "threshold": "BLOCK_MEDIUM_AND_ABOVE"
  },
]

model = genai.GenerativeModel(model_name="gemini-1.5-pro-latest",
                              generation_config=generation_config,
                              safety_settings=safety_settings)

O pr√≥ximo trecho tem a fun√ß√£o de extrair o texto de cada p√°gina do arquivo PDF recebido e retornar um dicion√°rio de textos do PDF agrupado por p√°gina.

Em detalhes:
1. A fun√ß√£o recebe o caminho do arquivo PDF (pathname) como entrada.
2. Cria uma lista `parts`: Essa lista armazenar√° o texto extra√≠do de cada p√°gina, junto com marcadores para indicar o in√≠cio do PDF e o come√ßo de cada p√°gina.
3. Abre o arquivo PDF: A biblioteca PyPDF2 √© usada para abrir o arquivo PDF especificado pelo pathname.
4. Itera pelas p√°ginas do PDF: O c√≥digo percorre cada p√°gina do PDF, extraindo seu conte√∫do textual e adiciona na lista `pages`.
5. Extrai o texto e adiciona ao dicion√°rio: O texto de cada p√°gina √© extra√≠do e adicionado ao dicion√°rio `parts`. O dicion√°rio tamb√©m inclui marcadores como "--- START OF PDF {pathname} ---" para indicar o in√≠cio do PDF e "--- PAGE {index+1} ---" para indicar o in√≠cio de cada p√°gina.
6. Retorna o dicion√°rio: A fun√ß√£o retorna o dicion√°rio `parts`, que cont√©m o texto extra√≠do de cada p√°gina do PDF, juntamente com os marcadores.



In [67]:
def extract_pdf_pages(pathname: str) -> list[str]:
  parts = [f"--- START OF PDF ${pathname} ---"]
  # Add logic to read the PDF and return a list of pages here.
  pages = []
  reader = PyPDF2.PdfReader(pathname)
  for p in reader.pages:
    pages.append(p.extract_text())

  for index, page in enumerate(pages):
    parts.append(f"--- PAGE {index} ---")
    parts.append(page)
  return parts

Inicializando o chat do Gemini. O conte√∫do do PDF lido √© adicionado como hist√≥rico do chat para que as pr√≥ximas respostas sejam baseadas no conte√∫do dele. Na vers√£o final, ele ser√° inclu√≠do usando Embeddings para melhor efici√™ncia e economia de uso de tokens.

In [None]:
chat = model.start_chat(history=[
  {
    "role": "user",
    "parts": extract_pdf_pages("/content/document0.pdf")#<path>/document0.pdf
  },
  {
    "role": "user",
    "parts": [f"""O arquivo cont√©m informa√ß√µes
    sobre os servi√ßos oferecidos pelo(a) {tipo_negocio} chamado(a) {razao_social}.
    Haja como uma atendente virtual dessa {tipo_negocio} e responda, em
    tom amig√°vel e com uso de emojis, as perguntas que ser√£o feitas apenas
    usando esse documento como base. Antes de come√ßar a responder a primeira
    pergunta, se apresente."""]
  },
])

prompt = input(f"Digite algo (fim para parar): ")
while prompt != "fim":
  response = chat.send_message(prompt)
  print (f"{razao_social}: {response.text}")
  prompt = input(f"Digite algo: ")