<a href="https://colab.research.google.com/github/bragarods/imersao_alura_genai/blob/main/wiki_researcher_gemini.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# install google-generativeai
!pip install -qU langchain
!pip install -qU langchain-community
!pip install -qU langchain-google-genai
!pip install -qU wikipedia

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m302.9/302.9 kB[0m [31m2.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m121.0/121.0 kB[0m [31m10.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m53.0/53.0 kB[0m [31m5.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m142.5/142.5 kB[0m [31m6.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.0/1.0 MB[0m [31m6.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m33.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m49.3/49.3 kB[0m [31m3.4 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
  Building wheel for wikipedia (setup.py) ... [?25l[?25hdone


In [2]:
# setup env var
%env GOOGLE_API_KEY=AIzaSyDQKbXFYYbU3oSwOJZzkaQDris3zbva4Ys

env: GOOGLE_API_KEY=AIzaSyDQKbXFYYbU3oSwOJZzkaQDris3zbva4Ys


In [5]:
# setup logging
import logging

## Configure LLM and Tools

In [3]:
# Google Gemini
from langchain_google_genai import GoogleGenerativeAI

llm = GoogleGenerativeAI(
    model="gemini-1.5-pro-latest",
    temperature=0.1,
    )

In [4]:
# Wikipedia tool
from langchain_community.utilities import WikipediaAPIWrapper
from langchain_community.tools import WikipediaQueryRun

wrapper = WikipediaAPIWrapper(
    region="pt",
    doc_content_chars_max=1024,
    )

wiki = WikipediaQueryRun(
    api_wrapper=wrapper,
    )

In [6]:
# Retriever and utility functions
from langchain_community.retrievers import WikipediaRetriever

wiki_retriever = WikipediaRetriever(
    doc_content_chars_max=1024,
    lang='pt',
    load_all_available_meta=True,
)

def wiki_summary(company):
    logging.info(f"Searching for {company} on Wikipedia")
    docs = wiki_retriever.load(
        company
        )

    summaries = [
        {
            "title": doc.metadata.get("title"),
            "summary": doc.metadata.get("summary")[:256]
        }
        for doc in docs
    ]
    return summaries

def select_wiki_doc(empresa: str = None):
    if empresa is None:
        return None
    docs = wiki_retriever.load(empresa)
    most_relevant = [
        x for x in docs if x.metadata.get("title") == empresa
        ][0]
    return most_relevant


## Chains

### Wiki selection chain

In [7]:

from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import JsonOutputParser
from langchain_core.pydantic_v1 import BaseModel
from langchain_core.runnables import RunnablePassthrough, RunnableParallel

wiki_select_template = '''
Selecione o resumo mais relevante sobre a empresa {empresa} a partir opções abaixo.

{wiki_summaries}

Instruções de formatação (em inglês):
{format_instructions}

Se não for encontrado resumo relevante, retorno null nos campos.
Responda sempre em Português do Brasil.
'''

prompt = ChatPromptTemplate.from_template(
    wiki_select_template
    )

class WikiChainOutput(BaseModel):
    empresa: str = None
    resumo: str = None

wiki_parser = JsonOutputParser(
    pydantic_object=WikiChainOutput
    )

wiki_chain = (
    RunnableParallel(
        empresa=lambda x: x['empresa'],
        wiki_summaries=lambda x: wiki_summary(x['empresa']),
        format_instructions=lambda x: wiki_parser.get_format_instructions()
    )
    | prompt
    | llm
    | wiki_parser
    )

# Briefing chain

In [8]:
from typing import List

briefing_template = '''
Você é um consultor de negócios especializado e deve criar um briefing sobre a empresa {empresa}.

Você tem as seguintes informações:

Resumo do Wikipedia:
{wiki_summary}

Conteúdo da Wikipedia:
{wiki_content}

Instruções de formatação (em inglês):
{format_instructions}

Se não forem encontrados resultados relevantes, retorno null nos campos.
Responda sempre em Português do Brasil.
'''

briefing_prompt = ChatPromptTemplate.from_template(
    briefing_template
    )

class Founder(BaseModel):
    nome: str
    nascimento: str = None
    nacionalidade: str = None

class CompanyBriefing(BaseModel):
    nome: str
    descricao: str
    fundacao_ano: str
    fundadores: List[Founder] = []

company_parser = JsonOutputParser(pydantic_object=CompanyBriefing)

briefing_chain = (
    wiki_chain
    | RunnableParallel(
        empresa=lambda x: x['empresa'],
        wiki_summary=lambda x: x['resumo'],
        wiki_content=lambda x: (
            select_wiki_doc(x['empresa']).page_content
            if x['empresa'] else None),
        format_instructions=lambda x: company_parser.get_format_instructions()
    )
    | briefing_prompt
    | llm
    | company_parser
    )

## Run

In [9]:
briefing_chain_result = briefing_chain.invoke(
    {
        "empresa": "Nu Bank",
    }
)

In [10]:
print(briefing_chain_result)

{'nome': 'Nubank', 'descricao': 'Nubank é uma empresa startup brasileira pioneira no segmento de serviços financeiros, atuando como operadora de cartões de crédito e fintech com operações no Brasil. Tornou-se a quarta maior instituição financeira brasileira em número de clientes, ultrapassando tradicionais instituições, como o Banco do Brasil. É o maior banco fintech da América Latina, e o maior banco digital em número de clientes fora da Ásia, com 100 milhões de clientes alcançados.', 'fundacao_ano': '2013', 'fundadores': [{'nome': 'David Vélez'}, {'nome': 'Cristina Junqueira'}, {'nome': 'Edward Wible'}]}
