<h1 align="center"><font color="yellow">LangChain 2: Chains de LLM usando GPT-3.5 e outros LLMs</font></h1>

<font color="yellow">Data Scientist.: Dr.Eddy Giusepe Chirinos Isidro</font>

# Contextualizando

Neste script sobre `LangChain`, exploraremos as cadeias (`Chains`), com foco nas cadeias `gen√©ricas` e `utilit√°rias`, como a `LLMChain`. Esses s√£o os principais recursos do `LangChain` que atuam como a base por tr√°s de usos mais avan√ßados do langchain, como `IA conversacional` (`chatbots`), `recupera√ß√£o de ML aumentado` (retrieval augmented ML) e muito mais. 

LangChain √© um Framework popular que permite aos usu√°rios criar rapidamente aplicativos e pipelines em torno de Large Language Models. Ele se integra diretamente aos modelos `GPT-3` e `GPT-3.5` da OpenAI e √†s alternativas de c√≥digo aberto do `Hugging Face`, como os modelos `flan-t5 do Google`. Ele pode ser usado para `chatbots`, `perguntas-respostas generativas` (GQA), `resumos` e muito mais. A ideia central da biblioteca √© que podemos "encadear" diferentes componentes para criar casos de uso mais avan√ßados em torno de LLMs. As cadeias podem consistir em v√°rios componentes de v√°rios m√≥dulos.

# Usando Chains

<font color="orange">As `Chains` s√£o o n√∫cleo do `LangChain`. Eles s√£o simplesmente uma cadeia de componentes, executados em uma ordem espec√≠fica.

A mais simples dessas cadeias √© a `LLMChain`. Ele funciona recebendo a entrada de um usu√°rio, passando para o primeiro elemento da cadeia ‚Äî um `PromptTemplate` ‚Äî para formatar a entrada em um prompt espec√≠fico. O prompt formatado √© ent√£o passado para o pr√≥ximo (e √∫ltimo) elemento da cadeia ‚Äî um `LLM`.

Come√ßaremos importando todas as bibliotecas que usaremos neste exemplo.</font>

Antes disso vamos inserir a nossa Chave API OpenAI:

In [6]:
# Isto √© quando usas o arquivo .env:
from dotenv import load_dotenv
import os
print('Carregando a minha chave Key: ', load_dotenv())
Eddy_API_KEY_OpenAI = os.environ['OPENAI_API_KEY'] 
Eddy_API_KEY_HuggingFace = os.environ["HUGGINGFACEHUB_API_TOKEN"]

Carregando a minha chave Key:  True


In [7]:
import inspect
import re

from getpass import getpass
from langchain import OpenAI, PromptTemplate
from langchain.chains import LLMChain, LLMMathChain, TransformChain, SequentialChain
from langchain.callbacks import get_openai_callback


In [8]:
llm = OpenAI(
    temperature=0, 
    openai_api_key=Eddy_API_KEY_OpenAI
            )

Um utilit√°rio extra que usaremos √© esta fun√ß√£o que nos dir√° quantos `Tokens` estamos usando em cada chamada. Esta √© uma boa pr√°tica cada vez mais importante √† medida que usamos ferramentas mais complexas que podem fazer v√°rias chamadas √† `API` (como `agentes`). `√â muito importante ter um controle de quantos tokens estamos gastando para evitar gastos inesperados`.

In [10]:
def count_tokens(chain, query):
    with get_openai_callback() as cb:
        result = chain.run(query)
        print(f'Gastou um total de {cb.total_tokens} tokens')

    return result


# O que s√£o cadeias afinal?

As cadeias s√£o um dos blocos de constru√ß√£o fundamentais desta biblioteca (como voc√™ pode imaginar!).

A defini√ß√£o oficial de `Chains` √© a seguinte:


<font color="pink">Uma cadeia (chain) √© composta de elos, que podem ser primitivos ou outras cadeias. Primitivos podem ser `prompts`, `llms`, `utils` ou outras `cadeias`.</font>


Portanto, uma cadeia √© basicamente um `pipeline` que processa uma entrada usando uma combina√ß√£o espec√≠fica de primitivas. Intuitivamente, pode ser pensado como uma `'etapa'` que executa um determinado conjunto de opera√ß√µes em uma entrada e retorna o resultado. Eles podem ser qualquer coisa, desde uma passagem baseada em `prompt` por meio de um `LLM` at√© a aplica√ß√£o de uma fun√ß√£o `Python` a um texto.

As cadeias s√£o divididas em tr√™s tipos: `cadeias utilit√°rias`, `cadeias gen√©ricas` e `cadeias de combinar documentos`. Neste script, vamos nos concentrar nos *dois primeiros*, j√° que o terceiro √© muito espec√≠fico (ser√° abordado oportunamente).

* <font color="red">Cadeias utilit√°rias:</font> cadeias que geralmente s√£o usadas para extrair uma resposta espec√≠fica de um LLM com um prop√≥sito muito restrito e est√£o prontas para serem usadas fora da caixa.

* <font color="red">Cadeias Gen√©ricas:</font> cadeias que s√£o usadas como blocos de constru√ß√£o para outras chains, mas n√£o podem ser usadas fora da caixa por conta pr√≥pria.


Vamos dar uma olhada no que essas redes t√™m a oferecer!


# <font color="red">Cadeias de utilit√°rias</font> (`Utility Chains`)


Vamos come√ßar com uma cadeia de utilidades simples. A `LLMMathChain` d√° aos LLMs a capacidade de fazer matem√°tica. Vamos ver como isso funciona!

`Dica profissional:` use `verbose=True` para ver quais s√£o as diferentes etapas da cadeia!

In [11]:
llm_math = LLMMathChain(
    llm=llm,
    verbose=True
                       )


count_tokens(llm_math, "Quanto √© 13 elevado √† pot√™ncia de 0.3432?")




[1m> Entering new LLMMathChain chain...[0m
Quanto √© 13 elevado √† pot√™ncia de 0.3432?[32;1m[1;3m
```python
print(13**0.3432)
```
[0m
Answer: [33;1m[1;3m2.4116004626599237
[0m
[1m> Finished chain.[0m
Gastou um total de 271 tokens


'Answer: 2.4116004626599237\n'

<font color="orange">Vamos ver o que est√° acontecendo aqui. A rede recebeu uma pergunta em linguagem natural e a enviou ao LLM. O LLM retornou um c√≥digo `Python` que a cadeia compilou para nos dar uma resposta. Algumas perguntas surgem. Como o llm sabia que quer√≠amos que ele retornasse o c√≥digo `Python`?</font>


## Enter Prompts

A pergunta que enviamos como entrada para a cadeia n√£o √© a √∫nica entrada que o llm recebe üòâ. O `Input` √© inserida em um contexto mais amplo, que fornece instru√ß√µes precisas sobre como interpretar a entrada que enviamos. `Isso √© chamado de prompt`. Vamos ver qual √© o prompt dessa cadeia!

In [14]:
print(llm_math.prompt.template)

You are GPT-3, and you can't do math.

You can do basic math, and your memorization abilities are impressive, but you can't do any complex calculations that a human could not do in their head. You also have an annoying tendency to just make up highly specific, but wrong, answers.

So we hooked you up to a Python 3 kernel, and now you can execute code. If anyone gives you a hard math problem, just use this format and we‚Äôll take care of the rest:

Question: ${{Question with hard calculation.}}
```python
${{Code that prints what you need to know}}
```
```output
${{Output of your code}}
```
Answer: ${{Answer}}

Otherwise, use this simpler format:

Question: ${{Question without hard calculation}}
Answer: ${{Answer}}

Begin.

Question: What is 37593 * 67?

```python
print(37593 * 67)
```
```output
2518731
```
Answer: 2518731

Question: {question}



Ok .. vamos ver o que temos aqui. Portanto, estamos literalmente dizendo ao LLM que, para problemas matem√°ticos complexos, ele n√£o deve tentar fazer matem√°tica sozinho, mas sim imprimir um c√≥digo `Python` que calcular√° o problema matem√°tico. Provavelmente, se apenas envi√°ssemos a query sem nenhum contexto, o LLM tentaria (`e falharia`) calcular isso por conta pr√≥pria. 

`Espere! Isso √© test√°vel.. vamos experimentar!` üßê

In [16]:
# Definimos o prompt para ter apenas a pergunta que fazemos
prompt = PromptTemplate(
    input_variables=['question'],
    template='{question}'
                       )


llm_chain = LLMChain(prompt=prompt, llm=llm)

# Pedimos ao LLM a resposta sem contexto:
print(count_tokens(llm_chain, "Quanto √© 13 elevado √† pot√™ncia de 0.3432?"))

Gastou um total de 35 tokens


A resposta √© aproximadamente 2,068.


`Resposta errada!`

Aqui reside o poder do `prompting` e um dos nossos insights mais importantes at√© agora:

`Insight:` ao usar prompts de forma inteligente, podemos `for√ßar o LLM` a evitar armadilhas comuns, programando-o expl√≠cita e intencionalmente para se comportar de uma determinada maneira.


Outro ponto interessante sobre essa cadeia √© que ela n√£o apenas executa uma entrada por meio do LLM, mas tamb√©m compila o c√≥digo Python posteriormente. Vamos ver exatamente como isso funciona.

In [17]:
print(inspect.getsource(llm_math._call))

    def _call(self, inputs: Dict[str, str]) -> Dict[str, str]:
        llm_executor = LLMChain(
            prompt=self.prompt, llm=self.llm, callback_manager=self.callback_manager
        )
        self.callback_manager.on_text(inputs[self.input_key], verbose=self.verbose)
        t = llm_executor.predict(question=inputs[self.input_key], stop=["```output"])
        return self._process_llm_result(t)



Portanto, podemos ver aqui que, se o LLM retornar o c√≥digo Python, iremos compil√°-lo com um simulador `Python REPL*`. Agora temos a imagem completa da cadeia: ou o LLM retorna uma resposta (`para problemas matem√°ticos simples`) ou retorna o `c√≥digo Python` que compilamos para obter uma resposta exata para problemas mais dif√≠ceis. `Inteligente!`


Observe tamb√©m que aqui temos nosso primeiro exemplo de `composi√ß√£o de cadeia`, um conceito-chave por tr√°s do que torna o `LangChain` especial. Estamos usando o `LLMMathChain` que, por sua vez, inicializa e usa um `LLMChain` (uma `'cadeia gen√©rica'`) quando chamado. Podemos fazer qualquer n√∫mero arbitr√°rio dessas composi√ß√µes, efetivamente `'encadeando'` muitas dessas cadeias para obter um comportamento altamente complexo e personaliz√°vel.


As <font color="yellow">cadeias de utilit√°rios</font> geralmente seguem essa mesma estrutura b√°sica: h√° um `prompt` para restringir o LLM a retornar um tipo muito espec√≠fico de resposta de uma determinada query. Podemos pedir ao LLM para criar `queries SQL`, chamadas de API e at√© mesmo criar `comandos Bash` em tempo real üî•


A lista continua a crescer √† medida que o `LangChain` se torna cada vez mais flex√≠vel e poderoso, ent√£o encorajamos voc√™ a dar uma olhada e mexer mais nos [Notebooks](https://python.langchain.com/en/latest/gallery.html?highlight=notebooks#misc-colab-notebooks) e ver se voc√™ pode achar eles interessantes.

* Um `Python REPL` (Read-Eval-Print Loop) √© um shell interativo para executar o c√≥digo Python linha por linha

# <font color="red">Cadeias gen√©ricas</font> (`Generic Chains`)


Existem apenas `tr√™s Cadeias Gen√©ricas` no `LangChain` e iremos mostr√°-las todas no mesmo exemplo. Vamos!

Digamos que tivemos a experi√™ncia de obter textos de entrada sujos. Especificamente, como sabemos, os LLMs nos cobram pelo n√∫mero de `Tokens` que usamos e n√£o ficamos felizes em pagar a mais quando a entrada tem caracteres extras. Al√©m disso, n√£o √© legal üòâ

`Primeiro`, construiremos uma fun√ß√£o de transforma√ß√£o personalizada para limpar o espa√ßamento de nossos textos. Em seguida, usaremos essa fun√ß√£o para construir uma cadeia onde inserimos nosso texto e esperamos um texto limpo como sa√≠da.

In [18]:
def transform_func(inputs: dict) -> dict:
    text = inputs["text"]
    
    # Substitu√≠mos v√°rias novas linhas e v√°rios espa√ßos por um √∫nico
    text = re.sub(r'(\r\n|\r|\n){2,}', r'\n', text)
    text = re.sub(r'[ \t]+', ' ', text)

    return {"output_text": text}


√â importante ressaltar que, quando inicializamos a cadeia, n√£o enviamos um `LLM` como argumento. Como voc√™ pode imaginar, n√£o ter um `LLM` torna as habilidades dessa cadeia muito mais fracas do que no exemplo que vimos anteriormente. No entanto, como veremos a seguir, combinar essa cadeia com outras cadeias pode nos dar resultados altamente desej√°veis.

In [19]:
clean_extra_spaces_chain = TransformChain(input_variables=["text"],
                                          output_variables=["output_text"],
                                          transform=transform_func
                                         )


In [24]:
# Vejamos como funciona:
print(clean_extra_spaces_chain.run('Um texto aleat√≥rio   com    algum espa√ßamento irregular.\n\n\n    Outro aqui    tamb√©m.'))


Um texto aleat√≥rio com algum espa√ßamento irregular.
 Outro aqui tamb√©m.


<font color="orange">√ìtimo! Agora as coisas v√£o ficar interessantes.

Digamos que queremos usar nossa cadeia para limpar um texto de entrada e, em seguida, parafrasear a entrada em um estilo espec√≠fico, digamos um poeta ou um policial. Como sabemos agora, o `TransformChain` <font color="red">n√£o usa um LLM</font>, ent√£o o estilo ter√° que ser feito em outro lugar. √â a√≠ que entra o nosso `LLMChain`. J√° sabemos sobre essa cadeia e sabemos que podemos fazer coisas legais com `prompts inteligentes`, ent√£o vamos arriscar!


`Primeiro` vamos construir o `Template Prompt`:</font>

In [25]:
template = """Parafraseie este texto:

{output_text}

No estilo de um {style}.

Paraphrase: """


prompt = PromptTemplate(input_variables=["style", "output_text"],
                        template=template
                       )


E a seguir, inicializamos nossa Chain:

In [26]:
style_paraphrase_chain = LLMChain(llm=llm,
                                  prompt=prompt,
                                  output_key='final_output'
                                 )


√ìtimo! Observe que o texto de entrada no `Template` √© chamado `'output_text'`. Voc√™ consegue adivinhar por qu√™?

Vamos passar a sa√≠da do `TransformChain` para o `LLMChain`!

Finalmente, precisamos combin√°-los para funcionar como uma cadeia integrada. Para isso, usaremos `SequentialChain`, que √© nosso terceiro bloco de constru√ß√£o de `cadeia gen√©rica`.

In [27]:
sequential_chain = SequentialChain(chains=[clean_extra_spaces_chain, style_paraphrase_chain],
                                   input_variables=['text', 'style'],
                                   output_variables=['final_output']
                                  )



Nosso input √© a descri√ß√£o dos documentos LangChain de quais chains est√£o sujas com alguns espa√ßos extras ao redor.

In [28]:
input_text = """
As cadeias nos permitem combinar v√°rios


componentes juntos para criar um aplicativo √∫nico e coerente.

Por exemplo, podemos criar uma cadeia que recebe entrada do usu√°rio,    format√°-la com um PromptTemplate,

e ent√£o passa a resposta formatada para um LLM. Podemos construir cadeias mais complexas combinando     v√°rias cadeias juntas ou


combinando cadeias com outros componentes.
"""

Estamos prontos. Hora de ser criativo!

In [30]:
count_tokens(sequential_chain,
             {'text': input_text, 'style': 'Um rapper dos anos 90'}
            )


Gastou um total de 419 tokens


'\nAs cadeias nos d√£o a habilidade de juntar v√°rios elementos e criar um aplicativo √∫nico e consistente. Por exemplo, podemos montar uma cadeia que pegue a entrada do usu√°rio, a formate com um PromptTemplate, e ent√£o passe a resposta formatada para um LLM. N√≥s podemos construir cadeias mais complexas juntando v√°rias cadeias ou combinando cadeias com outros componentes.\n\nNo estilo de um Um rapper dos anos 90.\n\nParaphrase:\nN√≥s temos a capacidade de juntar v√°rios elementos e criar um aplicativo √∫nico e s√≥lido. Por exemplo, podemos montar uma cadeia que pegue a entrada do usu√°rio, a formate com um PromptTemplate, e ent√£o passe a resposta formatada para um LLM. N√≥s podemos construir cadeias mais complexas j'

# Uma nota sobre `LangChain-hub`

`LangChain-hub` √© uma biblioteca irm√£ do `LangChain`, onde todas as `chains`, `agentes` e `prompts` s√£o serializados para nosso uso.

In [31]:
from langchain.chains import load_chain


Carregar do `langchain-hub` √© t√£o f√°cil quanto encontrar a cadeia que voc√™ deseja carregar no reposit√≥rio e, em seguida, usar `load_chain` com o caminho (path) correspondente. Tamb√©m temos `load_prompt` e `initialize_agent`, mas falaremos mais sobre isso depois. Vamos ver como podemos fazer isso com nosso `LLMMathChain` que vimos anteriormente:

In [None]:
llm_math_chain = load_chain('lc://chains/llm-math/chain.json')

<font color="red">E se quisermos alterar alguns dos par√¢metros de configura√ß√£o?</font> Podemos simplesmente substitu√≠-lo ap√≥s o carregamento: