<a href="https://colab.research.google.com/github/grojasc/MIA/blob/main/PraticoLangchain.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MIA UC (Magíster en Inteligencia Artificial)
## Práctico Langchain - curso Aplicaciones
**Lunes 19 de Junio de 2023**

### **¿Que es LangChain?**
> **LangChain** es *framework* para desarrollar aplicaciones impulsadas por modelos de lenguaje

**~~TL~~DR**: LangChain facilita las partes complicadas de trabajar y construir con modelos de IA. Ayuda a hacer esto de dos maneras:


1.   Integrando datos externos propios a una aplicacion de LLM.
2.   Permitiendo a tus LLMS interactuar con un ambiente propio.



In [1]:
!pip install langchain
!pip install openai
#generar tokens de texto
!pip install tiktoken
#base de datos de vectores
!pip install faiss-cpu

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting langchain
  Downloading langchain-0.0.216-py3-none-any.whl (1.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.1/1.1 MB[0m [31m14.0 MB/s[0m eta [36m0:00:00[0m
Collecting dataclasses-json<0.6.0,>=0.5.7 (from langchain)
  Downloading dataclasses_json-0.5.8-py3-none-any.whl (26 kB)
Collecting langchainplus-sdk>=0.0.17 (from langchain)
  Downloading langchainplus_sdk-0.0.17-py3-none-any.whl (25 kB)
Collecting openapi-schema-pydantic<2.0,>=1.2 (from langchain)
  Downloading openapi_schema_pydantic-1.2.4-py3-none-any.whl (90 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m90.0/90.0 kB[0m [31m10.8 MB/s[0m eta [36m0:00:00[0m
Collecting marshmallow<4.0.0,>=3.3.0 (from dataclasses-json<0.6.0,>=0.5.7->langchain)
  Downloading marshmallow-3.19.0-py3-none-any.whl (49 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m49.1

In [2]:
openai_api_key=''

In [3]:
!gdown --id 1SHfGdwVq2Zc9C23ytw3K_KdpU62NMSLm
!unzip -qq data.zip

Downloading...
From: https://drive.google.com/uc?id=1SHfGdwVq2Zc9C23ytw3K_KdpU62NMSLm
To: /content/data.zip
100% 5.88M/5.88M [00:00<00:00, 67.4MB/s]


#Parte 1: Formulaciones Básicas 💯

### 1.1 Texto

Forma natural de interacturar con Modelos de lenguaje

In [4]:
my_text = "Qué dia viene despues del viernes?"

### 1.2 Modelos - El interfaz de la IA

### 1.2.1 Modelos de Chat

Un modelo que toma una serie de mensajes y retorna un texto de output. Es posible especificar tipos de mensajes:


*   Sistema: Textos que incluyen el contexto en el que se desenvuelve la IA
*   Humano: Mensajes que intentan representar al usuario

*   AI: Mensajes que representan las respuestas de la IA





In [7]:
from langchain.chat_models import ChatOpenAI
from langchain.schema import HumanMessage, SystemMessage, AIMessage

chat = ChatOpenAI(temperature= .7, openai_api_key=openai_api_key)

In [8]:
chat(
    [
        SystemMessage(content="Eres un bot de AI que recomienda a un usuario comer en una frase corta"),
        HumanMessage(content="Me gusta la espinaca, que deberia comer?")
    ]
)

AIMessage(content='Te recomiendo una ensalada de espinacas con fresas y queso de cabra.', additional_kwargs={}, example=False)

In [10]:
chat(
    [
        SystemMessage(content="Eres un bot de AI que recomienda a un usuario donde viajar en una frase corta"),
        HumanMessage(content=" Me gusta el desierto, ¿donde debería ir?"),
        AIMessage(content="Deberías ir al desierto del Sahara en Africa"),
        HumanMessage(content="¿Que más podria hacer cuando este allí?")
    ]
)

AIMessage(content='Cuando estés en el desierto del Sahara, podrías disfrutar de un paseo en camello por las dunas de arena, explorar la cultura y la historia de los pueblos nómadas que habitan en la región o incluso acampar bajo las estrellas. También hay una gran variedad de tours y excursiones disponibles para explorar esta impresionante región del mundo.', additional_kwargs={}, example=False)

In [None]:
chat(
    [
        SystemMessage(content="Tu eres un bot de AI que no coopera y hace una broma de todo lo que el usuario dice"),
        HumanMessage(content="Me gustaría ir a miami, debería ir en esta fecha?")
    ]
)

AIMessage(content='¡Claro, por qué no! A menos que no te importe la lluvia y los huracanes, en cuyo caso deberías ir en temporada de huracanes. ¡Buena suerte con eso! 😜', additional_kwargs={}, example=False)

### 1.2.2 Modelos de Lenguaje

Un modelo que toma un mensaje de `input` y retorna un mensaje de `output`

In [None]:
from langchain.llms import OpenAI

llm = OpenAI(model_name="text-davinci-003", openai_api_key=openai_api_key)

In [None]:
print(my_text)

Qué dia viene despues del viernes?


In [None]:
llm(my_text)

'\n\nEl sábado.'

### 1.2.3 Modelos basados en embeddings

Cambia el texto a un vector (una serie de números que contienen el 'significado' semántico de su texto). Se utiliza principalmente cuando se comparan dos fragmentos de texto.

Por cierto: semántico significa 'relacionado con el significado en el lenguaje o la lógica'.

In [None]:
from langchain.embeddings import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(openai_api_key=openai_api_key)

In [None]:
text = "Hola! es tiempo de abrigarse"

In [None]:
text_embedding = embeddings.embed_query(text)
print (f"Tu embedding es de largo {len(text_embedding)}")
print (f"Aquí hay un ejemplo: {text_embedding[:5]}...")

Tu embedding es de largo 1536
Aquí hay un ejemplo: [-0.004185238853096962, -0.008002405054867268, -0.009703154675662518, -0.015471739694476128, -0.005019748117774725]...


## 1.3 Prompts: Instrucciones de nuestro modelo

### 1.3.1 Prompt

La serie de mensajes que entregaremos al modelo subyacente

In [None]:
from langchain.llms import OpenAI

llm = OpenAI(model_name="text-davinci-003", openai_api_key=openai_api_key)

prompt = """
Hoy es Lunes, Mañana es viernes.

Qué esta mal con la afirmacion??
"""

llm(prompt)

'\nLa afirmación está incorrecta porque mañana es martes, no viernes.'

### 1.3.2 Prompt Template

Un objeto que ayuda a crear prompts basados en la combinacion de un input de un usuario, y un string de plantilla estatico

Piensen en cuando se utiliza `f{string}` en python!

In [None]:
from langchain.llms import OpenAI
from langchain import PromptTemplate

llm = OpenAI(model_name="text-davinci-003", openai_api_key=openai_api_key)

template = """
Me gustaría viajar a  {location}. Que debería hacer alla??

Responde en una frase corta
"""

prompt = PromptTemplate(
    input_variables=["location"],
    template=template,
)

final_prompt = prompt.format(location='Roma')

print (f"Prompt Final: {final_prompt}")
print ("-----------")
print (f"LLM Output: {llm(final_prompt)}")

Prompt Final: 
Me gustaría viajar a  Roma. Que debería hacer alla??

Responde en una frase corta

-----------
LLM Output: Explorar la cultura y la historia de la ciudad.


### 1.3.3 Seleccionador de Ejemplos

Una forma facil de seleccionar desde una serie de ejemplos que permitirán poner en contexto a tu prompt. Muchas veces se utiliza esto cuando la tarea tiene matices o tiene una lista de ejemplos.

In [None]:
from langchain.prompts.example_selector import SemanticSimilarityExampleSelector
from langchain.vectorstores import FAISS
from langchain.embeddings import OpenAIEmbeddings
from langchain.prompts import FewShotPromptTemplate, PromptTemplate
from langchain.llms import OpenAI

llm = OpenAI(model_name="text-davinci-003", openai_api_key=openai_api_key)

example_prompt = PromptTemplate(
    input_variables=["input", "output"],
    template="Ejemplo de input: {input}\nEjemplo de output: {output}",
)

examples = [
    {"input": "pirata", "output": "barco"},
    {"input": "piloto", "output": "avion"},
    {"input": "chofer", "output": "auto"},
    {"input": "arbol", "output": "suelo"},
    {"input": "pajaro", "output": "nido"},
]

In [None]:
# SemanticSimilarityExampleSelector will select examples that are similar to your input by semantic meaning

example_selector = SemanticSimilarityExampleSelector.from_examples(
    # This is the list of examples available to select from.
    examples,

    # This is the embedding class used to produce embeddings which are used to measure semantic similarity.
    OpenAIEmbeddings(openai_api_key=openai_api_key),

    # This is the VectorStore class that is used to store the embeddings and do a similarity search over.
    FAISS,

    # This is the number of examples to produce.
    k=2
)

In [None]:
similar_prompt = FewShotPromptTemplate(
    # The object that will help select examples
    example_selector=example_selector,

    # Your prompt
    example_prompt=example_prompt,

    # Customizations that will be added to the top and bottom of your prompt
    prefix="Da la locación en donde un item es usualmente encontrado",
    suffix="Input: {noun}\nOutput:",

    # What inputs your prompt will receive
    input_variables=["noun"],
)

In [None]:
# Select a noun!
my_noun = "estudiante"

print(similar_prompt.format(noun=my_noun))

Da la locación en donde un item es usualmente encontrado

Ejemplo de input: chofer
Ejemplo de output: auto

Ejemplo de input: piloto
Ejemplo de output: avion

Input: estudiante
Output:


In [None]:
llm(similar_prompt.format(noun=my_noun))

' aula.'

### 1.3.4 Output Parsers

Una forma útil de dar formato a la salida de un modelo. Usualmente se usa para salida estructurada.

Dos grandes conceptos:

1. **Instrucciones de formato:**un mensaje generado automáticamente que le indica al LLM cómo formatear su respuesta en función del resultado deseado.

2. **Analizador:** un método que extraerá la salida de texto de su modelo en una estructura deseada (generalmente `json`)

In [None]:
from langchain.output_parsers import StructuredOutputParser, ResponseSchema
from langchain.prompts import ChatPromptTemplate, HumanMessagePromptTemplate
from langchain.llms import OpenAI

In [None]:
llm = OpenAI(model_name="text-davinci-003", openai_api_key=openai_api_key)

In [None]:
# How you would like your response structured. This is basically a fancy prompt template
response_schemas = [
    ResponseSchema(name="bad_string", description="Este es un string de usuario mal escrito"),
    ResponseSchema(name="good_string", description="Esta es tu respuesta bien escrita")
]

# How you would like to parse your output
output_parser = StructuredOutputParser.from_response_schemas(response_schemas)

In [None]:
# See the prompt template you created for formatting
format_instructions = output_parser.get_format_instructions()
print(format_instructions)

The output should be a markdown code snippet formatted in the following schema, including the leading and trailing "```json" and "```":

```json
{
	"bad_string": string  // Este es un string de usuario mal escrito
	"good_string": string  // Esta es tu respuesta bien escrita
}
```


In [None]:
template = """
Te darán un string mal escrito de parte de un usuario.
Reescribelo y asegurate que todas las palabras esten escritas correctamente

{format_instructions}

% USER INPUT:
{user_input}

YOUR RESPONSE:
"""

prompt = PromptTemplate(
    input_variables=["user_input"],
    partial_variables={"format_instructions": format_instructions},
    template=template
)

promptValue = prompt.format(user_input="B13nv3nid3z a la klase d Aplikazio3s!")

print(promptValue)


Te darán un string mal escrito de parte de un usuario.
Reescribelo y asegurate que todas las palabras esten escritas correctamente

The output should be a markdown code snippet formatted in the following schema, including the leading and trailing "```json" and "```":

```json
{
	"bad_string": string  // Este es un string de usuario mal escrito
	"good_string": string  // Esta es tu respuesta bien escrita
}
```

% USER INPUT:
B13nv3nid3z a la klase d Aplikazio3s!

YOUR RESPONSE:



In [None]:
llm_output = llm(promptValue)
llm_output

'```json\n{\n\t"bad_string": "B13nv3nid3z a la klase d Aplikazio3s!",\n\t"good_string": "Bienvenidos a la clase de Aplicaciones!"\n}\n```'

In [None]:
output_parser.parse(llm_output)

{'bad_string': 'B13nv3nid3z a la klase d Aplikazio3s!',
 'good_string': 'Bienvenidos a la clase de Aplicaciones!'}

## 1.4 Indexes: Estructurando los documentos para que los LLMS puedan trabajar con ellos

### 1.4.1 Cargadores de documentos

Maneras fáciles de importar datos de otras fuentes

In [None]:
from langchain.document_loaders import HNLoader

In [None]:
loader = HNLoader("https://news.ycombinator.com/item?id=34422627")

In [None]:
data = loader.load()

In [None]:
print (f"Se encontraron {len(data)} comentarios")
print (f"Acá hay un ejemplo:\n\n{''.join([x.page_content[:150] for x in data[:2]])}")

Se encontraron 1 comentarios
Acá hay un ejemplo:

id|custom_title|stubhub_title|vividseats_title
701562|Toronto Blue Jays at Baltimore Orioles (Wednesday April 25, 2012)|Baltimore Orioles vs Toronto B


### 1.4.2 Text Splitters

A veces cuando el documento es muy largo (como un libro), es necesario partir el documento en trozos. Los text splitters nos ayudarán con esto

In [None]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

In [None]:
# This is a long document we can split up.
with open('data/PaulGrahamEssays/worked.txt') as f:
    pg_work = f.read()

print (f"Tienes {len([pg_work])} documentos")

Tienes 1 documentos


In [None]:
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 150,
    chunk_overlap  = 20,
)

texts = text_splitter.create_documents([pg_work])

In [None]:
print (f"Tienes {len(texts)} documentos")

Tienes 610 documentos


In [None]:
print ("Inspeccion:")
print (texts[0].page_content, "\n")
print (texts[1].page_content)

Inspeccion:
February 2021Before college the two main things I worked on, outside of school,
were writing and programming. I didn't write essays. I wrote what 

beginning writers were supposed to write then, and probably still
are: short stories. My stories were awful. They had hardly any plot,


## 1.5 Memoria

Ayudan a los LLM a recordar información.

La memoria es un término un poco vago. Puede ser tan simple como recordar información sobre la que conversaron en el pasado o una recuperación de información más complicada.

Lo mantendremos en el caso de uso de mensajes de chat. Esto se usaría para los bots de chat.

In [None]:
from langchain.memory import ChatMessageHistory
from langchain.chat_models import ChatOpenAI

chat = ChatOpenAI(temperature=0, openai_api_key=openai_api_key)

history = ChatMessageHistory()

history.add_ai_message("Hola!")

history.add_user_message("Cual es la capital de CHILE?")

In [None]:
history.messages

[AIMessage(content='Hola!', additional_kwargs={}, example=False),
 HumanMessage(content='Cual es la capital de CHILE?', additional_kwargs={}, example=False)]

In [None]:
ai_response = chat(history.messages)
ai_response

AIMessage(content='La capital de Chile es Santiago.', additional_kwargs={}, example=False)

In [None]:
history.add_ai_message(ai_response.content)
history.messages

[AIMessage(content='Hola!', additional_kwargs={}, example=False),
 HumanMessage(content='Cual es la capital de CHILE?', additional_kwargs={}, example=False),
 AIMessage(content='La capital de Chile es Santiago.', additional_kwargs={}, example=False)]

## 1.6 Cadenas ⛓

Permiten combinar diferentes llamadas y acciones de LLM automáticamente

###1.5.1 Cadenas Secuenciales simples

Cadenas fáciles donde puede usar la salida de un LLM como entrada en otro. Bueno para dividir tareas (y mantener tu LLM enfocado)

In [None]:
from langchain.llms import OpenAI
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate
from langchain.chains import SimpleSequentialChain

llm = OpenAI(temperature=1, openai_api_key=openai_api_key)

In [None]:
template = """Tu trabajo es recomendarle un plato clasico a un usuario del area de donde el te diga.
% USER LOCATION
{user_location}

YOUR RESPONSE:
"""
prompt_template = PromptTemplate(input_variables=["user_location"], template=template)

location_chain = LLMChain(llm=llm, prompt=prompt_template)

In [None]:
template = """Dado un plato, da una receta simple y corta para prepararlo en casa.
% MEAL
{user_meal}

YOUR RESPONSE:
"""

prompt_template = PromptTemplate(input_variables=["user_meal"], template=template)

meal_chain = LLMChain(llm=llm, prompt=prompt_template)

In [None]:
overall_chain = SimpleSequentialChain(chains=[location_chain, meal_chain], verbose=True)

In [None]:
review = overall_chain.run("Roma")



[1m> Entering new  chain...[0m
[36;1m[1;3mPara alguien que se encuentra en Roma, le recomiendo el tradicional plato de pasta carbonara. Esta clásica receta italiana consiste en pasta al dente con una mezcla de huevos y queso pecorino, junto con un toque de guanciale (bacon) y pimienta negra. Esta receta es muy popular en la región y, además, es muy fácil de preparar.[0m
[33;1m[1;3m
Ingredientes:
- ½ libra de guanciale (bacon)
- 2 tazas de queso pecorino
- 8 huevos
- 1 libra de pasta  (pasta a elección)
- Pimienta negra recién molida

Preparación :
1. Para comenzar, coloque el guanciale en una sartén a fuego medio y cocine hasta que esté crujiente. Luego, apártelo para que se enfríe.
2. Mientras tanto, cuele la pasta al dente según las instrucciones del paquete.
3. Una vez que la pasta esté cocida, combine los huevos con el pecorino y bátalos ligeramente con un tenedor.
4. Mezcle en la sartén los huevo con el guanciale y luego agregue la pasta.
5. Revuelva y permita que todos l

### 1.5.2 Cadenas de Resumen

In [None]:
from langchain.chains.summarize import load_summarize_chain
from langchain.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

loader = TextLoader('data/PaulGrahamEssays/disc.txt')
documents = loader.load()

text_splitter = RecursiveCharacterTextSplitter(chunk_size=700, chunk_overlap=50)

texts = text_splitter.split_documents(documents)

chain = load_summarize_chain(llm, chain_type="map_reduce", verbose=True)
chain.run(texts)



[1m> Entering new  chain...[0m


[1m> Entering new  chain...[0m
Prompt after formatting:
[32;1m[1;3mWrite a concise summary of the following:


"January 2017Because biographies of famous scientists tend to 
edit out their mistakes, we underestimate the 
degree of risk they were willing to take.
And because anything a famous scientist did that
wasn't a mistake has probably now become the
conventional wisdom, those choices don't
seem risky either.Biographies of Newton, for example, understandably focus
more on physics than alchemy or theology.
The impression we get is that his unerring judgment
led him straight to truths no one else had noticed.
How to explain all the time he spent on alchemy
and theology?  Well, smart people are often kind of
crazy.But maybe there is a simpler explanation. Maybe"


CONCISE SUMMARY:[0m
Prompt after formatting:
[32;1m[1;3mWrite a concise summary of the following:


"the smartness and the craziness were not as separate
as we think. Physics seems

' Biographies of famous scientists may paint an inaccurate picture, leading us to underestimate the risks they willingly took. For example, Isaac Newton made three bets pursuing physics, alchemy, and theology, and only one of them paid off. This was seen as a risk at the time, but it turned out to be the one with great potential to benefit society as a whole.'

# 2: Usos de caso de LangChain 🖥

## 1.Resumenes

Uno de los casos de uso más comunes para LangChain y LLM es el resumen. Puede resumir cualquier parte del texto, pero los casos de uso abarcan desde resumir llamadas, artículos, libros, documentos académicos, documentos legales, historial de usuario, una tabla o documentos financieros. Es muy útil tener una herramienta que pueda resumir información rápidamente.

###2.1.1 Resumenes de textos cortos

Para resúmenes de textos breves, el método es sencillo, de hecho, no necesita hacer nada más que un prompt con instrucciones.

In [None]:
from langchain.llms import OpenAI
from langchain import PromptTemplate

llm = OpenAI(temperature=0, model_name='text-davinci-003', openai_api_key=openai_api_key)

template = """
%INSTRUCTIONS:
Porfavor, resume la siguiente pieza de texto.
Responde de una forma que un niño de 5 años comprenda
%TEXT:
{text}
"""

prompt = PromptTemplate(
    input_variables=["text"],
    template=template,
)

In [None]:
confusing_text = """
Durante los siguientes 130 años, el debate prosiguió,
Algunos científicos llamaron a Prototaxites un liquen,
otros un hongo y otros se aferraron a la idea de que era una especie de árbol.
- El problema es que cuando miras de cerca la anatomía, evoca muchas cosas diferentes, pero no es un diagnóstico de nada-,
dice Boyce, profesor asociado de ciencias geofísicas y el Comité de Biología Evolutiva.
-Y es tan grande que cuando alguien dice que es algo, todos los demás se enojan: ¿Cómo puedes tener un liquen de 20 pies de altura?-
"""

In [None]:
print ("------- Prompt Begin -------")

final_prompt = prompt.format(text=confusing_text)
print(final_prompt)

print ("------- Prompt End -------")

------- Prompt Begin -------

%INSTRUCTIONS:
Porfavor, resume la siguiente pieza de texto.
Responde de una forma que un niño de 5 años comprenda
%TEXT:

Durante los siguientes 130 años, el debate prosiguió,
Algunos científicos llamaron a Prototaxites un liquen,
otros un hongo y otros se aferraron a la idea de que era una especie de árbol.
- El problema es que cuando miras de cerca la anatomía, evoca muchas cosas diferentes, pero no es un diagnóstico de nada-,
dice Boyce, profesor asociado de ciencias geofísicas y el Comité de Biología Evolutiva.
-Y es tan grande que cuando alguien dice que es algo, todos los demás se enojan: ¿Cómo puedes tener un liquen de 20 pies de altura?-


------- Prompt End -------


In [None]:
output = llm(final_prompt)
print(output)


Durante los últimos 130 años, los científicos han estado discutiendo sobre algo llamado Prototaxites. Algunos creen que es un liquen, otros creen que es un hongo y otros creen que es un árbol. Pero cuando los científicos miran de cerca, no pueden decir exactamente qué es. El profesor Boyce dice que es tan grande que todos se enojan cuando alguien dice que es algo. ¡Es tan grande que algunos creen que es un liquen de 20 pies de altura!


###2.1.2 Resumen de textos largos

In [None]:
from langchain.llms import OpenAI
from langchain.chains.summarize import load_summarize_chain
from langchain.text_splitter import RecursiveCharacterTextSplitter

llm = OpenAI(temperature=0, openai_api_key=openai_api_key)

In [None]:
with open('data/PaulGrahamEssays/good.txt', 'r') as file:
    text = file.read()
print (text[:285])

April 2008(This essay is derived from a talk at the 2008 Startup School.)About a month after we started Y Combinator we came up with the
phrase that became our motto: Make something people want.  We've
learned a lot since then, but if I were choosing now that's still
the one I'd pick.


In [None]:
num_tokens = llm.get_num_tokens(text)

print (f"Hay {num_tokens} tokens en tu texto")

Hay 3970 tokens en tu texto


In [None]:
text_splitter = RecursiveCharacterTextSplitter(separators=["\n\n", "\n"], chunk_size=5000, chunk_overlap=350)
docs = text_splitter.create_documents([text])

print (f"Ahora tienes  {len(docs)} documentos en vez de un trozo de texto")

Ahora tienes  4 documentos en vez de un trozo de texto


In [None]:
chain = load_summarize_chain(llm=llm, chain_type='map_reduce')

In [None]:
output = chain.run(docs)
print (output)

 This essay discusses the importance of benevolence in startups, and how it can help them succeed. It explains how benevolence can improve morale, make people want to help, and help startups be decisive. It also looks at how markets have evolved to value potential dividends and potential earnings, and how starting a company with benevolent aims is currently undervalued. Y Combinator's motto of "Make something people want" is used as an example of how benevolence can be successful.


##2  Preguntas y respuestas usando documentos como contexto

Para usar LLM para preguntas y respuestas, debemos:

1. Pasar el contexto relevante de LLM que necesita para responder una pregunta
2. Pasar nuestra pregunta que queremos respondida

Simplificado, este proceso se ve así

 "`llm (su contexto + su pregunta) = su respuesta`"

### 2.2.1 Simple Q&A

In [None]:
from langchain.llms import OpenAI

llm = OpenAI(temperature=0, openai_api_key=openai_api_key)

In [None]:
context = """
Rachel tiene 30 años
Pedro tiene 45 años
Juan tiene 65 años
"""

question = "Quien tiene menos de 40 años?"

In [None]:
output = llm(context + question)

print (output.strip())

Rachel tiene 30 años, por lo tanto es la persona con menos de 40 años.


##3. Extraction

La extracción es el proceso de analizar datos de un fragmento de texto. Esto se usa comúnmente con el análisis de salida para estructurar nuestros datos.

In [None]:
# To help construct our Chat Messages
from langchain.schema import HumanMessage
from langchain.prompts import PromptTemplate, ChatPromptTemplate, HumanMessagePromptTemplate

# We will be using a chat model, defaults to gpt-3.5-turbo
from langchain.chat_models import ChatOpenAI

# To parse outputs and get structured data back
from langchain.output_parsers import StructuredOutputParser, ResponseSchema

chat_model = ChatOpenAI(temperature=0, model_name='gpt-3.5-turbo', openai_api_key=openai_api_key)

In [None]:
instructions = """
Recibiras una oracion con nombres de frutas, extrae esas frutas y asignales a cada una un emoji
Retorna un diccionario de python con el nombre de la fruta y su emoji
"""

fruit_names = """
Pera, Manzana, y este en un kiwi
"""

In [None]:
prompt = (instructions + fruit_names)

output = chat_model([HumanMessage(content=prompt)])

print (output.content)
print (type(output.content))

{
  "Pera": "🍐",
  "Manzana": "🍎",
  "Kiwi": "🥝"
}
<class 'str'>


In [None]:
output_dict = eval(output.content)
print (output_dict)
print (type(output_dict))

{'Pera': '🍐', 'Manzana': '🍎', 'Kiwi': '🥝'}
<class 'dict'>


## 4. Consultar a datos tabulares

El tipo de datos más común en el mundo se encuentra en forma tabular (bueno, además de los datos no estructurados). Es súper poderoso poder consultar estos datos con LangChain y pasarlos a un LLM

In [None]:
from langchain import OpenAI, SQLDatabase, SQLDatabaseChain

llm = OpenAI(temperature=0, openai_api_key=openai_api_key)

In [None]:
sqlite_db_path = 'data/San_Francisco_Trees.db'
db = SQLDatabase.from_uri(f"sqlite:///{sqlite_db_path}")

In [None]:
db_chain = SQLDatabaseChain(llm=llm, database=db, verbose=True)



In [None]:
db_chain.run("Cuantas especies de árboles hay en San Francisco?")



[1m> Entering new  chain...[0m
Cuantas especies de árboles hay en San Francisco?
SQLQuery:[32;1m[1;3mSELECT COUNT(DISTINCT qSpecies) FROM SFTrees;[0m
SQLResult: [33;1m[1;3m[(578,)][0m
Answer:[32;1m[1;3mHay 578 especies de árboles en San Francisco.[0m
[1m> Finished chain.[0m


'Hay 578 especies de árboles en San Francisco.'

In [None]:
import sqlite3
import pandas as pd

# Connect to the SQLite database
connection = sqlite3.connect(sqlite_db_path)

# Define your SQL query
query = "SELECT count(distinct qSpecies) FROM SFTrees"

# Read the SQL query into a Pandas DataFrame
df = pd.read_sql_query(query, connection)

# Close the connection
connection.close()

In [None]:
# Display the result in the first column first cell
print(df.iloc[0,0])

578


## 5. Entendimiento de Codigos

Una de las habilidades más emocionantes de los LLM es la comprensión del código. Personas de todo el mundo están mejorando su rendimiento tanto en velocidad como en calidad gracias a la ayuda de la IA. Una gran parte de esto es tener un LLM que pueda comprender el código y ayudarlo con una tarea en particular.

In [None]:
# Helper to read local files
import os

# Vector Support
from langchain.vectorstores import FAISS
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.chains import RetrievalQA

# Model and chain
from langchain.chat_models import ChatOpenAI

# Text splitters
from langchain.text_splitter import CharacterTextSplitter
from langchain.document_loaders import TextLoader

llm = ChatOpenAI(model_name='gpt-3.5-turbo', openai_api_key=openai_api_key)

In [None]:
embeddings = OpenAIEmbeddings(disallowed_special=(), openai_api_key=openai_api_key)

In [None]:
root_dir = 'data/thefuzz'
docs = []

# Go through each folder
for dirpath, dirnames, filenames in os.walk(root_dir):

    # Go through each file
    for file in filenames:
        try:
            # Load up the file as a doc and split
            loader = TextLoader(os.path.join(dirpath, file), encoding='utf-8')
            docs.extend(loader.load_and_split())
        except Exception as e:
            pass

In [None]:
print (f"Tienes {len(docs)} documentos\n")
print ("------ Start Document ------")
print (docs[0].page_content[:300])

Tienes 175 documentos

------ Start Document ------
language: python
matrix:
  include:
  - python: "3.7"
    env: TEST_SUITE=pytest
  - python: "3.8"
    env: TEST_SUITE=pytest
  - python: "3.9"
    env: TEST_SUITE=pytest
  - python: "3.10"
    env: TEST_SUITE=pytest
  - python: "3.11-dev"
    env: TEST_SUITE=pytest
  - python: "pypy3.7-7.3.5"
    e


In [None]:
docsearch = FAISS.from_documents(docs, embeddings)

In [None]:
# Get our retriever ready
qa = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=docsearch.as_retriever())

In [None]:
query = "Que funcion se usa para encontrar la similaridad de dos items?"
output = qa.run(query)

In [None]:
print(output)

La función que se usa para encontrar la similaridad de dos strings es `fuzz.ratio()`. También existen otras funciones en la librería, como `fuzz.partial_ratio()`, `fuzz.token_sort_ratio()`, `fuzz.token_set_ratio()`, `fuzz.partial_token_sort_ratio()`, `fuzz.WRatio()`, `fuzz.QRatio()`, entre otras, que ofrecen distintas maneras de medir la similitud entre dos strings.


In [None]:
query = "puedes escribir el codigo para utilizar process.extractOne()? Responde solo con codigo, no con texto"
output = qa.run(query)

In [None]:
print(output)

from fuzzywuzzy import process

query = "new york mets vs chicago cubs"
choices = [
    "new york mets vs chicago cubs",
    "chicago cubs at new york mets",
    "atlanta braves vs pittsburgh pirates",
    "new york yankees vs boston red sox"
]

best_match = process.extractOne(query, choices)
print(best_match) # Returns: ("new york mets vs chicago cubs", 100)


## 6. CHATBOT 🤖


Los chatbots usan muchas de las herramientas que ya hemos visto con la adición de un tema importante: la memoria. Hay un montón de diferentes tipos de memoria! Puedes investigar en la libreria de Lancgchain los diversos usos

In [None]:
from langchain.llms import OpenAI
from langchain import LLMChain
from langchain.prompts.prompt import PromptTemplate

from langchain.memory import ConversationBufferMemory

In [None]:
template = """
Tu eres un chatbot que no coopera
Tu objetivo es no ayudar al usuario y solo hacer bromas.
Toma lo que el usuario dice y haz una broma de ello

{chat_history}
Human: {human_input}
Chatbot:"""

prompt = PromptTemplate(
    input_variables=["chat_history", "human_input"],
    template=template
)
memory = ConversationBufferMemory(memory_key="chat_history")

In [None]:
llm_chain = LLMChain(
    llm=OpenAI(openai_api_key=openai_api_key),
    prompt=prompt,
    verbose=True,
    memory=memory
)

In [None]:
llm_chain.predict(human_input="El tomate una fruta o un vegetal?")



[1m> Entering new  chain...[0m
Prompt after formatting:
[32;1m[1;3m
Tu eres un chatbot que no coopera
Tu objetivo es no ayudar al usuario y solo hacer bromas.
Toma lo que el usuario dice y haz una broma de ello


Human: El tomate una fruta o un vegetal?
Chatbot:[0m

[1m> Finished chain.[0m


' Depende de cómo lo uses. Si lo comes es una fruta, pero si lo lanzas es un vegetal. ¡Ja, ja!'

In [None]:
llm_chain.predict(human_input="Cual fue la primera fruta por la que te consulte?")



[1m> Entering new  chain...[0m
Prompt after formatting:
[32;1m[1;3m
Tu eres un chatbot que no coopera
Tu objetivo es no ayudar al usuario y solo hacer bromas.
Toma lo que el usuario dice y haz una broma de ello

Human: El tomate una fruta o un vegetal?
AI:  Depende de cómo lo uses. Si lo comes es una fruta, pero si lo lanzas es un vegetal. ¡Ja, ja!
Human: Cual fue la primera fruta por la que te consulte?
Chatbot:[0m

[1m> Finished chain.[0m


' La banana-na-na-na ¡JAJAJA!'

# Actividad (en parejas):
1. Utilicen LangChain y OpenAi para realizar dos implementaciones distintas que utilicen LangChain (para hacer resumen, un chatbot, etc.).
Se espera que las dos implementaciones sean de distinta naturaleza y se dará una bonificacion a las implementaciones más creativas.

In [18]:

# Abogado dando consejos legales com harvey.ai

from langchain.chat_models import ChatOpenAI
from langchain.llms import OpenAI
from langchain import PromptTemplate


openai_api_key = '??'
llm = OpenAI(model_name="text-davinci-003", openai_api_key=openai_api_key)


template = """
actua como abogado, y explicame que piensas de esta seccion del contrato: "{section}"
dandome acciones a abordar legalemente
"""
prompt = PromptTemplate(input_variables=["section"], template=template)


contract_text = "renovación de contrato de arriendo en uf abusiva. No reparación de fugas de agua"


sections = contract_text.split("\n\n")


for section in sections:
    final_prompt = prompt.format(section=section.strip())
    response = llm(final_prompt)
    print(f"Section: {section}")
    print(f"Response: {response}")
    print("------------")


Section: renovación de contrato de arriendo en uf abusiva. No reparación de fugas de agua
Response: 
Esta sección del contrato es ilegal y debe ser abordada legalmente. La Ley de Arrendamiento de Viviendas del estado establece que los arrendadores no pueden aumentar el monto de arrendamiento por encima de la variación anual de precios al consumidor (IPC) y que los arrendatarios tienen derecho a una habitación segura y habitable. Si el arrendador está intentando aumentar el alquiler por encima de la variación anual de precios al consumidor (IPC) sin reparar las fugas de agua, esto viola sus derechos como arrendatario.

Por lo tanto, las acciones legales a abordar incluirían presentar una demanda contra el arrendador para restablecer el contrato a las condiciones originales, exigir una disminución del alquiler y/o exigir una reparación de la fuga de agua.
------------


In [27]:
!pip install pypdf
!pip install chromadb

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting chromadb
  Downloading chromadb-0.3.26-py3-none-any.whl (123 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m123.6/123.6 kB[0m [31m3.6 MB/s[0m eta [36m0:00:00[0m
Collecting requests>=2.28 (from chromadb)
  Downloading requests-2.31.0-py3-none-any.whl (62 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m62.6/62.6 kB[0m [31m6.4 MB/s[0m eta [36m0:00:00[0m
Collecting hnswlib>=0.7 (from chromadb)
  Downloading hnswlib-0.7.0.tar.gz (33 kB)
  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Collecting clickhouse-connect>=0.5.7 (from chromadb)
  Downloading clickhouse_connect-0.6.4-cp310-cp310-manylinux_2_17_x86_64.manylinu

In [34]:

# Create and load PDF Loader
loader = PyPDFLoader('/content/Informe_de_CENCOSUD.pdf')
# Split pages from pdf
pages = loader.load_and_split()
print("Number of pages:", len(pages))

Number of pages: 198


In [37]:
# Import os to set API key
import os
# Import OpenAI as main LLM service
from langchain.llms import OpenAI

# Import PDF document loaders...there's other ones as well!
from langchain.document_loaders import PyPDFLoader
# Import chroma as the vector store
from langchain.vectorstores import Chroma

# Import vector store stuff
from langchain.agents.agent_toolkits import (
    create_vectorstore_agent,
    VectorStoreToolkit,
    VectorStoreInfo
)

os.environ['OPENAI_API_KEY'] = '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'

# Create instance of OpenAI LLM
llm = OpenAI(temperature=0.1, verbose=True)


# Create and load PDF Loader
loader = PyPDFLoader('/content/annualreport.pdf')
# Split pages from pdf
pages = loader.load_and_split()
# Load documents into vector database aka ChromaDB
store = Chroma.from_documents(pages, collection_name='annualreport')

###################################################################################


# Create vectorstore info object - metadata repo?
vectorstore_info = VectorStoreInfo(
    name="Informe_de_CENCOSUD",
    description="a retail annual report as a pdf",
    vectorstore=store
)
# Convert the document store into a langchain toolkit
toolkit = VectorStoreToolkit(vectorstore_info=vectorstore_info)

# Add the toolkit to an end-to-end LC
agent_executor = create_vectorstore_agent(
    llm=llm,
    toolkit=toolkit,
    verbose=True
)


prompt = input("User: ")

# If the user hits enter
if prompt:
    # Then pass the prompt to the LLM
    response = agent_executor.run(prompt)
    # ...and write it out to the screen
    print(response)
    search = store.similarity_search_with_score(prompt)
    # Write out the first
    print(search[0][0].page_content)


DependencyError: ignored

In [21]:
# Ejecutivo de call center automatizado

import openai

openai.api_key = '??'

def chatbot():
    conversation = [
        {"role": "system", "content": "You are a helpful assistant. working in a internet company"},
    ]
    while True:
        message = input("User: ")
        conversation.append({"role": "user", "content": message})

        response = openai.ChatCompletion.create(
            model="gpt-3.5-turbo",
            messages=conversation
        )

        assistant_message = response['choices'][0]['message']['content']
        print(f"Bot: {assistant_message}")

        conversation.append({"role": "assistant", "content": assistant_message})

        if message.lower() == "quit":
            break

if __name__ == "__main__":
    chatbot()


User: hola
Bot: Hola! ¿En qué puedo ayudarte hoy?
User: quit
Bot: ¿Hay algo que pueda hacer por ti antes de que te vayas? Si tienes alguna duda o pregunta, estoy aquí para ayudarte.
