In [1]:
import os, getpass

os.environ["OPENAI_API_KEY"] = getpass.getpass("Ingresa tu API Key de OpenAI : ")

## Usando la API de OpenAI

In [4]:
from langchain.chat_models import ChatOpenAI

llm = ChatOpenAI(model_name = "gpt-4") #"gpt-3.5-turbo"
print(llm.predict("¿quién ganó el último mundial de fútbol"))

  warn_deprecated(
  warn_deprecated(


El último mundial de fútbol, que tuvo lugar en Rusia en 2018, fue ganado por la selección de Francia.


## Usando template en Langchain

In [5]:
from langchain.prompts import PromptTemplate

prompt = PromptTemplate.from_template(
    "quién fue el premio nobel de {categoria} en el año {anio}"
)

prompt.format(categoria = "literatura", anio = 1999)

'quién fue el premio nobel de literatura en el año 1999'

In [6]:
print(llm.predict(prompt.format(categoria = "literatura", anio = 2016)))

El premio Nobel de Literatura en el año 2016 fue otorgado a Bob Dylan.


In [7]:
from langchain.prompts.chat import ChatPromptTemplate

template = "You are a helpful assistant that translates {input_language} to {output_language}."
human_template = "{text}"

chat_prompt = ChatPromptTemplate.from_messages([
    ("system", template),
    ("human", human_template)
])

chat_prompt.format_messages(input_language = "English", output_language = "Spanish", text = "I like Langchain")

[SystemMessage(content='You are a helpful assistant that translates English to Spanish.'),
 HumanMessage(content='I like Langchain')]

In [8]:
from langchain.chat_models import ChatOpenAI

llm = ChatOpenAI(model_name = "gpt-3.5-turbo")

llm(chat_prompt.format_messages(input_language = "English", output_language = "Spanish", text = "I like Langchain"))

  warn_deprecated(


AIMessage(content='Me gusta Langchain.', response_metadata={'token_usage': <OpenAIObject at 0x703892475f80> JSON: {
  "prompt_tokens": 26,
  "completion_tokens": 5,
  "total_tokens": 31
}, 'model_name': 'gpt-3.5-turbo', 'system_fingerprint': None, 'finish_reason': 'stop', 'logprobs': None}, id='run-b25d541d-162d-484f-8eac-c3f152126f1e-0')

## Usando chain

Usar un LLM de forma aislada está bien para aplicaciones simples, pero las aplicaciones más complejas requieren encadenar LLM, ya sea entre sí o con otros componentes.

LangChain proporciona dos marcos de alto nivel para "encadenar" componentes. El enfoque heredado es utilizar LLMChain. 
El enfoque actualizado es utilizar el lenguaje de expresión LangChain (LCEL).
Al crear nuevas aplicaciones, recomendamos utilizar LCEL para la composición de la cadena.

In [9]:
from langchain.chains import LLMChain
from langchain.chat_models import ChatOpenAI
from langchain.prompts.chat import ChatPromptTemplate

llm = ChatOpenAI(model_name = "gpt-4")

template = "You are a helpful assistant that translates {input_language} to {output_language}."
human_template = "{text}"

chat_prompt = ChatPromptTemplate.from_messages([
    ("system", template),
    ("human", human_template)
])

chain = LLMChain(llm = llm, prompt = chat_prompt)
chain.run(input_language = "English", output_language = "French", text = "I love programming.")

  warn_deprecated(
  warn_deprecated(


"J'aime la programmation."

## Nueva versión de chain con LangChain Expression Language (LCEL)

In [10]:
llm = ChatOpenAI(model_name = "gpt-3.5-turbo")
chain = prompt | llm

In [11]:
chain.input_schema.schema()

{'title': 'PromptInput',
 'type': 'object',
 'properties': {'anio': {'title': 'Anio', 'type': 'string'},
  'categoria': {'title': 'Categoria', 'type': 'string'}}}

In [12]:
chain.invoke({"categoria" : "química", "anio" : "2018"})

AIMessage(content='El premio Nobel de Química en el año 2018 fue otorgado a Frances H. Arnold, George P. Smith y Sir Gregory P. Winter por sus trabajos pioneros en la evolución dirigida de enzimas y fagos utilizados para la producción de nuevos fármacos y biocombustibles.', response_metadata={'token_usage': <OpenAIObject at 0x703892344810> JSON: {
  "prompt_tokens": 25,
  "completion_tokens": 72,
  "total_tokens": 97
}, 'model_name': 'gpt-3.5-turbo', 'system_fingerprint': None, 'finish_reason': 'stop', 'logprobs': None}, id='run-9b24c1c2-76df-4a14-8360-61affc09e3d9-0')

In [13]:
from langchain.chat_models import ChatOpenAI
from langchain.prompts.chat import ChatPromptTemplate

llm = ChatOpenAI(model_name = "gpt-3.5-turbo")

prompt = ChatPromptTemplate.from_messages(
    [
        ("system","Eres un experto en mundiales de fútbol desde 1930 al 2022"),
        ("human", "{pregunta}")
    ]
)

chain = prompt | llm

In [14]:
chain.input_schema.schema()

{'title': 'PromptInput',
 'type': 'object',
 'properties': {'pregunta': {'title': 'Pregunta', 'type': 'string'}}}

In [15]:
chain.invoke({"pregunta" : "¿como se prepara un pie de limon?"})

AIMessage(content='¡Por supuesto! Aquí te dejo una receta sencilla para preparar un delicioso pie de limón:\n\nIngredientes:\n\n- 1 paquete de galletas de vainilla (200 gr)\n- 100 gr de mantequilla derretida\n- 1 lata de leche condensada (397 gr)\n- 3 limones (jugo)\n- Ralladura de 1 limón\n- 3 yemas de huevo\n- Merengue (opcional)\n\nInstrucciones:\n\n1. Precalienta el horno a 180°C (350°F).\n2. Tritura las galletas de vainilla hasta obtener migas finas. Mezcla las migas de galleta con la mantequilla derretida hasta obtener una masa homogénea.\n3. Cubre el fondo de un molde para pie con la mezcla de galleta y presiona firmemente para formar la base. Refrigera por 30 minutos.\n4. En un tazón, mezcla la leche condensada, el jugo de limón, la ralladura de limón y las yemas de huevo. Mezcla bien hasta obtener una mezcla suave y homogénea.\n5. Vierte la mezcla sobre la base de galleta en el molde.\n6. Hornea por aproximadamente 15-20 minutos o hasta que la mezcla esté firme. Deja enfriar.\

## Usando la memoria

La mayoría de las aplicaciones LLM tienen una interfaz conversacional. Un componente esencial de una conversación es poder hacer referencia a la información presentada anteriormente en la conversación.


![imagen](https://python.langchain.com/assets/images/memory_diagram-0627c68230aa438f9b5419064d63cbbc.png)

In [16]:
from langchain.memory import ConversationBufferMemory
from langchain.chains import ConversationChain

conversation = ConversationChain(
    llm = llm, 
    verbose = True, 
    memory = ConversationBufferMemory()
)

conversation.predict(input = "quién es Leonel Messi")



[1m> Entering new ConversationChain chain...[0m
Prompt after formatting:
[32;1m[1;3mThe following is a friendly conversation between a human and an AI. The AI is talkative and provides lots of specific details from its context. If the AI does not know the answer to a question, it truthfully says it does not know.

Current conversation:

Human: quién es Leonel Messi
AI:[0m

[1m> Finished chain.[0m


'Lionel Messi es un futbolista argentino considerado uno de los mejores jugadores de fútbol de todos los tiempos. Nació en Rosario, Argentina, el 24 de junio de 1987. Ha jugado la mayor parte de su carrera en el FC Barcelona, donde ha ganado numerosos títulos y premios individuales, incluyendo múltiples Balones de Oro. Messi es conocido por su habilidad excepcional con el balón, su visión de juego y su capacidad para marcar goles. En 2020, se unió al Paris Saint-Germain.'

In [17]:
conversation.predict(input = "en qué clubes y cuántos títulos ha ganado")



[1m> Entering new ConversationChain chain...[0m
Prompt after formatting:
[32;1m[1;3mThe following is a friendly conversation between a human and an AI. The AI is talkative and provides lots of specific details from its context. If the AI does not know the answer to a question, it truthfully says it does not know.

Current conversation:
Human: quién es Leonel Messi
AI: Lionel Messi es un futbolista argentino considerado uno de los mejores jugadores de fútbol de todos los tiempos. Nació en Rosario, Argentina, el 24 de junio de 1987. Ha jugado la mayor parte de su carrera en el FC Barcelona, donde ha ganado numerosos títulos y premios individuales, incluyendo múltiples Balones de Oro. Messi es conocido por su habilidad excepcional con el balón, su visión de juego y su capacidad para marcar goles. En 2020, se unió al Paris Saint-Germain.
Human: en qué clubes y cuántos títulos ha ganado
AI:[0m

[1m> Finished chain.[0m


'Lionel Messi ha jugado en dos clubes principales a lo largo de su carrera: el FC Barcelona y el Paris Saint-Germain. Con el FC Barcelona, Messi ha ganado un total de 34 títulos, incluyendo 10 La Liga, 7 Copas del Rey, 8 Supercopas de España, 4 Ligas de Campeones de la UEFA, 3 Supercopas de la UEFA y 3 Copas Mundiales de Clubes de la FIFA. Con el Paris Saint-Germain, todavía no ha ganado ningún título, ya que se unió al club en 2020.'

In [18]:
conversation.predict(input = "cuántos goles ha marcado en total y cuántos fueron en la Champions League")



[1m> Entering new ConversationChain chain...[0m
Prompt after formatting:
[32;1m[1;3mThe following is a friendly conversation between a human and an AI. The AI is talkative and provides lots of specific details from its context. If the AI does not know the answer to a question, it truthfully says it does not know.

Current conversation:
Human: quién es Leonel Messi
AI: Lionel Messi es un futbolista argentino considerado uno de los mejores jugadores de fútbol de todos los tiempos. Nació en Rosario, Argentina, el 24 de junio de 1987. Ha jugado la mayor parte de su carrera en el FC Barcelona, donde ha ganado numerosos títulos y premios individuales, incluyendo múltiples Balones de Oro. Messi es conocido por su habilidad excepcional con el balón, su visión de juego y su capacidad para marcar goles. En 2020, se unió al Paris Saint-Germain.
Human: en qué clubes y cuántos títulos ha ganado
AI: Lionel Messi ha jugado en dos clubes principales a lo largo de su carrera: el FC Barcelona y el

'Lionel Messi ha marcado un total de 690 goles en su carrera profesional. En la Liga de Campeones de la UEFA, también conocida como la Champions League, Messi ha anotado un total de 120 goles.'

In [19]:
conversation.predict(input = "quién es su esposa y cuántos hijos tiene")



[1m> Entering new ConversationChain chain...[0m
Prompt after formatting:
[32;1m[1;3mThe following is a friendly conversation between a human and an AI. The AI is talkative and provides lots of specific details from its context. If the AI does not know the answer to a question, it truthfully says it does not know.

Current conversation:
Human: quién es Leonel Messi
AI: Lionel Messi es un futbolista argentino considerado uno de los mejores jugadores de fútbol de todos los tiempos. Nació en Rosario, Argentina, el 24 de junio de 1987. Ha jugado la mayor parte de su carrera en el FC Barcelona, donde ha ganado numerosos títulos y premios individuales, incluyendo múltiples Balones de Oro. Messi es conocido por su habilidad excepcional con el balón, su visión de juego y su capacidad para marcar goles. En 2020, se unió al Paris Saint-Germain.
Human: en qué clubes y cuántos títulos ha ganado
AI: Lionel Messi ha jugado en dos clubes principales a lo largo de su carrera: el FC Barcelona y el

'La esposa de Lionel Messi se llama Antonela Roccuzzo, y tienen tres hijos juntos. Su primer hijo se llama Thiago, su segundo hijo se llama Mateo, y su tercer hijo se llama Ciro.'

In [20]:
conversation.predict(input = "y luis suarez no es su mejor amigo?")



[1m> Entering new ConversationChain chain...[0m
Prompt after formatting:
[32;1m[1;3mThe following is a friendly conversation between a human and an AI. The AI is talkative and provides lots of specific details from its context. If the AI does not know the answer to a question, it truthfully says it does not know.

Current conversation:
Human: quién es Leonel Messi
AI: Lionel Messi es un futbolista argentino considerado uno de los mejores jugadores de fútbol de todos los tiempos. Nació en Rosario, Argentina, el 24 de junio de 1987. Ha jugado la mayor parte de su carrera en el FC Barcelona, donde ha ganado numerosos títulos y premios individuales, incluyendo múltiples Balones de Oro. Messi es conocido por su habilidad excepcional con el balón, su visión de juego y su capacidad para marcar goles. En 2020, se unió al Paris Saint-Germain.
Human: en qué clubes y cuántos títulos ha ganado
AI: Lionel Messi ha jugado en dos clubes principales a lo largo de su carrera: el FC Barcelona y el

'Sí, Luis Suárez es uno de los mejores amigos de Lionel Messi. Ambos jugaron juntos en el FC Barcelona y tenían una gran conexión tanto dentro como fuera del campo. Suárez y Messi son conocidos por su amistad cercana y su apoyo mutuo.'

## Usando Document Loader

Los Document Loader proporcionan un método de ingesta para cargar datos como documentos desde una fuente que puede ser un PDF, csv, videos de youtube, archivos en S3, Slack, website, etc.

Se usan estos documentos para múltiples propósitos en los cuales destacan la carga de datos a una base de conocimiento (Base de datos vectorial).


![Imagen](https://python.langchain.com/assets/images/qa_data_load-70fac3ea6593b986613784dc056df21a.png)

## Web

In [21]:
from langchain.document_loaders import WebBaseLoader

loader = WebBaseLoader("https://www.marca.com/co/2023/10/17/652e070f22601d73648b4585.html") #WebBaseLoader(["https://url1/", "https://url2"])
dataweb = loader.load()

In [22]:
len(dataweb), dataweb

(1,
 [Document(page_content='\n\n\n\n\n\n\n\n\n\n\n\n\nTabla de posiciones Eliminatorias Mundial 2026: Clasificación y resultados de la sexta fecha en Sudamérica | Marca \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n \n\n\n\n\n\n\n\n \n\n\n\n\n\n\n\n\n \n \n\n\n\n\n  \n\n\n\n\n\n\n\n\n\n\n\n\n \n\n\n\nEs noticia: Final Champions LeagueMercado de fichajesXabi AlonsoDavidovichNueva ChampionsXaviMcGregorOconCuando juega AlcarazCuándo juega DjokovicRoland Garros hoyHorarios GP Italia MotoGPSergio Peris-MenchetaNińo BecerraCalles cortadas conciertoNuria Roca BroncanoTaylor SwiftMotoGP GP ItaliaSusanna GrisoChampions LeaguePrecio luz hoyFútbol HoyCalendario F1Roland GarrosEurocopa \n\n\n\n\n\nPortada de Marca\n\n\n\n\nEdición seleccionada\nES \n\n\nEdiciones:\n\n\n\nES (Espańa)\n\n\n\nEN (English)\n\n\n\n\nMX (México)\n\n\n\n\nUS (USA)\n\n\n\n\n\n\n\nEscoge tu edición de Marca.com favorita\n\n\n\n\nSiempre que entres en Marca.com se cargará esta edición\n\n\n\nES (Espańa)\n\n \n\n\n\nEN (English)\n\n \n\n\n

## PDF

In [24]:
from langchain.document_loaders import PyPDFLoader

loader = PyPDFLoader("pdf/StateofAI-Espanol.pdf")
datapdf = loader.load()

In [25]:
len(datapdf), datapdf

(79,
 [Document(page_content='Estado de la IA .\nAmérica Latina 2023\nReporte de investigación de ALLVP\n', metadata={'source': 'pdf/StateofAI-Espanol.pdf', 'page': 0}),
  Document(page_content='ha surgido  como  una fuerza  transformadora  a nivel mundial , con el potencial  de \nrevolucionar  industrias  y generar  impactos  tangibles en diversos  sectores . Sin embargo, América Latina \naún carece  de un recurso  integral que fomente  conversaciones  de alto nivel sobre  el estado  de la IA en la \nregión  y su potencial  de crecimiento  e innovación .\nEn respuesta  a esta brecha , ALLVP se complace  en presentar  el informe  Estado de la IA en América \nLatina. Nuestro  equipo  de investigación  encuestó  a una amplia  gama  de actores , recopiló  diligentemente  \nlas últimas  investigaciones  en el campo y llevó a cabo  conversaciones  en profundidad  con expertos . El \nresultado  es una visión  panorámica  de las tendencias  de la IA, casos  de uso y potencial  en la región .\

## S3

In [29]:
from langchain.document_loaders import S3FileLoader

loader = S3FileLoader(
    "bigdata-files-lab-2022", 
    "pdf/1000CóctelesDeTodoElMundo.pdf", 
    aws_access_key_id = "AKIAUFPPTEHTJWVEEXIS", 
    aws_secret_access_key = "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"
)

datas3 = loader.load()

In [30]:
len(datas3), datas3

(1,
 [Document(page_content='Antonio\tPrimiceri con\tla\tcolaboración\tde\tRoberto\tSavioli\n\nA\tpesar\tde\thaber\tpuesto\tel\tmáximo\tcuidado\ten\tla\tredacción\tde\testa\tobra,\tel\tautor\to\tel\teditor\tno\tpueden\ten modo\talguno\tresponsabilizarse\tpor\tlas\tinformaciones\t(fórmulas,\trecetas,\ttécnicas,\tetc.)\tvertidas\ten\tel\ttexto. Se\taconseja,\ten\tel\tcaso\tde\tproblemas\tespecíficos\t—a\tmenudo\túnicos—\tde\tcada\tlector\ten\tparticular,\tque\tse consulte\tcon\tuna\tpersona\tcualificada\tpara\tobtener\tlas\tinformaciones\tmás\tcompletas,\tmás\texactas\ty\tlo\tmás actualizadas\tposible.\tDE\tVECCHI\tEDICX\tIONES,\tS.\tA.\n\nTraducción\tde\tSònia\tRodríguez\tBernal.\tDiseño\tgráfico\tde\tla\tcubierta\tde\tDesign\t3.\tFotografías\tde\tarchivo DVE. Ilustraciones\tde\tMichela\tAmeli.\n\n©\tDe\tVecchi\tEdiciones,\tS.\tA.\t2012 Diagonal\t519-521,\t2º\t08029\tBarcelona Depósito\tLegal:\tB.\t19.420-2012 ISBN:\t978-84-315-5498-9\n\nEditorial\tDe\tVecchi,\tS.\tA.\tde\tC.\tV.\tNogal

# CSV

In [31]:
from langchain.document_loaders.csv_loader import CSVLoader

loader = CSVLoader(file_path = "minerasdelmundo.csv")
datacsv = loader.load()

In [32]:
len(datacsv), datacsv

(56,
 [Document(page_content='N: 1\nMina: Escondida\nPaís: Chile\nEmpresa: BHP\nAñoOperación: 1990\nTipoMina: Open pit\nMetal: Cobre', metadata={'source': 'minerasdelmundo.csv', 'row': 0}),
  Document(page_content='N: 2\nMina: Chuquicamata\nPaís: Chile\nEmpresa: Codelco\nAñoOperación: 1915\nTipoMina: Open pit\nMetal: Cobre', metadata={'source': 'minerasdelmundo.csv', 'row': 1}),
  Document(page_content='N: 3\nMina: Collahuasi\nPaís: Chile\nEmpresa: Anglo American\nAñoOperación: 1993\nTipoMina: Open pit\nMetal: Cobre', metadata={'source': 'minerasdelmundo.csv', 'row': 2}),
  Document(page_content='N: 4\nMina: Radom\nPaís: Polonia\nEmpresa: KGHM Polska Mied?\nAñoOperación: 1957\nTipoMina: Underground\nMetal: Cobre', metadata={'source': 'minerasdelmundo.csv', 'row': 3}),
  Document(page_content='N: 5\nMina: Cerro Verde\nPaís: Perú\nEmpresa: Freeport-McMoRan\nAñoOperación: 1992\nTipoMina: Open pit\nMetal: Cobre', metadata={'source': 'minerasdelmundo.csv', 'row': 4}),
  Document(page_conten

## Youtube

In [38]:
from langchain.document_loaders.generic import GenericLoader
from langchain.document_loaders.parsers import OpenAIWhisperParser
from langchain.document_loaders.blob_loaders.youtube_audio import YoutubeAudioLoader

url = "https://www.youtube.com/watch?v=MgWtYXcUg9Y" #5 minutos
save_dir = "docs/youtube/"
loader = GenericLoader(
    YoutubeAudioLoader([url], save_dir),
    OpenAIWhisperParser()
)
datayoutube = loader.load()

[youtube] Extracting URL: https://www.youtube.com/watch?v=MgWtYXcUg9Y
[youtube] MgWtYXcUg9Y: Downloading webpage




[youtube] MgWtYXcUg9Y: Downloading ios player API JSON




[youtube] MgWtYXcUg9Y: Downloading iframe API JS




[youtube] MgWtYXcUg9Y: Downloading web player API JSON


ERROR: [youtube] MgWtYXcUg9Y: Failed to extract any player response; please report this issue on  https://github.com/yt-dlp/yt-dlp/issues?q= , filling out the appropriate issue template. Confirm you are on the latest version using  yt-dlp -U


DownloadError: ERROR: [youtube] MgWtYXcUg9Y: Failed to extract any player response; please report this issue on  https://github.com/yt-dlp/yt-dlp/issues?q= , filling out the appropriate issue template. Confirm you are on the latest version using  yt-dlp -U

In [37]:
len(datayoutube), datayoutube

(1,
 [Document(page_content='¿Qué pasaría si la inteligencia artificial, la que está detrás de nuestro feed de redes sociales, de los pagos bancarios o de las búsquedas de Google, se detiene? ¿Qué pasa si deja de funcionar? Estamos todavía lejos de que eso pase, pero lo que sí está claro es que, antes de que la inteligencia artificial se apodere del planeta, es más fácil quedarnos sin recursos físicos para entrenar y hacer funcionar esta tecnología, que va creciendo más rápido de lo que todos esperaban. Aquí les cuento más. La computación, los cálculos computacionales de los programas de inteligencia artificial, normalmente se hacen en centros de datos. Esos son edificios que albergan miles de computadoras y servidores. Pero esta capacidad física, obvio, también puede llegar a sus límites, de seguir usando la inteligencia artificial al ritmo al que lo venimos haciendo. Esto nos deja con dos opciones, o construir más centros de datos, o hacer que la computación sea más eficiente. Y cual

## Document transformers

Una vez que haya cargado los documentos, a menudo querrá transformarlos para que se adapten mejor a su aplicación. El ejemplo más simple es que desee dividir un documento largo en partes más pequeñas que puedan entrar en la ventana de contexto de un modelo de lenguaje (GPT4, Llama 2, Mistral, Falcon, Palm 2, etc). 
(https://python.langchain.com/docs/modules/data_connection/document_transformers/)

![image](https://miro.medium.com/v2/resize:fit:828/format:webp/1*n4XS0XkKM8RsRwgJxWpNpQ.jpeg)

In [19]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 500,
    chunk_overlap  = 20
)

docs = text_splitter.split_documents(documents = datapdf)

In [20]:
len(docs), docs


(134,
 [Document(page_content='Estado de la IA .\nAmérica Latina 2023\nReporte de investigación de ALLVP', metadata={'source': 'pdf/StateofAI-Espanol.pdf', 'page': 0}),
  Document(page_content='ha surgido  como  una fuerza  transformadora  a nivel mundial , con el potencial  de \nrevolucionar  industrias  y generar  impactos  tangibles en diversos  sectores . Sin embargo, América Latina \naún carece  de un recurso  integral que fomente  conversaciones  de alto nivel sobre  el estado  de la IA en la \nregión  y su potencial  de crecimiento  e innovación .\nEn respuesta  a esta brecha , ALLVP se complace  en presentar  el informe  Estado de la IA en América', metadata={'source': 'pdf/StateofAI-Espanol.pdf', 'page': 1}),
  Document(page_content='Latina. Nuestro  equipo  de investigación  encuestó  a una amplia  gama  de actores , recopiló  diligentemente  \nlas últimas  investigaciones  en el campo y llevó a cabo  conversaciones  en profundidad  con expertos . El \nresultado  es una visió

In [21]:
from langchain.text_splitter import CharacterTextSplitter

text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
    chunk_size = 400, 
    chunk_overlap = 20
)

docs = text_splitter.split_documents(documents = datapdf)

In [23]:
len(docs), docs

(78,
 [Document(page_content='Estado de la IA .\nAmérica Latina 2023\nReporte de investigación de ALLVP', metadata={'source': 'pdf/StateofAI-Espanol.pdf', 'page': 0}),
  Document(page_content='ha surgido  como  una fuerza  transformadora  a nivel mundial , con el potencial  de \nrevolucionar  industrias  y generar  impactos  tangibles en diversos  sectores . Sin embargo, América Latina \naún carece  de un recurso  integral que fomente  conversaciones  de alto nivel sobre  el estado  de la IA en la \nregión  y su potencial  de crecimiento  e innovación .\nEn respuesta  a esta brecha , ALLVP se complace  en presentar  el informe  Estado de la IA en América \nLatina. Nuestro  equipo  de investigación  encuestó  a una amplia  gama  de actores , recopiló  diligentemente  \nlas últimas  investigaciones  en el campo y llevó a cabo  conversaciones  en profundidad  con expertos . El \nresultado  es una visión  panorámica  de las tendencias  de la IA, casos  de uso y potencial  en la región .\nA

In [24]:
from langchain.text_splitter import RecursiveCharacterTextSplitter, Language

PYTHON_CODE = """
def hello_world():
    print("Hello, World!")

def suma(num1, num2):
    return num1 + num2

# Call the function
hello_world()
"""
python_splitter = RecursiveCharacterTextSplitter.from_language(
    language = Language.PYTHON, 
    chunk_size = 50, 
    chunk_overlap = 0
)

python_docs = python_splitter.create_documents([PYTHON_CODE])
python_docs

[Document(page_content='def hello_world():\n    print("Hello, World!")'),
 Document(page_content='def suma(num1, num2):\n    return num1 + num2'),
 Document(page_content='# Call the function\nhello_world()')]

In [25]:
JS_CODE = """
function helloWorld() {
  console.log("Hello, World!");
}

// Call the function
helloWorld();
"""

js_splitter = RecursiveCharacterTextSplitter.from_language(
    language = Language.JS, 
    chunk_size = 60, 
    chunk_overlap = 0
)
js_docs = js_splitter.create_documents([JS_CODE])
js_docs

[Document(page_content='function helloWorld() {\n  console.log("Hello, World!");\n}'),
 Document(page_content='// Call the function\nhelloWorld();')]